• Nem Talált Eredményt

Paraméterbecslés a kétváltozós modellben

3.1 Kétváltozós lineáris regressziós modell

3.1.1 Paraméterbecslés a kétváltozós modellben

Korábbi tanulmányainkból ismeretes, hogy az egyenes általános alakja y a bx  . Ezt felhasználva tehát keressük azt a

b b0, 1

paramétervektort, amely mellett az alábbi

49

0 1

ˆyi  b b xi (3.1)

egyenes esetén az egyes megfigyelésekhez tartozó tényleges y és becsült ˆi y eredményváltozó-i értékek közötti eltérés a legkisebb.

A legkisebb eltérés nyilvánvalóan sokféleképpen definiálható lenne, a regressziószámításban leg-gyakrabban a 2.5.1 alpontban már bemutatott klasszikus, vagy közönséges legkisebb négyzetek módszerét alkalmazzák. A megoldandó szélsőérték-feladat az alábbi:

 

2

 

2

Az eltérés-négyzetösszeg minimalizálása a trendszámításnál már megismert módon történik, né-hány – értelemszerű – módosítással. Tekintsük21 a (3.2) kifejezés parciális deriváltjait:

 

A parciális deriváltakat átrendezve kapjuk az ún. normálegyenleteket:

0 1

Megoldva a két ismeretlenes, kétegyenletes egyenletrendszert, az alábbi becslőfüggvényekkel hatá-rozhatjuk meg a regressziós paramétereket:

0 1

A fenti becslőfüggvényekkel nyert paramétereket közül b -t tengelymetszetnek, vagy konstansnak ne-0 vezzük és értéke megmutatja, hogy milyen eredményváltozó értéket becsül a modell abban az eset-ben, ha a magyarázó változó értéke 0. (A gazdasági-társadalmi elemzésekeset-ben, így a sportgazdaság-ban is gyakran előfordul, hogy a magyarázó változó értelmezési tartománya nem tartalmazza a 0-t, ilyenkor b paramétert nem értelmezzük.) A 0 b becsült paraméter elnevezése regressziós együttható, 1 amely megmutatja, hogy a magyarázó változó egységnyi növekedése a modell szerint milyen mér-tékű és irányú változást okoz az eredményváltozóban.

A (3.3) összefüggésből a kétváltozós lineáris regresszió néhány lényeges megfontolása is kitűnik:

21 A következő néhány képletben a szummációs határok értelemszerűen i1,...,n értéket vesznek fel.

50

b becslőfüggvényét alaposabban megszemlélve láthatjuk, hogy a kétváltozós lineáris reg-0 ressziófüggvény azzal a feltételezéssel él, hogy a magyarázó változó átlagos értékénél az eredményváltozó becsült értéke megegyezik az eredményváltozó mintabeli átlagával,

 vegyük észre, hogy a regressziós együttható előjele – kiindulva abból, hogy a szórás mindig pozitív – megegyezik a kétváltozós lineáris korrelációs együttható előjelével, ami teljesen logikus, hiszen pozitív kapcsolat esetén a magyarázó változó növekedése növeli az ered-ményváltozó értékét, negatív kapcsolat esetén pedig csökkenti.

A kétváltozós lineáris regresszió szemléltetésére tekintsük az alábbi egyszerű (fiktív adatokat tartal-mazó) példát!

Egy Európai Uniós felmérésben – melyben a legnagyobb sportszergyártók innovativitását kí-vánták megvizsgálni – összegyűjtötték 180 vállalkozás adatait. A kiválasztott cégek éves K+F kiadásait (ezer €) és árbevételét (ezer €) az alábbi ábra szemlélteti:

Illesszünk kétváltozós lineáris regressziót a fenti összefüggésre! Értelemszerűen az árbevétel alakulását kívánjuk modellezni a K+F függvényében, így előbbit eredmény (függő-) változó-ként, míg utóbbit magyarázó (független-) változóként szerepeltetjük. A kapott regressziós egye-nes

ˆyi 1343,87 3, 23 xi

A paramétereket értelmezve kijelenthetjük, hogy modellünk szerint azokban a sportszergyártó cégekben, ahol nincs innováció, vagyis 0 € a K+F kiadás, mintegy 1,3 millió € az árbevétel, ugyanakkor a K+F kiadások 1 €-nyi növekedése várhatóan 3230 €-val növelik az árbevételt.

Tehát a kutatás-fejlesztésre fordított kiadások jól hasznosulnak.

Láthattuk, hogy a regressziós együttható természetes mértékegységben (az előző példában €-ban) jellemzi a két változó kapcsolatát. Gyakran előfordul, hogy szerencsésebbnek éreznénk, ha a relatív

1400 1600 1800 2000 2200 2400 2600 2800

50 100 150 200 250 300 350 400

Árbevétel (ezer €)

K+F (ezer €)

51 változások összefüggését tudnánk feltérképezni, vagyis egy olyan mutatót keresünk, amely azt mu-tatja meg, hogy a magyarázó változó 1 %-os növekedése milyen mértékű és irányú relatív változást okoz az eredményváltozóban. Erre a célra használjuk a mikroökonómiából ismert rugalmasság, vagy ismert idegen kifejezéssel elaszticitás mutatóját.

A rugalmasságot22 a két változóban bekövetkezett relatív változások egymáshoz viszonyításával számíthatjuk, vagyis:

Noha a rugalmasság definíciója nem igényli a regressziószámítást, a gyakorlatban szinte kizárólag regressziós modellekből számítjuk ki az elaszticitási együtthatót. Kihasználva, hogy b regressziós 1 együtthatót pontosan az egységnyi magyarázó változó változásra jutó eredményváltozó elmozdu-lásként értelmeztük, a (3.4) összefüggés felírható a regressziószámítás szimbólumaival is:

0

1 1 0 értékétől függ, ami roppant logikus, hiszen nem mindegy, hogy 100 egységnyi értéknél következik be 1%-nyi változás, vagy 1000 egységnél! Mindez annyit jelent, hogy a relatív változás mértéke nem csak attól függ, hogy mekkora az eredményváltozóban bekövetkezett változás, hanem attól is, hogy milyen szintről indult az elmozdulás. Abban az esetben, ha általánosan értelmezhető elaszticitási mutatót szeretnénk definiálni, célszerű az átlagos környezetre vonatkozó rugalmassági együtthatót meghatározni, vagyis

,

1x El y x b

y (3.6)

hiszen tudjuk, hogy amennyiben a magyarázó változó az átlagos értékét veszi fel, akkor az ered-ményváltozó becsült értéke – a legkisebb négyzetek logikájából adódóan – szintén az átlagos érték-kel azonos.

Folytatva az előző példát: a vizsgált sportszergyártók átlagos K+F kiadásai 237,82 ezer €-ra rúgtak, miközben a cégek átlagos árbevétele 2 112,7 ezer € volt. Mindezt felhasználva az elasz-ticitás az átlagos környezetben

,1 3, 23 237,82 0, 36 2112,7 El y x b x

y

22 A szakirodalom megkülönbözteti a véges nagyságú elmozdulások esetén értelmezett ívrugalmasságot és a végtelen kis elmozdulás esetén számított differenciálhányadost, vagyis a pontrugalmasságot, de könyvünkben ezt a megkülön-böztetést nem alkalmazzuk.

52 vagyis átlagos kutatás-fejlesztési ráfordítás esetén ennek 1%-os növelése az árbevételben 0,36%-os növekedést eredményez, a modell szerint. (Ügyeljünk arra, hogy a rugalmassági együttható becsült értéke százalékpontban mért szám!)

A kétváltozós lineáris regressziófüggvény bevezetése során már szóba került, hogy a regressziós modellt – a függvény paraméterei mellett – a véletlen változó szórása is jellemzi. A hibatényező szórását a reziduális változó empirikus értékeinek (maradéktag) ismeretében becsüljük. Ez a szórás megmutatja, hogy a tényleges és a becsült eredményváltozó értékek milyen mértékben térnek el egymástól. A véletlen változó szórásának becslése23 a rezidumok alapján, az alábbi módon végez-hető el:

Az s , azaz a reziduális szórás, vagy másnéven a regresszió standard hibája jelzi az illeszkedés „jóságát”. e A modell annál pontosabban illeszkedik, minél kisebb s értéke. e

Abban az esetben, ha több regressziós modell illeszkedésének összehasonlítását akarjuk elvégezni, a reziduális szórás nem feltétlenül jó mérőszám, hiszen az esetleges eltérő mértékegységek lehetet-lenné teszik az összemérést. (Ugyanezzel a problémával találkoztunk már korábban a szóródási mérőszámok taglalása során, akkor jó megoldás volt a relatív szórás mutatójának alkalmazása.) A reziduális változó esetén nem alkalmazhatjuk a megszokott relatív szórás mutatót, hiszen a rezidu-ális változó átlaga – definíció szerint – 0, így az eredményváltozó átlagával kell normálnunk. Az általánosan használatos relatív reziduális szórás

e e

V s

y (3.8)

módon számítható.

A becslés standard hibája (korrigált reziduális szórás) lehetővé teszi a regressziós modellel végzett további számítások elvégzését, a különböző becslések kiegészítését. A regressziós modell előállítása során a regressziós paraméterekre pontbecsléseket adunk. Hasonló pontbecslést készíthetünk az eredményváltozó értékére, ha a magyarázó változó aktuális (vagy feltételezett) értékét behelyette-sítjük a regressziófüggvénybe:

0 0 1 0

ˆy  b b x (3.9)

ahol x a magyarázó változó aktuális értéke, 0 ˆy az eredményváltozóra vonatkozó pontbecslés. Az 0 ehhez rendelhető konfidencia intervallum meghatározásához tekintsük először a becslés standard hibáját!24

23 A nevezőben a n csökkentett értéke hivatott biztosítani a becslés torzítatlanságát.

24 A standard hiba részletes levezetését lásd Mundruczó (1981).

53

A standard hiba képlete alapján megállapíthatjuk, hogy az a legkisebb értéket akkor veszi fel, ha x0x , vagyis a legpontosabb becslést a magyarázó változó átlagának környezetében kapjuk.

A standard hiba ismeretében az általános gyakorlat szerint a t-eloszlás segítségével definiáljuk a becslés konfidencia intervallumát, vagyis

ˆ

0 2

ˆyn t sy (3.11)

Láthatjuk, hogy – kétváltozós esetben – a felhasznált t-eloszlás szabadságfoka n2.

A kétváltozós lineáris modell legkisebb négyzetek módszere segítségével közelített paraméterei szintén pontbecslés eredményei, ezért kézenfekvő, ha ezekre is elvégezzük az intervallumbecslést.

Az értelmezhetőség szempontjából természetesen leginkább a regressziós együttható (b ) köré 1 szerkesztett intervallumbecslés lehet fontos, hiszen alapvető közgazdasági mondanivalóval ez a pa-raméter bír. Az elméleti papa-raméterre vonatkozó becslésünk standard hibája az alábbi módon hatá-rozható25 meg:

Innen az intervallumbecslés már a szokásos módon, szintén n2 szabadságfokú t-eloszlás fel-használásával elvégezhető.