• Nem Talált Eredményt

Többváltozós lineáris modell

3.2 A kétváltozós modell kiterjesztése

3.2.1 Többváltozós lineáris modell

A többváltozós lineáris regressziófüggvény kétséget kizáróan az ökonometria alapvető modellje. Bővítsük a (3.1) modellt további magyarázó változókkal:

0 1 1 2 2

i i i k ki i

y  b b xb x  b xe (3.17)

Ebben a klasszikus lineáris modellben k darab magyarázóváltozó, valamint ezekhez tartozóan k regressziós együttható található. (Ne feledkezzünk meg arról, hogy mivel ezeken felül a tengelymet-szetet, illetve a reziduális szórást is becsülnünk kell, ezért mindösszesen a becsült paraméterek száma k2 lesz!)

Képezzünk a megfigyelt, illetve becsülendő változókból és paraméterekből mátrixokat, illetve vek-torokat! Legyen

1 2

n

y y y

  

 

  

  y

az eredményváltozó megfigyelt értékeinek n1 dimenziójú oszlopvektora. Minimális kiegészítés-sel felírhatjuk27 a magyarázó változók empirikus értékeiből álló alkalmas mátrixot is

27 Ügyeljünk arra, hogy a mátrixban a matematikában megszokotthoz képest felcseréltük az indexeket, vagyis az első index a változóra (oszlopra), a második a megfigyelésre (sorra) utal!

57

Látható, hogy a mátrix a magyarázó változók megfigyelt értékein túl egy egységvektort is tartalmaz, így dimenziószáma n 

k 1

. A megfigyelt adatokon túl felírhatjuk a modellbecslés során „elő-álló” értékekre, vagyis a reziduális változóra, illetve a paraméterekre vonatkozó vektorokat is (az előbbin1, az utóbbi

k 1 1

dimenziójú):

Ezek után a (3.17) modell felírható az összes megfigyelést tartalmazó módon mátrix alakban is:

 

y Xb e (3.18)

melyről elmondható, hogy az ökonometriai modellezés legalapvetőbb összefüggése.

A többváltozós lineáris modell paraméterbecslése során ismét alkalmazhatjuk a legkisebb négyzetek módszerét, vagyis keressük a 2

1 n

i i

e

kifejezés minimumát. A mátrix alakú összefüggést felhasználva a minimalizálandó kifejezés

formában is felírható. Bebizonyítható28, hogy a minimum-feladat megoldása a paraméterekre a kö-vetkező becslőfüggvényt szolgáltatja:

T

1 T

b = X X X y (3.19)

Végül meg kell határoznunk egy becslőfüggvényt a reziduális szórás értékére is, ami – a szükséges korrekciókat figyelembe véve – az alábbi formát ölti

28 Lásd pl. Mundruczó (1981).

58

ahol a reziduális változó empirikus értékeit a becsült paraméterek modellbe helyettesítésével kapjuk.

Viszonylag kényelmes formát ölt a paraméterek standard hibájának kiszámításához szükséges ösz-szefüggés is:

 

1

s diage

  T 

sb X X (3.21)

Az ökonometriai modellek illeszkedésvizsgálatának alapgondolata, hogy amennyiben nem próbál-koznánk regressziószámítással, vagyis az eredményváltozó várható értékének becslését magyarázó változók nélkül kísérelnénk meg, akkor – közismert módon – a legjobb becslésünk az eredmény-változó megfigyelt értékeinek átlaga lenne. Akkor érdemes a regressziószámítást választani, ha mo-dellbecslés után a függő változó egyes értékeire vonatkozó átlagos (négyzetes) hiba lényegesen ki-sebb lesz, mintha egyszerűen átlagbecslést hajtottunk volna végre.

A (3.20) képlettel felírható reziduális szórás mellett fontos illeszkedésvizsgálati mutató a determinációs együttható is, melynek számítási elve semmiben sem különbözik a kétváltozós modellnél bemutatot-tól. Így a modell magyarázó erejét továbbra is az eredményváltozó eltérés-négyzetösszegének de-kompozícióját felhasználva számítjuk:

Több magyarázó változót tartalmazó modellben némiképpen módosul a globális F-próba hipotézis-rendszere:

Nullhipotézisünk szerint a modell valamennyi regressziós együtthatója 0, így a magyarázó vál-tozó(k) használatával nem jutunk jobb becsléshez, mint nélkülük (azaz az egyszerű átlagbecsléssel).

Az alternatív hipotézis ezzel szemben azt állítja, hogy létezik – legalább egy – olyan magyarázó változó, melynek változása szignifikánsan befolyásolja az eredményváltozó alakulását.

A nullhipotézis a

próbafüggvénnyel tesztelhető, ahol az empirikus tesztstatisztika a nullhipotézis alatt k n k,  1F elosz-lást követ. Érdemes felfigyelni arra, hogy a nullhipotézis elvetése – ami a modell létezését jelenti – magas empirikus F-értékét kíván, ami vagy magas determinációs együtthatóval (jó illeszkedéssel),

59 vagy – esetleg alacsonyabb R2 esetén – sok megfigyelés (gyakran validált összefüggés) esetén ke-letkezhet.

Többváltozós modellek alkalmazása esetén felmerülhet az a kérdés is, vajon szükség van-e valam-ennyi, a modellbe épített magyarázó változóra. Ennek a kérdésnek a tesztelése esetén releváns a parciális t-próba, amely szeparáltan teszteli a regressziós együtthatókat, vagyis változónként képes állást foglalni a magyarázó változó szükségességéről. A próba során a

0

hipotézisrendszert teszteljük. A nullhipotézis értelmében a j-edik tényezőváltozóhoz tartozó reg-ressziós együttható 0, így a magyarázó változó értékének elmozdulása nem fejt ki semmilyen hatást az eredményváltozóra, vagyis erre a tényezőváltozóra nincs szükség a modellben. A döntés meg-hozatalához használandó próbafüggvény a már ismert

j j b

t b

s (3.24)

azaz a becsült paraméter és standard hibájának hányadosa.29 A nullhipotézis teljesülése esetén a próbafüggvény n k 1 szabadságfokú t-eloszlást követ, így alkalmas a döntés meghozatalára.

Folytatva már megkezdett példánkat, tételezzük fel, hogy a sportszergyártó cégek árbevételét a K+F ráfordítások mellett még olyan tényezők is befolyásolják, mint a dolgozók létszáma (fő) és bérköltsége (ezer €). A négyváltozós lineáris regressziós modell paraméterbecslésének ered-ménye az alábbi:

Láthatjuk, hogy a globális F-próba alapján kijelenthető, a modell létezik, magyarázó ereje meg-haladja a 99%-ot, vagyis nagyon magas. A magyarázó változók közül a létszámra nincs szükség a regresszióban (vélelmezhetjük, hogy a bérköltség elég információt szolgáltat a humán erő-forrás ráfordításról).

29 A teszt – elvben – lehetőséget ad a paraméter és egy feltételezett (0-tól különböző) érték összevetésére is, ezzel az egyébként triviálisan végrehajtható esettel külön nem foglalkozunk.

Dependent variable: ARBEVETEL

Coefficient Std. Error t-ratio p-value

const −10,6861 46,2850 −0,2309 0,8177

LETSZ 0,00544919 0,0221638 0,2459 0,8061

BERKTG 0,504179 0,0137714 36,61 <0,0001 ***

60 A többváltozós lineáris regresszió esetén gyakran merül fel a kérdés, hogy mikor tekinthető egy modell optimálisnak. A modellezésben gyakran alkalmazott parszimónia (takarékosság) elv alapján op-timálisnak tekintünk egy regressziós modellt, ha már megfelelően valósághű, ugyanakkor még elég egyszerű. A valósághűséget a determinációs együtthatóval, az egyszerűséget a modellben található magyarázó változók számával mérhetjük. Az optimális modell megtalálására több eljárás is kínál-kozik, így használhatjuk

 a regressziófüggvények teljes halmaza módszerét,

a stepwise algoritmust, illetve

 az ún. információs kritériumokat.

Az első két módszert kimerítően tárgyalja Mundruczó (1981), az információs kritériumokról az idősorok modellezése során bővebben lesz szó.