3.2 A kétváltozós modell kiterjesztése
3.2.1 Többváltozós lineáris modell
A többváltozós lineáris regressziófüggvény kétséget kizáróan az ökonometria alapvető modellje. Bővítsük a (3.1) modellt további magyarázó változókkal:
0 1 1 2 2
i i i k ki i
y b b x b x b x e (3.17)
Ebben a klasszikus lineáris modellben k darab magyarázóváltozó, valamint ezekhez tartozóan k regressziós együttható található. (Ne feledkezzünk meg arról, hogy mivel ezeken felül a tengelymet-szetet, illetve a reziduális szórást is becsülnünk kell, ezért mindösszesen a becsült paraméterek száma k2 lesz!)
Képezzünk a megfigyelt, illetve becsülendő változókból és paraméterekből mátrixokat, illetve vek-torokat! Legyen
1 2
n
y y y
y
az eredményváltozó megfigyelt értékeinek n1 dimenziójú oszlopvektora. Minimális kiegészítés-sel felírhatjuk27 a magyarázó változók empirikus értékeiből álló alkalmas mátrixot is
27 Ügyeljünk arra, hogy a mátrixban a matematikában megszokotthoz képest felcseréltük az indexeket, vagyis az első index a változóra (oszlopra), a második a megfigyelésre (sorra) utal!
57
Látható, hogy a mátrix a magyarázó változók megfigyelt értékein túl egy egységvektort is tartalmaz, így dimenziószáma n
k 1
. A megfigyelt adatokon túl felírhatjuk a modellbecslés során „elő-álló” értékekre, vagyis a reziduális változóra, illetve a paraméterekre vonatkozó vektorokat is (az előbbin1, az utóbbi
k 1 1
dimenziójú):Ezek után a (3.17) modell felírható az összes megfigyelést tartalmazó módon mátrix alakban is:
y Xb e (3.18)
melyről elmondható, hogy az ökonometriai modellezés legalapvetőbb összefüggése.
A többváltozós lineáris modell paraméterbecslése során ismét alkalmazhatjuk a legkisebb négyzetek módszerét, vagyis keressük a 2
1 n
i i
e
kifejezés minimumát. A mátrix alakú összefüggést felhasználva a minimalizálandó kifejezésformában is felírható. Bebizonyítható28, hogy a minimum-feladat megoldása a paraméterekre a kö-vetkező becslőfüggvényt szolgáltatja:
T
1 Tb = X X X y (3.19)
Végül meg kell határoznunk egy becslőfüggvényt a reziduális szórás értékére is, ami – a szükséges korrekciókat figyelembe véve – az alábbi formát ölti
28 Lásd pl. Mundruczó (1981).
58
ahol a reziduális változó empirikus értékeit a becsült paraméterek modellbe helyettesítésével kapjuk.
Viszonylag kényelmes formát ölt a paraméterek standard hibájának kiszámításához szükséges ösz-szefüggés is:
1s diage
T
sb X X (3.21)
Az ökonometriai modellek illeszkedésvizsgálatának alapgondolata, hogy amennyiben nem próbál-koznánk regressziószámítással, vagyis az eredményváltozó várható értékének becslését magyarázó változók nélkül kísérelnénk meg, akkor – közismert módon – a legjobb becslésünk az eredmény-változó megfigyelt értékeinek átlaga lenne. Akkor érdemes a regressziószámítást választani, ha mo-dellbecslés után a függő változó egyes értékeire vonatkozó átlagos (négyzetes) hiba lényegesen ki-sebb lesz, mintha egyszerűen átlagbecslést hajtottunk volna végre.
A (3.20) képlettel felírható reziduális szórás mellett fontos illeszkedésvizsgálati mutató a determinációs együttható is, melynek számítási elve semmiben sem különbözik a kétváltozós modellnél bemutatot-tól. Így a modell magyarázó erejét továbbra is az eredményváltozó eltérés-négyzetösszegének de-kompozícióját felhasználva számítjuk:
Több magyarázó változót tartalmazó modellben némiképpen módosul a globális F-próba hipotézis-rendszere:
Nullhipotézisünk szerint a modell valamennyi regressziós együtthatója 0, így a magyarázó vál-tozó(k) használatával nem jutunk jobb becsléshez, mint nélkülük (azaz az egyszerű átlagbecsléssel).
Az alternatív hipotézis ezzel szemben azt állítja, hogy létezik – legalább egy – olyan magyarázó változó, melynek változása szignifikánsan befolyásolja az eredményváltozó alakulását.
A nullhipotézis a
próbafüggvénnyel tesztelhető, ahol az empirikus tesztstatisztika a nullhipotézis alatt k n k, 1F elosz-lást követ. Érdemes felfigyelni arra, hogy a nullhipotézis elvetése – ami a modell létezését jelenti – magas empirikus F-értékét kíván, ami vagy magas determinációs együtthatóval (jó illeszkedéssel),
59 vagy – esetleg alacsonyabb R2 esetén – sok megfigyelés (gyakran validált összefüggés) esetén ke-letkezhet.
Többváltozós modellek alkalmazása esetén felmerülhet az a kérdés is, vajon szükség van-e valam-ennyi, a modellbe épített magyarázó változóra. Ennek a kérdésnek a tesztelése esetén releváns a parciális t-próba, amely szeparáltan teszteli a regressziós együtthatókat, vagyis változónként képes állást foglalni a magyarázó változó szükségességéről. A próba során a
0
hipotézisrendszert teszteljük. A nullhipotézis értelmében a j-edik tényezőváltozóhoz tartozó reg-ressziós együttható 0, így a magyarázó változó értékének elmozdulása nem fejt ki semmilyen hatást az eredményváltozóra, vagyis erre a tényezőváltozóra nincs szükség a modellben. A döntés meg-hozatalához használandó próbafüggvény a már ismert
j j b
t b
s (3.24)
azaz a becsült paraméter és standard hibájának hányadosa.29 A nullhipotézis teljesülése esetén a próbafüggvény n k 1 szabadságfokú t-eloszlást követ, így alkalmas a döntés meghozatalára.
Folytatva már megkezdett példánkat, tételezzük fel, hogy a sportszergyártó cégek árbevételét a K+F ráfordítások mellett még olyan tényezők is befolyásolják, mint a dolgozók létszáma (fő) és bérköltsége (ezer €). A négyváltozós lineáris regressziós modell paraméterbecslésének ered-ménye az alábbi:
Láthatjuk, hogy a globális F-próba alapján kijelenthető, a modell létezik, magyarázó ereje meg-haladja a 99%-ot, vagyis nagyon magas. A magyarázó változók közül a létszámra nincs szükség a regresszióban (vélelmezhetjük, hogy a bérköltség elég információt szolgáltat a humán erő-forrás ráfordításról).
29 A teszt – elvben – lehetőséget ad a paraméter és egy feltételezett (0-tól különböző) érték összevetésére is, ezzel az egyébként triviálisan végrehajtható esettel külön nem foglalkozunk.
Dependent variable: ARBEVETEL
Coefficient Std. Error t-ratio p-value
const −10,6861 46,2850 −0,2309 0,8177
LETSZ 0,00544919 0,0221638 0,2459 0,8061
BERKTG 0,504179 0,0137714 36,61 <0,0001 ***
60 A többváltozós lineáris regresszió esetén gyakran merül fel a kérdés, hogy mikor tekinthető egy modell optimálisnak. A modellezésben gyakran alkalmazott parszimónia (takarékosság) elv alapján op-timálisnak tekintünk egy regressziós modellt, ha már megfelelően valósághű, ugyanakkor még elég egyszerű. A valósághűséget a determinációs együtthatóval, az egyszerűséget a modellben található magyarázó változók számával mérhetjük. Az optimális modell megtalálására több eljárás is kínál-kozik, így használhatjuk
a regressziófüggvények teljes halmaza módszerét,
a stepwise algoritmust, illetve
az ún. információs kritériumokat.
Az első két módszert kimerítően tárgyalja Mundruczó (1981), az információs kritériumokról az idősorok modellezése során bővebben lesz szó.