3.2 A kétváltozós modell kiterjesztése
3.2.3 Dummy változók a regressziós modellben
A kétváltozós regressziós modelleket kizárólag a korrelációs kapcsolatok mélyebb elemzési eszkö-zeként definiáltuk. Könnyen belátható ugyanakkor, hogy sok esetben kvalitatív (minőségi) válto-zókra is szükség lehet a társadalmi-gazdasági jelenségek modellezése során. A minőségi ismérveket ugyan numerikus értékekkel kódoljuk, ám a modellezés során nem feledkezhetünk meg arról, hogy
67 ezekkel a kategória-értékekkel nem számolhatunk, ugyanis ezek csak az ismérvváltozatok megkü-lönböztetésére szolgálnak. (Még akkor is így kell kezelni a kategorizált változókat, ha értékeik ordi-nális (rang) skálán értelmezettek, mint pl. az iskolai érdemjegyek, vagy a Likert-skálán mért attitűd-válaszok!) Az előbbieket szem előtt tartva a kategóriás adatok megjelenhetnek a modellben, mint magyarázó változók: ezeket a modelleket dummy változós regressziónak nevezzük. Azonban elő-fordul, hogy az eredményváltozó helyén áll a minőségi ismérv: ilyenkor speciális formájú, ún. lo-gisztikus regressziós modellekről beszélünk. Könyvünkben mindkét esetre látunk példát.
A minőségi ismérvek általában valamilyen speciális hatás elkülönítésére alkalmasak egy adott reg-ressziós modellben. Kimeneteleik számát tekintve lehetnek
bináris, azaz két kimenetelű (pl. egy olimpia lehet téli, vagy nyári), illetve
multinomiális, vagyis kettőnél több kimenetelű (pl. sportágak).
Korábban már többször szót ejtettünk a kvalitatív változók egyik leggyakrabban alkalmazott fajtá-járól, a bináris, vagy dummy változóról, amely mindössze két értéket vehet fel: az 1 érték valamilyen tulajdonság meglétét; a 0 érték a tulajdonság hiányát jelöli.
Elsőként írjunk fel egy olyan roppant egyszerű regressziós modellt, ahol csak egy kétkimenetelű kvalitatív változó (D) hat az eredményváltozóra. Az ilyen, csak dummy magyarázó változót tartal-mazó modellt varianciaanalízis modellnek is szokták nevezni.32 A regresszió az alábbi formájú:
0 1
ˆyi a a Di (3.29)
Mivel a dummy változó két kimenetellel rendelkezik, ezért a (3.29) regresszió paraméterei könnyen értelmezhetők. Az eredményváltozó becsült értéke
a , ha 0 Di 0, és
a0 a1, ha Di 1.
Látható tehát, hogy az a1 regressziós együttható önmagában az adott tulajdonsággal rendelkező, illetve nem rendelkező egyedek eredményváltozó értékének különbségét becsüli.
Bővítsük ki a (3.29) modellünket egy tényezőváltozóval:
0 1 1
ˆyi a a D b xi i (3.30)
Könnyű belátni, hogy ebben az esetben egy becsléssel tulajdonképpen két regressziós egyenest be-csülünk. Amennyiben a mennyiségi ismérvek ( y és x) között linearitást tételezünk fel, két egy-mással párhuzamos, tengelymetszeteikben különböző regressziófüggvényt kapunk. Ezzel a tengely-metszetben eltérő regressziós modellt állítjuk elő.
32 A modell – szemléletében – megegyezik a 2. fejezetben bemutatott varianciaanalízis modellel. A későbbi logikus jelölések érdekében alkalmazzuk most a regresszió paramétereire az a a szimbólumokat. 0, 1
68 A dummy változót is tartalmazó két mennyiségi ismérv lineáris kapcsolatát elemző regressziós mo-dell legáltalánosabb formája a (3.31) függvénnyel írható fel:
0 1 1 2
ˆyi a a D b xi i b D xi i (3.31) A modell lehetővé teszi, hogy a két csoportban ne csak a tengelymetszet, hanem a regressziófügg-vény meredeksége is különbözzön, hiszen (3.31) tulajdonképpen két kétváltozós lineáris regressziót tartalmaz:
ˆyi a0 b x1 i, ha Di 0, és
ˆyi
a0a1
b1b x2
i, ha Di 1.Az előzőek szemléltetésére nézzünk egy egyszerű példát!
Az előbbi példában említett 500 főre kiterjedő felmérésben megkérdezték a válaszadóktól azt is, hogy mekkora az éves jövedelmük (€) és ennek függvényében is ábrázolták a fogyasztók éves sportcélú kiadását (€).
Az ábrát vizsgálva azonnal szembeötlik, hogy nem egy, hanem két regressziós egyenes rajzo-lódik ki. Elvégeztük tehát a becslést, ahol a mennyiségi ismérvek mellett a válaszadó nemére vonatkozó kategóriás változót (0, ha a válaszadó férfi; 1, ha nő) is a modellbe illesztettük.
Eredményeink:
0 100 200 300 400 500 600 700 800 900 1000
0 5000 10000 15000 20000 25000
Kiadás (€)
Jövedelem (€)
69 Korábbi jelöléseinkkel a modell tehát felírható
ˆyi 133,4 154,5 Di 0,04xi 0,00D xi i
A modell létezik, magyarázó ereje 86,8%. Leolvasható, hogy a modell szerint a férfiak mintegy 155 €-val többet költenek havonta sportra, mint a nők. Emellett mindkét nemre vonatkozik, hogy amennyiben az éves jövedelem 1000 euróval növekszik, a sportfogyasztási kiadások átla-gosan 40 €-val nőnek. (Abból, hogy a DxJOV magyarázó változóhoz – vagyis a dummy és a mennyiségi ismérv szorzatához – tartozó regressziós együttható értéke a parciális t-próba alap-ján nem különbözik szignifikánsan 0-tól, következtethetünk arra, hogy a jövedelem és a kiadá-sok összefüggése tekintetében nincs különbség a nemek között!)
Az előbbiekben vázolt modellezési elvek érvényesek akkor is, ha a minőségi változók (kettőnél) több lehetséges értékét kívánjuk figyelembe venni, vagyis multinomiálisak. Ebben az esetben azon-ban a modellt nem egy, hanem a minőségi ismérv változatainál eggyel kevesebb dummy változóval kell felírni. Így például, ha a minőségi ismérvünk kimeneteleinek száma három (pl. egy sportese-ményt közvetíthet a tv élőben, felvételről, vagy egyáltalán nem), akkor elég két fiktív változót defi-niálni:
D1i 1, ha az első változat jellemezi a megfigyelést (a közvetítés élő), és D1i 0 minden más esetben, hasonlóan
D2i 1, ha a második változat jellemezi a megfigyelést (a közvetítés felvételről történik), és D2i 0 minden más esetben.
Könnyen átlátható, hogy a harmadik kimenetelt (esetünkben a közvetítés hiányát) az mutatja, ha mindkét dummy változó 0 értéket vesz fel.
A fiktív változókkal történő kódolás sok esetben megkönnyíti a modellezésünket, ám ismét hang-súlyozzuk, hogy ügyeljünk a dummy változók számára, ugyanis a feleslegesen alkalmazott változók jelentős módszertani problémákat okozhatnak.
Dependent variable: KIADAS
Coefficient Std. Error t-ratio p-value
const 133,388 5,88843 22,65 <0,0001 ***
NEM −154,468 7,92645 −19,49 <0,0001 ***
JOV 0,0396424 0,00108294 36,61 <0,0001 ***
DxJOV 3,06307e-05 3,01789e-05 1,015 0,3106
Mean dependent var 324,0140 S.D. dependent var 219,4464 Sum squared resid 3178097 S.E. of regression 80,04657 R-squared 0,867746 Adjusted R-squared 0,866946
F(3, 496) 1084,784 P-value(F) 2,1e-217
70 Természetesen az sem zárható ki, hogy nem a magyarázó változók között jelenik meg a csoporto-sítás igénye, hanem a modellezendő függő változó a kategóriás. Az ún. diszkrét eredményváltozós mo-dellek közül itt csak a legismertebbet, a logisztikus regressziót mutatjuk be, azt is csak vázlatosan.33 Ha az eredményváltozó bináris – vagyis két lehetséges kimenete van –, akkor dichotom (binomiális) logisztikus regresszióról beszélünk, amennyiben ennél több ismérvváltozattal rendelkezik, akkor multinomiális logisztikus regresszió illesztése a cél. Könyvünkben csak az előbbivel foglalkozunk, ugyanis belátható, hogy a multinomiális logisztikus regressziós modellek tulajdonképpen páronként becsült bináris modellek sorozatából tevődnek össze, így módszertanilag nem jelentenek nagyobb kihívást.
Tekintsük az yi
0,1 bináris változó egy megfigyelését, amely a magyarázó változó(k)34 adott szintje mellett realizálódott. Jelölje pxi a Pr
yi 1xi
esemény feltételes valószínűségét! Defini-áljuk az esélyhányados – más néven odds-arány – mutatóját a következő módon:1
Ebből viszonylag egyszerűen felírható, hogy a feltételes valószínűség
A logisztikus regresszió definíció szerint az odds-arány logaritmusára felírt lineáris regresszió, vagyis
0 1ln oddsxi b b x (3.33)
formájú. Ebből könnyen felírható az eredeti feltételes valószínűségre vonatkozó alak:
0 1
A modell b regressziós együtthatója viszonylag könnyen értelmezhető, 1 eb1 ugyanis megmutatja a magyarázó változó egységnyi abszolút növekedésének az odds-arányra gyakorolt multiplikatív ha-tását. Amennyiben a regressziós együttható értéke negatív, akkor a magyarázó változó értékének növekedése csökkenti annak valószínűségét, hogy a vizsgált bináris dummy változó 1-es értéket vesz fel; amennyiben az együttható pozitív, akkor a tényezőváltozó növekedése növeli a
Pr yi 1xi feltételes valószínűséget.
33 A téma iránt érdeklődőknek ajánljuk Hajdu (2003) könyvét, vagy Bartus (2003) tanulmányát.
34 Itt csak egy magyarázó változós esetekkel foglalkozunk, természetesen több tényezőváltozó is elképzelhető, ilyenkor mindössze annyit kell tennünk, hogy a továbbiakban x -szel jelölt változó vektorváltozó.
71 Tekintsünk egy példát! Összegyűjtöttük 300 magyar sportlétesítmény típusára és befogadó-képességére vonatkozó adatait. A létesítmények közül 119 sportcsarnok (beltéri, vagyis általunk 0-nak kódolt) és 181 sportpálya (kültéri, vagyis 1-nek kódolt). Az előbbiek átlagos befogadó-képessége 3100 fő, míg az utóbbiaké 19 500 fő. Vizsgáljuk meg, hogy logisztikus regresszióval előre jelezhető-e a létesítmény típusa a befogadóképesség alapján!
A modellezés eredményeképpen az odds-arány logaritmusára a következő modell írható fel:
ln odds 5,865 0,00072 x
A modell alapján kijelenthető, hogy a befogadóképesség növekedése növeli annak valószínű-ségét, hogy a létesítmény kültéri, vagyis sportpálya. (Mivel a regressziós együttható értéke po-zitív: 0,00072)
Hangsúlyozzuk, hogy a logisztikus regressziós modell ennél lényegesen összetettebb konstrukció, így az előbbi leírás csak az érdeklődés felkeltését szolgálta.35