• Nem Talált Eredményt

Dummy változók a regressziós modellben

3.2 A kétváltozós modell kiterjesztése

3.2.3 Dummy változók a regressziós modellben

A kétváltozós regressziós modelleket kizárólag a korrelációs kapcsolatok mélyebb elemzési eszkö-zeként definiáltuk. Könnyen belátható ugyanakkor, hogy sok esetben kvalitatív (minőségi) válto-zókra is szükség lehet a társadalmi-gazdasági jelenségek modellezése során. A minőségi ismérveket ugyan numerikus értékekkel kódoljuk, ám a modellezés során nem feledkezhetünk meg arról, hogy

67 ezekkel a kategória-értékekkel nem számolhatunk, ugyanis ezek csak az ismérvváltozatok megkü-lönböztetésére szolgálnak. (Még akkor is így kell kezelni a kategorizált változókat, ha értékeik ordi-nális (rang) skálán értelmezettek, mint pl. az iskolai érdemjegyek, vagy a Likert-skálán mért attitűd-válaszok!) Az előbbieket szem előtt tartva a kategóriás adatok megjelenhetnek a modellben, mint magyarázó változók: ezeket a modelleket dummy változós regressziónak nevezzük. Azonban elő-fordul, hogy az eredményváltozó helyén áll a minőségi ismérv: ilyenkor speciális formájú, ún. lo-gisztikus regressziós modellekről beszélünk. Könyvünkben mindkét esetre látunk példát.

A minőségi ismérvek általában valamilyen speciális hatás elkülönítésére alkalmasak egy adott reg-ressziós modellben. Kimeneteleik számát tekintve lehetnek

 bináris, azaz két kimenetelű (pl. egy olimpia lehet téli, vagy nyári), illetve

 multinomiális, vagyis kettőnél több kimenetelű (pl. sportágak).

Korábban már többször szót ejtettünk a kvalitatív változók egyik leggyakrabban alkalmazott fajtá-járól, a bináris, vagy dummy változóról, amely mindössze két értéket vehet fel: az 1 érték valamilyen tulajdonság meglétét; a 0 érték a tulajdonság hiányát jelöli.

Elsőként írjunk fel egy olyan roppant egyszerű regressziós modellt, ahol csak egy kétkimenetelű kvalitatív változó (D) hat az eredményváltozóra. Az ilyen, csak dummy magyarázó változót tartal-mazó modellt varianciaanalízis modellnek is szokták nevezni.32 A regresszió az alábbi formájú:

0 1

ˆyi  a a Di (3.29)

Mivel a dummy változó két kimenetellel rendelkezik, ezért a (3.29) regresszió paraméterei könnyen értelmezhetők. Az eredményváltozó becsült értéke

a , ha 0 Di 0, és

a0a1, ha Di 1.

Látható tehát, hogy az a1 regressziós együttható önmagában az adott tulajdonsággal rendelkező, illetve nem rendelkező egyedek eredményváltozó értékének különbségét becsüli.

Bővítsük ki a (3.29) modellünket egy tényezőváltozóval:

0 1 1

ˆyi  a a D b xii (3.30)

Könnyű belátni, hogy ebben az esetben egy becsléssel tulajdonképpen két regressziós egyenest be-csülünk. Amennyiben a mennyiségi ismérvek ( y és x) között linearitást tételezünk fel, két egy-mással párhuzamos, tengelymetszeteikben különböző regressziófüggvényt kapunk. Ezzel a tengely-metszetben eltérő regressziós modellt állítjuk elő.

32 A modell – szemléletében – megegyezik a 2. fejezetben bemutatott varianciaanalízis modellel. A későbbi logikus jelölések érdekében alkalmazzuk most a regresszió paramétereire az a a szimbólumokat. 0, 1

68 A dummy változót is tartalmazó két mennyiségi ismérv lineáris kapcsolatát elemző regressziós mo-dell legáltalánosabb formája a (3.31) függvénnyel írható fel:

0 1 1 2

ˆyi  a a D b xiib D xi i (3.31) A modell lehetővé teszi, hogy a két csoportban ne csak a tengelymetszet, hanem a regressziófügg-vény meredeksége is különbözzön, hiszen (3.31) tulajdonképpen két kétváltozós lineáris regressziót tartalmaz:

 ˆyi  a0 b x1 i, ha Di 0, és

ˆyi

a0a1

 

b1b x2

i, ha Di 1.

Az előzőek szemléltetésére nézzünk egy egyszerű példát!

Az előbbi példában említett 500 főre kiterjedő felmérésben megkérdezték a válaszadóktól azt is, hogy mekkora az éves jövedelmük (€) és ennek függvényében is ábrázolták a fogyasztók éves sportcélú kiadását (€).

Az ábrát vizsgálva azonnal szembeötlik, hogy nem egy, hanem két regressziós egyenes rajzo-lódik ki. Elvégeztük tehát a becslést, ahol a mennyiségi ismérvek mellett a válaszadó nemére vonatkozó kategóriás változót (0, ha a válaszadó férfi; 1, ha nő) is a modellbe illesztettük.

Eredményeink:

0 100 200 300 400 500 600 700 800 900 1000

0 5000 10000 15000 20000 25000

Kiadás (€)

Jövedelem (€)

69 Korábbi jelöléseinkkel a modell tehát felírható

ˆyi 133,4 154,5 Di 0,04xi 0,00D xi i

A modell létezik, magyarázó ereje 86,8%. Leolvasható, hogy a modell szerint a férfiak mintegy 155 €-val többet költenek havonta sportra, mint a nők. Emellett mindkét nemre vonatkozik, hogy amennyiben az éves jövedelem 1000 euróval növekszik, a sportfogyasztási kiadások átla-gosan 40 €-val nőnek. (Abból, hogy a DxJOV magyarázó változóhoz – vagyis a dummy és a mennyiségi ismérv szorzatához – tartozó regressziós együttható értéke a parciális t-próba alap-ján nem különbözik szignifikánsan 0-tól, következtethetünk arra, hogy a jövedelem és a kiadá-sok összefüggése tekintetében nincs különbség a nemek között!)

Az előbbiekben vázolt modellezési elvek érvényesek akkor is, ha a minőségi változók (kettőnél) több lehetséges értékét kívánjuk figyelembe venni, vagyis multinomiálisak. Ebben az esetben azon-ban a modellt nem egy, hanem a minőségi ismérv változatainál eggyel kevesebb dummy változóval kell felírni. Így például, ha a minőségi ismérvünk kimeneteleinek száma három (pl. egy sportese-ményt közvetíthet a tv élőben, felvételről, vagy egyáltalán nem), akkor elég két fiktív változót defi-niálni:

D1i 1, ha az első változat jellemezi a megfigyelést (a közvetítés élő), és D1i 0 minden más esetben, hasonlóan

D2i 1, ha a második változat jellemezi a megfigyelést (a közvetítés felvételről történik), és D2i 0 minden más esetben.

Könnyen átlátható, hogy a harmadik kimenetelt (esetünkben a közvetítés hiányát) az mutatja, ha mindkét dummy változó 0 értéket vesz fel.

A fiktív változókkal történő kódolás sok esetben megkönnyíti a modellezésünket, ám ismét hang-súlyozzuk, hogy ügyeljünk a dummy változók számára, ugyanis a feleslegesen alkalmazott változók jelentős módszertani problémákat okozhatnak.

Dependent variable: KIADAS

Coefficient Std. Error t-ratio p-value

const 133,388 5,88843 22,65 <0,0001 ***

NEM −154,468 7,92645 −19,49 <0,0001 ***

JOV 0,0396424 0,00108294 36,61 <0,0001 ***

DxJOV 3,06307e-05 3,01789e-05 1,015 0,3106

Mean dependent var 324,0140 S.D. dependent var 219,4464 Sum squared resid 3178097 S.E. of regression 80,04657 R-squared 0,867746 Adjusted R-squared 0,866946

F(3, 496) 1084,784 P-value(F) 2,1e-217

70 Természetesen az sem zárható ki, hogy nem a magyarázó változók között jelenik meg a csoporto-sítás igénye, hanem a modellezendő függő változó a kategóriás. Az ún. diszkrét eredményváltozós mo-dellek közül itt csak a legismertebbet, a logisztikus regressziót mutatjuk be, azt is csak vázlatosan.33 Ha az eredményváltozó bináris – vagyis két lehetséges kimenete van –, akkor dichotom (binomiális) logisztikus regresszióról beszélünk, amennyiben ennél több ismérvváltozattal rendelkezik, akkor multinomiális logisztikus regresszió illesztése a cél. Könyvünkben csak az előbbivel foglalkozunk, ugyanis belátható, hogy a multinomiális logisztikus regressziós modellek tulajdonképpen páronként becsült bináris modellek sorozatából tevődnek össze, így módszertanilag nem jelentenek nagyobb kihívást.

Tekintsük az yi

 

0,1 bináris változó egy megfigyelését, amely a magyarázó változó(k)34 adott szintje mellett realizálódott. Jelölje pxi a Pr

yi1xi

esemény feltételes valószínűségét! Defini-áljuk az esélyhányados – más néven odds-arány – mutatóját a következő módon:

1

Ebből viszonylag egyszerűen felírható, hogy a feltételes valószínűség

 

A logisztikus regresszió definíció szerint az odds-arány logaritmusára felírt lineáris regresszió, vagyis

 

0 1

ln oddsxi  b b x (3.33)

formájú. Ebből könnyen felírható az eredeti feltételes valószínűségre vonatkozó alak:

0 1

A modell b regressziós együtthatója viszonylag könnyen értelmezhető, 1 eb1 ugyanis megmutatja a magyarázó változó egységnyi abszolút növekedésének az odds-arányra gyakorolt multiplikatív ha-tását. Amennyiben a regressziós együttható értéke negatív, akkor a magyarázó változó értékének növekedése csökkenti annak valószínűségét, hogy a vizsgált bináris dummy változó 1-es értéket vesz fel; amennyiben az együttható pozitív, akkor a tényezőváltozó növekedése növeli a

 

Pr yi 1xi feltételes valószínűséget.

33 A téma iránt érdeklődőknek ajánljuk Hajdu (2003) könyvét, vagy Bartus (2003) tanulmányát.

34 Itt csak egy magyarázó változós esetekkel foglalkozunk, természetesen több tényezőváltozó is elképzelhető, ilyenkor mindössze annyit kell tennünk, hogy a továbbiakban x -szel jelölt változó vektorváltozó.

71 Tekintsünk egy példát! Összegyűjtöttük 300 magyar sportlétesítmény típusára és befogadó-képességére vonatkozó adatait. A létesítmények közül 119 sportcsarnok (beltéri, vagyis általunk 0-nak kódolt) és 181 sportpálya (kültéri, vagyis 1-nek kódolt). Az előbbiek átlagos befogadó-képessége 3100 fő, míg az utóbbiaké 19 500 fő. Vizsgáljuk meg, hogy logisztikus regresszióval előre jelezhető-e a létesítmény típusa a befogadóképesség alapján!

A modellezés eredményeképpen az odds-arány logaritmusára a következő modell írható fel:

 

ln odds  5,865 0,00072 x

A modell alapján kijelenthető, hogy a befogadóképesség növekedése növeli annak valószínű-ségét, hogy a létesítmény kültéri, vagyis sportpálya. (Mivel a regressziós együttható értéke po-zitív: 0,00072)

Hangsúlyozzuk, hogy a logisztikus regressziós modell ennél lényegesen összetettebb konstrukció, így az előbbi leírás csak az érdeklődés felkeltését szolgálta.35