Dummy változók a regressziós modellben - A kétváltozós modell kiterjesztése

3.2 A kétváltozós modell kiterjesztése

3.2.3 Dummy változók a regressziós modellben

A kétváltozós regressziós modelleket kizárólag a korrelációs kapcsolatok mélyebb elemzési eszkö-zeként definiáltuk. Könnyen belátható ugyanakkor, hogy sok esetben kvalitatív (minőségi) válto-zókra is szükség lehet a társadalmi-gazdasági jelenségek modellezése során. A minőségi ismérveket ugyan numerikus értékekkel kódoljuk, ám a modellezés során nem feledkezhetünk meg arról, hogy

67 ezekkel a kategória-értékekkel nem számolhatunk, ugyanis ezek csak az ismérvváltozatok megkü-lönböztetésére szolgálnak. (Még akkor is így kell kezelni a kategorizált változókat, ha értékeik ordi-nális (rang) skálán értelmezettek, mint pl. az iskolai érdemjegyek, vagy a Likert-skálán mért attitűd-válaszok!) Az előbbieket szem előtt tartva a kategóriás adatok megjelenhetnek a modellben, mint magyarázó változók: ezeket a modelleket dummy változós regressziónak nevezzük. Azonban elő-fordul, hogy az eredményváltozó helyén áll a minőségi ismérv: ilyenkor speciális formájú, ún. lo-gisztikus regressziós modellekről beszélünk. Könyvünkben mindkét esetre látunk példát.

A minőségi ismérvek általában valamilyen speciális hatás elkülönítésére alkalmasak egy adott reg-ressziós modellben. Kimeneteleik számát tekintve lehetnek

 bináris, azaz két kimenetelű (pl. egy olimpia lehet téli, vagy nyári), illetve

 multinomiális, vagyis kettőnél több kimenetelű (pl. sportágak).

Korábban már többször szót ejtettünk a kvalitatív változók egyik leggyakrabban alkalmazott fajtá-járól, a bináris, vagy dummy változóról, amely mindössze két értéket vehet fel: az 1 érték valamilyen tulajdonság meglétét; a 0 érték a tulajdonság hiányát jelöli.

Elsőként írjunk fel egy olyan roppant egyszerű regressziós modellt, ahol csak egy kétkimenetelű kvalitatív változó (D) hat az eredményváltozóra. Az ilyen, csak dummy magyarázó változót tartal-mazó modellt varianciaanalízis modellnek is szokták nevezni.³² A regresszió az alábbi formájú:

0 1

ˆy_i  a a D_i (3.29)

Mivel a dummy változó két kimenetellel rendelkezik, ezért a (3.29) regresszió paraméterei könnyen értelmezhetők. Az eredményváltozó becsült értéke

 a , ha ₀ D_i 0, és

 a₀ a₁, ha D_i 1.

Látható tehát, hogy az a₁ regressziós együttható önmagában az adott tulajdonsággal rendelkező, illetve nem rendelkező egyedek eredményváltozó értékének különbségét becsüli.

Bővítsük ki a (3.29) modellünket egy tényezőváltozóval:

0 1 1

ˆy_i  a a D b x_i  _i (3.30)

Könnyű belátni, hogy ebben az esetben egy becsléssel tulajdonképpen két regressziós egyenest be-csülünk. Amennyiben a mennyiségi ismérvek ( y és x) között linearitást tételezünk fel, két egy-mással párhuzamos, tengelymetszeteikben különböző regressziófüggvényt kapunk. Ezzel a tengely-metszetben eltérő regressziós modellt állítjuk elő.

32 A modell – szemléletében – megegyezik a 2. fejezetben bemutatott varianciaanalízis modellel. A későbbi logikus jelölések érdekében alkalmazzuk most a regresszió paramétereire az a a szimbólumokat. 0, 1

68 A dummy változót is tartalmazó két mennyiségi ismérv lineáris kapcsolatát elemző regressziós mo-dell legáltalánosabb formája a (3.31) függvénnyel írható fel:

0 1 1 2

ˆy_i  a a D b x_i  _i b D x_i _i (3.31) A modell lehetővé teszi, hogy a két csoportban ne csak a tengelymetszet, hanem a regressziófügg-vény meredeksége is különbözzön, hiszen (3.31) tulajdonképpen két kétváltozós lineáris regressziót tartalmaz:

 ˆy_i  a₀ b x₁ _i, ha D_i 0, és

 ^ˆy_i 



a₀a₁

 

 b₁b x₂



_i, ha D_i 1.

Az előzőek szemléltetésére nézzünk egy egyszerű példát!

Az előbbi példában említett 500 főre kiterjedő felmérésben megkérdezték a válaszadóktól azt is, hogy mekkora az éves jövedelmük (€) és ennek függvényében is ábrázolták a fogyasztók éves sportcélú kiadását (€).

Az ábrát vizsgálva azonnal szembeötlik, hogy nem egy, hanem két regressziós egyenes rajzo-lódik ki. Elvégeztük tehát a becslést, ahol a mennyiségi ismérvek mellett a válaszadó nemére vonatkozó kategóriás változót (0, ha a válaszadó férfi; 1, ha nő) is a modellbe illesztettük.

Eredményeink:

0 100 200 300 400 500 600 700 800 900 1000

0 5000 10000 15000 20000 25000

Kiadás (€)

Jövedelem (€)

69 Korábbi jelöléseinkkel a modell tehát felírható

ˆy_i 133,4 154,5 D_i 0,04x_i 0,00D x_i _i

A modell létezik, magyarázó ereje 86,8%. Leolvasható, hogy a modell szerint a férfiak mintegy 155 €-val többet költenek havonta sportra, mint a nők. Emellett mindkét nemre vonatkozik, hogy amennyiben az éves jövedelem 1000 euróval növekszik, a sportfogyasztási kiadások átla-gosan 40 €-val nőnek. (Abból, hogy a DxJOV magyarázó változóhoz – vagyis a dummy és a mennyiségi ismérv szorzatához – tartozó regressziós együttható értéke a parciális t-próba alap-ján nem különbözik szignifikánsan 0-tól, következtethetünk arra, hogy a jövedelem és a kiadá-sok összefüggése tekintetében nincs különbség a nemek között!)

Az előbbiekben vázolt modellezési elvek érvényesek akkor is, ha a minőségi változók (kettőnél) több lehetséges értékét kívánjuk figyelembe venni, vagyis multinomiálisak. Ebben az esetben azon-ban a modellt nem egy, hanem a minőségi ismérv változatainál eggyel kevesebb dummy változóval kell felírni. Így például, ha a minőségi ismérvünk kimeneteleinek száma három (pl. egy sportese-ményt közvetíthet a tv élőben, felvételről, vagy egyáltalán nem), akkor elég két fiktív változót defi-niálni:

 D₁_i 1, ha az első változat jellemezi a megfigyelést (a közvetítés élő), és D₁_i 0 minden más esetben, hasonlóan

 D₂_i 1, ha a második változat jellemezi a megfigyelést (a közvetítés felvételről történik), és D₂_i 0 minden más esetben.

Könnyen átlátható, hogy a harmadik kimenetelt (esetünkben a közvetítés hiányát) az mutatja, ha mindkét dummy változó 0 értéket vesz fel.

A fiktív változókkal történő kódolás sok esetben megkönnyíti a modellezésünket, ám ismét hang-súlyozzuk, hogy ügyeljünk a dummy változók számára, ugyanis a feleslegesen alkalmazott változók jelentős módszertani problémákat okozhatnak.

Dependent variable: KIADAS

Coefficient Std. Error t-ratio p-value

const 133,388 5,88843 22,65 <0,0001 ***

NEM −154,468 7,92645 −19,49 <0,0001 ***

JOV 0,0396424 0,00108294 36,61 <0,0001 ***

DxJOV 3,06307e-05 3,01789e-05 1,015 0,3106

Mean dependent var 324,0140 S.D. dependent var 219,4464 Sum squared resid 3178097 S.E. of regression 80,04657 R-squared 0,867746 Adjusted R-squared 0,866946

F(3, 496) 1084,784 P-value(F) 2,1e-217

70 Természetesen az sem zárható ki, hogy nem a magyarázó változók között jelenik meg a csoporto-sítás igénye, hanem a modellezendő függő változó a kategóriás. Az ún. diszkrét eredményváltozós mo-dellek közül itt csak a legismertebbet, a logisztikus regressziót mutatjuk be, azt is csak vázlatosan.³³ Ha az eredményváltozó bináris – vagyis két lehetséges kimenete van –, akkor dichotom (binomiális) logisztikus regresszióról beszélünk, amennyiben ennél több ismérvváltozattal rendelkezik, akkor multinomiális logisztikus regresszió illesztése a cél. Könyvünkben csak az előbbivel foglalkozunk, ugyanis belátható, hogy a multinomiális logisztikus regressziós modellek tulajdonképpen páronként becsült bináris modellek sorozatából tevődnek össze, így módszertanilag nem jelentenek nagyobb kihívást.

Tekintsük az y_i 

 

0,1 bináris változó egy megfigyelését, amely a magyarázó változó(k)³⁴ adott szintje mellett realizálódott. Jelölje p_x_i a ^Pr



yi ¹xi



esemény feltételes valószínűségét! Defini-áljuk az esélyhányados – más néven odds-arány – mutatóját a következő módon:

Ebből viszonylag egyszerűen felírható, hogy a feltételes valószínűség

 

A logisztikus regresszió definíció szerint az odds-arány logaritmusára felírt lineáris regresszió, vagyis

 

⁰ ¹

ln odds_x_i  b b x (3.33)

formájú. Ebből könnyen felírható az eredeti feltételes valószínűségre vonatkozó alak:

0 1

A modell b regressziós együtthatója viszonylag könnyen értelmezhető, ₁ e^b¹ ugyanis megmutatja a magyarázó változó egységnyi abszolút növekedésének az odds-arányra gyakorolt multiplikatív ha-tását. Amennyiben a regressziós együttható értéke negatív, akkor a magyarázó változó értékének növekedése csökkenti annak valószínűségét, hogy a vizsgált bináris dummy változó 1-es értéket vesz fel; amennyiben az együttható pozitív, akkor a tényezőváltozó növekedése növeli a

 

Pr y_i 1x_i feltételes valószínűséget.

33 A téma iránt érdeklődőknek ajánljuk Hajdu (2003) könyvét, vagy Bartus (2003) tanulmányát.

34 Itt csak egy magyarázó változós esetekkel foglalkozunk, természetesen több tényezőváltozó is elképzelhető, ilyenkor mindössze annyit kell tennünk, hogy a továbbiakban x -szel jelölt változó vektorváltozó.

71 Tekintsünk egy példát! Összegyűjtöttük 300 magyar sportlétesítmény típusára és befogadó-képességére vonatkozó adatait. A létesítmények közül 119 sportcsarnok (beltéri, vagyis általunk 0-nak kódolt) és 181 sportpálya (kültéri, vagyis 1-nek kódolt). Az előbbiek átlagos befogadó-képessége 3100 fő, míg az utóbbiaké 19 500 fő. Vizsgáljuk meg, hogy logisztikus regresszióval előre jelezhető-e a létesítmény típusa a befogadóképesség alapján!

A modellezés eredményeképpen az odds-arány logaritmusára a következő modell írható fel:

 

ln odds  5,865 0,00072 x

A modell alapján kijelenthető, hogy a befogadóképesség növekedése növeli annak valószínű-ségét, hogy a létesítmény kültéri, vagyis sportpálya. (Mivel a regressziós együttható értéke po-zitív: 0,00072)

Hangsúlyozzuk, hogy a logisztikus regressziós modell ennél lényegesen összetettebb konstrukció, így az előbbi leírás csak az érdeklődés felkeltését szolgálta.³⁵

In document Ökonometriai modellek alkalmazása a sportgazdaságban (Pldal 66-71)