GAZDASÁGSTATISZTIKA
Készült a TÁMOP-4.1.2-08/2/A/KMR-2009-0041pályázati projekt keretében Tartalomfejlesztés az ELTE TáTK Közgazdaságtudományi Tanszékén,
az ELTE Közgazdaságtudományi Tanszék, az MTA Közgazdaságtudományi Intézet
és a Balassi Kiadó közreműködésével.
Készítette: Bíró Anikó Szakmai felelős: Bíró Anikó
2010. június
2
GAZDASÁGSTATISZTIKA 7. hét
Kihagyott változók, multikollinearitás, kétértékű változók – bevezetés
Bíró Anikó
Egyváltozós vs. többváltozós
Példa: házárak (CAD, forrás: hprice.xls) Többváltozós
Egyváltozós
Nagyobb becsült együttható
Magyarázat eltérő együtthatóra Több tényező befolyása
Korreláció fürdőszobák számával
Pl. telekméret – fürdőszobaszám pozitív korreláció
Egyváltozós regresszió: nem tudja hatásokat szétválasztani szint
9 . 7634 fürdő
2 . 17105
háló 6 . 2824 telek
4 . 5 6 . ˆ 4009 P
fürd ő 0 . 27477 0
. 32794 Pˆ
3
Kihagyott változók
Kihagyott változók miatti torzítás
Becslés hibás, ha releváns változót kihagyunk, ami korrelál az egyenletben szereplő változókkal
Magyarázóerővel bíró változókat szerepeltessük!
De: felesleges változók – becslés pontossága csökken Szokás: nem szignifikánsat elhagyni
Bértarifa – példa
Egyváltozós
Többváltozós, corr(isk,kor) = –0.04
Koeff. Standard hiba t érték P-érték
Tengelymetszet –161796.32 9514.04 –17.01 0.00
Isk.év 24855.33 707.51 35.13 0.00
Koeff. Standard
hiba t érték P-érték Tengelymetszet –328321.34 8040.13 –40.84 0.00 Isk.év 27250.22 452.97 60.16 0.00 Kor 3171.29 109.05 29.08 0.00
4
Multikollinearitás
Magyarázó változók némelyike erősen korrelál Egyes változók hatása nehezen elkülöníthető
Megoldás: egyes változók elhagyása – nem mindig kívánatos!
Tünetek:
Alacsony t-, magas P-értékek, ugyanakkor R-négyzet magas
Együtthatók nagyon érzékenyek újabb (kollineáris) változó bevonására Várttól jelentősen eltérő (akár értelmezhetetlen) együtthatók
Multikollinearitás – példa
Kereset regressziók, corr(kor,tapasztalat) = 0.97
r-négyzet 0.468
Koefficiensek Standard hiba t érték p-érték
Tengelymetszet –1.7E+11 3.05E+10 –5.647 1.72E–08
Isk.év –2.9E+10 5.08E+09 –5.647 1.72E–08
Kor 2.87E+10 5.08E+09 5.647 1.72E–08
Tapasztalat –2.9E+10 5.08E+09 –5.647 1.72E–08
r-négyzet 0.465
Koefficiensek Standard hiba t érték p-érték
Tengelymetszet –328321 8040.126 –40.835 0
Isk.év 27250.22 452.9723 60.159 0
Kor 3171.293 109.0451 29.082 6.3E–172
5
Kétértékű magyarázó változó
Kvalitatív, kódolás: 0 – 1
Kétértékű = bináris = dummy változó Példák
Házárak: van-e garázs, van-e légkondicionáló Bérek: férfi – nő
Egészségügyi kiadások: van-e biztosítása Stb.
Becslés, együtthatók
OLS módszer változatlan, együtthatók értelmezése más Egyváltozós regresszió:
Két részcsoport átlaga
Példák
Házárak
Légkondicionált ház átlagár: 85 881 CAD
1 D ha ˆ , ˆ ˆ
0 D ha ˆ , ˆ
ˆ ˆ ˆ
Y Y
D Y
e D Y
Kond Pˆ 59885 25996
6
Keresetek (Bértarifa 2003 részminta)
Férfiak átlagkereset: 226 142 Ft Nők átlagkereset: 159 289 Ft
Több kétértékű változó
Csoportok száma: 2k
Csoportátlagok: megfelelő együtthatók összege Együttható értelmezése: parciális hatás
Kétértékű és nem kétértékű magyarázó változók
Csak kétértékű: eltérő átlagok
Kétértékű és nem kétértékű: eltérő tengelymetszet Legegyszerűbb modell
ffi Wˆ 159289 66854
i ik k i
i D D e
Y 1 1 ...
1 2
1
vagy :
szet Tengelymet
i i i
i
D X e
Y
Tengelymetszet: vagy
7
Kétértékű változók – példa
Hprice.xls – eladási ár regresszió:
Bértarifa (bruttó havi keresetek) példa
0.00 27.84
108.97 3033.58
tapasztalat
0.00 60.48
482.57 29187.63
isk
0.00 9.70
2547.18 24708.10
ffi
–38.70 0.00 7674.03
–296984.11 Tengelymetszet
p-érték t érték
Standard hiba Koefficiensek
0.00 20.58
3249.19 66853.52
ffi
0.00 87.35
1823.60 159288.68
Tengelymetszet
p-érték t érték
Standard hiba Koefficiensek
0.00 27.84
108.97 3033.58
tapasztalat
0.00 60.48
482.57 29187.63
isk
0.00 9.70
2547.18 24708.10
ffi
–38.70 0.00 7674.03
–296984.11 Tengelymetszet
p-érték t érték
Standard hiba Koefficiensek
0.00 20.58
3249.19 66853.52
ffi
0.00 87.35
1823.60 159288.68
Tengelymetszet
p-érték t érték
Standard hiba Koefficiensek
7.35E–35 13.23985
0.410367 5.433193
Telekméret
0.001557 3.179937
1945.687 6187.162
Pince
0.002795 3.003198
2462.386 7395.032
Edzőterem
4.72E–22 10.09018
1909.658 19268.8
Légkond.
2.59E–35 13.34317
2289.991 30555.75
Tengelymetszet
p-érték t érték
Standard Koefficiensek hiba
7.35E–35 13.23985
0.410367 5.433193
Telekméret
0.001557 3.179937
1945.687 6187.162
Pince
0.002795 3.003198
2462.386 7395.032
Edzőterem
4.72E–22 10.09018
1909.658 19268.8
Légkond.
2.59E–35 13.34317
2289.991 30555.75
Tengelymetszet
p-érték t érték
Standard Koefficiensek hiba
8
Összefoglalás
Kihagyott magyarázó változók Felesleges változók
Multikollinearitás Kétértékű változók
Gyakorlat
Kihagyott változók, multikollinearitás, kétértékű változók – bevezetés
Kihagyott változók
Kihagyott változók miatti torzítás
Becslés hibás, ha releváns változót kihagyunk, ami korrelál az egyenletben szereplő változókkal
Magyarázóerővel bíró változókat szerepeltessük!
De: felesleges változók – becslés pontossága csökken Szokás: nem szignifikánsat elhagyni
9
Példa változó elhagyására
Villamosenergiai cégek (electric.xls), teljes költség regressziója, logaritmikus forma Munka, tőke egységköltsége nem szignifikáns
Magyarázat? Kis jelentősége, kis variancia,…
Kibocsátás, üzemanyagköltség együtthatója hogyan változik többi változó elhagyásával?
Multikollinearitás
Magyarázó változók némelyike erősen korrelál Egyes változók hatása nehezen elkülöníthető
„Tünetek”:
Alacsony t-, magas P-értékek Ugyanakkor R-négyzet magas
Megoldás: egyes változók elhagyása – nem mindig kívánatos!
Multikollinearitás, példa
Tk. 6.3. feladat (forest.xls)
Kétértékű változók
Csoportok száma: 2k
Csoportátlagok: megfelelő együtthatók összege Együttható értelmezése: parciális hatás
i ik k i
i D D e
Y 1 1 ...
10
Kétértékű és nem kétértékű magyarázó változók
Csak kétértékű: eltérő átlagok
Kétértékű és nem kétértékű: eltérő tengelymetszet Legegyszerűbb modell:
1. példa
Házárak (hprice.xls)
Magyarázó változók: telekméret, légkondicionáló, edzőterem, pince Telekméret (négyzetláb) együtthatója? – Azonos mindegyik csoportra!
Kétértékű változók együtthatói?
2. példa
Keresetekregresszió bértarifa adatok alapján:
Magyarázó változók: férfi, iskolaév, gyakorlat (tapasztalat)
Eltérő becsült együtthatóra magyarázat?
1 2
1
vagy :
szet Tengelymet
i i i
i
D X e
Y
Tengelymetszet: vagy
ffi W
gyak isk
ffi W
854 66 289 ˆ 159
034 3 188 29 708
24 984 ˆ 296
11
Házi feladat (csoportos)
Előző szeminárium makrogazdasági példájához hasonló modell becslése friss adatokkal.
Országok keresztmetszeti mintáján átlagos GDP-növekedés vizsgálata egy tetszőlegesen választott időszakra
Többváltozós regressziós modell, modellspecifikáció rövid indoklásával Becslés, együtthatók értelmezése, szignifikanciájuk vizsgálata
Egy szignifikáns változó elhagyásának hatásának vizsgálata