GAZDASÁGSTATISZTIKA
Készült a TÁMOP-4.1.2-08/2/A/KMR-2009-0041pályázati projekt keretében Tartalomfejlesztés az ELTE TáTK Közgazdaságtudományi Tanszékén,
az ELTE Közgazdaságtudományi Tanszék, az MTA Közgazdaságtudományi Intézet
és a Balassi Kiadó közreműködésével.
Készítette: Bíró Anikó Szakmai felelős: Bíró Anikó
2010. június
2
GAZDASÁGSTATISZTIKA 4. hét
Egyváltozós regresszió – illeszkedés, nemlinearitás, konfidenciaintervallum
Bíró Anikó
Egyváltozós regresszió – ismétlés
Regressziós modell Becslés: OLS
Példa
70 trópusi országra X: népsűrűség (fő/1000 ha) és erdőirtási ráta (%) összefüggése
Értelmezés?
Koefficiensek
Tengelymetszet 0,60
X változó 0,001
i i i
i i i
u X Y
e X Y
ˆ ˆ
3
Illeszkedés mérése
OLS: legjobban illeszkedő egyenes megtalálása Mennyire jó az illeszkedés?
Mérőszám: R2
Egyváltozós regresszió:
korreláció négyzete = R2
Becsült érték
Regressziós egyenlet:
Becsült/illesztett/előrejelzett érték:
Kettő összehasonlítása – illeszkedés jósága Hirdetési példa
Maradéktag
Maradéktag vs. hibatag!
e X Y
X Yˆ ˆ ˆ
Y Y
u ˆ
470 480 490 500 510 520 530 540 550 560
0 10 20 30 40 50 60 70 80 90 100
Hirdetés (1000 $)
Értékesítés (1000 $)
becsült megfigyelt
4
R 2
R 2 értelmezése
Y varianciájából hány %-ot magyarázható X segítségével
R2 = 1 – tökéletes illeszkedés TSS RSS TSS R SSR
SSR RSS TSS
u Y
Y SSR
Y Y RSS
Y Y TSS
i i
i i i
1
ˆ) ( :
zeg négyzetöss Maradéktag
ˆ ) ( :
eg négyetössz s
Regresszió
1) - TSS/(N : Variancia
) ( :
zet szórásnégy Teljes
2
2 2 2
Teljes 2
szórásnégyzet:
Variancia:
Regressziós négyzetösszeg:
Maradéktag négyzetösszeg:
1 0 R2
5
Erdőirtási példa
Regressziós statisztika
r-négyzet 0.434
VARIANCIAANALÍZIS
df SS
Regresszió 1 25.828
Maradék 68 33.618
Összesen 69 59.446
6
Nemlinearitás
Nem lineáris kapcsolat X és Y között Gyakori példák:
Négyzetes:
Logaritmikus
Logaritmikus forma
Lineáris összefüggést eredményezhet Könnyű értelmezhetőség – rugalmasság:
X egy %-os változásakor Y általában béta %-kal változik Mértékegységnek nincs szerepe
%-os változás közelítése:
Meredekségi együttható értelmezése?
X d
Y d
X Y
ln ln
ln ln
Y dln 100
i i i
i i i
e X Y
e X Y
ln
ln
7
Bizonytalanság
Regressziós együtthatók valódi értéke nem ismert Minta alapján becsülünk
Becsült érték nem pontosan azonos a valódi értékkel Pontbecslés: bizonytalanságot nem tükrözi
OLS becslés pontosságát befolyásoló tényezők
Tk. 87–89
Több adatpont – pontosabb becslés Kisebb hibatagok – pontosabb becslés X nagyobb szóródása – pontosabb becslés
Példa: végzettség hatásának becslése jövedelemre
Konfidenciaintervallum
kisebb s
megfigyelé Több
nagyobb szint
sági megbízható Nagyobb
eloszlás -
t féle - Student :
szórása : ˆ
) (
) 2 (
, ˆ ˆ
2
b
b b
b
i b
b b b
b
t
t t
s
X X N
s SSR
s t s
t
8
Értelmezés
Leggyakoribb:
95%-os konfidenciaintervallum
„95% a valószínűsége, hogy az együttható valódi értéke az adott intervallumba esik”
N nagy, 95%: t = 1.96 Táblázat t-eloszlásról
Excel: megbízhatósági szint megadható
Erdőirtási példa
Koefficiensek Standard hiba Alsó 95% Felső 95%
Tengelymetsz. 0.6000 0.1123 0.3758 0.8241
X változó 0.0008 0.0001 0.0006 0.0011
Összefoglalás
Becsült együtthatók értelmezése R-négyzet mutató
Nemlinearitás, logaritmikus forma Bizonytalanság, konfidenciaintervallum
9
Gyakorlat
Egyváltozós regresszió – illeszkedés, nemlinearitás, konfidenciaintervallum
R 2
R 2 értelmezése
Y varianciájából hány %-ot magyarázható X segítségével
R2 = 1 – tökéletes illeszkedés
Példák: hirdetési regresszió, KSH munkanélküliségi regresszió
Példák nemlinearitásra
Tk. 4.5, 4.6 feladatok
TSS RSS TSS
R SSR
SSR RSS
TSS
Y Y SSR
Y Y RSS
Y Y TSS
i i i i
1
ˆ ) ( :
zeg négyzetöss Maradéktag
ˆ ) ( :
eg négyetössz s
Regresszió
) (
: zet szórásnégy Teljes
2
2 2
Teljes szórásnégyzet: 2
Regressziós négyzetösszeg:
Maradéktag négyzetösszeg:
1 0 R2
10
Bizonytalanság
Regressziós együtthatók valódi értéke nem ismert Minta alapján becsülünk
Becsült érték nem pontosan azonos a valódi értékkel Pontbecslés: bizonytalanságot nem tükrözi
Konfidenciaintervallum:
Példák
Hirdetési-értékesítési példa: meredekségi együttható konfidenciaintervalluma (különböző megbízhatósági szintek)
Ingatlanárak – telekméret (hprice.xls)
Házi feladat (csoportos)
Egy tetszőleges keresztmetszeti mintából (KSH, Eurostat, OECD, Penn World tables) két változó közti kapcsolat vizsgálata
Két változó leíró statisztikája Korreláció
Regresszió
Függvényforma?
Illeszkedés?
Becslés és eredmény értelmezése (konfidenciaintervallum is) )2
( ) 2 (
, ˆ ˆ
X X N
s SSR
s t s t
i b
b b b b