ÖKONOMETRIA
Készült a TÁMOP-4.1.2-08/2/A/KMR-2009-0041pályázati projekt keretében Tartalomfejlesztés az ELTE TáTK Közgazdaságtudományi Tanszékén
az ELTE Közgazdaságtudományi Tanszék az MTA Közgazdaságtudományi Intézet
és a Balassi Kiadó közreműködésével
Készítette: Elek Péter, Bíró Anikó Szakmai felelős: Elek Péter
2010. június
2
ÖKONOMETRIA 3. hét
Egyváltozós regresszió 2.
Készítette: Elek Péter, Bíró Anikó Szakmai felelős: Elek Péter
Tartalom
Szórás becslése
Hipotézisvizsgálat, konfidenciaintervallum Előrejelzés
Kiugró értékek, alternatív függvényformák
Az eddigiek áttekintése 1.
yi = α + βxi + ui
Alapfeltevések:
1. E(ui) = 0
2. Var(ui) = σ2 minden i-re
3. ui, uj függetlenek minden i≠j-re 4. xi, uj függetlenek minden i, j-re
5. ui normális eloszlású minden i-re: N(0, σ2)
3
Az eddigiek áttekintése 2.
yi = α + βxi + ui Becslés:
Momentumok módszere OLS
Maximum likelihood
Becslőfüggvény torzítatlan – normalitás, homoszkedaszticitás nem kell!
Regressziós tévhit
„Átlag felé visszahúzás” normális együttes eloszlású, azonos szórású változóknál E(Y|X = x) – my = ρ(X – mx), ρ<1
Regressziós együttható:
Statisztikai következmény 1-nél kisebb együttható!
Példák: szülők, gyerekek magassága; első, második vizsga pontjai
Paraméterbecslések mintavételi eloszlása
xx xy
S
S
ˆ
xx xy
S
S
ˆ
Var ˆ , ˆ~
/ /
/ Var
) / ˆ Var(
Var
2 2 2 2
N
S S
x x
S y x x S
S
xx xx
i
xx i i xx
xy
4
Szórásnégyzet becslése
Chi-négyzet, t-eloszlás
n n
n n i
n
t N
x
x x x x
~ ) 1 , 0 (
~
~ ,..., ,
2 2 2
1
y/n x/
Z
k függetlene
~ y Z
változók eloszlású
norm.
standard független
n 1
i
2 22 2 2 2
2 2 2 2
2 2 2 2
2 2 2
2
ˆ E 2, 2 ~
ˆ
ˆ ˆ
ˆ
nletekből normálegy e
ˆ ˆ ˆ 0
ˆ ˆ ˆ
n n
RSS
Q RSS
Q
x u
u
x u
x u
x y
u
n n
n
i i
i
i i
i i
i i
i
~
normálegyenletekből
Szórásnégyzet becslése – két normálegyenlet: szabadságfok n – 2!
5
Hipotézisvizsgálat, konfidenciaintervallum
Konfidenciaintervallum, hipotézisvizsgálat
Varianciaanalízis
Láttuk: RSS ~ 2χn-22
Ha β=0, azaz yi ftl. N(α,2) változók, akkor TSS ~ 2χn-12 (Fisher-Bartlett tétel)
ESS ~ 2χ12
RSS és ESS függetlenek
2
2
2
22
2 2 2
2 2 2 2
~ / /
ˆ 1 1 ˆ
, 0
~ / /
1 ˆ
~ ˆ /
1 ˆ , 0
~ / ˆ
biz.) (nem ˆ tól
ˆ, független
~ 2 ˆ /
n xx xx
n xx xx
n
t S x n N
S x n
t S N
S n
független -tól (nem biz.)
1 /2 1 ˆ
2 ˆ /
1 2
2 n
n t
t SE P
ESS RSS
TSS
y y y
y y
yi i i i
( )2 ( ˆ )2 (ˆ )26
β=0 hipotézis esetén
Előrejelzés
Előrejelzések konfidencia intervallumai
Szórás
forrása Négyzet- összeg
Sz.
fok
Átl. négyzetö.
F Regr. ESS = r2Syy
= ˆSxy ˆ2Sxx
1 MS1 = ESS/1
~ χ12
/1 Maradék RSS
= (1– r2)Syy
= (n2)ˆ2
n – 2 MS2 = RSS/(n –2)
~ χn – 22
/(n – 2)
F = MS1/MS2
=(n – 2)r2/(1– r2)
~ F1,n – 2
= ˆ2/
ˆ2/Sxx
~ tn – 22
Teljes Syy n – 1
minimális.
esetén Ez
an) (torzítatl
0
2 0 2
0 0
2 0 0
0
0 0
0
0 0
0 0
/ /
1 1
ˆ Var ˆ ,
cov 2
Var ˆ ˆ
ˆ Var Var
ˆ 0 ˆ
ˆ
ˆ ˆ ˆ
x x
S x x n
u x
x y
y
x E
y y E
x y
x y
xx
-10 0 10 20 30 40 50 60 70 80
5 10 15 20 25 30
7
Várható érték előrejelzése
Kiugró értékek (outlierek)
Outlier: távol esik a többi megfigyeléstől
Egymagában meg tudja változtatni a regressziós egyenest
Okok és kezelés
Adathiba (adat elhagyása)
Különleges eset (egyedi elemzés)
Ugyanazok a mechanizmusok, csak kiugró adat (a többivel elemezzük)
0 0
2 0 2
0
2 0 0
0
0 0
0
0 0
ˆ Var
/ /
1
, ˆ ˆ cov 2
Var ˆ ˆ
ˆ Var Var
ˆ ) ˆ (
ˆ ˆ
y y
S x x n x
x y
E y E
y x
y E
x y
E
xx
-40 0 40 80 120 160 200 240 280 320
0 20 40 60 80 100 120
Z
y outlier nélkül outlierrel
8
Outlierek (folyt.): ugyanazok a regressziós egyenesek, de teljesen más kapcsolatok
Outlierek (folyt.): a reziduálisok vizsgálata (főleg többváltozós esetben lesz értelme)
4 5 6 7 8 9 10 11
2 4 6 8 10 12 14 16
3 4 5 6 7 8 9 10 11
2 4 6 8 10 12 14 16
4 5 6 7 8 9 10 11 12 13
2 4 6 8 10 12 14 16
5 6 7 8 9 10 11 12 13
6 8 10 12 14 16 18 20
-2 -1 0 1 2
2 4 6 8 10 12 14 16
X1
U1
-2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5
2 4 6 8 10 12 14 16
X1
U2
-2 -1 0 1 2 3 4
2 4 6 8 10 12 14 16
X1
U3
-2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5
6 8 10 12 14 16 18 20
X4
U4
9
Alternatív függvényformák
y = Aeβx log(y) = log(A) + βx De nem mindegy, milyen a hibatag:
y = Aeβxeu log(y) = log(A) + βx + u E(eu) ≠ eE(u) = 1, tehát E(y) ≠ Aeβx
Más példák:
y = Axβ log(y) = log(A) + βlog(x)
y = A + B/x (itt csak a magyarázó változót kell transzformálni)
Példa: keresetek és iskolai évek kapcsolata
log(Keri) = α + β1Iskevi + ui, 2003-as bértarifa (F-teszt egyváltozós esetben a t-teszt négyzete)
10
Példa (folyt.): Előrejelzés
15 évnyi iskolával mennyi fizetésre számíthatunk?
Elég nagy az egyedi megfigyelések bizonytalansága.
Hibatagok normalitásvizsgálata:
enyhén nem normális eloszlásúak
ker 58800Ft,407400Ft
95 , 0
4937 , 0 96 , 1 95 , ˆ 11
95 , 0
ve, feltételez eloszlását
normális hibatagok
A
4937 , 0 ˆ Var
ˆ, cov 15 ˆ 2
Var ˆ 15
Var Var
an) torzítatl nem
ez de ban, - (2003 Ft 154800 ker
95 , 11 122 , 0 15 12 , 10 log(ker)
0
2 0
0
P y E P
u y
y
y0= log(ker) = 10,12 + 15.0,122 = 11,95
ker = 154800 Ft(2003-ban, de ez nem torzítatlan)
A hibatagok normális eloszlását feltételezve,
ker 58800Ft,407400Ft
95 , 0
4937 , 0 96 , 1 95 , ˆ 11
95 , 0
ve, feltételez eloszlását
normális hibatagok
A
4937 , 0 ˆ Var
ˆ, cov 15 ˆ 2
Var ˆ 15
Var Var
an) torzítatl nem
ez de ban, - (2003 Ft 154800 ker
95 , 11 122 , 0 15 12 , 10 log(ker)
0
2 0
0
P y E P
u y
y
y0= log(ker) = 10,12 + 15.0,122 = 11,95
ker = 154800 Ft(2003-ban, de ez nem torzítatlan)
A hibatagok normális eloszlását feltételezve,
11
Egyváltozós regresszió, összefoglalás
Feltevések
Becslés és tulajdonságai (torzítatlan), becsült együtthatók értelmezése Hipotézisvizsgálat
Kiugró értékek problematikája
Gyakorlat
Egyváltozós regresszió 2.
Fogyasztási határhajlandóság becslése
FOGYJOV fájl
CONS = α + β∙INC + u 900 elemű minta
Együtthatók értelmezése, fogyasztási határhajlandóság és átlaghajlandóság számítása t-statisztika, p-érték, R2, RSS értelmezése
β = 1 hipotézis tesztelése
95%-os és 99%-os konfidencia intervallum β-ra Szignifikancia vizsgálata 30 elemű részminta esetén Előrejelzés évi 1,5 millió Ft jövedelem esetén