GAZDASÁGSTATISZTIKA
Készült a TÁMOP-4.1.2-08/2/A/KMR-2009-0041pályázati projekt keretében Tartalomfejlesztés az ELTE TáTK Közgazdaságtudományi Tanszékén,
az ELTE Közgazdaságtudományi Tanszék, az MTA Közgazdaságtudományi Intézet
és a Balassi Kiadó közreműködésével.
Készítette: Bíró Anikó Szakmai felelős: Bíró Anikó
2010. június
2
GAZDASÁGSTATISZTIKA 3. hét
Korreláció, egyváltozós regresszió bevezetés Bíró Anikó
Példa 2. óráról
Két változó között negatív kapcsolat – pontdiagram (KSH)
0 2 4 6 8 10 12 14 16 18 20
0 1000 2000 3000 4000 5000 6000
GDP/fő (ezer Ft)
Munkanélküliségi ráta (%)
3
Korreláció
Két változó közti kapcsolat számszerűen Jelölés: X és Y közti korreláció rXY
Korreláció négyzete (rXY2): Y varianciájának mekkora hányadát magyarázza X = X varianciájának mekkora hányadát magyarázza Y
Kiegészítés: korreláció képlettel
Korreláció tulajdonságai
–1 és 1 közötti érték
Pozitív érték – pozitív kapcsolat. r = 0: nem korrelál a két változó Nagyobb pozitív érték – erősebb pozitív kapcsolat
X és Y közti korreláció = Y és X közti korreláció Változó korrelációja önmagával = 1
Konstanssal korreláció = 0
N
i i N
i i N
i
i i
X X Y
Y
X X Y Y r
1
2 1
2 1
) (
) (
) )(
(
4
Példa
Munkanélküliségi ráta és GDP/fő közti korreláció = –0,62 Negatív kapcsolat
Magasabb GDP/fő – alacsonyabb munkanélküliség
GDP/fő megyénkénti szóródása munkanélküliségi ráta szóródásának 38%-át magyarázza (0,62*0,62 = 0,384)
Okság?
Egyik változó „okozza-e” a másikat?
Korreláció nem árulkodik okság irányáról Nincs is feltétlenül okság
Előző példák? (GDP – munkanélk., GDP – gazdasági szervezetek száma)
Több változó közti korreláció
M változó – M(M–1)/2 korreláció
Korrelációs mátrix 3 változóra (X, Y, Z):
X Y Z
X 1
Y rXY 1
Z rXZ rZY 1
5
Kapcsolat szorossága grafikusan
Pontdiagram két változó között Lásd TK. 57–58.
„Mennyire egyszerű egyenest húzni a pontokra?”
„Mennyire szóródnak a pontok?”
Korreláció vs. regresszió
Változók közötti kapcsolat számszerűsítése Korreláció
2 változó között Oksági kapcsolat?
Regresszió
Komplex összefüggések (több változó) Lehet mögötte gazdasági modell – okság
Példák: bérregresszió (végzettség, …), infláció regresszió (kamat, …)
Egyváltozós regresszió
Y függő változó, X magyarázó változó Feltevés: lineáris kapcsolat
Regressziós egyenes:
Valóság: adatok nem illeszkednek pontosan egy egyenesre X
Y
6
Példa: hirdetési kiadás
Hibatag
Lineáris regresszió: közelítés
Kihagyott, meg nem figyelhető változók Nem lineáris kapcsolat
Regressziós modell hibataggal
Hiba: adatpont és regressziós egyenes közti távolság Okság (modell)? Korreláció általánosítása?
Becslés
Együtthatók értékeit nem ismerjük
Becsült együtthatók: legjobban illeszkedő egyenes együtthatói 470
480 490 500 510 520 530 540 550 560
0 20 40 60 80 100
Hirdetés 1000USD
Értékesítés 1000USD
e X Y
7
Jelölés
Reziduum (maradéktag):
OLS becslés
Legjobban illeszkedő egyenes – maradéktag négyzetösszege minimális
Legkisebb négyzetes becslés = ordinary least squares (OLS)
Hirdetési példa, folyt.
Becsült együtthatók
502,92 – tengelymetszet;
0,22 – értékesítés együtthatója Értelmezés?
Meredekség
Y átlagos változása X egységnyi növekedése esetén Marginális hatás
Összefoglalás
Korreláció
Két változó közti kapcsolat szorossága Korreláció tulajdonságai
Értelmezéshez: korreláció négyzete
ˆ, ˆ
e u
u X Y
ˆ ˆ
N
i
ui
SSR
1 2
8
Lineáris regresszió (egyváltozós) Lehet mögötte oksági modell Hibatag
Reziduum (maradéktag) Becslés: OLS
Gyakorlat
Korreláció, egyváltozós regresszió bevezetés
Korreláció
Két változó közti kapcsolat számszerűen
Korreláció négyzete (rXY2): Y varianciájának mekkora hányadát magyarázza X = X varianciájának mekkora hányadát magyarázza Y
Excel: KORREL() függvény
Korreláció tulajdonságai
–1 és 1 közötti érték
Pozitív érték – pozitív kapcsolat. r = 0: nem korrelál a két változó X és Y közti korreláció = Y és X közti korreláció
Változó korrelációja önmagával = 1
9
Példák
Korreláció és korreláció négyzet?
KSH megyei adatok: Munkanélküliségi ráta és GDP/fő között?
KSH: GDP/fő és gazdasági szervezetek száma között megyénként?
MNB: HUF/EUR és HUF/USD között?
Több változó közti korreláció – példa
Európai minta, 50 év feletti nők (SHARE, részminta) Végzettség (0–4 skála)
Dohányzott-e valaha napi rendszerességgel Rosszindulatú daganat
Kvalitatív adatok
Milyen korreláció várható?
10
Példa, folyt.
Közvetlen (immediate) okság: dohányzás – rákos betegség
Közvetett (proximate) okság: magasabb végzettség – rákos betegség
Végz. Dohányzás Rák
Végz. 1
Dohányzás 0,18 1
Rák 0,01 0,04 1
11
Egyváltozós regresszió
Y függő változó, X magyarázó változó Feltevés: lineáris kapcsolat
Regressziós egyenes Hibatag vs. maradéktag
Példa: hirdetési kiadás
Koop: Advert.xls fájl Korreláció?
Pontdiagram
Regressziós egyenes Excelben: Diagram/Trendvonal felvétele
OLS becslés
Legjobban illeszkedő egyenes – maradéktag négyzetösszege minimális
Legkisebb négyzetes becslés = ordinary least squares (OLS)
Excel: Adatelemzés/Regresszió – együtthatók becslése és értelmezése hirdetési példában?
Együtthatók érzékenysége mértékegységre?
X Y
N
i
ui
SSR
1 2
12
További példák
KSH megyei adatok: munkanélküliség regressziója regisztrált gazdasági szervezetek számára
Y: munkanélküliség X: gazdasági szervezetek
Forest.xls: népesedés hatása erdőirtásra?
Házi feladat (egyéni)
3 változó kiválasztása egy tetszőleges adatbázisból egy adott évre, amelyek között korreláció várható
Milyen kapcsolat és miért várható?
Leíró statisztika az adatokra (grafikonok + számszerűen) Korrelációk elemzése