2. Kategóriák és kereszttáblák elemzése
4.7. Az egyedi megfigyelések hatása a becslésre
4.7.1. A becslést befolyásoló pontok feltárása 95
A becslést befolyásoló pontok feltárásához a (4.2)-ben felírt becslőegyenlet
y X X X
B (
T)
−1 T∧
=
mindkét oldalát szorozzuk balról X mátrixszal. Ekkor azonosságot kapunk, ahol H (nxn)-es mátrix a leképezés64 mátrixa.
Hy y X X X X y B
X
∧=
∧= (
T)
−1 T=
(4.18)
64 H mátrix angol neve „hat matrix”.
A (4.18)-ból látható, hogy H közvetlen kapcsolatot teremt a függő változó megfigyelt értékei (y) és becsült értékei
( )
∧
y
i között.A H mátrix segítségével a hibatagok vektora
y
ahol E az egységmátrix, és így az eltérés-négyzetösszegek is felírhatók:
y H E y
SSE =
T( − )
ésSSR = y
THy − n y
2.H mátrix szimmetrikus, diagonális elemei (jelölje hii ) azt a hatást fejezik ki, amit az i-edik megfigyelés (X mátrix i-edik sora) gyakorol az összes magyarázó változón keresztül a regressziós becslésre.
i
Megmutatható, hogy
1
1 befolyásoló, jelentős megfigyelést jelez, ha az átlag kétszeresét meghaladja, azaz
n p
h
ii≥ 2 ( + 1 ) /
.Könnyebb az értelmezés, ha a h-ból a minimális 1/n értéket levonjuk, és az origóhoz tolt hatást (centered leverage) vizsgáljuk:
h
ii− 1 n
(4.21)Mivel így 0 és (n-1)/n közötti értéket kaphatunk, gyakorlati szabály adható a (h –1/n) eltolással kapott mértékre:
0,2 alatti érték mellett a megfigyelések bevonhatók a becslésbe
0,2 és 0,5 között kockázatos a becslés elvégzése
0,5 felett kerülendő a megfigyelések bevonása a regressziós becslésbe.
Az SPSS kézikönyv által javasolt másik szabály szerint p>6 és (n-p)>12 esetén 3p/n a bevonási küszöb. Ha a megfigyelések száma és a magyarázó változók száma közötti n>5p ajánlást is figyelembe vesszük, akkor 3/5=0,6 feletti értéket elérő megfigyelést semmiképpen nem veszünk figyelembe a regressziós modell becslésekor.
Minden megfigyelt érték h súllyal befolyásolja a becslést: A legkisebb négyzetes becslés nagyon érzékeny az extrém (xi, yi) megfigyelés-párokra. Ha a megfigyelt y érték extrém, és/vagy az x értékektől függő h súly nagy, akkor erős hatást gyakorolnak a becslésre. Egyszerűbb a hatások értelmezése, ha az X mátrixban a független változók átlagtól vett eltérései, a centírozott adatok vannak.
Ekkor egy magyarázó változó esetén h azt fejezik ki, hogy az x változó egy-egy megfigyelt értéke milyen távol van az átlagtól:
( )
( )
4.7. 2. Hibatagok előállítása és elemzése
A hibatagok, vagy elterjedt szóval reziduálisok vizsgálata nagyon szerteágazó terület. Az elvárások között szerepel, hogy normális eloszlást követnek, függetlenek és állandó a szórásuk.
• Hisztogramot érdemes készíteni, melyről a reziduálisok eloszlása látható, és a normális eloszlástól való eltérés grafikusan megjeleníthető. A reziduálisok ábráit az eredmények bemutatásánál tekintjük át.
• A QQ plot is a hibatagok normális eloszlástól való eltérését mutatja.
• Ha a hibatagokat az y adatok mentén ábrázoljuk, akkor a szórások homoszkedasztikus jellege is szemléltethető.
• Az egyik legismertebb teszt a Durbin-Watson statisztika, amely a hibatagok autokorrelálatlanságát teszteli, ezért idősoros adatok esetében célszerű értelmezni, keresztmetszeti elemzésben nincs létjogosultsága.
Mivel a megfigyelt és a becsült értékek eltérése többféleképpen mérhető, többféle reziduális számítható és elemezhető. A közönséges reziduálisok (
e
iy
iy
i−
∧=
)mellett számolható úgy is hibatag, ha egy-egy megfigyelést kihagyunk. Az i-edik megfigyelés (x,y) koordinátáinak elhagyásával nyert becslés és az így számított reziduális65 indexében szerepel a kihagyott elem:
e
(i)iy
iy
(i)i−
∧=
.Ha az i-edik megfigyelés erősen befolyásolja a becslést, akkor a két hibatag nagyon eltérő. A két reziduális között a hatás (hii) értéke teremt kapcsolatot:
65 Az egy megfigyelés törlése, kihagyása után számított hibatag angol neve „deleted” residual.
Hunyadi-Mundruczó-Vita: Statisztika c. könyve sorelhagyásos módszert említ.
)
megfigyelés kihagyása miatt a kétféle reziduális nem térhet el jelentősen egymástól.Míg a reziduálisok négyzetösszege=SSE, addig a törlések után becsült reziduálisok négyzetösszege66 PRESS=
∑
=
( . A két összeg hányadosa (PRESS/SSE) jelzi, hogy mennyire érzékeny a regressziós becslés a kihagyott megfigyelésekre. Ha sok és/vagy nagyon távoli (outlier) pont volt a mintában, akkor a PRESS/SSE arány jóval nagyobb, mint egy.
A reziduálisok „nagyságának” megítélését segíti a sztenderdizálás. A közönséges reziduálisokat osztva a (4.4) gyökével, az s szórással, sztenderdizált hibatagokat kapunk:
s e
z
i=
i/
(4.23)Mivel a regressziós becslésből származó hibatagok varianciája torzított,
),
varianciát biztosítja, ha a (4.24) szerint sztenderdizáljuk a hibatagokat. Az így kapott reziduálisok abszolút értékben nagyobbak lesznek (4.23)-beli párjaiknál:ii i
i
e s h
r = / 1 − (4.24)
A (4.24)-ben a sztenderdizáláshoz használt s szórás nem független az ei hibatagtól, ezért ezt szokták belsőleg studentizált reziduálisnak is nevezni, megkülönböztetve a kihagyással számolt, külsőleg studentizált reziduálistól, ti–től, amelynek eloszlása Student eloszlást követ:
ii becsléstől, és hii –ben pedig azt, hogy az x-ek hatása milyen jelentős. Ha gyanítjuk, hogy valamelyik megfigyelés nagyon rendhagyó, akkor az erre kiszámolt t-értéket összevethetjük a Student eloszlás kritikus értékével. A Student-eloszlás szabadságfoka (n-p-2). Nagy megfigyelésszám mellett normális eloszlás alkalmazható.
Az áttekinthetőség érdekében a 4.4. táblázatban foglaljuk össze a reziduálisok tartalmát, képletét és az SPSS-ben szereplő rövid elnevezést.
66 A sorkihagyásokkal számolt eltérés-négyzetösszegek angol neve: Predicted Residual Sum of Squares= PRESS.
4.4. táblázat: Hibatagok változatai A reziduális tartalma, (angol neve), betűjele Képletének
száma
SPSS-neve
Közönséges reziduális (unstandardized): e (4.19) res Az i-edik megfigyelés kihagyásával számított
reziduális (deleted): e(i)
(4.22) dre
Sztenderdizált közönséges reziduális: z (4.23) zre Studentizált reziduális, megfigyelés kihagyva,
szórás a teljes mintából (studentized): r
(4.24) sre
Studentizált reziduális, a szórás is kihagyással számolva (studentized deleted): t
(4.25) sdr
4.7.3. A becslést befolyásoló távoli pontok feltárása, kihagyási döntés
Mahalanobis távolság alapján kiválaszthatjuk azokat a potenciális megfigyeléseket, amelyek kilógónak (outliernek) tekinthetők. A Mahalanobis távolság dM
kétféleképpen is kiszámítható.
a) d
M=(n-1)(h
ii–1/n), (4.26)
Cook javasolta a D-statisztika számítását, amelyben az i-edik megfigyeléssel és e pont kihagyásával készített lineáris regressziós becsléseket vetjük össze az i-edik
pontban: 2
Hüvelykujj-szabály alapján az egynél nagyobb Di –t adó megfigyelésekre kell odafigyelni.
67 Ha a változók korrelálatlanok, akkor megegyezik az euklideszi távolsággal.
A diagnosztikát segítő további mértékek a regressziós együtthatókat és a becsült értékeket vetik össze, mérve azok változását, ha egy-egy megfigyelést kihagyunk.
DfBeta68 mutatóval a j-edik regressziós együttható69 érzékenységét mérjük, ha az i-edik megfigyelést elhagyjuk:
) diagonálisában található. Figyelmet érdemel az i-edik megfigyelés, ha (4.28) abszolút értéke meghaladja a
2 / n
küszöbszámot.A sztenderdizált változatot a regressziós együttható sztenderd hibájával történő osztás után kapjuk, és az előjelet is figyelembe vesszük: StDfBetai =DfBetai /sb . Cook D mutatójához hasonlóan a becsült értékeket hasonlítja össze a DfFits mérték, amelyben a (24)-beli r helyett (4.25) szerinti t szerepel. A DfFits egyesítve mutatja azt a hatást, amit az i-edik megfigyelés kihagyása gyakorol az egyes regressziós együtthatókra, b0–ra, b1-re, stb.:
összehasonlíthatóság érdekében (4.29) szerint sztenderdizáljuk az eltéréseket, és az abszolút értékben2 p / n
-nél nagyobbakat kiemelten kezeljük:2
Végül a kovariancia-hányados mutatóval zárjuk a megfigyelések hatásának vizsgálatát. Az adatokból becsült kovariancia mátrixot (S) is képezhetjük az i-edik megfigyelés kihagyása után (S(i) ). Ezek determinánsainak hányadosa:
[ ( ( 1 ) ) ] ( 1 )
Ha a kovariancia-hányados értéke ~1, akkor nem jelentős az i-edik eset hatása.
Az összetevőket vizsgálva megállapítható70, hogy
CovRatio − 1 ≤ 3 p / n .
68 A Df rövidítés a differenciára utal.
69 A konstans tag, b0 is vizsgálható így.
70 Belsey, Kuh és Welsch 1980-ban adták meg a felső határt.
Egyszerűbb alakot kapunk, ha egyetlen magyarázó változónk van. Ekkor azokra a megfigyelésekre kell különösen figyelnünk, amelyek kovariancia-hányadosa nagyobb, mint (1+3/n) vagy kisebb, mint (1-3/n).
4.8. A megvalósítás lépései az SPSS-ben
Az ANALYZE/REGRESSION/LINEAR utat követve a nyitó oldalon először
a függő (dependent) változót és
a független (independents) változókat kell megadni.
A módszer alapértelmezés szerint Enter, vagyis minden független változót bevon az eljárás. Mintapéldánkban lépésenként felépített (stepwise) modellt ismertetünk. A népességnövekedés becsléséhez 6 magyarázó változót jelöltünk ki.
Megadható még „selection” változó, amellyel almintát képzünk, ezzel most nem élünk.
Címkézzük az országok nevével az eseteket a „case label”-ben.
Az outputok listája a következő 4 gomb mögött tárul fel: Statistics, Plots, Save, Options.
A beállítás menete és az eredmények sorrendje jelentősen eltér. Először azt tekintjük át, hogy mit érdemes kérni, majd azt, hogy mit hogyan értelmezünk.
I. Statistics
A regressziós együtthatók becslése mellett konfidencia intervallumot és kovariancia mátrixot kérhetünk.
A modell illeszkedését, az R2 változását, leíró statisztikát (átlag, szórás, megfigyelések száma), parciális korrelációt és multikollinearitási mértékeket választhatunk.
A reziduális a Durbin-Watson tesztet és esetenkénti diagnosztikát kérhetünk. Ha az n nagy, érdemes csak az outlier eseteket kiíratni, amelyek az átlagtól 2-3 szórásnyi távolságra vannak.
II. Plots
A regressziós becslés összevethető a reziduálisok különböző fajtáival. A reziduálisok normális eloszlásáról a hisztogram és a normális eloszlástól való eltérés ad képet.
III. Save
Ez a gomb öt csoportba sorolva ajánlja fel az elmenthető eredményeket.
1. Becsült értékek (közönséges, sztenderdizált és korrigált becslés, valamint a becslés sztenderd hibája minden egyes megfigyelésre külön-külön)
2. Reziduálisok (közönséges, sztenderdizált, studentizált, kihagyott és kihagyva studentizált)
3. Távolságok egyenként mérve: Mahalanobis, Cook-D és az áttétel-hatás értékek
4. A befolyást mérő statisztikák (DfBeta és DfFit sztenderdizálva is, kovariancia hányados)
5. Konfidencia intervallum a regressziós becslés minden pontjára az átlaghoz és egy egyedi ponthoz képest, választható megbízhatósági szinten.
IV. Options
A beléptetés az F-hez tartozó valószínűség (alapérték: Entry: 0,05, Removal: 0,10) vagy az F teszt értékének kiválasztásával szabályozható.
Alapértelmezés szerint van konstans tag a modellben, de itt kihagyható.
A hiányzó értékek páronkénti vagy soronkénti kihagyását, estleg az átlaggal való helyettesítését kérhetjük.