A becslést befolyásoló pontok feltárása 95

2. Kategóriák és kereszttáblák elemzése

4.7. Az egyedi megfigyelések hatása a becslésre

4.7.1. A becslést befolyásoló pontok feltárása 95

A becslést befolyásoló pontok feltárásához a (4.2)-ben felírt becslőegyenlet

y X X X

B (

)

⁻¹ ^T

∧

=

mindkét oldalát szorozzuk balról X mátrixszal. Ekkor azonosságot kapunk, ahol H (nxn)-es mátrix a leképezés⁶⁴ mátrixa.

Hy y X X X X y B

X

^∧

=

^∧

= (

)

⁻¹ ^T

=

_(4.18)

64 H mátrix angol neve „hat matrix”.

A (4.18)-ból látható, hogy H közvetlen kapcsolatot teremt a függő változó megfigyelt értékei (y) és becsült értékei

( )

∧

y

i között.

A H mátrix segítségével a hibatagok vektora

y

ahol E az egységmátrix, és így az eltérés-négyzetösszegek is felírhatók:

y H E y

SSE =

( − )

_és

SSR = y

Hy − n y

²_.

H mátrix szimmetrikus, diagonális elemei (jelölje h_ii ) azt a hatást fejezik ki, amit az i-edik megfigyelés (X mátrix i-edik sora) gyakorol az összes magyarázó változón keresztül a regressziós becslésre.

Megmutatható, hogy

1

1 befolyásoló, jelentős megfigyelést jelez, ha az átlag kétszeresét meghaladja, azaz

n p

h

_ii

≥ 2 ( + 1 ) /

Könnyebb az értelmezés, ha a h-ból a minimális 1/n értéket levonjuk, és az origóhoz tolt hatást (centered leverage) vizsgáljuk:

h

_ii

− 1 n

(4.21)

Mivel így 0 és (n-1)/n közötti értéket kaphatunk, gyakorlati szabály adható a (h –1/n) eltolással kapott mértékre:

 0,2 alatti érték mellett a megfigyelések bevonhatók a becslésbe

 0,2 és 0,5 között kockázatos a becslés elvégzése

 0,5 felett kerülendő a megfigyelések bevonása a regressziós becslésbe.

Az SPSS kézikönyv által javasolt másik szabály szerint p>6 és (n-p)>12 esetén 3p/n a bevonási küszöb. Ha a megfigyelések száma és a magyarázó változók száma közötti n>5p ajánlást is figyelembe vesszük, akkor 3/5=0,6 feletti értéket elérő megfigyelést semmiképpen nem veszünk figyelembe a regressziós modell becslésekor.

Minden megfigyelt érték h súllyal befolyásolja a becslést: A legkisebb négyzetes becslés nagyon érzékeny az extrém (x_i, y_i) megfigyelés-párokra. Ha a megfigyelt y érték extrém, és/vagy az x értékektől függő h súly nagy, akkor erős hatást gyakorolnak a becslésre. Egyszerűbb a hatások értelmezése, ha az X mátrixban a független változók átlagtól vett eltérései, a centírozott adatok vannak.

Ekkor egy magyarázó változó esetén h azt fejezik ki, hogy az x változó egy-egy megfigyelt értéke milyen távol van az átlagtól:

( )

4.7. 2. Hibatagok előállítása és elemzése

A hibatagok, vagy elterjedt szóval reziduálisok vizsgálata nagyon szerteágazó terület. Az elvárások között szerepel, hogy normális eloszlást követnek, függetlenek és állandó a szórásuk.

• Hisztogramot érdemes készíteni, melyről a reziduálisok eloszlása látható, és a normális eloszlástól való eltérés grafikusan megjeleníthető. A reziduálisok ábráit az eredmények bemutatásánál tekintjük át.

• A QQ plot is a hibatagok normális eloszlástól való eltérését mutatja.

• Ha a hibatagokat az y adatok mentén ábrázoljuk, akkor a szórások homoszkedasztikus jellege is szemléltethető.

• Az egyik legismertebb teszt a Durbin-Watson statisztika, amely a hibatagok autokorrelálatlanságát teszteli, ezért idősoros adatok esetében célszerű értelmezni, keresztmetszeti elemzésben nincs létjogosultsága.

Mivel a megfigyelt és a becsült értékek eltérése többféleképpen mérhető, többféle reziduális számítható és elemezhető. A közönséges reziduálisok (

e

y

−

∧

=

)

mellett számolható úgy is hibatag, ha egy-egy megfigyelést kihagyunk. Az i-edik megfigyelés (x,y) koordinátáinak elhagyásával nyert becslés és az így számított reziduális⁶⁵ indexében szerepel a kihagyott elem:

e

₍_i₎_i

y

₍_i₎_i

−

∧

=

Ha az i-edik megfigyelés erősen befolyásolja a becslést, akkor a két hibatag nagyon eltérő. A két reziduális között a hatás (hii) értéke teremt kapcsolatot:

65 Az egy megfigyelés törlése, kihagyása után számított hibatag angol neve „deleted” residual.

Hunyadi-Mundruczó-Vita: Statisztika c. könyve sorelhagyásos módszert említ.

)

megfigyelés kihagyása miatt a kétféle reziduális nem térhet el jelentősen egymástól.

Míg a reziduálisok négyzetösszege=SSE, addig a törlések után becsült reziduálisok négyzetösszege⁶⁶ PRESS=

∑

( . A két összeg hányadosa (PRESS/SSE) jelzi, hogy mennyire érzékeny a regressziós becslés a kihagyott megfigyelésekre. Ha sok és/vagy nagyon távoli (outlier) pont volt a mintában, akkor a PRESS/SSE arány jóval nagyobb, mint egy.

A reziduálisok „nagyságának” megítélését segíti a sztenderdizálás. A közönséges reziduálisokat osztva a (4.4) gyökével, az s szórással, sztenderdizált hibatagokat kapunk:

s e

z

=

/

(4.23)

Mivel a regressziós becslésből származó hibatagok varianciája torzított,

),

varianciát biztosítja, ha a (4.24) szerint sztenderdizáljuk a hibatagokat. Az így kapott reziduálisok abszolút értékben nagyobbak lesznek (4.23)-beli párjaiknál:

ii i

e s h

r = / 1 − (4.24)

A (4.24)-ben a sztenderdizáláshoz használt s szórás nem független az e_i hibatagtól, ezért ezt szokták belsőleg studentizált reziduálisnak is nevezni, megkülönböztetve a kihagyással számolt, külsőleg studentizált reziduálistól, ti–től, amelynek eloszlása Student eloszlást követ:

ii becsléstől, és hii –ben pedig azt, hogy az x-ek hatása milyen jelentős. Ha gyanítjuk, hogy valamelyik megfigyelés nagyon rendhagyó, akkor az erre kiszámolt t-értéket összevethetjük a Student eloszlás kritikus értékével. A Student-eloszlás szabadságfoka (n-p-2). Nagy megfigyelésszám mellett normális eloszlás alkalmazható.

Az áttekinthetőség érdekében a 4.4. táblázatban foglaljuk össze a reziduálisok tartalmát, képletét és az SPSS-ben szereplő rövid elnevezést.

66 A sorkihagyásokkal számolt eltérés-négyzetösszegek angol neve: Predicted Residual Sum of Squares= PRESS.

4.4. táblázat: Hibatagok változatai A reziduális tartalma, (angol neve), betűjele Képletének

száma

SPSS-neve

Közönséges reziduális (unstandardized): e (4.19) res Az i-edik megfigyelés kihagyásával számított

reziduális (deleted): e_(i)

(4.22) dre

Sztenderdizált közönséges reziduális: z (4.23) zre Studentizált reziduális, megfigyelés kihagyva,

szórás a teljes mintából (studentized): r

(4.24) sre

Studentizált reziduális, a szórás is kihagyással számolva (studentized deleted): t

(4.25) sdr

4.7.3. A becslést befolyásoló távoli pontok feltárása, kihagyási döntés

Mahalanobis távolság alapján kiválaszthatjuk azokat a potenciális megfigyeléseket, amelyek kilógónak (outliernek) tekinthetők. A Mahalanobis távolság dM

kétféleképpen is kiszámítható.

a) d

=(n-1)(h

_ii

–1/n), (4.26)

Cook javasolta a D-statisztika számítását, amelyben az i-edik megfigyeléssel és e pont kihagyásával készített lineáris regressziós becsléseket vetjük össze az i-edik

pontban: ²

Hüvelykujj-szabály alapján az egynél nagyobb D_i –t adó megfigyelésekre kell odafigyelni.

67 Ha a változók korrelálatlanok, akkor megegyezik az euklideszi távolsággal.

A diagnosztikát segítő további mértékek a regressziós együtthatókat és a becsült értékeket vetik össze, mérve azok változását, ha egy-egy megfigyelést kihagyunk.

DfBeta⁶⁸ mutatóval a j-edik regressziós együttható⁶⁹ érzékenységét mérjük, ha az i-edik megfigyelést elhagyjuk:

) diagonálisában található. Figyelmet érdemel az i-edik megfigyelés, ha (4.28) abszolút értéke meghaladja a

2 / n

küszöbszámot.

A sztenderdizált változatot a regressziós együttható sztenderd hibájával történő osztás után kapjuk, és az előjelet is figyelembe vesszük: StDfBeta_i =DfBeta_i /s_b. Cook D mutatójához hasonlóan a becsült értékeket hasonlítja össze a DfFits mérték, amelyben a (24)-beli r helyett (4.25) szerinti t szerepel. A DfFits egyesítve mutatja azt a hatást, amit az i-edik megfigyelés kihagyása gyakorol az egyes regressziós együtthatókra, b₀–ra, b₁-re, stb.:



összehasonlíthatóság érdekében (4.29) szerint sztenderdizáljuk az eltéréseket, és az abszolút értékben

2 p / n

-nél nagyobbakat kiemelten kezeljük:

Végül a kovariancia-hányados mutatóval zárjuk a megfigyelések hatásának vizsgálatát. Az adatokból becsült kovariancia mátrixot (S) is képezhetjük az i-edik megfigyelés kihagyása után (S(i) ). Ezek determinánsainak hányadosa:

[ ⁽ ⁽ ¹ ⁾ ⁾ ] ⁽ ¹ ⁾

Ha a kovariancia-hányados értéke ~1, akkor nem jelentős az i-edik eset hatása.

Az összetevőket vizsgálva megállapítható⁷⁰, hogy

CovRatio − 1 ≤ 3 p / n .

68 A Df rövidítés a differenciára utal.

69 A konstans tag, b0 is vizsgálható így.

70 Belsey, Kuh és Welsch 1980-ban adták meg a felső határt.

Egyszerűbb alakot kapunk, ha egyetlen magyarázó változónk van. Ekkor azokra a megfigyelésekre kell különösen figyelnünk, amelyek kovariancia-hányadosa nagyobb, mint (1+3/n) vagy kisebb, mint (1-3/n).

4.8. A megvalósítás lépései az SPSS-ben

Az ANALYZE/REGRESSION/LINEAR utat követve a nyitó oldalon először

 a függő (dependent) változót és

 a független (independents) változókat kell megadni.

A módszer alapértelmezés szerint Enter, vagyis minden független változót bevon az eljárás. Mintapéldánkban lépésenként felépített (stepwise) modellt ismertetünk. A népességnövekedés becsléséhez 6 magyarázó változót jelöltünk ki.

 Megadható még „selection” változó, amellyel almintát képzünk, ezzel most nem élünk.

 Címkézzük az országok nevével az eseteket a „case label”-ben.

Az outputok listája a következő 4 gomb mögött tárul fel: Statistics, Plots, Save, Options.

A beállítás menete és az eredmények sorrendje jelentősen eltér. Először azt tekintjük át, hogy mit érdemes kérni, majd azt, hogy mit hogyan értelmezünk.

I. Statistics

 A regressziós együtthatók becslése mellett konfidencia intervallumot és kovariancia mátrixot kérhetünk.

 A modell illeszkedését, az R² változását, leíró statisztikát (átlag, szórás, megfigyelések száma), parciális korrelációt és multikollinearitási mértékeket választhatunk.

 A reziduális a Durbin-Watson tesztet és esetenkénti diagnosztikát kérhetünk. Ha az n nagy, érdemes csak az outlier eseteket kiíratni, amelyek az átlagtól 2-3 szórásnyi távolságra vannak.

II. Plots

A regressziós becslés összevethető a reziduálisok különböző fajtáival. A reziduálisok normális eloszlásáról a hisztogram és a normális eloszlástól való eltérés ad képet.

III. Save

Ez a gomb öt csoportba sorolva ajánlja fel az elmenthető eredményeket.

1. Becsült értékek (közönséges, sztenderdizált és korrigált becslés, valamint a becslés sztenderd hibája minden egyes megfigyelésre külön-külön)

2. Reziduálisok (közönséges, sztenderdizált, studentizált, kihagyott és kihagyva studentizált)

3. Távolságok egyenként mérve: Mahalanobis, Cook-D és az áttétel-hatás értékek

4. A befolyást mérő statisztikák (DfBeta és DfFit sztenderdizálva is, kovariancia hányados)

5. Konfidencia intervallum a regressziós becslés minden pontjára az átlaghoz és egy egyedi ponthoz képest, választható megbízhatósági szinten.

IV. Options

 A beléptetés az F-hez tartozó valószínűség (alapérték: Entry: 0,05, Removal: 0,10) vagy az F teszt értékének kiválasztásával szabályozható.

 Alapértelmezés szerint van konstans tag a modellben, de itt kihagyható.

 A hiányzó értékek páronkénti vagy soronkénti kihagyását, estleg az átlaggal való helyettesítését kérhetjük.

In document Többváltozós adatelemzés (Pldal 103-110)

A becslést befolyásoló pontok feltárása 95

2. Kategóriák és kereszttáblák elemzése

4.7. Az egyedi megfigyelések hatása a becslésre

4.7.1. A becslést befolyásoló pontok feltárása 95

y X X X

B (

)

=

Hy y X X X X y B

X

=

= (

)

=

( )

y

y

y H E y

SSE =

( − )

SSR = y

Hy − n y

1

n p

h

≥ 2 ( + 1 ) /

h

− 1 n

( )

( )

4.7. 2. Hibatagok előállítása és elemzése

e

y

y

−

=

e

y

y

−

=

)

∑

s e

z

=

/

),

e s h

r = / 1 − (4.24)

4.7.3. A becslést befolyásoló távoli pontok feltárása, kihagyási döntés

a) d

=(n-1)(h

–1/n), (4.26)

2 / n



2 p / n

[ ( ( 1 ) ) ] ( 1 )

CovRatio − 1 ≤ 3 p / n .

4.8. A megvalósítás lépései az SPSS-ben

I. Statistics

II. Plots

III. Save

IV. Options

[ ⁽ ⁽ ¹ ⁾ ⁾ ] ⁽ ¹ ⁾