A számítási eredmények bemutatása - Kategóriák és kereszttáblák elemzése

2. Kategóriák és kereszttáblák elemzése

4.9. A számítási eredmények bemutatása

A népesség növekedési ütemét (y) becsüljük az SPSS-ben elérhető World95.sav adatállomány alapján. Az egyes táblák angol és magyar nevének megadása után röviden értékeljük a részeredményeket.

Descriptive statistics – a leíró statisztikák közül a változók átlagát és szórását, valamint a megfigyelések számát kapjuk meg. 109 ország adatai között sokszor hiányzik a napi kalória-bevitelt mérő változó. Ilyen esetben az alapértelmezés szerint a regressziós becslés az egész sort kihagyja („listwise”), ezért 75 adatból számolt statisztikákat kapunk. (4.5. táblázat) Az eredmények közül AIDS-esek számának relatív szórása⁷¹több mint 4, ez túlzott mértékű heterogenitást⁷² jelent, a modellbe bevonni nem célszerű.

71Szórás/átlag= relatív szórás, a kettőnél nem nagyobb érték a kedvező. Az átlag előjelétől eltekintünk.

72 Nincs népességre vetítve az adat, és az USA kiugróan magas betegszáma megnöveli a szórást.

4.5. táblázat: Leíró statisztikák per 1000 live births) Gross domestic product / capita Daily calorie intake Aids cases

Mean

Std.

Deviation N

Correlations: a függő és a magyarázó változókra páronkénti korrelációk, szignifikancia szintek és a minta mérete szerepel a táblázatban. A multikollinearitás már itt észlelhető, egyes magyarázó változók között szinte függvényszerű kapcsolat van. Az AIDS változó nem korrelál szignifikánsan a népességnövekedéssel, bevonásra nem kerülhet. (4.6. táblázat)

4. 6. táblázat: Korrelációs mátrix

Correlations

1,000 -,582 -,529 ,617 -,665 -,609

-,582 1,000 ,989 -,962 ,675 ,775

-,529 ,989 1,000 -,946 ,657 ,765

,617 -,962 -,946 1,000 -,690 -,777

-,665 ,675 ,657 -,690 1,000 ,751

-,609 ,775 ,765 -,777 ,751 1,000

-,094 ,044 ,032 -,075 ,285 ,167

Population increase (%

Infant mortality (deaths per 1000 live births) Gross dom estic

Bevont és kihagyott változók lépésenkénti felsorolása: a 2. lépésben bevont csecsemőhalandóságot az 5. lépésben eltávolítja a stepwise eljárás.

A Model Summary táblázatban (4.7. táblázat) a többszörös korreláció és determinációs együttható, a korrigált R², a regressziós modell standard hibája szerepel lépésenként. Mivel az ötödik lépésben redukáltuk a modellt, az összes mutató csökkent. A Durbin-Watson tesztet nem értelmezzük.

4.7. táblázat: A változások követése

Model Summary

,665 ,443 ,435 ,859 ,443 58,006 1 73 ,000

,700 ,491 ,476 ,827 ,048 6,751 1 72 ,011

,722 ,521 ,501 ,808 ,031 4,558 1 71 ,036

,752 ,565 ,540 ,775 ,044 7,015 1 70 ,010

,745 ,555 ,536 ,779 -,010 1,640 1 72 ,204 1,887

Model 1 2 3 4 5

R R Square

Adjusted R Square

Std. Error of the Estimate

R Square Change

Change df1 df2 Sig. F Change Change Statistics

Durbin -Watson

Az R²változását az előző és az adott lépésbeli mérték különbsége adja, a változás jelentőségét az F-teszt alapján ítélhetjük meg. Az F-próba változásának szignifikanciáját is F-teszt méri.

Az ANOVA táblázat is lépésenként készül. Az MSR, az MSE és az F-hányados az első négy lépesben fokozatosan csökken, majd az ötödik lépésben a redundáns változó elhagyása után mindhárom magasabb lesz. (4.8. táblázat)

4.8. táblázat: Szórásnégyzet felbontása lépésenként

ANOVA

42,832 1 42,832 58,006 ,000

53,904 73 ,738

96,737 74

47,453 2 23,727 34,663 ,000

49,283 72 ,684

96,737 74

50,426 3 16,809 25,770 ,000

46,310 71 ,652

96,737 74

54,644 4 13,661 22,719 ,000

42,092 70 ,601

96,737 74

53,658 3 17,886 29,479 ,000

43,079 71 ,607

A regressziós együtthatók becslése az elemzés célja.

Az együtthatókat sztenderd hibáikkal osztva a t-teszt értékét kapjuk. A lépésenkénti eljárás hatására csak a nullától szignifikánsan különböző együtthatójú változók maradnak a modellben. Ha az induló adatokat sztenderdizáljuk, akkor egyből sztenderdizált együtthatókat, bétákat kapunk, amelyek az x 1%-os változásának y-ra gyakorolt hatását fejezik ki.

A táblázatban szereplő zero-order korrelációk az adott x és az y közötti közönséges Pearson korrelációk. A parciális korrelációk (4.19) a már bevont magyarázó változók hatását szűrik ki, ezért alacsony értékük (például a 4. lépésben a női várható élettartam bevonása után a csecsemőhalandóság) multikollinearitásra utal. A rész-korreláció a parciális korreláció számlálója.

A kollinearitási statisztika két mutatót ad. A tolerancia=1- R_i ², azaz az i-edik változónak az összes többi magyarázó változóval való determinációs együtthatójának komplementere. Értéke 1, ha egy magyarázó változó van, utána egyre csökken. Már a 3. lépésben erős multikollinearitás van, amint azt a korrelációs mátrixnál is észleltük.

A VIF a tolerancia reciproka. A 4. lépéstől az egymással szorosan korreláló férfi és női várható élettartam együtt szerepel a végső modellben, ezért a VIF túl magas, két változóra is öt felett van. (4.9. táblázat) Ezek alapján a modell alkalmazása megkérdőjelezhető.

4.9. táblázat: A regressziós modell együtthatói

Az éves népesség növekedést becslő egyenletben a konstans (3,331) mellett a GDP/fő és a férfi valamint a női várható élettartam szerepel. Ez a három magyarázó változó egymással is szorosan korrelál – a tolerancia alacsony, a VIF pedig túl magas – ezért a modellben gondok lesznek. A sztenderdizált regressziós együtthatók alapján a női várható élettartam hatása a legerősebb, mivel a -2,203 abszolút értékben meghaladja a másik két bétát.

A modellben nem szereplő változók listájából a következő lépést lehet megállapítani. A (k+1) lépésben az a változó kerül bevonásra, amelynek a legnagyobb (és még szignifikáns) a t-tesztje. (4.10. táblázat)

A sajátértékek és a kondíciós indexek a 4.11. táblázatban találhatók. Látható, hogy minden lépésben egy nagy⁷³ sajátérték van, ami arra utal, hogy maximum két független dimenzió van, amibe a magyarázó változók tömöríthetők. A kondíciós index már a 3. lépésben meghaladja a veszélyes szintet, a 30-t. A regressziós együtthatók varianciáinak szétosztása nem sikerült, már a második lépés magas variancia hányadot jelez. (A számok százalékosan értelmezhetők.) A magyarázó változók mögött azonos sajátérték húzódik meg, ezért tömöríthetők, egymástól nem függetlenek. Ilyen esetben érdemes főkomponens vagy faktor előállítására gondolni.

73 Az egységnyinél nagyobb sajátérték számít „nagynak”. Erről részletes magyarázatot a főkomponensek ismertetésekor adunk.

4.10. táblázat: A még be nem vont változók statisztikái

4.11. táblázat: Sajátértékek és variancia hányadok

A reziduálisok statisztikái

Először két országot látunk a 4.12. táblázatban, amelyek sztenderdizált reziduálisa kívül esnek a (-3;+3) intervallumon. Mindkettőnek pozitív előjele van, azaz a modell alulbecsli a megfigyelt értéket. Felülbecslés negatív reziduális esetén fordul elő.

4.12. táblázat: Kilógó megfigyelések

Casewise Diagno stics^a

Kuwait 4,497 5,2 1,737 3,503

U.Arab

Em. 4,348 4,8 1,413 3,387

Case Number

Dependent Variable: Population increase (% per year)) a.

A további (4.22)-(4.25) képletek szerint számított reziduálisokat megfigyelésenként az adatállományhoz csatolja az SPSS, míg a főbb statisztikai jellemzőket összefoglaló táblába rendezve kapjuk meg. (4.13. táblázat)

4.13. táblázat: A reziduálisok statisztikái

Resid uals Statistics^a

,149 3,544 1,753 ,812 109

-1,964 2,023 -,079 ,954 109

,106 ,348 ,178 5,001E-02 109

9,415E-02 3,544 1,756 ,818 109

-1,936 3,503 -7,10E-02 ,850 109

-2,485 4,497 -,091 1,091 109

-2,450 4,572 -,089 1,095 109

-1,936 3,620 -7,33E-02 ,873 109

-2,452 5,404 -,083 1,134 109

,375 13,787 3,095 2,367 109

,000 ,196 ,014 ,029 109

,005 ,186 ,042 ,032 109

Predicted Value

Minimum Maxim um Mean

Std.

Deviation N

Dependent Variable: Population increase (% per year)) a.

Itt megállapítható, hogy a különböző reziduálisok mindegyike inkább jobbra ferde, mint szimmetrikus, hisz a reziduálisok átlagai a minimum és a maximum között nem középen vannak. A reziduálisok az adatállományban egyenként is megőrzésre kerülnek, és részletesen értékelhetők a különböző hibatagok. Minden hiba-számítási mód mellett a 4.12. táblázatban látott két megfigyelés, a 80. Kuwait és a 87.

Egyesült Arab Emirátusok lóg ki a megfigyelések közül. Ezen országok illeszkedése

is gyenge. A (4.29) képlet szerinti StDfFits értékeket úgy kapjuk meg, ha az origóhoz igazított hatás-értékekhez hozzáadjuk az 1/n=1/75 számot.

Az origóhoz tolt hatás (leverage) maximális mértéke alatta marad az óvatosságra intő 0,2 küszöbnek. A maximális értéket Brazília éri el, ezért a (26) összefüggés alapján a Mahalanobis távolság maximuma (13,787) is Brazíliához tartozik.

Lettország (11,5) és Ukrajna (9,5) távolságai szintén nagyok. Ugyanakkor a Cook-féle távolság sehol sem haladja meg az egyet, ezért igazi outliereket nem tudunk azonosítani.

A kovariancia hányados erősen ingadozik az egy körül, többször kilép abból a sávból, amit az 1±3p/n képlet megad. (4.3. ábra) Nagyobb a kovariancia mátrix determinánsa, ha Brazíliát vagy Lettországot hagyjuk ki (1,2 feletti hányadosok).

Csökken a determináns, ha Kuvait vagy az Egyesült Arab Emirátusok marad ki (0,4 alatti CR).

P o p u la t io n in c r e a s e (% p e r y e a r) )

6 5

4 3

2 1

0 -1

1 , 4

1 , 2

1 , 0

, 8

, 6

, 4

, 2

4.3. ábra: Kovariancia hányados

Reziduálisok ábrái

a) A reziduálisok statisztikáiból láttuk, hogy a 80. és 87. országok rontják az illeszkedést. A 4.4/a. ábrán még e két ország reziduálisai is szerepelnek, míg a 4.4/b hisztogram a kihagyásukkal készült regressziós modell sztenderdizált hibatagjait mutatja.

Standardized Residual

Population increase (% per year))

Frequency

Population increase (% per year))

Frequency

4.4/a. ábra 109 ország hibatagjai 4.4/b. ábra: 107 ország hibatagjai b) Normális valószínűség ábrája: Ha a reziduálisok normális eloszlást követnek, a pontok a 45 fokos egyenes mentén helyezkednek el. A sztenderdizált reziduálisokat és a normális eloszlás feltételezésével várt hibatagokat jelző pontok a 4.5. ábrán nem esnek az egyenesre, de nincs is markáns eltérés köztük.

Általában elmondható, hogy az egyenes alatti vagy feletti pontok a szimmetria hiányát jelzik. Az egyenes elejénél vagy végénél lévő néhány távoli pont kilógó megfigyelésekre utalna. Ha a pontsorozat távolodik, akkor lapult vagy csúcsos az eloszlás.

Normal Prob.Plot Stand.Residu Population increase (% per yea

Observed Cum Prob

1,00

4.5. ábra: A sztenderd reziduálisok normális eloszlásának grafikus vizsgálata c) Szokás az is, hogy a vízszintes tengelyen y-t vagy valamelyik x változót, a függőleges tengelyen a reziduálist tüntetjük fel. A nulla körüli, nem növekvő, függvénykapcsolatot nem mutató reziduálisok a lineáris modell megbízhatóságát

támasztják alá. A 4.6. ábrán a 80. és 87. országok a nagy reziduálisok miatt külön állnak, és a hibatagok növekednek⁷⁴.

Population increase (% per year))

6 5 4 3 2 1 0 -1

Unstandardized Residual

-1

-2

4.6. ábra: A függő változó mentén növekvő reziduálisok

Az átlag körüli és az egyedi megfigyelésekhez tartozó 95%-os megbízhatósági szintű konfidencia sávok is ábrázolhatók a Graphs/Line/Multiple beállítással.

Nagyon sok ország megfigyelt népességnövekedése esik kívül az alsó és a felső becsült értéken.

A független változók közül kettőt kiválasztva mutatjuk be a hibatagok viselkedését. A 4.7. ábrán a GDP/fő változóra csökkenő, a férfiak várható élettartamára vetítve növekvő reziduálisokat látunk.

74 Ilyenkor adat-transzformációt ajánlott alkalmazni, pl. y vagy x, esetleg mindkettő logaritmusát célszerű venni.

Gross domestic product / capita

30000 20000

10000 0

-10000

Unstandardized Residual

-1

-2

Average male life expectancy

80 70

60 50

Unstandardized Residual

-1

-2

4.7. ábra: A magyarázó változók és a reziduálisok

d) A Studentizált – sorkihagyással számolt – reziduálisokat az y tengelyen, a standardizált becsült értékeket az x tengelyen ábrázolva a modell érvényessége jól szemléltethető. A normalitás teljesülése esetén a reziduálisok 95%-a (-2;+2) közé esik. A 4.8. ábrán felfelé nagyon kilógó (80, 87) országokat már azonosítottuk. Lefelé haladva kicsivel (–2) alatt találjuk balról jobbra haladva Bulgáriát, Romániát és Kínát, ahol jóval kevesebb gyerek születik, mint amennyit a modell alapján várunk. Éppen 5 kilógó ország fér bele száz körüli minta esetén a 95%-os tartományba.

Itt a minta mérete és a hiányzó adatok kezelése kapcsán fontos technikai megjegyzést kell tennünk:

- 109 ország van a World95.sav-ban. De csak 75 országnak van teljes adatsora a regressziós modellben felsorolt függő és magyarázó (1+6) változóra. Ezért a táblák egy részében, például a 7. és 8. táblázatban n=75-ből számolt szabadságfok szerepel.

- A változószelekciót követően azonban kimarad az a három magyarázó változó, amelyeknek 34 országra hiányzik értéke. Így a felépített regressziós modellt már 109 ország adataiból becsülte az SPSS. Reziduálist is 109 országra számol és ábrázol a számítógép.

Standardized Predicted Value

3 2 1 0 -1 -2 -3

Studentized Deleted Residual

In document Többváltozós adatelemzés (Pldal 110-123)