Az adatok áttekintése, előzetes megfontolások

2. Kategóriák és kereszttáblák elemzése

4.1. Az adatok áttekintése, előzetes megfontolások

Az induló adatok között szereplő változókat intervallum vagy arány skálán mérjük, és feltételezzük, hogy az n számú megfigyelés homogén sokaságból származik. Az y függő változó normális elosztást követő n elemű oszlopvektor. A p darab magyarázó változót és a konstanshoz tartozó egyeseket az n(p+1) méretű X mátrix tartalmazza.

A magyarázó változók között kétértékű, dummy változók is szerepelhetnek.

A regressziószámítás két legfőbb lépése az együtthatók becslése és a regressziós modell tesztelése. De sok egyszerű numerikus és grafikus vizsgálati lépést megtehetünk a becslés és a tesztelés előtt. A ferdeség és csúcsosság mellett a relatív szórás kiszámítása képet ad az y változóról. Grafikus módszerekkel, például 2-3 dimenziós pontdiagram készítésével már a regressziós modell felállítása előtt meggyőződhetünk arról, hogy közelítően teljesülnek-e az előfeltételek, használható lesz-e a regressziós modell. Mivel grafikus ábra magasabb dimenzióban nem készíthető, ezek a lépések nem helyettesítik a modell jóságát vizsgáló teszteket, de a teljesen hasznavehetetlen számítások megelőzésére alkalmasak.

Az y és egy-egy x változó pontdiagramján láthatóvá tehetünk sok fontos részletet.

Ebben az alfejezetben⁵⁵ a Kerületek2010.sav adatállományt használjuk. A 4.1. ábra Budapest 23 kerületének és az agglomeráció további 27 településének népességszámát és az önkormányzati bevétel nagyságát mutatja. Ez az ábra alkalmas arra, hogy ellenőrizzük a 4.1. táblázatban szereplő követelményeket. Érdemes további lehetséges magyarázó változókra is ábrát készíteni a modell illesztése előtt.

55 A kerületek adatainak további elemzése a 4.2.10-ben szerepel.

4.1. ábra: Kilógó pontok hatása a regressziós egyenesre

A 4.1. ábrán látható kilógó pontok szerepeltetése az adatok között meredekebb regressziós egyenest eredményezne. Ha mindkét változó mentén kilógó megfigyelést találunk, annak kettős hatása lehet:

• Ha a megfigyelt lineáris tendencia mentén – de a többiektől távolabb – van egy pont, akkor szerepeltetése a mintában felerősíti a modell jóságát.

• Ha nem a megfigyelt lineáris tendencia mentén találunk távolabbi pontot, akkor a pont elhagyása javítja az illeszkedést, figyelembe vétele pedig nem lineáris modellt igényel.

4.1. táblázat: Mikor alkalmasak az adatok lineáris regressziós modell illesztésére?

Elméleti követelmények Következtetés a pontdiagram alapján Döntés Lineáris-e a kapcsolat, jogos-e a

lineáris modell illesztése, vagy más függvénytípust célszerű feltételezni?

A népességszám és az önkormányzati bevétel együttes növekedése, lineáris kapcsolata fennáll.

Az x növekedésével az y adatok szórása változatlan marad-e, a hibatag konstans szórása feltételezhető-e?

A népesség növekedésével az önkormányzati bevételek szórása enyhén növekedik, bár a kisebb lakosság mellett is van két helyen jelentősebb eltérés az általános tendenciától.

Vannak-e kilógó pontok, és milyen az elhelyezkedésük? Egy vagy mindkét dimenzióban kilógnak-e?

Budapest V. kerülete és Budaörs népességszáma alapján inkább kicsik, míg a bevételük jóval magasabb, tehát az egyik dimenzióban kilógó

megfigyelések.

Homogén-e a minta, vagy alminták láthatók, amelyekben más-más tendencia érvényesül a változók között?

Az adatok homogenitása megfelelő, nem mutatnak a fővárosi kerületek más tendenciát, mint a környékbeli települések.

Az egyes x pontokhoz tartozó y értékek normális eloszlást⁵⁶ követnek-e, a tesztek elvégezhetőek lesznek-e?

Ez csak hisztogramon látható, vagy a ferdeség és csúcsosság mutatókkal írható le. Statisztikailag elfogadható a feltevés.

Ha összegezzük döntéseinket – amiket természetesen a további magyarázó változókra is elvégeztünk –, akkor már csak a magyarázó változók egymás közötti korreláltságát kell megvizsgálnunk, hogy választani tudjunk a modellépítés két útja között:

I) Megerősítő szemlélet: A szakmai tudásunk alapján előre rögzített magyarázó változók körét egyszerre, egy lépésben vonjuk be a modellbe. Így bekerülhet a modellbe statisztikai értelemben nem szignifikáns magyarázó változó is. Ekkor a modell utólagos értékelésével győződünk meg arról, hogy elfogadható-e a modell egésze, és minden változó szignifikáns szerepet játszik-e a becslésben.

II) Feltáró szemlélet: A lehetséges magyarázó változók halmazát megadva lépésenkénti regressziós eljárással minden lépésben egy-egy változót vonunk

56 A normalitás a regressziós együtthatók becsléséhez nem szükséges, csak akkor kell feltételeznünk, ha t-próbát végzünk, és konfidencia intervallumot írunk fel.

be⁵⁷ a modellbe, és a bevont változók elhagyhatóságát is lépésenként ellenőrizzük. Így olyan modell adódik, ami statisztikai értelemben a „lehető legjobb”, de előfordulhat, hogy szakmailag nehezebben értelmezhető.

A kétféle megvalósítás számítási lépései nem térnek el érdemben. Minden illesztett modell jóságát négy fő lépésben értékelhetjük:

a) Parciálisan vizsgáljuk egy-egy magyarázó változó hatását/erejét t-próbával.

b) Vizsgáljuk azt, hogy az összes magyarázó változó együttesen szignifikáns kapcsolatban van-e az eredményváltozóval, ezért mérjük az R² és a korrigált R² értékét, valamint elvégezzük az F-próbát.

c) A hibatagok megfelelő viselkedését ellenőrizzük.

d) A megfigyeléseknek a becslésre gyakorolt egyedi hatását vizsgálni kell.

Az eddig ismertetett döntési pontokat a 4.2. táblázatban foglaljuk össze.

4.2. táblázat: A regressziós modellek és tesztek áttekintése Regressziós

modell

I) megerősítő II) feltáró

Változók bevonása

egyszerre, egy lépésben szelektálva a) Változók

ereje

minden változót tesztelni kell (t-próba), és a változók között lehet multikollinearitás

minden bevont változó szignifikáns (de a konstans nem mindig!) b) Modell

egésze

az R² és a korrigált R², valamint az

F-próba alapján minősítjük az adott változókörből ez a legjobb lineáris modell, de ez elég jó-e?

c) Hibatagok normális eloszlását és

homo-szkedasztikus jellegét ellenőrizni kell azonos az I) modellel d) Egyedi

megfigye-lések hatása

a túlzott áttétel-hatást mérni, vizsgálni kell, és a zavaró pontokat elhagyni

azonos az I) modellel

57 A változók lépésenkénti bevonása mellett van a teljes modellből induló, a változókat lépésenként kihagyó változat is, ezekkel majd a megvalósítási részben foglalkozunk.

In document Többváltozós adatelemzés (Pldal 91-95)