2. Kategóriák és kereszttáblák elemzése
4.1. Az adatok áttekintése, előzetes megfontolások
Az induló adatok között szereplő változókat intervallum vagy arány skálán mérjük, és feltételezzük, hogy az n számú megfigyelés homogén sokaságból származik. Az y függő változó normális elosztást követő n elemű oszlopvektor. A p darab magyarázó változót és a konstanshoz tartozó egyeseket az n(p+1) méretű X mátrix tartalmazza.
A magyarázó változók között kétértékű, dummy változók is szerepelhetnek.
A regressziószámítás két legfőbb lépése az együtthatók becslése és a regressziós modell tesztelése. De sok egyszerű numerikus és grafikus vizsgálati lépést megtehetünk a becslés és a tesztelés előtt. A ferdeség és csúcsosság mellett a relatív szórás kiszámítása képet ad az y változóról. Grafikus módszerekkel, például 2-3 dimenziós pontdiagram készítésével már a regressziós modell felállítása előtt meggyőződhetünk arról, hogy közelítően teljesülnek-e az előfeltételek, használható lesz-e a regressziós modell. Mivel grafikus ábra magasabb dimenzióban nem készíthető, ezek a lépések nem helyettesítik a modell jóságát vizsgáló teszteket, de a teljesen hasznavehetetlen számítások megelőzésére alkalmasak.
Az y és egy-egy x változó pontdiagramján láthatóvá tehetünk sok fontos részletet.
Ebben az alfejezetben55 a Kerületek2010.sav adatállományt használjuk. A 4.1. ábra Budapest 23 kerületének és az agglomeráció további 27 településének népességszámát és az önkormányzati bevétel nagyságát mutatja. Ez az ábra alkalmas arra, hogy ellenőrizzük a 4.1. táblázatban szereplő követelményeket. Érdemes további lehetséges magyarázó változókra is ábrát készíteni a modell illesztése előtt.
55 A kerületek adatainak további elemzése a 4.2.10-ben szerepel.
4.1. ábra: Kilógó pontok hatása a regressziós egyenesre
A 4.1. ábrán látható kilógó pontok szerepeltetése az adatok között meredekebb regressziós egyenest eredményezne. Ha mindkét változó mentén kilógó megfigyelést találunk, annak kettős hatása lehet:
• Ha a megfigyelt lineáris tendencia mentén – de a többiektől távolabb – van egy pont, akkor szerepeltetése a mintában felerősíti a modell jóságát.
• Ha nem a megfigyelt lineáris tendencia mentén találunk távolabbi pontot, akkor a pont elhagyása javítja az illeszkedést, figyelembe vétele pedig nem lineáris modellt igényel.
4.1. táblázat: Mikor alkalmasak az adatok lineáris regressziós modell illesztésére?
Elméleti követelmények Következtetés a pontdiagram alapján Döntés Lineáris-e a kapcsolat, jogos-e a
lineáris modell illesztése, vagy más függvénytípust célszerű feltételezni?
A népességszám és az önkormányzati bevétel együttes növekedése, lineáris kapcsolata fennáll.
+
Az x növekedésével az y adatok szórása változatlan marad-e, a hibatag konstans szórása feltételezhető-e?
A népesség növekedésével az önkormányzati bevételek szórása enyhén növekedik, bár a kisebb lakosság mellett is van két helyen jelentősebb eltérés az általános tendenciától.
?
Vannak-e kilógó pontok, és milyen az elhelyezkedésük? Egy vagy mindkét dimenzióban kilógnak-e?
Budapest V. kerülete és Budaörs népességszáma alapján inkább kicsik, míg a bevételük jóval magasabb, tehát az egyik dimenzióban kilógó
megfigyelések.
-
Homogén-e a minta, vagy alminták láthatók, amelyekben más-más tendencia érvényesül a változók között?
Az adatok homogenitása megfelelő, nem mutatnak a fővárosi kerületek más tendenciát, mint a környékbeli települések.
+
Az egyes x pontokhoz tartozó y értékek normális eloszlást56 követnek-e, a tesztek elvégezhetőek lesznek-e?
Ez csak hisztogramon látható, vagy a ferdeség és csúcsosság mutatókkal írható le. Statisztikailag elfogadható a feltevés.
+
Ha összegezzük döntéseinket – amiket természetesen a további magyarázó változókra is elvégeztünk –, akkor már csak a magyarázó változók egymás közötti korreláltságát kell megvizsgálnunk, hogy választani tudjunk a modellépítés két útja között:
I) Megerősítő szemlélet: A szakmai tudásunk alapján előre rögzített magyarázó változók körét egyszerre, egy lépésben vonjuk be a modellbe. Így bekerülhet a modellbe statisztikai értelemben nem szignifikáns magyarázó változó is. Ekkor a modell utólagos értékelésével győződünk meg arról, hogy elfogadható-e a modell egésze, és minden változó szignifikáns szerepet játszik-e a becslésben.
II) Feltáró szemlélet: A lehetséges magyarázó változók halmazát megadva lépésenkénti regressziós eljárással minden lépésben egy-egy változót vonunk
56 A normalitás a regressziós együtthatók becsléséhez nem szükséges, csak akkor kell feltételeznünk, ha t-próbát végzünk, és konfidencia intervallumot írunk fel.
be57 a modellbe, és a bevont változók elhagyhatóságát is lépésenként ellenőrizzük. Így olyan modell adódik, ami statisztikai értelemben a „lehető legjobb”, de előfordulhat, hogy szakmailag nehezebben értelmezhető.
A kétféle megvalósítás számítási lépései nem térnek el érdemben. Minden illesztett modell jóságát négy fő lépésben értékelhetjük:
a) Parciálisan vizsgáljuk egy-egy magyarázó változó hatását/erejét t-próbával.
b) Vizsgáljuk azt, hogy az összes magyarázó változó együttesen szignifikáns kapcsolatban van-e az eredményváltozóval, ezért mérjük az R2 és a korrigált R2 értékét, valamint elvégezzük az F-próbát.
c) A hibatagok megfelelő viselkedését ellenőrizzük.
d) A megfigyeléseknek a becslésre gyakorolt egyedi hatását vizsgálni kell.
Az eddig ismertetett döntési pontokat a 4.2. táblázatban foglaljuk össze.
4.2. táblázat: A regressziós modellek és tesztek áttekintése Regressziós
modell
I) megerősítő II) feltáró
Változók bevonása
egyszerre, egy lépésben szelektálva a) Változók
ereje
minden változót tesztelni kell (t-próba), és a változók között lehet multikollinearitás
minden bevont változó szignifikáns (de a konstans nem mindig!) b) Modell
egésze
az R2 és a korrigált R2, valamint az
F-próba alapján minősítjük az adott változókörből ez a legjobb lineáris modell, de ez elég jó-e?
c) Hibatagok normális eloszlását és
homo-szkedasztikus jellegét ellenőrizni kell azonos az I) modellel d) Egyedi
megfigye-lések hatása
a túlzott áttétel-hatást mérni, vizsgálni kell, és a zavaró pontokat elhagyni
azonos az I) modellel
57 A változók lépésenkénti bevonása mellett van a teljes modellből induló, a változókat lépésenként kihagyó változat is, ezekkel majd a megvalósítási részben foglalkozunk.