• Nem Talált Eredményt

Megoldások

In document Többváltozós adatelemzés (Pldal 125-134)

2. Kategóriák és kereszttáblák elemzése

4.12. Megoldások

1. feladat

A függőváltozó (Önkormányzati bevétel) normális eloszlása elvárás. A normalitás ellenőrizhető grafikusan és numerikusan is.

a) Grafikusan két lehetőség is adódik:

i) Hisztogram

ii) QQ plot: a 45 fokos egyenestől a kisebb értékeknél tapasztalunk eltérést, azaz a kis önkormányzati bevétellel rendelkező települések gyakoribbak, mint a normális eloszlás szerint várt előfordulás.

b) Numerikusan több adatot nézhetünk:

i) ferdeség 0,417 ±2*0,337 és csúcsosság -1,002±2*0,662 mérőszámok konfidencia intervallumai tartalmazzák a nullát, az eltérés nem szignifikáns

ii) Kolmogorov-Szmirnov vagy Shapiro-Wilk teszt (éppen n=50 a megfigyelések száma)

Tests of Normality

Kolmogorov-Smirnova Shapiro-Wilk Statistic df Sig. Statistic df Sig.

Önkormányzatibev ,132 50 ,029 ,916 50 ,002

a. Lilliefors Significance Correction

Mindkét tesztre 5%-os szignifikancia szinten elvethető a normális eloszlás.

Teljesül a normalitás? Nem egyértelmű a válasz! De a ferdeség és csúcsosság értékekre tekintettel elkészítjük a regressziós becslést.

Figyelem! Érdemes kipróbálni a következőket, bár egyik révén sem kapunk a tesztek szerint normális eloszlást:

- az önkormányzati bevétel logaritmusa normális eloszlású-e - az egy főre jutó önkormányzati bevétel eloszlása milyen?

- az egy főre jutó önkormányzati bevétel logaritmusa milyen alakú?

2. feladat

a) A relatív szórások (szórás/átlag hányadosok) közül néhány meghaladja az egyet, de a kettőt egyik sem közelíti meg. Tehát a változók mentén a minta nem heterogén.

b) A 7 magyarázó változók közötti páronkénti korreláció mind szignifikáns és pozitív. A legkisebb r=0,629 (épített lakások és vendéglátóhely), a legnagyobb r=0,980 ( népesség szám és lakásállomány)

c) A Stepwise eljárás fontos, mert nagyon jelentős multikollinearitás áll fenn.

3. feladat

Lineáris regressziós modellben az 50 település adatai alapján az önkormányzati bevétel becslésére

a) 4 lépésben 3 magyarázó változót von be, de csak kettőt tart bent.

1. lépés: az önkormányzati bevétellel legerősebben korreláló lakásállomány bevonása

2. lépés: a vendéglátóhely változó bevonása 3. lépés: népességszám bevonása

4. lépés: a népesség és a lakás változók erős korrelációja miatt lakásállomány változó kihagyása

Itt fontos figyelni arra, hogy ez a „legjobb” regressziós modell, ami a korlátozó feltételeket figyelembe véve felépíthető. De vajon a kiválasztott két változó helyett mind a hét magyarázó változó főkomponensbe tömörítve, egyetlen faktorként nem ad-e jó, használható becslést az önkormányzati bevételre? Az önkormányzati bevétel és a 7 változóból (83%-ot megőrző) faktor közötti korreláció= 0,899.

b) A modell illeszkedése nagyon jó, a korrigált R-négyzet 0,858.

- Az F-tesztek minden lépésben alátámasztják a lineáris modell létét.

- A két változó tolerancia értéke 0,379, és a variancia infláló faktor 2,641, ami nem túl magas. (Két magyarázó változó esetén indokolt, hogy közös a Tol és a VIF érték, hisz egymást magyarázzák.)

- A kondíciós index 5,222 értéke sem jelez a két változó és a konstans között túlzott erejű kapcsolatot.

c) A reziduálisok eloszlása a hisztogramon normálishoz közeli alakú.

3.feladat táblázata 2. feladat táblázata

A pontok szórása enyhe növekedést mutat, a nagyobb önkormányzati bevételhez kicsit magasabb sztenderdizált rezidálisok tartoznak (R-négyzet=0,137). Csak Budaörs (3,546) és az V. kerület esik kívül a [-2;+2] intervallumon, míg a XI.

kerület a határ közelében van.

d) Vannak-e kilógó kerületek/települések az adatok között?

- Itt a sztenderd reziduálisok ábrája alapján Budaörs és az V. kerület említhető.

Mindkettőnek alulbecsli az önkormányzati bevételét a modell.

- Az egyedi áttétel hatások és a Cook-távolság terében vizsgálva egyedül az V.

kerület kerül a kritikus értékeken kívülre.

Érdemes átgondolni, hogy Budaörs és Budapest V. kerület miben térnek el és miben hasonlítanak:

- A reziduálisaik nagyok, 2-4 közötti értékük azt jelzi, hogy jelentősen alulbecsülte a modell az ott mért önkormányzati bevételeket. Itt más magyarázó változók figyelembe vétele is indokolt lenne.

- Az áttétel hatása egyiknek sem éri el a 0,5-öt, tehát egyik elhagyása sem indokolt. De a 0,2 és 0,5 közötti érték arra utal, hogy a V. kerület a becslésre erősen hat.

- a Cook-távolság csak az V. kerületre magas. Ha elhagynánk az V.

kerületet a regressziós becslés során, akkor a 49 pontból készített regressziós becslés jelentősen eltérne az 50 pontból számolt modelltől.

e) A „kerület” státusz változó dummy-ként szerepelhetne a modellben, de nincs szignifikáns szerepe, ezért nem került bevonásra. Ez azt is jelenti, hogy a kerületekre és az agglomeráció településeire nem egymással párhuzamos modell illeszkedik.

Az adatállomány két része homogén, közös – lineáris – tendencia jellemzi a három változó kapcsolatát, amint ezt a 3D-s pontdiagram is mutatja.

4. feladat

Ha külön illesztünk lineáris regressziós modellt a 23 kerületre és a többi 27 falura/városra, nagyon eltérő regressziós modelleket kapunk. A számításokat két úron végezhetjük el:

i) A regressziós modellezésen belül Selection: Kerület=1 (majd 0) beállítással futtatva mind a kiválasztott, mind a másik almintára elkészül a becslés, és mindkét részre megkapjuk a főbb statisztikai jellemzőket.

ii) Ha előre leszűrjük az egyik almintát, és csak ezt használjuk a regressziós blokkban, akkor a másik almintára nem kapunk semmilyen eredményt.

Most az i) szerint jártunk el, és két részmodell eredményeit vetjük össze az a) –b) – c) kérdések mentén.

a) –c) kérdések

Kerületi adatok saját modellje

Kerületi adatok agglomerációra

Agglomerációs adatok saját modellje

Agglomerációs adatok kerületre

magyarázó változó(k)

lakásállomány lakásállomány Odavándorlás Építettlakások Elvándorlás

Odavándorlás Építettlakások Elvándorlás modell

illeszkedése

Többszörös R=0,851

Többszörös R=0,854 (!)

Többszörös R=0,939

Többszörös R=0,522 kilógó

települések

V. kerület Budaörs nincs 13 kerület

A kilógó kerületek/települések az adatok között nemcsak a felsorolásból, hanem a sztenderd reziduálisok ábrájáról is látható. Itt csak a kerületi adatok modelljéből számolt reziduálisokat mutatjuk be, de mindkét almintára. Látható, hogy az agglomeráció településeire határozottan növekednek a reziduálisok, tehát ott további magyarázó változók bevonása indokolt. Ez teljesül is, hisz az agglomerációra illesztett modellben 3 magyarázó változó szerepel. Ugyanakkor 3 három változós modellben a vándorlási mutatók VIF-értéke 40 feletti és a kondíciós index 26,687, a multikollinearitás tehát túl erősen van jelen. Mindent összevetve a két alminta együttes kezelésével statisztikai értelemben jobb modellt kaptunk.

5. feladat

a) Csak konstansban eltérő modellt illeszteni két almintára úgy lehet, hogy az almintát azonosító dummy (d= 0 vagy 1) változót a modellbe bevonjuk. Így

d b x b b

y =

0

+ +

2 az alapmodell lesz, ha d=0. Míg d=1-re b2–vel magasabb vagy alacsonyabb értéket becslünk b2 előjelétől függően.

b) Ha magas a kondíciós index, akkor a regressziós modell helyett faktor (vagy főkomponens) elemzés alkalmazása indokolt. De legyünk tudatában annak, hogy ez is a változók szoros lineáris kapcsolatára épít. Nem lineáris kapcsolat esetén előzetes linearizáló transzformáció indokolt.

In document Többváltozós adatelemzés (Pldal 125-134)