A reziduális szórás (s):
4.1 ábra: A regressziós modellezés lépései A regresszió.xls parancsfájl működése 154F
4.1.1 Az Adat munkalap
A munkalap két nagyobb egységből áll. A bal oldali, sárgával jelölt terület az adatok tárolására, bevitelére szolgál, itt kell rögzíteni az aktuális adatállományt. Új adatok bevitele előtt a megjelenő mintafeladat adatállományát az adatok törlése gombra való kattintással törölhetjük. Az új adatok beillesztése a szoká-sos módon történhet, ám szükséges az adatok értékként való beillesztése, annak érdekében, hogy a pa-rancsfájl formátuma megmaradjon.
A jobb oldali egység a regressziós modell alapstatisztikáit közli.
Regressziós statisztika:
- R: többszörös korrelációs együttható;
- R : többszörös determinációs együttható; 2 - R : korrigált determinációs együttható; 2 - s: modell standard hibája;
- n: megfigyelések száma.
Varianciaanalízis: a többváltozós regressziós modell varianciaanalízis táblája.
Regressziós együtthatók:
- együtthatók értéke és standard hibája, t-értékei, p-értékei és konfidencia intervallumai (tetszőleges megbízhatósági szinten);
- változók bevonásáról/kihagyásáról döntő jelölőnégyzetek.
A formátum tehát követi az Excel adatelemző menüpontja által használtat, azzal a különbséggel, hogy az egyes cellák most Excel függvényeket tartalmaznak, így az adatok megváltozásának hatása azonnal nyo-mon követhető az alaperedményeken. Szintén eltérés a beépített funkcióhoz képest, hogy az eredeti ada-tok meghagyása mellett is kihagyhatunk, illetve újra bevonhatunk változókat a paraméterek soraiban ta-lálható jelölőnégyzetek segítségével.
A varianciaanalízis tábla segítségével a modell globális próbáját végezhetjük el. A hipotézisrendszerről való döntés – didaktikai okokból – két módon is elvégezhető: tetszőlegesen beállítható szignifikancia-szinthez tartozó kritikus érték, valamint p-érték alapján is.
A gyors parciális tesztelés lehetőséget biztosít a backward eliminációs módszer alkalmazására. A mód-szer lényege, hogy az első lépésben olyan regressziós függvényt határozunk meg, amely az összes meg-figyelt magyarázó változót tartalmazza, majd az így meghatározott regresszió függvényből kihagyjuk lé-pésenként azokat a változókat, amelyek nem járulnak hozzá szignifikánsan a reziduális négyzetösszeg csökkentéséhez. A változók szelektálásához a p-értékeket használjuk: ha a p-érték magasabb, mint amit megengedtünk (pl. 0,05), akkor elfogadjuk azt a nullhipotézist, hogy a regressziós paraméter nem külön-bözik szignifikánsan a nullától. Amennyiben több változó p-értéke is a kívántnál magasabb, úgy a leg-magasabb értékkel rendelkező változót hagyjuk ki. Az eliminációt addig folytatjuk, míg valamennyi be-vont paraméter szignifikáns nem lesz.
A változók szelektálását természetesen elvégezhetjük a multikollinearitás, vagy a homoszkedaszticitás parciális tesztjei, vagy szakmai ismeretek alapján is.
A felhasznált képletek:
R=a korrelációs mátrix156F151, amely négyzetes és mérete (k+1)*(k+1), az első sor és oszlop az eredményvál-tozó, a többi sor és oszlop pedig a magyarázó változó korrelációs együtthatóit tartalmazza, a mátrix szimmetrikus, a mátrix az egyszerű, kétváltozós korrelációs együtthatókból áll, számításukat a mátrix alatt tüntettük fel, a diagonális elemek (adott változó önmagával számított korrelációja) 1-gyel egyenlők.
151 A Mátrix munkalapon található.
R = a többszörös korrelációs együttható:
yy
R 1 1
q Ahol qyy a korrelációs mátrix inverzéből (R-1=Q) nyerhető:
yy y1 y2 yk együttesen milyen szoros kapcsolatban vannak.
R2 = a többszörös determinációs együttható (jele: R2) kifejezi, hogy mekkora hányadban magyarázzák meg együttesen a magyarázó változók az eredményváltozó varianciáját (szórásnégyzetét). A kapcsolatok jellegének minősítésén túl fontos szerepet tölt be a többszörös determinációs együttható a regressziós modell megítélésében. A mutató nagyobb értéke egyben azt is jelenti, hogy jobban illeszkedik a modell.
2
yy
R 1 1
q
R~2 = a korrigált determinációs együttható: a többváltozós regressziós modellek esetében gyakran fellép-het egy olyan jelenség, amely félreinformálhatja az elemzőt. Az R2 ugyanis nagyobb magyarázó erővel bír, ha több magyarázó változó hatása szerepel benne, függetlenül attól, hogy valóban releváns hatást fejt-e ki mindegyik magyarázó változó. (Például megtévesztő lehet az R2 alapján két modell összehason-lítása, ha az egyik három, a másik hét magyarázó változót tartalmaz.) A modellek összehasonlítása eseté-ben a különböző számú magyarázó változóból eredő problémát próbálja feloldani az ún. korrigált vagy a szabadságfokokkal korrigált determinációs együttható (jele: R~2):
Az s = a modell általános standard hibája, jelzi az illeszkedés jóságát, a modell annál pontosabban illesz-kedik, minél kisebb az értéke. Meghatározására a regressziós paraméterek ismeretében kerülhet sor, ami-kor kiszámítva az y eredményváltozó becsült értékeit ˆy képezhetjük a reziduumokat e y y ˆ.
A regressziós modell egészének tesztelése, a globális F-próba
A varianciaanalízis az Adat munkalapon jelenik meg. A varianciaanalízis összefoglalja az alábbi nullhi-potézis ellenőrzésére vonatkozó eredményt. Nullhinullhi-potézisünk az, hogy a magyarázó változók regressziós együtthatói mind 0-k, az alternatív hipotézis szerint létezik legalább egy 0-tól eltérő együttható.
0 1 2 k nullhipotézis a lineáris regresszió fennállásának tagadását jelenti és amennyiben igaz, úgy az eredmény-változó kizárólag a véletlen hatására szóródik; az alternatív hipotézis fennállása esetén a regressziós mo-dellt elfogadhatónak ítéljük. A nullhipotézis ellenőrzését az alábbi varianciaanalízis 4-1. tábla alapján végezhetjük el.
4-1. tábla: Varianciaanalízis157F152 Összetevő Négyzetösszeg
A többszörös determinációs együttható segítségével is ellenőrizhetjük a modell magyarázó erejét, az alábbi módon: számláló szabadságfoka k, a nevezőé (n-k-1), akkor a regressziós modellt elfogadhatónak ítéljük. Ellen-kező esetben elvetjük. Az F-próbával az egész modellt teszteljük, mert arra a kérdésre keressük a választ, hogy érdemes-e a regresszió-számítást, mint elemzési módszert alkalmazni. Ha nem jó a modell, tehát esetünkben a modellünk egészében rossz, akkor a regressziós modell alkalmazását elvetjük, és egysze-rűbb eljárásokkal, pl. átlagszámítással kell dolgozni. Elfogadjuk tehát a regressziós modellt pl. 5%-os
Nem fogadjuk el a regressziós modellt pl. 5%-os szignifikancia-szinten, ha:
A varianciaanalízis tábla segítségével tehát a modell globális próbáját végezhetjük el. A hipotézisrend-szerről való döntés – didaktikai okokból – két módon is elvégezhető: tetszőlegesen beállítható szignifi-kancia-szinthez tartozó kritikus érték, valamint p-érték alapján is, ezért mindkét eredményt közöljük..
152 Az eltérés-négyzetösszeg angol megfelelője (Sum of Squares) alapján SS szimbólummal jelöljük, R=Regression, E=Error, T=Total, df= degrees of freedom, MS=Mean Square.
Regressziós együtthatók:
- együtthatók értéke és standard hibája, t-értékei, p-értékei és konfidencia intervallumai (tetszőleges megbízhatósági szinten)
- változók bevonásáról/kihagyásáról döntő jelölőnégyzetek Az alkalmazott képletek:
A regressziós paraméterek (együttható: Eható) konfidencia-intervallumait (Alsó 95%) (Felső 95%) ki-számítja a parancsfájl, alapesetben a konfidencia intervallum 95% és tkrit=5%.
A bj regressziós paraméter konfidencia intervalluma
1
100 valószínűségi szinten %-ban:(1 2 )( n k 1) j
j b
b t s Ahol:
s = a j-ik paraméter standard hibája (St hiba), bj
t(12)(n k 1) = a Student-féle t-próba kritikus értéke az (n-k-1) szabadságfoknál, az α/2 szignifi-kancia-szinten.
Az általunk előre megválasztott szignifikancia-szint alapesetben 5%-os (p=0,05) valószínűség (konfiden-cia intervallum 95%), ami változtatható a sárga cellában: pl. 1% (konfiden(konfiden-cia intervallum 99% és tkrit=1%., p=0,01), 10 % (konfidencia intervallum 90% és tkrit=10%, p=0,1).
Az α szignifikancia-szint valószínűségének csökkentésével illetve a konfidencia intervallum valószínű-ségének növelésével az adott (n-k-1) szabadságfok esetén a Student-féle t-eloszlás kritikus értékei is na-gyobb számok lesznek és így a regressziós paraméterek konfidencia intervallumai is növekednek. Pl. ha az alapeset 95%-os konfidencia intervallum valószínűségét 99%-ra növeljük. Ez fordítva is igaz, az α szignifikancia-szint valószínűségének növelésével illetve a konfidencia intervallum valószínűségének csökkentésével az adott (n-k-1) szabadságfok esetén a Student-féle t-eloszlás kritikus értékei is kisebb számok lesznek és így a regressziós paraméterek konfidencia intervallumai is csökkennek. Pl. az alapeset 95%-os konfidencia intervallum valószínűségét 90%-ra csökkentjük.
A Backward eliminációs módszer
A paraméterek szeparált tesztelésénél tehát a nullhipotézisünk az, hogy a j-edik (j=1,2…k) regressziós paraméter értéke 0, az alternatív hipotézisünk pedig az, hogy nem, azaz
0 j
1 j
H : =0 H : 0
A nullhipotézis elfogadása azt jelenti, hogy a j-edik magyarázó változó nem magyarázza az eredményvál-tozót, tehát a modellben való megtartása felesleges, esetleg káros.
A próbafüggvény a nullhipotézis fennállása esetén
(1 2 )( n k 1) j
j b
t b t
s
A próbafüggvény a nullhipotézis elutasítása esetén
(1 2)( n k 1) j
j b
t b t
s
Ahol
bj= j-edik regressziós együttható becsült értéke, (együttható: Eható)
sbj= j-edik regressziós együttható becsült standard hibája, (St hiba)
Ezt a próbát parciális t-próbának, vagy röviden csak regressziós t-próbának hívjuk. A próbát külön-külön valamennyi regressziós becsült paraméterre el kell végezni, és ennek alapján képet kapunk arról, hogy az
egyes változók lényeges mértékben járulnak-e hozzá az eredményváltozó magyarázatához, vagyis az eredményváltozó reziduális varianciájának csökkentéséhez.
Az első lépésben tehát minden változót bevonunk, és ha a p-értékek (szignifikancia-szint 5%) mindegyi-ke 0,05-nél kisebb akkor a regressziós függvényt optimálisnak tekintjük. Ha találunk olyan paramétert, ahol a p érték nagyobb, mint 0,05, amit a piros szín is jelez, akkor dönthetünk a változó kihagyásáról, ha pedig több ilyen paraméter található, akkor célszerű először azt a váltózót kihagyni, amelyiknél a p értéke a legnagyobb. Ezt addig folytatjuk, amíg a p értékek mindegyike 0,05-nél kisebb lesz és a modell az el-méleti feltételeknek is megfelel.