Az Adat munkalap

A reziduális szórás (s):

4.1 ábra: A regressziós modellezés lépései A regresszió.xls parancsfájl működése 154F

4.1.1 Az Adat munkalap

A munkalap két nagyobb egységből áll. A bal oldali, sárgával jelölt terület az adatok tárolására, bevitelére szolgál, itt kell rögzíteni az aktuális adatállományt. Új adatok bevitele előtt a megjelenő mintafeladat adatállományát az adatok törlése gombra való kattintással törölhetjük. Az új adatok beillesztése a szoká-sos módon történhet, ám szükséges az adatok értékként való beillesztése, annak érdekében, hogy a pa-rancsfájl formátuma megmaradjon.

A jobb oldali egység a regressziós modell alapstatisztikáit közli.

Regressziós statisztika:

- R: többszörös korrelációs együttható;

- R : többszörös determinációs együttható; ² - R : korrigált determinációs együttható; ² - s: modell standard hibája;

- n: megfigyelések száma.

Varianciaanalízis: a többváltozós regressziós modell varianciaanalízis táblája.

Regressziós együtthatók:

- együtthatók értéke és standard hibája, t-értékei, p-értékei és konfidencia intervallumai (tetszőleges megbízhatósági szinten);

- változók bevonásáról/kihagyásáról döntő jelölőnégyzetek.

A formátum tehát követi az Excel adatelemző menüpontja által használtat, azzal a különbséggel, hogy az egyes cellák most Excel függvényeket tartalmaznak, így az adatok megváltozásának hatása azonnal nyo-mon követhető az alaperedményeken. Szintén eltérés a beépített funkcióhoz képest, hogy az eredeti ada-tok meghagyása mellett is kihagyhatunk, illetve újra bevonhatunk változókat a paraméterek soraiban ta-lálható jelölőnégyzetek segítségével.

A varianciaanalízis tábla segítségével a modell globális próbáját végezhetjük el. A hipotézisrendszerről való döntés – didaktikai okokból – két módon is elvégezhető: tetszőlegesen beállítható szignifikancia-szinthez tartozó kritikus érték, valamint p-érték alapján is.

A gyors parciális tesztelés lehetőséget biztosít a backward eliminációs módszer alkalmazására. A mód-szer lényege, hogy az első lépésben olyan regressziós függvényt határozunk meg, amely az összes meg-figyelt magyarázó változót tartalmazza, majd az így meghatározott regresszió függvényből kihagyjuk lé-pésenként azokat a változókat, amelyek nem járulnak hozzá szignifikánsan a reziduális négyzetösszeg csökkentéséhez. A változók szelektálásához a p-értékeket használjuk: ha a p-érték magasabb, mint amit megengedtünk (pl. 0,05), akkor elfogadjuk azt a nullhipotézist, hogy a regressziós paraméter nem külön-bözik szignifikánsan a nullától. Amennyiben több változó p-értéke is a kívántnál magasabb, úgy a leg-magasabb értékkel rendelkező változót hagyjuk ki. Az eliminációt addig folytatjuk, míg valamennyi be-vont paraméter szignifikáns nem lesz.

A változók szelektálását természetesen elvégezhetjük a multikollinearitás, vagy a homoszkedaszticitás parciális tesztjei, vagy szakmai ismeretek alapján is.

A felhasznált képletek:

R=a korrelációs mátrix^156F¹⁵¹, amely négyzetes és mérete (k+1)*(k+1), az első sor és oszlop az eredményvál-tozó, a többi sor és oszlop pedig a magyarázó változó korrelációs együtthatóit tartalmazza, a mátrix szimmetrikus, a mátrix az egyszerű, kétváltozós korrelációs együtthatókból áll, számításukat a mátrix alatt tüntettük fel, a diagonális elemek (adott változó önmagával számított korrelációja) 1-gyel egyenlők.

151 A Mátrix munkalapon található.

 

R = a többszörös korrelációs együttható:

R 1 1

 q Ahol qyy a korrelációs mátrix inverzéből (R^-1=Q) nyerhető:

yy y1 y2 yk együttesen milyen szoros kapcsolatban vannak.

R²= a többszörös determinációs együttható (jele: R²) kifejezi, hogy mekkora hányadban magyarázzák meg együttesen a magyarázó változók az eredményváltozó varianciáját (szórásnégyzetét). A kapcsolatok jellegének minősítésén túl fontos szerepet tölt be a többszörös determinációs együttható a regressziós modell megítélésében. A mutató nagyobb értéke egyben azt is jelenti, hogy jobban illeszkedik a modell.

R 1 1

 q

R^~2 = a korrigált determinációs együttható: a többváltozós regressziós modellek esetében gyakran fellép-het egy olyan jelenség, amely félreinformálhatja az elemzőt. Az R² ugyanis nagyobb magyarázó erővel bír, ha több magyarázó változó hatása szerepel benne, függetlenül attól, hogy valóban releváns hatást fejt-e ki mindegyik magyarázó változó. (Például megtévesztő lehet az R² alapján két modell összehason-lítása, ha az egyik három, a másik hét magyarázó változót tartalmaz.) A modellek összehasonlítása eseté-ben a különböző számú magyarázó változóból eredő problémát próbálja feloldani az ún. korrigált vagy a szabadságfokokkal korrigált determinációs együttható (jele: R^~2):

 

Az s = a modell általános standard hibája, jelzi az illeszkedés jóságát, a modell annál pontosabban illesz-kedik, minél kisebb az értéke. Meghatározására a regressziós paraméterek ismeretében kerülhet sor, ami-kor kiszámítva az y eredményváltozó becsült értékeit  ^ˆy képezhetjük a reziduumokat ^{e y y}^{ }^ˆ^.

A regressziós modell egészének tesztelése, a globális F-próba

A varianciaanalízis az Adat munkalapon jelenik meg. A varianciaanalízis összefoglalja az alábbi nullhi-potézis ellenőrzésére vonatkozó eredményt. Nullhinullhi-potézisünk az, hogy a magyarázó változók regressziós együtthatói mind 0-k, az alternatív hipotézis szerint létezik legalább egy 0-tól eltérő együttható.

0 1 2 k nullhipotézis a lineáris regresszió fennállásának tagadását jelenti és amennyiben igaz, úgy az eredmény-változó kizárólag a véletlen hatására szóródik; az alternatív hipotézis fennállása esetén a regressziós mo-dellt elfogadhatónak ítéljük. A nullhipotézis ellenőrzését az alábbi varianciaanalízis 4-1. tábla alapján végezhetjük el.

4-1. tábla: Varianciaanalízis^157F¹⁵² Összetevő Négyzetösszeg

A többszörös determinációs együttható segítségével is ellenőrizhetjük a modell magyarázó erejét, az alábbi módon: számláló szabadságfoka k, a nevezőé (n-k-1), akkor a regressziós modellt elfogadhatónak ítéljük. Ellen-kező esetben elvetjük. Az F-próbával az egész modellt teszteljük, mert arra a kérdésre keressük a választ, hogy érdemes-e a regresszió-számítást, mint elemzési módszert alkalmazni. Ha nem jó a modell, tehát esetünkben a modellünk egészében rossz, akkor a regressziós modell alkalmazását elvetjük, és egysze-rűbb eljárásokkal, pl. átlagszámítással kell dolgozni. Elfogadjuk tehát a regressziós modellt pl. 5%-os

Nem fogadjuk el a regressziós modellt pl. 5%-os szignifikancia-szinten, ha:

  ^ ^

A varianciaanalízis tábla segítségével tehát a modell globális próbáját végezhetjük el. A hipotézisrend-szerről való döntés – didaktikai okokból – két módon is elvégezhető: tetszőlegesen beállítható szignifi-kancia-szinthez tartozó kritikus érték, valamint p-érték alapján is, ezért mindkét eredményt közöljük..

152 Az eltérés-négyzetösszeg angol megfelelője (Sum of Squares) alapján SS szimbólummal jelöljük, R=Regression, E=Error, T=Total, df= degrees of freedom, MS=Mean Square.

Regressziós együtthatók:

- együtthatók értéke és standard hibája, t-értékei, p-értékei és konfidencia intervallumai (tetszőleges megbízhatósági szinten)

- változók bevonásáról/kihagyásáról döntő jelölőnégyzetek Az alkalmazott képletek:

A regressziós paraméterek (együttható: Eható) konfidencia-intervallumait (Alsó 95%) (Felső 95%) ki-számítja a parancsfájl, alapesetben a konfidencia intervallum 95% és tkrit=5%.

A bj regressziós paraméter konfidencia intervalluma



¹^{  }



¹⁰⁰ valószínűségi szinten %-ban:

(1 2 )( n k 1) j

j b

b t _ _{ } s Ahol:

 s = a j-ik paraméter standard hibája (St hiba), bj

 t₍₁__{2)(n k 1)}_{ } = a Student-féle t-próba kritikus értéke az (n-k-1) szabadságfoknál, az α/2 szignifi-kancia-szinten.

Az általunk előre megválasztott szignifikancia-szint alapesetben 5%-os (p=0,05) valószínűség (konfiden-cia intervallum 95%), ami változtatható a sárga cellában: pl. 1% (konfiden(konfiden-cia intervallum 99% és tkrit=1%., p=0,01), 10 % (konfidencia intervallum 90% és tkrit=10%, p=0,1).

Az α szignifikancia-szint valószínűségének csökkentésével illetve a konfidencia intervallum valószínű-ségének növelésével az adott (n-k-1) szabadságfok esetén a Student-féle t-eloszlás kritikus értékei is na-gyobb számok lesznek és így a regressziós paraméterek konfidencia intervallumai is növekednek. Pl. ha az alapeset 95%-os konfidencia intervallum valószínűségét 99%-ra növeljük. Ez fordítva is igaz, az α szignifikancia-szint valószínűségének növelésével illetve a konfidencia intervallum valószínűségének csökkentésével az adott (n-k-1) szabadságfok esetén a Student-féle t-eloszlás kritikus értékei is kisebb számok lesznek és így a regressziós paraméterek konfidencia intervallumai is csökkennek. Pl. az alapeset 95%-os konfidencia intervallum valószínűségét 90%-ra csökkentjük.

A Backward eliminációs módszer

A paraméterek szeparált tesztelésénél tehát a nullhipotézisünk az, hogy a j-edik (j=1,2…k) regressziós paraméter értéke 0, az alternatív hipotézisünk pedig az, hogy nem, azaz

0 j

1 j

H : =0 H : 0



 

A nullhipotézis elfogadása azt jelenti, hogy a j-edik magyarázó változó nem magyarázza az eredményvál-tozót, tehát a modellben való megtartása felesleges, esetleg káros.

A próbafüggvény a nullhipotézis fennállása esetén

(1 2 )( n k 1) j

j b

t b t

s ^ ^{ }

 

A próbafüggvény a nullhipotézis elutasítása esetén

(1 2)( n k 1) j

j b

t b t

s ^ ^{ }

 

Ahol

 b_j= j-edik regressziós együttható becsült értéke, (együttható: Eható)

 sbj= j-edik regressziós együttható becsült standard hibája, (St hiba)

Ezt a próbát parciális t-próbának, vagy röviden csak regressziós t-próbának hívjuk. A próbát külön-külön valamennyi regressziós becsült paraméterre el kell végezni, és ennek alapján képet kapunk arról, hogy az

egyes változók lényeges mértékben járulnak-e hozzá az eredményváltozó magyarázatához, vagyis az eredményváltozó reziduális varianciájának csökkentéséhez.

Az első lépésben tehát minden változót bevonunk, és ha a p-értékek (szignifikancia-szint 5%) mindegyi-ke 0,05-nél kisebb akkor a regressziós függvényt optimálisnak tekintjük. Ha találunk olyan paramétert, ahol a p érték nagyobb, mint 0,05, amit a piros szín is jelez, akkor dönthetünk a változó kihagyásáról, ha pedig több ilyen paraméter található, akkor célszerű először azt a váltózót kihagyni, amelyiknél a p értéke a legnagyobb. Ezt addig folytatjuk, amíg a p értékek mindegyike 0,05-nél kisebb lesz és a modell az el-méleti feltételeknek is megfelel.

In document Excel parancsfájlok felhasználása a statisztikai elemzésekben (Pldal 157-161)

A reziduális szórás (s):

4.1 ábra: A regressziós modellezés lépései A regresszió.xls parancsfájl működése 154F

4.1.1 Az Adat munkalap

 

   





  ^ ^