• Nem Talált Eredményt

Matematikai statisztikai elemzések 6.

N/A
N/A
Protected

Academic year: 2022

Ossza meg "Matematikai statisztikai elemzések 6."

Copied!
18
0
0

Teljes szövegt

(1)

Matematikai statisztikai elemzések 6.

Regressziószámítás: kétváltozós lineáris és nemlineáris regresszió, többváltozós

regresszió

Prof. Dr. Závoti, József

(2)

Created by XMLmind XSL-FO Converter.

Matematikai statisztikai elemzések 6.: Regressziószámítás:

kétváltozós lineáris és nemlineáris regresszió, többváltozós regresszió

Prof. Dr. Závoti, József Lektor: Bischof, Annamária

Ez a modul a TÁMOP - 4.1.2-08/1/A-2009-0027 „Tananyagfejlesztéssel a GEO-ért” projekt keretében készült.

A projektet az Európai Unió és a Magyar Állam 44 706 488 Ft összegben támogatta.

v 1.0

Publication date 2010

Szerzői jog © 2010 Nyugat-magyarországi Egyetem Geoinformatikai Kar Kivonat

Ez a modul a regressziószámítás alapfogalmaival és fő feladataival ismerteti meg az olvasót.

Jelen szellemi terméket a szerzői jogról szóló 1999. évi LXXVI. törvény védi. Egészének vagy részeinek másolása, felhasználás kizárólag a szerző írásos engedélyével lehetséges.

(3)

Tartalom

6. Regressziószámítás: kétváltozós lineáris és nemlineáris regresszió, többváltozós regresszió ... 1

1. 6.1 Bevezetés ... 1

2. 6.2 Kétváltozós lineáris regresszió ... 1

2.1. 6.2.1 A lineáris regresszió modellje: ... 1

2.2. 6.2.2 A lineáris regresszió alkalmazásának feltételei ... 1

2.3. 6.2.3 Legkisebb négyzetek módszere ... 2

2.4. 6.2.4 Elaszticitás ... 3

2.5. 6.2.5 A lineáris regresszió tulajdonságai: ... 4

2.6. 6.2.6 A és mintavételi eloszlása ... 4

2.7. 6.2.7 Konfidencia intervallum számítása a β paraméterekre ... 5

2.8. 6.2.8 Hipotézisvizsgálat ... 5

2.9. 6.2.9 Determinációs együttható: ... 5

3. 6.3 Nemlineáris regresszió ... 7

3.1. 6.3.1 Hiperbolikus függvény: ... 8

3.2. 6.3.2 Exponenciális függvény: ... 8

3.3. 6.3.3 Hatványkitevős regresszió függvény ... 8

4. 6.4 Többváltozós regresszió számítás ... 8

4.1. 6.4.1 Regressziós paraméterek meghatározása ... 9

4.2. 6.4.2 A paraméterek standard hibái ... 11

4.3. A paraméterek tesztelése ... 11

5. 6.5 Összefoglalás ... 12

(4)
(5)

6. fejezet - Regressziószámítás:

kétváltozós lineáris és nemlineáris regresszió, többváltozós regresszió

1. 6.1 Bevezetés

Jelen modul a Matematika III. tárgy hatodik fejezete, modulja. Az itt következő ismeretek megértéséhez javasoljuk, hogy olvassa el a Tárgy korábbi moduljainál írottakat. Amennyiben ez még nem lenne elég a megértéshez, akkor forduljon a szerzőhöz segítségért.

Jelen modul célja, hogy az Olvasó megismerkedjen a regressziószámítás fő típusaival.

2. 6.2 Kétváltozós lineáris regresszió

A regressziószámítás a mennyiségi ismérvek közötti sztochasztikus tendenciát vizsgálja, és a kapcsolat természetét valamilyen függvénnyel írja le.

Lineáris regresszió esetén egyenest illesztünk az adatokra.

2.1. 6.2.1 A lineáris regresszió modellje:

Az (x1,y1), (x2,y2),..., (xn,yn) pontokra szeretnénk egy regressziós egyenest illeszteni.

A megoldáshoz meg kell határozni a paramétereket.

A megoldás során a „legjobb” egyenest – azt, amelyik a legkevésbé tér el a pontoktól – keressük. Ezt az egyenest a legkisebb négyzetek módszerének segítségével fogjuk megkeresni.

2.2. 6.2.2 A lineáris regresszió alkalmazásának feltételei

1. Linearitás: Az Y eloszlások várható értéke az ún. alapsokasági regressziós egyenesre esik.

(6)

Regressziószámítás: kétváltozós lineáris és nemlineáris regresszió,

többváltozós regresszió

2

Created by XMLmind XSL-FO Converter.

2. A variancia állandó:

3. Függetlenség: Az valószínűségi változók függetlenek.

4. Az eloszlás normális: Az változók normális eloszlásúak.

5. A hibatényező: Az normális eloszlású, egymástól független változók, amelyek várható értéke 0, varianciája pedig .

2.3. 6.2.3 Legkisebb négyzetek módszere

A becsült regressziófüggvény:

Keressük a függvény paramétereinek azon becslését, , amely mellett a megfigyelésből származó és a regressziófüggvény alapján becsült Y értékek különbségének eltérésnégyzet-összege a legkisebb:

A regressziófüggvényt behelyettesítve a célfüggvénybe:

A paramétereket a szélsőérték-számítás szabályai alapján határozhatjuk meg.

A és szerinti parciális deriváltjai vesszük, és ezeket nullával tesszük egyenlővé (stacionárius pont meghatározása):

(7)

Regressziószámítás: kétváltozós lineáris és nemlineáris regresszió,

többváltozós regresszió

Így eljutunk az ún. normál egyenletekhez:

A normálegyenletek megoldásával a és paraméterek meghatározhatók.

A megoldásra különböző módszerek léteznek. Mi az ismeretleneket a Cramer-szabály felhasználásával határozzuk meg.

Cramer szabály:

A paramétert az alábbi egyenletből kapjuk:

A szemlélet alapján elfogadjuk, hogy a kapott stacionárius pont valóban szélsőérték hely.

A paraméterek értelmezése:

A lineáris regresszió függvény paraméterét regressziós együtthatónak nevezzük. A regressziós együttható arra ad választ, hogy az x magyarázó változó egységnyi változása átlagosan mekkora változással jár együtt az y eredményváltozóban. A együttható, az egyenlet konstans tagja, az x=0 helyhez ad regressziós becslést.

2.4. 6.2.4 Elaszticitás

Az X és Y változóknak nemcsak különbségeit, hanem relatív változásait is szembeállíthatjuk, így jutunk el az elaszticitás fogalmához. Az elaszticitás arra ad választ, hogy az X magyarázó változó adott értékének egy 1%- os változása az Y függő változóban milyen átlagos relatív változást eredményez.

(8)

Regressziószámítás: kétváltozós lineáris és nemlineáris regresszió,

többváltozós regresszió

4

Created by XMLmind XSL-FO Converter.

Az átlaghelyhez tartozó elaszticitás-érték:

2.5. 6.2.5 A lineáris regresszió tulajdonságai:

1. , azaz az átlagpont illeszkedik a regressziós egyenesre.

2.

3.

4. Az kifejezés az értéknél veszi fel a minimumát.

A legkisebb négyzetek módszerével kapott becslések az Y változó lineáris kombinációi. A becsült paraméterek tehát valószínűségi változók, amelyek jellemzőinek megismerése lehetővé teszi, hogy konfidencia intervallumokat készítsünk a sokasági regressziófüggvény paramétereire. Ehhez először a paraméterbecslések mintavételi eloszlásával ismerkedünk meg.

2.6. 6.2.6 A és mintavételi eloszlása

Tétel:

, azaz torzítatlan becslése -nek.

Tétel:

szórásnégyzete Tétel:

azaz torzítatlan becslése -nak.

Tétel:

szórásnégyzete

(9)

Regressziószámítás: kétváltozós lineáris és nemlineáris regresszió,

többváltozós regresszió

2.7. 6.2.7 Konfidencia intervallum számítása a β paraméterekre

A mintából becsült paraméterek eloszlásának ismeretében valószínűségi megállapításokat tehetünk a sokasági paraméterekre.

A paraméterre tett (1-α) valószínűségi megállapítás:

Ezt úgy értelmezhetjük, hogy ha ismételt mintavételeket hajtunk végre, és minden mintavételi eredmény alapján elkészítjük a konfidencia intervallumot, az intervallumok 100(1-α) %-a tartalmazni fogja a sokasági paramétert.

Az egyenes meredekségére vonatkozó konfidencia intervallum:

Az egyenes konstans tagjára vonatkozó konfidencia intervallum:

2.8. 6.2.8 Hipotézisvizsgálat

Fontos annak vizsgálata, hogy az X és Y változók szignifikáns kapcsolatban vannak-e egymással. Ennek vizsgálatára az alábbi hipotéziseket fogalmazzuk meg:

A hipotézisellenőrzést a t-próbával végezzük, amely a becsült regressziós együttható és a standard hiba hányadosa:

Ha a , a H0 hipotézist elfogadjuk. Ebben az esetben a paraméter nem különbözik szignifikánsan a nullától. A konfidencia intervallum ilyenkor tartalmazza a nulla értéket is.

Ha a , a H0 hipotézist elvetjük. A mintabeli információk ekkor azt mutatják, hogy releváns kapcsolat van az X és Y változó között.

2.9. 6.2.9 Determinációs együttható:

Az r2 mutatót determinációs együtthatónak nevezzük, amelynek értéke 0 és 1 közé esik. Ha a lineáris regresszió paramétere nulla, akkor az r2 értéke is nulla. Ilyen esetben a változók között nincs korrelációs kapcsolat. A determinációs együttható a maximális értékét akkor veszi fel, ha a változók között determinisztikus összefüggés

(10)

Regressziószámítás: kétváltozós lineáris és nemlineáris regresszió,

többváltozós regresszió

6

Created by XMLmind XSL-FO Converter.

van, vagyis valamennyi megfigyelt Y érték a regressziós egyenesen helyezkedik el. A 0 és 1 közötti r2 értékek a változók közötti kapcsolat erősségét, a regressziófüggvény illeszkedésének jóságát jellemzik.

Példa

14 tőzsdén jegyzett társaság adatai:

a. Írja fel a lineáris regresszió-függvényt és értelmezze a paramétereket!

b. Számítsa ki és értelmezze a lineáris együtthatót, a determinációs együtthatót, és a regresszióbecslés relatív hibáját!

Megoldás:

(11)

Regressziószámítás: kétváltozós lineáris és nemlineáris regresszió,

többváltozós regresszió a. A lineáris regresszió-függvény meghatározása:

Így a lineáris regresszió-függvény:

b. A standard hiba:

hibája:

A determinációs együttható:

A lineáris korrelációs együttható: , azaz nagyon szoros a kapcsolat a két ismérv között.

3. 6.3 Nemlineáris regresszió

A statisztikai módszertan szempontjából a nemlineáris összefüggések két fő csoportját különböztetjük meg: a lineárisra visszavezethető és a lineárisra nem transzformálható modelleket. Az alábbiakban mi csak az első csoporttal, vagyis a lineárisra visszavezethető modellekkel foglalkozunk.

Vannak olyan nemlineáris összefüggések, amelyeknél a magyarázó változó transzformálásával jutunk a lineáris összefüggéshez.

(12)

Regressziószámítás: kétváltozós lineáris és nemlineáris regresszió,

többváltozós regresszió

8

Created by XMLmind XSL-FO Converter.

Az alábbi függvény-típusokat sorolhatjuk ide:

3.1. 6.3.1 Hiperbolikus függvény:

Ha a függvényben az X változót az változóval helyettesítjük, a transzformált változóra lineáris összefüggést írhatunk fel:

A regressziófüggvény paramétereinek becslésére a lineáris regressziónál megismert becslési eljárásokat alkalmazhatjuk.

A nemlineáris regressziós modellek egy részénél mind a függő, mind a magyarázó változókat transzformáljuk.

A függő és magyarázó változók együttes transzformálására leggyakrabban a logaritmikus transzformálást alkalmazzuk. Jellegzetes példaként említhetjük az exponenciális és a hatványkitevős függvényt.

3.2. 6.3.2 Exponenciális függvény:

A linearizált regresszió függvény a becsült paraméterekkel:

Az exponenciális függvényekre az jellemző, hogy lineáris összefüggés van a függő változó logaritmusa és az X változó között.

3.3. 6.3.3 Hatványkitevős regresszió függvény

Olyan esetekben alkalmazzuk, amikor az X és Y változók logaritmusai között van lineáris összefüggés. A regressziós együttható azt fejezi ki, hogy az X magyarázó változó egységnyi relatív (egy százalékos) változása mekkora relatív (hány százalékos) változást idéz elő az eredményváltozóban.

A linearizált regresszió függvény a becsült paraméterekkel:

4. 6.4 Többváltozós regresszió számítás

A kétváltozós regressziós modell azzal a feltételezéssel él, hogy a megfigyelt eredményváltozó csupán egyetlen magyarázóváltozó hatására jött létre. Azonban a jelenségek többségére inkább az igaz, hogy kialakulásukért több tényező a felelős. (pl.: egy használtautó eladási ára nemcsak a korának, de a futott kilométereknek is a függvénye.) Ezeket a jelenségeket már nem lehet az eddig ismertetett kétváltozós regressziós modellek segítségével modellezni, szükség van annak kiterjesztésére.

A többváltozós lineáris modell a következőképpen írható fel:

(13)

Regressziószámítás: kétváltozós lineáris és nemlineáris regresszió,

többváltozós regresszió A fenti egyenleteket mátrixos alakban így írhatjuk:

4.1. 6.4.1 Regressziós paraméterek meghatározása

A paraméterek meghatározásához ismét a legkisebb négyzetek elvét használjuk.

A minimalizálandó függvény:

A paraméterek parciális deriváltjait nullával egyenlővé téve megkaphatjuk a normálegyenleteket.

A normálegyenleteket megoldva megkaphatóak a becsült paraméterértékek. Az pedig a szemlélet alapján adódik, hogy az így kapott stacionárius pont valóban minimum hely.

A számítások végrehajtását a háromváltozós modell esetére mutatjuk be:

Egyszerűsíthetjük a számításokat, ha a normálegyenletekben az eredeti változókat (X1, X2, Y) az átlagtól vett eltéréseikkel helyettesítjük:

A konstans tag becslése:

Az egyenlet paramétereinek értelmezése:

A becsült paraméter az Xj egységnyi változásának a hatását fejezi ki az Y eredményváltozóra, a többi magyarázó változó értékének változatlansága mellett. A együtthatókat parciális regressziós együtthatóknak nevezzük.

Mátrixos alak:

A fenti egyenleteket a lineáris algebrát felhasználva az alábbi módon is felírhatjuk fel. Ekkor a regressziós modell:

Most a regressziós együtthatóvektor a legkisebb négyeztek elve alapján kapható meg a következő összefüggésből:

(14)

Regressziószámítás: kétváltozós lineáris és nemlineáris regresszió,

többváltozós regresszió

10

Created by XMLmind XSL-FO Converter.

feltéve, ha az inverz létezik1. A fenti kifejezés részletesen kifejtve így alakul:

Számunkra az m=2 speciális eset a gyakorlat szempontjából különösen fontos, felírjuk explicite:

A mátrixinverznek a meghatározására bármelyik ismert mátrix-invertálási eljárás alkalmazható lenne, segítségül megadunk egy egyszerű mátrix-invertálási módszert.

Jelölje:

A bevezetett jelöléssel meghatározandó az alábbi mátrix inverze:

Vezessük be az alábbi jelöléseket:

Ekkor a mátrix inverze az alábbi módon számolható:

Ezek után az ismeretlen paraméterek meghatározhatók.

Bármely módszerrel meghatározva a paraméterek értékét, azok jelentése ugyanaz marad. Vagyis paraméter azt fogja megmutatni, hogy amennyiben a k-dik magyarázó változó ( ) egységnyivel növekszik, miközben az összes többi változó értéke változatlan marad2, mennyivel nő/csökken az eredményváltozó értéke.

1 Egy mátrix inverze akkor létezik, ha az (m+1)*(m+1)-es mátrix rangja (m+1).

(15)

Regressziószámítás: kétváltozós lineáris és nemlineáris regresszió,

többváltozós regresszió

4.2. 6.4.2 A paraméterek standard hibái

A többváltozós modellnél is van lehetőség meghatározni, hogy a sokasági paraméterek értéke ismételt mintavétel esetén az esetek százalékában milyen tartományba esne. Ehhez ismerni kell a k-dik paraméter standard hibáját:

Ekkor a keresett konfidencia intervallumok:

Az intervallum meghatározása a kétváltozós esettel analóg, azzal a különbséggel, hogy a t-eloszlás szabadságfoka n-m-1, azaz a magyarázóváltozók függvénye3.

4.3. A paraméterek tesztelése

A szignifikancia ellenőrzése itt is elengedhetetlen a becslések megkezdése előtt. Mint ahogyan a kétváltozós esetnél, itt is van mód a paraméterek tesztelése mellett a modell jóságának tesztelésére.

Paraméterek tesztelésekor a null hipotézis általános formája:

Az ellenhipotézis ennek tagadásából áll, és azt jelenti, hogy igenis van összefüggés a k-adik magyarázóváltozó és az eredményváltozó között.

A kiszámítandó próbastatisztika:

,

a kritikus értékhez meghatározandó t értéknél a szabadságfok n-m-1.

Az alaphipotézis elfogadása most is akkor történik meg, ha a számított t értéke az elfogadási tartományban van, s ez azt jelenti, hogy a modell nem megfelelő.

2 Ezt a feltételt cp, azaz ceteris paribus feltételnek szokták hívni.

3 A kétváltozós esetnél a magyarázóváltozók száma 1, azaz a szabadságfoka n-1-1=n-2 lesz.

(16)

Regressziószámítás: kétváltozós lineáris és nemlineáris regresszió,

többváltozós regresszió

12

Created by XMLmind XSL-FO Converter.

5. 6.5 Összefoglalás

1. Egy biztosító üzletkötőjének az adott cégnél töltött ideje és az egy év alatt megkötött biztosítások száma közötti kapcsolatra vonatkozó adatai:

a. Határozza meg a lineáris regressziófüggvényt!

b. Számítsa ki a β1 hibáját!

c. Vizsgálja meg, hogy a regressziós együttható szignifikáns-e! (α = 5%)

d. Számítsa ki és értelmezze a kapcsolat szorosságát jelző korrelációs mérőszámot!

2. Az egy főre jutó bruttó hazai termék és az egy főre jutó informatikai kiadás néhány európai országban:

a. Határozza meg az exponenciális regressziófüggvényt!

b. Becsülje meg egy olyan országban az 1 főre jutó informatikai kiadás nagyságát, ahol az 1 főre jutó GDP 20 ezer USD!

3. Harminc áruházra kiterjedő vizsgálat során a következő jellemzőket figyelték meg:

(17)

Regressziószámítás: kétváltozós lineáris és nemlineáris regresszió,

többváltozós regresszió

Határozza meg és értelmezze a parciális korrelációs együtthatókat!

4. Vizsgálja meg a szállítás költsége (y) a szállítási távolság (x1) és a szállítási tömeg (x2 ) közötti összefüggést!

a. Illesszen kétváltozós lineáris regressziós függvényt az adatokra!

b. Adja meg a becsült paraméterek standard hibáit!

c. Végezzen F és t próbákat! (α = 0.05)

d. Az inputra adja meg a rendszer válaszát és konstruáljon α = 0.05 szignifikancia értékhez konfidencia intervallumot!

e. Vezesse le az R korrelációs mátrixot!

f. Határozza meg a parciális korrelációs együtthatókat!

Irodalomjegyzék

Hunyadi - Vita: Statisztika közgazdászoknak, KSH, Budapest, 2002.

Keresztély-, Sugár-, Szarvas: Statisztika példatár közgazdászoknak, BKE, Nemzeti Tankönyvkiadó, 2005.

Korpás A.: Általános statisztika I-II., Nemzeti Tankönyvkiadó, Budapest, 1996.

Csanády V., Horváth R., Szalay L.: Matematikai statisztika, EFE Matematikai Intézet, Sopron, 1995.

(18)

Regressziószámítás: kétváltozós lineáris és nemlineáris regresszió,

többváltozós regresszió

14

Created by XMLmind XSL-FO Converter.

Závoti-, Polgárné-, Bischof: Statisztikai képletgyűjtemény és táblázatok, NYME Kiadó, Sopron, 2009.

Csernyák L.: Valószínűségszámítás, Nemzeti Tankönyvkiadó, Budapest, 1990.

Obádovics J. Gy.: Valószínűségszámítás és matematikai statisztika, Scolars Kiadó, Budapest, 2003.

Reimann J. - Tóth J.: Valószínűségszámítás és matematikai statisztika, Tankönyvkiadó, Budapest, 1991.

Solt Gy.: Valószínűségszámítás, Műszaki Könyvkiadó, Budapest, 1971.

Denkinger G.: Valószínűségszámítás, Nemzeti Tankönyvkiadó, Budapest, 1978.

Hivatkozások

KAPCSOLÓDÓ DOKUMENTUMOK

FELADAT E LEMI FÜGGVÉNYTRANSZFORMÁCIÓK , A FÜGGŐ VÁLTOZÓ TRANSZFORMÁCIÓI Ábrázoljuk a megadott függvényt a megfelelő elemi függvény transzformálásával.. Függvény

A Köz- ponti Statisztikai Hivatal Kollégiumának határozata alapján a hivatali dolgozók továbbképzése érdekében matematikai, illetve matematikai statisztikai tanfolya—..

A belföldi árfüggvényeknél [25/ a második és a harmadik magyarázó változó a keresleti szívóhatást jeleníti meg, a negyedik és az ötödik változó pedig az ár- képzésben

Valamennyi korrelációs együtthatóra igaz, hogy értéke 0 és 1 között mozog. Az a kedvező eset, amikor 1-hez közeliek az értékek, hiszen ez azt jelenti, hogy a

Jelen modul célja, hogy az Olvasó megismerkedjen az idősorelemzés elméletével és gyakorlatával. A valóságban nagyon gyakran fordul elő, hogy az adataink nem

Függő változó: gazdaságilag aktív-e Magyarázó változók: iskolázottság,. tapasztalat, életkor, 6 éven aluli / felüli gyerek OLS becslés szokásos

A nemlineáris megfigyelési rendszerek tervezése főleg a mérnöki terület problémáiból fakadóan a matematikai rendszerelmélet széleskörben tanulmányozott része, a

Mindkét ábrán az látszik, hogy amíg a lineáris modellek lefedik a megfigyelt kétmódusú cefeidákat, addig a nemlineáris kétmódusú tartomány túl alacsony