• Nem Talált Eredményt

Nevezetes statisztikai eloszlások

2.4 Valószínűségelméleti alapok

2.4.3 Nevezetes statisztikai eloszlások

A legismertebb és – éppen ebből adódóan – leggyakrabban alkalmazott folytonos valószínűség-eloszlás a normális, vagy Gauss-valószínűség-eloszlás. Az valószínűség-eloszlást sűrűségfüggvényével definiáljuk, vagyis az x véletlen változó  várható értékű és 2 varianciájú normális eloszlást követ, ha sűrűségfüggvénye

 

alakú. A normális eloszlás sűrűségfüggvénye a jól ismert „harang alakú” görbe:

2-1. ábra: A normális eloszlás sűrűségfüggvénye (az ábrán 100 várható értékű, 225 varianciájú normális eloszlás)

A normális eloszlások között kitüntetett helyet foglal el a standard normális eloszlás, amely 0 várható értékű és 1 varianciájú (ebből következően 1 szórású) normális eloszlás. Bármely normális elosz-lásból előállítható ilyen (tehát standard normális) eloszlás a leíró statisztikáknál már említett stan-dardizálás műveletével. Tehát, ha x normális eloszlású valószínűségi változó  várható értékkel és

2 varianciával, akkor a

38 valószínűségi változó standard normális eloszlású. A standard normális eloszlás sűrűségfüggvénye alakját tekintve szintén harang-görbe, a transzformáció miatt a görbe maximuma az x tengely 0 pontjánál van. A standard normális eloszlás néhány fontosabb, a későbbiekben gyakran használatos tulajdonsága:

F 0 0,5

F   z 1 F z .

A normális, illetve a standard normális eloszlás alapján további nevezetes, a statisztikában gyakran használatos valószínűségi eloszlások is definiálhatók.

Belátható, hogy r darab standard normális eloszlású valószínűségi változó négyzetösszege ún. r- szabadságfokú 2-eloszlást követ, vagyis

2 2

A valószínűségelméleti tanulmányokból ismert szabadságfokról jelen tananyagban elég annyit meg-jegyeznünk, hogy az eloszlás egy paramétere.13

A standard normális és a 2-eloszlás egy speciális transzformációjával jön létre az ún. Studenféle t-eloszlás, meghatározása:

2 ~r

r

z t

(2.35)

Látható, hogy a t-eloszlás meghatározása során is szükség van a szabadságfokra, mint paraméterre.

Az utolsóként említendő speciális eloszlás, az ún. F-eloszlás; amely két 2-eloszlás hányadosaként keletkezik, így definiálásához szabadságfok-párra van szükség:

1

A nevezetes statisztikai eloszlásokat a későbbiekben gyakran fogjuk használni bizonyos speciális ökonometriai problémák tesztelése során.

13 Általánosságban a szabadságfok: egy adott döntési szituációban egymástól függetlenül, szabadon meghozható dön-tések száma. Pl. amennyiben egy l hosszúságú rudat három részre kívánunk szétvágni, akkor bizonyos határok között (l1; l2 <l ) csak az első kettő darabnak határozhatjuk meg a hosszát, a harmadiké már előzőekből adódik; vagyis ez egy 2 szabadságfokú probléma.

39 2.5 Becsléselméleti alapfogalmak

A következtetéses statisztika egyik nagy módszercsaládja a statisztikai becslés, melynek célja, hogy minta alapján közelítő értéket határozzunk meg az alapsokaság valamelyik, számunkra ismeretlen jellemzőjére. A becslés vonatkozhat

 az alapsokaság eloszlásának valamely fontos paraméterére (várható érték, variancia, kvanti-lis stb.), vagy

 egy, az alapsokaság összefüggéseit leíró modell paramétereire.

Bármilyen céllal végezzük is a statisztikai becslést, sohasem feledkezhetünk meg arról, hogy a min-tából nyert eredmények nem teljesen pontosak és nem tökéletesen megbízhatóak, ezért a statisztikai becslések két fontos jellemzője a standard hiba és a konfidencia-szint.

A becsléselmélet kulcsfogalma a mintabeli statisztika. A mintabeli statisztika, mint neve is mutatja egy adott mintára vonatkozó jellemző, és mivel a mintaelemekből (amik maguk is valószínűségi változók) számítottuk ki, ezért maga is valószínűségi változó. Általános14 formája:

1 2

ˆ f x x; ; ;xn

 (2.37)

Az alapsokaság fontos jellemzőinek közelítő meghatározására alkalmas mintastatisztikákat becslő-függvénynek nevezzük. A becslőfüggvény tehát egy valószínűségi változó, melynek értéke mintáról mintára váltakozik, valószínűségelméleti tulajdonságai többé-kevésbé megismerhetők, ezért alkal-mas arra, hogy segítségével statisztikai következtetést hajtsunk végre.

2.5.1 Becslési módszerek

A becslési módszerek célja olyan becslőfüggvény előállítása, amely alkalmas az alapsokasági jellem-zők, illetve modell-paraméterek közelítő meghatározására. Amennyiben például az alapsokaság vár-ható értékének becslésére vállalkozunk, úgy – szimmetrikus alapsokasági eloszlás mellett – kézen-fekvőnek látszik valamely mintabeli középérték (számított átlagok valamelyike, módusz, medián) becslőfüggvényként történő alkalmazása. Ezen probléma tehát úgy tűnik, logikai úton (az analógia elvén) is megoldható; de mit tegyünk összetettebb esetekben? Az ilyenkor használandó becslőfügg-vények meghatározását célozzák a különböző becslési módszerek.

A módszerek az alábbi csoportokba oszthatók:

 M-típusú becslési módszerek, amelyek szélsőérték-hely keresésen alapulnak;

 L-típusú becslési módszerek, melyek rendezett mintán alapulnak;

 R-típusú becslési módszerek, melyek a mintaelemeket azok rangszámaival helyettesítik, és ezen rangszámok függvényeként állítják elő a becslőfüggvényt;

14 A (2.37) képletben és a továbbiakban a statisztikát leíró szimbólum feletti „” jelzéssel utalunk arra, hogy mintából származó valószínűségi változóról van szó.

40

 momentumok módszere, amely az alapsokaság nevezetes momentumainak és a mintabeli momentumoknak az egyezőségére alapozva felállít egy többegyenletes, többismeretlenes egyetlenrendszert, melynek elvi megoldása eredményezi a becslőfüggvényt.

A becslési módszer alkalmazásának a célja egy alkalmas, általános becslőfüggvény (esztimátor) meg-határozása, amellyel az alapsokasági jellemzőre bármilyen összetételű minta alapján közelítő értéket tudunk adni. Előbbi kijelentés tehát úgy értelmezendő, hogy a becslési módszer „végeredménye”

egy képlet (a becslőfüggvény), amelybe bármilyen minta elemeit behelyettesítve elvégezhető a konk-rét becslés.

A két leggyakrabban alkalmazott M-típusú becslési módszer a

 legkisebb négyzetek módszere (LNM); és a

 maximum likelihood (ML) módszer.

A legkisebb négyzetek módszere15 (LNM, vagy az angol Ordinary Least Squares megnevezés alapján OLS), mint neve is mutatja, egy alkalmasan választott kifejezés minimalizálására törekszik, ezért tartozik a szélsőértékhely-kereső eljárások közé. A módszer alapgondolata rendkívül kézenfekvő:

keressük azt a paraméter-kombinációt, amelyre egy elméleti és a becsült modell közötti négyzetes eltérés minimális. Általánosságban mindez az alábbi kifejezésbe16 rendezhető:

   

2

A későbbiekben bemutatandó regressziós modellek esetén az LNM lesz az általánosan használt becslési módszer, ezért ezzel majd ott foglalkozunk részletesen.

A másik gyakran alkalmazott technika a maximum likelihood (ML ~ legnagyobb esélyesség) módszer, melynek lényege, hogy a becslőfüggvény készítője ismerettel rendelkezik az alapsokaság eloszlására vonatkozóan; pontosabban ismeri az alapsokasági eloszlás típusát, de nem ismeri a konkrét eloszlási paraméterek értékét. Ismert alapsokasági eloszlás esetén felírható valamennyi, az alapsokaságból származó, aktuálisan mintába került egyedhez tartozó sűrűségfüggvény érték. Az

 1 Pr1

f x x fenti sűrűségfüggvény azt reprezentálja, hogy mennyire esélyes (valószínű), hogy az alapsokaságból származó valószínűségi változó x1 értéket, vagyis az első mintaelem értékét veszi fel. Annak a valószínűsége, hogy a másodjára mintába került érték pontosan x2 lesz, az előző analógiájára f x 2 Prx2. Mivel az első két elem egymástól függetlenül került a mintába, ezért annak a valószínűsége, hogy az első két mintaelem pontosan x1 és x2, egyenlő az

 1  2

f x f x értékkel. A sort tovább folytatva, annak a valószínűsége, hogy n elemű mintánk pon-tosan x x1, , ,2 xn értékeket tartalmazza az

15 A módszerre már hivatkoztunk az analitikus trendfüggvény paramétereinek meghatározása során, gyakorlatilag azo-nos – de általáazo-nosabb – gondolatmenetet követünk a továbbiakban is!

16 Több paraméter esetén θ értelemszerűen egy vektor.

41

   

1 2 ...

 

n

 

i

Lf xf x   f x

f x

likelihood-függvény értékkel (konkrét valószínűséggel) egyenlő. A likelihood-függvény tehát a minta-elemek együttes sűrűségfüggvénye, ami megmutatja, hogy az adott minta mennyire jellemző a fel-tételezett eloszlásra.

A maximum likelihood módszer lényege, hogy az alapsokaság eloszlásának a típusa ugyan ismert, ám az eloszlás konkrét paraméterei nem. Ezért a likelihood-függvény konkrét minta esetén külön-böző értékeket is felvehet, annak függvényében, hogy milyen alapsokasági paramétereket helyette-sítünk be a sűrűségfüggvénybe. Ez azt jelenti, hogy L értéke függ a sűrűségfüggvény paramétereitől, tehát L a mintaelemek alapsokasági paraméter(ek)től függő, együttes, feltételes eloszlása. Azaz a függvény általános alakja:

A becslési módszer alkalmazása során a fenti függvény értékét kívánjuk a paraméter(ek) változtatá-sával maximalizálni. Az általános feladat tehát az alábbi:

( ) max

L

A maximum likelihood módszer alkalmazása során bevett szokás, hogy nem az „eredeti” likeli-hood-függvényből dolgozunk, mivel a szorzat-függvény használata nehézkes. Ugyanakkor, ha ki-használjuk azt a tényt, hogy egy függvény maximumhelye egybeesik logaritmusának maximumhe-lyével (a logaritmus alapszámától egyébiránt függetlenül), akkor használhatjuk a likelihood-függ-vény helyett, az ún. log-likelihood-ot, vagyis

 

log ( )L

log f xi (2.40)

Összefoglalásként tehát elmondható, hogy az M-típusú becslések a legfontosabb alapsokasági jel-lemzők tekintetében (arány, várható érték, variancia) a mintabeli tapasztalati megfelelőt, tehát a mintabeli relatív gyakoriságot, számtani átlagot, illetve tapasztalati varianciát határozták meg becs-lőfüggvényként.

2.5.2 A becslőfüggvény tulajdonságai

Az előző alpontban bemutatott becslési módszerek segítségével különböző becslőfüggvényeket nyerhetünk ugyanazon alapsokasági jellemző becslésére. Ahhoz, hogy választani tudjunk a külön-böző becslőfüggvények között, szükség van olyan kritériumok meghatározására, amelyek össze-mérhetővé teszik a becslőfüggvények jóságát. A matematikai statisztikai irodalom általában a becs-lőfüggvények alábbi tulajdonságait vizsgálja:

− torzítatlanság, illetve – általában végtelen sokaságra vonatkozó becslés esetén – aszimp-totikus torzítatlanság,

− hatásosság,

42

− konzisztencia,

− robusztusság,

− elégségesség.

A fenti tulajdonságok mintegy esszenciájaként kereshetjük az ún. BLUE (Best Linear Unbiased Estimator), vagyis a legjobb lineáris torzítatlan becslőfüggvényt is. A következőkben ezen tulajdonságokat mutatjuk be.

Torzítatlannak nevezzük a becslőfüggvényt, ha

 

ˆ

E  

vagyis, ha a becslőfüggvény várható értéke egyenlő a becsülni kívánt jellemzővel. Nagyon fontos, hogy megértsük a tulajdonságok ismertetésének szemléletét! A becslőfüggvények, mint korábban többször taglaltuk, maguk is valószínűségi változók, vagyis meghatározható a valószínűség-elosz-lásuk, ebből adódóan felírható várható értékük és varianciájuk. A becslőfüggvények tulajdonságai ezen elméleti eloszlás-tulajdonságokhoz köthetők.

Aszimptotikusan torzítatlannak nevezünk egy becslőfüggvényt, ha

 

ˆ

limn E

  

vagyis, amennyiben a becslőfüggvény várható értéke határértékében megegyezik a becsülni kívánt jellemzővel. A mintanagyság növelésével a torzítás csökkenthető.

A torzítatlanság olyan tulajdonság, amely alapján megfelelőnek tudunk ítélni egy becslőfüggvényt, ám nem tudunk dönteni két függvény között. Ezen döntésünket segíti a hatásosság tulajdonságának definiálása.

Hatásosabbnak nevezzük az első becslőfüggvényt a (Vincze, 1975) másodiknál, amennyiben igaz, hogy

 

ˆ1

 

ˆ2

Var  Var

A hatásosság ezen értelmezése az ún. relatív hatásosság. (Két becslőfüggvény közül melyik a relatív jobb.) Mód nyílik az abszolút hatásosság fogalmának bevezetésére is: az ún. Cramer-Rao egyenlőt-lenség alapján (Vincze, 1975) abszolút hatásosnak (efficiensnek) nevezzük a becslőfüggvényt, ha vari-anciája az egyenlőtlenséget egyenlőség formájában teljesíti.

43 Az előző két tulajdonság „kombinációja” a konzisztencia kritériuma. Konzisztensnek nevezünk egy becslőfüggvényt, ha torzítatlan (de legalább aszimptotikusan torzítatlan) és varianciája a minta-elemszám növelésével a nullához tart.

Az utolsó két említett tulajdonság, a robusztusság, illetve az elégségesség viszonylag nehezen szemléltet-hető. Robusztusnak nevezünk egy becslőfüggvényt, ha nem érzékeny a kiinduló feltevések nem teljesülésére. Így például a mintabeli medián robusztusabb becslőfüggvény, mint a mintabeli szám-tani átlag, hiszen utóbbi értéke egy-egy kiugró érték következtében erősen ingadozik.

Az elégségesség szabatos definíciója szerint a becslőfüggvény elégséges, ha sűrűségfüggvénye nem függ attól a jellemzőtől, amire statisztikát kívánunk készíteni. Ennél plauzibilisebb kifejtés, ha azt mondjuk: az elégségesség azt jelenti, hogy a becslőfüggvény már minden lehetséges mintainformá-ciót felhasznált.

2.6 Hipotézisellenőrzés

A következtetéses statisztika másik nagy ága a hipotézisellenőrzés, vagy más néven feltevés-vizsgálat.

A módszer lényege, hogy alkalmasan választott statisztikai próbák (tesztek) segítségével dönt egy-egy – megfelelően parametrizált (operacionalizált) – feltevés elfogadásáról, vagy elvetéséről. A hi-potézisellenőrzés két legfontosabb jellemzője, hogy

mindig úgy döntünk egy adott feltevésről (nullhipotézis, H ), hogy megfogalmazzuk a vele 0 szemben álló (alternatív, H1) feltevést is, tehát döntésünk (próbánk) mindig egy hipotézis-rendszerre vonatkozik,

 az igen-nem típusú döntés (elfogadás vagy elvetés; gyakran használatos idegen elnevezéssel:

verifikálás, azaz elfogadás, vagy falszifikálás, tehát elvetés) csak egy adott hibavalószínűség mel-lett érvényes.

Érdemes megjegyezni, hogy az általunk vizsgált statisztikai problémákban mindig csak olyan felte-vések szerepelhetnek a nullhipotézis helyén, melyekben egy adott jellemzővel való egyezőség sze-repel, vagyis ún. egyszerű hipotézisek. Az alternatív hipotézisünk lehet akár egyszerű, akár összetett (nem-egyenlőséget, kisebb/nagyobb relációt tartalmazó). A hipotézis-rendszer felállítása a kérdés-kör sarkalatos pontja, így ennek precíz végrehajtása elengedhetetlenül fontos.

A hipotézisvizsgálat igazi nehézsége (és egyben szép kihívása) abban rejlik, hogy minta alapján kí-vánunk dönteni egy, az ismeretlen valóságra (alapsokaságra) vonatkozó állításról. Ez a tény az alábbi döntési szituációkat eredményezi:

Az ismeretlen valóságban A nullhipotézist elfogadjuk elvetjük A nullhipotézis igaz helyes döntés elsőfajú hiba A nullhipotézis hamis másodfajú hiba helyes döntés

2-3. táblázat: A hipotézisvizsgálat döntési szituáció

44 Könnyen átlátható, hogy a fenti táblázat eseményei soronként teljes eseményrendszert alkotnak.

Célunk értelemszerűen az, hogy minél nagyobb valószínűséggel helyesen döntsünk, illetve – ami ezzel ekvivalens – minél kisebb valószínűséggel hibázzunk.

Könnyű megoldás kínálkozna az utóbbira, vagyis a hibavalószínűség minimalizálására, ha csak az első- vagy csak a másodfajú hiba ellen akarnánk „védekezni”. Hiszen, ha minden esetben elfogadnánk a nullhipotézist, akkor sosem követhetnénk el elsőfajú hibát; de minden bizonyítás nélkül átlátható, hogy ebben az esetben jelentősen megnövelnénk a másodfajú hiba (valótlan állítás elfogadása) va-lószínűségét.17

2.6.1 A hipotézisellenőrzés menete

A hipotézisellenőrzés – általában – az alábbi lépésekből áll:

− kiinduló hipotézisrendszer felállítása (H H 0, 1 meghatározása),

− mintavétel,

− a megfelelő próbafüggvény kiválasztása, szükség esetén konstruálása,

− az empirikus próbafüggvény-érték meghatározása,

− döntés.

Az első lépésről (hipotézisrendszer felállítása) már esett szó, megismételjük, hogy a jól felállított hipotézisrendszer esetén a következő lépések szinte mechanikusan végrehajthatók. A mintavételt követően meg kell keresnünk az adott problémához adekvát próbafüggvényt (ebben könyvtárnyi szakirodalom áll a rendelkezésünkre), ami a mintaelemek egy olyan függvénye, mely maga is való-színűségi változó és melynek eloszlását csak a nullhipotézis teljesülése esetén ismerjük pontosan.

Ezt követően a mintaelemeket ebbe a képletbe behelyettesítve kapjuk a próbafüggvény empirikus értékét, a teszt-statisztikát.

Érdemes megjegyezni azon információkat, melyek a próbafüggvény eloszlása és kiválasztása szem-pontjából fontosak:

− az alapsokaság eloszlása,

− a mintavétel módja,

− a minta nagysága.

Amennyiben rendelkezésünkre áll a próbafüggvény empirikus értéke – vagyis a tesztstatisztika –, döntésünket meghozhatjuk adott szignifikancia szinthez tartozó kritikus érték, illetve szignifikancia érték (p-érték) alapján.

17 A kérdésről bővebben lásd Vita (2011) cikkét.

45 2.6.2 Szignifikancia szint és szignifikancia érték

Célunk tehát helyes döntést hozni egy olyan próbafüggvény alapján, melynek eloszlása a nullhipotézis igaz volta esetén ismert.18 Amennyiben a  próbafüggvény sűrűségfüggvénye ismert, akkor való-színűségelméleti tanulmányaink alapján bármely két tetszőlegesen választott kritikus érték közötti terület megmutatja, hogy mi annak a valószínűsége, hogy igaz nullhipotézis esetén a tesztstatisztika ebbe az intervallumba essen.

A hipotézisellenőrzés során mindezt két módon használhatjuk fel:

1. Meghatározhatjuk azt a kritikus tartományt (kétoldalú alternatív hipotézis esetén tartomá-nyokat), mely(ek) előre megadott nagyságú, elégségesen kis valószínűséggel tartalmazza(ák) a próbafüggvény értékét igaz nullhipotézis esetén. Így döntésünk roppant egyszerű lesz: ha a próbafüggvény ezen kritikus tartományba esik, a nullhipotézist elvetjük (mert ilyen mér-tékben követhetjük el az elsőfajú hibát); ellenkező esetben a nullhipotézist elfogadjuk. Lát-hatjuk, hogy a kritikus tartományba esés valószínűsége pontosan megegyezik az elsőfajú hiba elkövetésének valószínűségével. Ezt, az általunk előre megválasztható valószínűséget szignifikancia szintnek nevezzük. (A klasszikus hipotézisvizsgálati módszertan a szignifikan-cia-szintet általában 1; vagy 5; vagy 10%-os valószínűségnek választja.)

2. Könnyű belátni, hogy – főképpen megfelelő szoftver-háttér esetén – teljesen felesleges az elsőfajú hiba elkövetésének valószínűségét előre rögzítenünk, vagyis a szignifikancia szintet előre kiválasztanunk. A próbafüggvény empirikus értékének meghatározásakor (a mintabeli értékek alapján történő számszerűsítésekor) kapott empirikus tesztstatisztika a sűrűségfügg-vény alatti területet úgyis két részre osztja, melyek közül a kritikus tartományhoz tartozó valószínűséget a továbbiakban szignifikancia értéknek (p-értéknek) nevezzük. Ez a valószínűség megmutatja, hogy igaz nullhipotézis esetén milyen valószínűséggel kaphatunk ilyen, vagy a nullhipotézist még kevésbé alátámasztó mintát. (A döntés ezután könnyű: ha a p-érték ala-csony szám, akkor kicsi annak a valószínűsége, hogy igaz nullhipotézis ilyen „extrém” min-tát származtat; ezért célszerű elutasítani a nullhipotézist. Nagy p-érték esetén – óvakodva az elsőfajú hiba elkövetésétől – elfogadjuk a nullhipotézist.)

Az előbbiekben bemutatott két módszer mindegyike igényli az elfogadási/kritikus tartomány elhe-lyezkedésének konkrét hipotézisrendszer (pontosabban konkrét alternatív hipotézis) esetén történő meghatározását. Különösen részletes magyarázat nélkül érdemes megjegyezni, hogy összetett alter-natív hipotézis esetén a kritikus tartomány elhelyezkedése a próbafüggvény sűrűségfüggvénye alatt:

egyoldalú (nagyobb) alternatív hipotézis esetén a sűrűségfüggvény alatti terület „jobb ol-dalán” (nagy értékeknél);

− egyoldalú (kisebb) alternatív hipotézis esetén a sűrűségfüggvény alatti terület „bal olda-lán” (kis értékeknél);

kétoldalú alternatív hipotézis esetén a sűrűségfüggvény alatti terület „bal és jobb oldalán”

(mind a kis, mind a nagy értékeknél).

18 Vegyük észre, hogy éppen annak érdekében kötöttük ki, hogy a nullhipotézis mindig csak egyszerű lehet, mert álta-lában éppen a tesztelendő változó lesz az ismertnek feltételezett eloszlás egyik lényeges paramétere!

46 A döntés a szignifikancia érték alapján úgy módosul, hogy – mivel ebben az esetben az empirikus teszt-statisztika (emp) előbb keletkezik, mint a döntéshez szükséges valószínűség, – a próbafügg-vény-érték jelöli ki a p-értékeket a 2-4. táblázat alapján (a táblázatban f   a próbafüggvény igaz nullhipotézis esetén ismert sűrűség-függvénye):

Alternatív hipotézis p-érték

1: 0

H    

emp

f d

 

1: 0

H   emp f  d



 

1: 0

H  

   

   

2 ,

2 ,

emp

emp

f d ha E

f d ha E



 

 

   

   

2-4. táblázat: Szignifikancia értékek (p-értékek) különböző alternatív hipotézisek mellett

A konkrét hipotézisellenőrzési problémákra az ökonometriai modelleket bemutató részben bőven fogunk példát találni.

47

3 Regressziószámítás

A regressziószámítás a mennyiségi ismérvek közötti kapcsolatok modellezésének általánosan hasz-nált módszere. Természetesen a regressziós modellre, mint minden modellre igaz, hogy csak bizo-nyos, pontosan körülhatárolt feltételek mellett érvényes, valamint az, hogy az összefüggések leegy-szerűsítése a valósághűség rovására mehet.

A regresszió19 lényege, hogy megvizsgáljuk, egy kitüntetett kvantitatív változó – amit zónak nevezünk – hogyan függ egy vagy több magyarázó (tényező) változótól. Az eredményválto-zót gyakran nevezzük függő változónak, a magyarázó váltoeredményválto-zót (változókat) független változónak, vagy regresszornak.

A regressziós modelleknek sok fajtája létezik: csoportosíthatjuk ezeket a bennük szereplő változók száma vagy az összefüggést leíró függvény formája alapján, de megkülönböztetünk olyan modelle-ket is, melyekben bizonyos speciális (nem megfigyelhető, vagy késleltetett stb.) tulajdonságokkal rendelkező változók jelennek meg. A fejezet további részeiben a leggyakrabban használatos reg-resszió-függvényeket mutatjuk be.

3.1 Kétváltozós lineáris regressziós modell

A kétváltozós regressziószámítás kiinduló lépése, hogy ábrázoljuk az eredményváltozó alakulását a magyarázó változó függvényében. Amennyiben a pontdiagramon egyértelmű tendencia rajzolódik ki, érdemes valamilyen analitikus függvénnyel közelítenünk az XY-diagramon kirajzolódó össze-függést.20

Tekintsük a 3-1. ábrát! Az első két ábrán egyértelműen kirajzolódik a függvényszerű, lineáris kap-csolat, a bal oldali esetben pozitív, a jobb oldali esetben negatív irányú. A másik két ábrán már egyre kevésbé erős tendencia rajzolódik ki, a véletlennek (sztochasztikus tagnak) egyre nagyobb a szerepe, mindemellett az utolsó (jobb oldali alsó) ábrán már az összefüggés lineáris jellege is megkérdője-lezhető.

19 A szó eredete Francis Galton, brit öröklés-kutatótól eredeztethető, a kifejezés keletkezéséről ír Hunyadi-Vita (2008).

20 Hasonló gondolatmenetet alkalmaztunk az analitikus trendszámításnál, azzal a különbséggel, hogy ott a magyarázó változó helyén az általában ekvidisztáns trendváltozó szerepelt.

10

48

3-1. ábra: Mennyiségi ismérvek közötti kapcsolatok

Vegyünk szemügyre egy általánosnak tűnő kétváltozós esetet! Az előbb bemutatott pontdiagramot egészítsük ki egy egyenessel, melyet a továbbiakban kétváltozós, leíró szemléletű lineáris modellnek nevezünk és kiindulásul szolgál valamennyi későbbi regressziós modellnek!

3-2. ábra: Kétváltozós lineáris regresszió sematikus ábrája

A 3-2. ábrán az eredeti megfigyeléseket egy-egy

x yi, i

számpár jellemzi, emellett feltüntettünk egy, a pontfelhőre jól illeszkedő egyenest is. A görbeillesztési feladat innentől viszonylag egyszerű:

keressük a jelenséget legjobban leíró, azaz az eredeti megfigyelésektől legkisebb eltérést tartalmazó egyenest.

3.1.1 Paraméterbecslés a kétváltozós modellben

Korábbi tanulmányainkból ismeretes, hogy az egyenes általános alakja y a bx  . Ezt felhasználva tehát keressük azt a

b b0, 1

paramétervektort, amely mellett az alábbi

49

0 1

ˆyi  b b xi (3.1)

egyenes esetén az egyes megfigyelésekhez tartozó tényleges y és becsült ˆi y eredményváltozó-i értékek közötti eltérés a legkisebb.

A legkisebb eltérés nyilvánvalóan sokféleképpen definiálható lenne, a regressziószámításban leg-gyakrabban a 2.5.1 alpontban már bemutatott klasszikus, vagy közönséges legkisebb négyzetek módszerét alkalmazzák. A megoldandó szélsőérték-feladat az alábbi:

 

2

 

2

Az eltérés-négyzetösszeg minimalizálása a trendszámításnál már megismert módon történik, né-hány – értelemszerű – módosítással. Tekintsük21 a (3.2) kifejezés parciális deriváltjait:

 

A parciális deriváltakat átrendezve kapjuk az ún. normálegyenleteket:

0 1

Megoldva a két ismeretlenes, kétegyenletes egyenletrendszert, az alábbi becslőfüggvényekkel hatá-rozhatjuk meg a regressziós paramétereket:

Megoldva a két ismeretlenes, kétegyenletes egyenletrendszert, az alábbi becslőfüggvényekkel hatá-rozhatjuk meg a regressziós paramétereket: