A korreláció- és regresszióelemzés gyakorlati alkalmazásának néhány kérdése

(1)

MÓDSZERTANI TANULMÁNYOK _

A KORRELÁCIÓ- ÉS REGRESSZIÓELEMZÉS

GYAKORLATI ALKALMAZÁSÁNAK NÉHÁNY KÉRDÉSE

VITA LÁSZLÓ

A korreláció— és regresszióelemzés a Theiss Ede szerkesztésében 1958-ban kiadott ,,Korreláció- és trendszámítás" c. kézikönyv1 megjelenése és a korszerű számítástechnikaí berendezések elterjedése óta hazánkban is bevonult a közgaz—

dasági és társadalomtudományi kutatások ,,rutinmódszerei" közé. Ennek felisme- rése késztette a Közgazdasági és Jogi Könyvkiadót M. Ezekiel és K. A. Fox e mód- szerekről szóló művének2 megjelentetésére, s egyértelműen ezt jelzi az a tény is, hogy az 1969/70-es tanév kezdete óta a Marx Károly Közgazdaságtudományi Egye- temen oktatott általános statisztikai tananyag a korábbinál jóval nagyobb terje—

delmet szentel a két- és többváltozós korreláció— és regresszióelemzés módszereinek.

A korreláció- és regresszióelemzés gyakorlati alkalmazásainak elterjedésével párhuzamosan azonban — ami önmagában igen örvendetes jelenség — olyan káros tendenciák is kibontakozóban vannak. amelyek szinte kivétel nélkül e módszerek nem elég alapos ismeretére, nem elég körültekintő alkalmazására vezethetők vissza.

Ennek alapvető okát abban látjuk. hogy a korreláció— és regresszióelemzés mód—

szerei csak akkor alkalmazhatók eredményesen és megbízhatóan. ha az azokat felhasználó kutató egyaránt rendelkezik mind az alkalmazás konkrét területére.

mind a korreláció— és regresszióelemzés területére vonatkozó szakismeretekkel. Mi- vel ennek lehetősége az ismeretek elterjedésének mai szintjén egyre kisebb, leg—

alább a megbízható alapismeretek széles körű elterjedése szükséges ahhoz. hogy ne fokozódjanak a nem elég szakszerű alkalmazásból fakadó veszélyek. A másik ok véleményünk szerint az, hogy a statisztikai ..köznyelvben" a regressziófüggvény, regressziós modell fogalmakat még ma sem használják elég egyértelműen. s ese- tenként mást és mást értenek azokon. Pontosabban: a ,,regressziós modell" el- nevezést több. egymástól igen erősen eltérő modelltípus megjelölésére használják a statisztikai szakirodalomban. s ez igen sok félreértésre ad okot a gyakorlati alkalmaz-ások egyik legfontosabb részét képező hibaszámitás során.

.lelen cikkben éppen ez utóbbi kérdéssel. s annak gyakorlati következményei- vel kívánunk foglalkozni. Regressziófüggvényen a statisztikában általában egy olyan p-változós

V:g(x1,X2,..., xp):g(x) /1/

* Korreláciá- és trendszómítás. (Szerk.: Theiss Ede). Közgazdasági és Jogi Könyvkiadó. Budapest.

1958. 320 old.

2 Ezekiel, M. — Fox, K. A.: Korreláció— és regresszióanalizis. (Lineáris és nem lineáris módszerek,) Közgazdasági és Jogi Könyvkiadó. Budapest. 1970. 594 old.

54

(2)

1156 VITA LÁSZLÓ

becslőfüggvényt értenek, amely az abban szereplő Xi, Xz, .. . , X,, változók konkrét értékeinek ismeretében felhasználható a függő változó értékének becslésére. Az /i/ regressziófüggvényben szereplő X,— (] : 1. 2, . . . . p) va'l'tozókiat gyakran tényező-

változóknak, az /i/-gyel becsülni kivánt Y—t pedig eredményvóltozónak is nevezik.

A továbbiakban mi is ezeket a szemléletesebb elnevezéseket használjuk. Az /1,/

regressziófüggvényben —— annak kon'krét formó—jőtól függően —— egy vagy több ismeretlen paraméter is szerepel. melyeknek becslés—e éppen a regresszióelemzés egyik lényeges feladata. Ezt juttatja kifejezésre a regressziófüggvény /i/-nél részle—

tesebb,

V:g(x1.x2,...,xp;,61,/32,...,;9,) /2/

A regressziófüggvényt igen gyakran úgy interpretálják, hogy az V. illetve felírása. amelyben ő,- az ismeretlen paramétereket jelöli, és r) p is fennállhat.

Xi, Xg, Xp változók ok—okozati összefüggésben állnak egymással. Ez azon-

ban még akkor sem feltétlenül igaz, ha az Xí, X2. . . ., Xp változók igen jól fel—

használhatók az eredményvóltozó értékeinek becslésére. Az esetek többségében ugyanis csak azért mutatkozik határozott összefüggés a vizsgált változók között,

mert a változók mindegyikére előttünk ismeretlen vagy csak részben ismert közös tényezők hatnak. Ennek legközismertebb példróii az idősorok adatai között ki—

mutatható értelmetlen vagy más néven nonsense korrelációk. melyekben a közös tényezőktől való függőség igen kiélezett formában jelentkezik. llyen értel—

metlen korrelációk azonban nemcsak idősorok adatai között mutatkozhatnak, ha—

nem _minden olyan esetben kimutathatók. amikor az általunk vizsgált változók ugyanannak a társadalmi vagy gazdasági jelenségnek különböző oldalait tük- rözik. Ez arra hívja fel a figyelmet. hogy pusztán abból a statisztikai megállapitás—

ból, hogy bizonyos vőrltozók jól felhasználhatók egy másik változó értékeinek becs—

lésére, a konkrét alkalmazási területre vonatkozó körültekintő szakmai megfon- tolások nélkül sohasem szabad azok ok—okozati összefüggésére következtetni!

Célszerűbb ezért az ennél sokkal óvatosabb ..Xj, Xg, ijól felhasználható az Y becslésére, előrejelzésére" megfogalmazást használni.

A regressziófüggvénytől eltérően. amely önmagában nem mond semmit az abban foglalt hipotézis és a valóság viszonyáról. a regressziós modellben — amely voltaképpen egy azonos-ség — már e viszony is kifejezésre jut. Ezt egy olyan 8 reziduólis változó — más néven maradéktag —— bevezetésével érjük el, amely az eredményvóltozó valóságban megfigyelhető mindenkori Y értékének és az erre vonatkozó ? becsült értékének a különbségeként adódik. Az elmondottak szerint tehát:

sz—l—s,

/3/

Tekintettel arra, hogy a ,,regressziós modell" elnevezést jelen cikkben egy más fogalom jelölésére tartjuk fenn. a /3/ összefüggést a továbbiakban regressziós azonosságnak nevezzük.

Az 8 ;; 0 esetet is megengedve, a /3/ azonosság -— az abban szereplő válto- zók jellegétől függően — a következő modelltípusok leírására alkalmas.

a) Az /1/ regressziófüggvényben szereplő változók mindegyike ún. determi-

nisztikus. azaz a véletlentől nem függő változó, s pontosan (mérési hiba nélkül) ismerjük e vóltozóknak az általunk vizsgált és jól definiált sokaság minden egyes eleméhez tartozó értékét. Ekkor a /3/ [azonossógban természetesen 8 : 0, azaz a tényezővőltozóvk egyértelműen meghatározzák az eredményvóltozó értékét. Ezt

(3)

A KORRELÁCIÓ- ÉS A REGRESSZIÓELEMZÉS 1157

(: modellt funkcionális modellnek nevezzük. E modelltípus szinte kizárólagosan a klasszikus fizikára jellemző. s csak igen nehezen képzelhető el a közgazdaság- vagy társadalomtudományokban.

b) Az eredményváltozó és az 8 maradéktag valószínűségi változó, de a té—

nyezőváltozók determinisztikus változók. E modelltípust a továbbiakban regresz- sziós modellnek nevezzük. Ezt az elnevezést az indokoljafl, hogy e modelltípus esetében elsősorban a regressziófüggvény bír jelentőséggel, s nem fűzhető kü- lönösebb értelmezés a korrelációs együtthatókhoz, hiszen azok csak valószínű- ségi változók között vannak definiálva.

c) A /3/ regressziós ozonosságban szereplő változók mindegyike valószínű—

ségi változó. E modell'típusra a továbbiakban a korrelációs modell elnevezéssel utalunk, melynek az az alapja, hogy ebben az esetben a korrelációs együttha- tóknak is legalább olyan fontos szerepük van az elemzés során. mint magának a regressziófüggvénynek.

d) A /3/ azonosságban Y és e? valószínűségi változó. a tényezőváltozók pedig részben valószínűségi, részben determinisztikus változók. Ezt a modelltípust vegyes modellnek nevezzük. Az ökonometriában használatos ún. makromodellek többsége e kategóriába tartozik.

A statisztika elméletében, de főleg gyakorlatában az /1/ becslőfüggvényt

mind a négy fenti modelltípus esetében regressziófüggvénynek nevezik. Ez azután

— különösen a regresszióelemzés módszereit csak felületesen, főként technikai vonatkozásaiban ismerő, de azokat önállóan alkalmazó kutatók körében — félre—

értésekre ad alkalmat.

Mivel a felsorolt modelltípusok közül a közgazdaság— és társadalomtudo- mányi alkalmazások során a regressziós és a korrelációs modell a leggyakoribb.

a továbbiakban csak e kettővel foglalkozunk részletesen. Bár a regressziós és a korrelációs modell közötti különbség az eddig elmondottak alapján igen cse- kélynek tűnhet. látni fogjuk, hogy a mögöttük meghúzódó "matematikai háttér"

már lényegesen eltér a két esetben.

A további tárgyalás megkönnyítése érdekében tételezzük fel. hogy az Y, Xi, .,., Xp változók mindegyikére nézve n számú megfigyelés áll rendelkezé—

sünkre. E megfigyeléseket egy n—elemű vektorba és egy n x p típusú matrixba foglaljuk:

lyi—§ Xu XinwH/JA 'X'tl

l [ .

yzlyz']: lyz'í, leíxíj]: 121Xzz,-—,Xz,a : xz

. ; . . . . /4/

lay/Il XIII Xf/27"í X,;p X;

módon, ahol y,- az Y—ra, x;,- pedig az X,-—re vonatkozó i—eclik megfigyelés (] : 1, 2....,p:í:1,2,...,n).'*

Az egyszerűség kedvéért továbbá azt is tételezzük fel, hogy az X matrix mind—

egyik sora különböző.

A regressziós modell alapját az a hipotézis képezi, hogy az eredményvál—

tozónoik az Xi, X2, ..., Xp tényezővól'tozók rögzített Xi1. Xiz, ..., xip értékei mel-

3A szakirodalomban máig sem alakult ki egységes elnevezés a regressziós] illetve korrelációs modellre. Az itt használt elnevezéseket (7)—bői vettük át.

4 Az Y, Xi' X2. . . . , XP változók egy-egy konkrét értékét most is és a továbbiakban is a megfelelő

kisbetűkkel jelöljük.

(4)

1158 , ) V , , ; vam LASZLa

letti várható értéke függvényszerű kapcsolatban áll a tényezőváltozákkal._azaz_í _i *

/minclen értékére

M(Y,-):g(x; B) (i.—: 1, 2, n) /5/

áll fenn, ahol x; a /4/ alatti X matrix i-eclik sora, és 13" 2 [ill. 52, . . riff]. Az f5/—ben szereplő ismeretlen [l,- paramé'terek becslése ekkor az eredményül—teá—

szempontjából egy olyan véletlen mintavételt tételez fel, melynek soranlatényezó.

változók előre rögzített, n különböző x; értékrendszere mellett megfigyelgúküa—z

eredményváltozó egy-egy új értékét. Matematikailag ez azt jelenti, hogynks'z'ama-

—- az előre rögzített X,- értékrendszer által meghatározott -- alabbi va—loszsnasegi változóra vonatkozólag végzünk egy—egy megfigyelést: ' '

Yi(xz1,X£Z:---in/1'v§i:§27"'i/3P)3lyi(xlsü*) (i:i,z,...,n) jó;

itt az Y,- (xn, Xig, x;,,; 65, ..., B,) jelöléssel azt juttatjuk kifejezésre, hogy az /5/—ben szereplő Y,- valószinűségi vál-tozó eloszlását az általunk ismert es nagy zített X,- értékek mellett a becsülni kivánt, ismeretlen 51. ..., 5, paraméterek hatá— * '

rozzák meg. Összefoglalóan annyit is mondhatnánk. hogy a regressziós modell esetében ,,fáziseltolódás" van a tényezőváltozókra és az Veredme'nyváltozákra vonat—

kozó megfigyelések között: először rögzítjük a tényezővá'ltozók értékeit. maid e rögzített értékek mellett végzünk egy megiigyelést az eredmény/változom nezve.

ezután újból rögzítjük a tényezőváltozák értékeit. s ismét kiválasztjuk (megfigyel- jük) az eredményváltozó egy értékét. és így tovább. ( H ,,

Az előbb vázolt mintavételi mód az ún. kontrollált kísérletek tipikus jellemem.

Ha például kísérleti

parcellákon elért terméseredm—ények alapján vizsgálni kiván—

juk valamely műtrágya hozamnövelő hatását. akkor hyilvánvaló, hogy a kísérlet iró-

nyíto'jánok módjában áll a felhasználandö műtrágyamennyiség parcellánekénti elő-_

irása. adagolása. Jelen esetben az is elég nyilvánvaló. hogy a terméshozam tekin—

tendő eredményváltozónaik. az adagolt műtrágyamennyiség pedig a térnyezővál- tozó szerepét játssza. Ha figyelembe vesszük, hogy a terméshozamot a felhasznált

műtrágyamennyiségen kívül még számtalan más tényező is befolyásolja. nem meg—

lepő. hogy egy adott kísérleti parcellán még rögzitett műtrágyaadag mellett is

igen sokféle terméseredményre számíthatunk. Ha most az adott XI műtrágyaadag mellett elképzelhető összes lehetséges terméshozamok csak elvben létező soka- ságából ,.véletlenszerűen*kiválclrsztunk"5 egy elemet, akkor az e ;,rkíválasztott eleme hez" tartozó y,- értékegy. a /ó/-—hoz hasonlá módon definiált Vi (xi: 131, . . . Á,) va—

lószínűségi változóra vonatkozó :.ikonkrét megfigyelésnek tekinthető.6 A vázolt

modellben szereplő eredményváltiozó— tehát valószínűség—i változónak, a tényező- változó pedig determinisztikus változónak tekintendő, s így regressziós modellel állunk szemben; Az ilyen kontrollált kísérletek azonban sokkal inkább a termé—*

szettudományokra, mint a társ—aclalomtuclományokra jellemzők.

Vannak azonban a közgazdaság- és társadal omtudomiányi jellegű alkalmazá—

sak során is olyan esetek, amikor —- legalábbis közelítőleg —- az előbb vázolt minta-

5A "véletlenszerű kiválasztás" itt a sokaság jellegéből következően (,,az adott x,- műtrágyaadag mellett elképzelhető összes lehetséges terméshozam") természetesen automatikusan megvalósul, realízó-.

lódik. A csak elvben létező ún. elméleti sokaságok esetében a ..véletlenszerű kiválasztás" általában tőlünk6függetlenülEz a gondolatmenetmegvalósul.igens ígyelvontnakaz valójábanés mesterkéltnekmegfigyelést jelent.tünhet. Ha figyelembe vesszük azonban. hogy

a valószínűségi változó nem más, mint az elemi események halmazán értelmezett függvény, és azt. hogy ::^{va óvó}ljelen'^esz.esetben egy konkrét terméseredmény realizálódása jelent egy elemi eseményt. azonnal nyilván,—,

(5)

A KORRELACIÓ— es A REGRESSZIÓELEMZES 1159

vételre kerül sor. Ha ugyanis az eredményváltozóra vonatkozó megfigyeléseink egy olyan többszörösen rétegezett mintavétel eredményei, melynek során a réte—

geket a modellünkben szereplő összes tényezőváltozó értékei (folytonos változók esetén értékközei) alapján képeztüxk, ugyancsak a regressziós modellt kell alkal-- maznunk. Ennek az a magyarázata. hogy a vizsgálandó sokaság p számú tényező—

változó szerinti többszörös rétegzése a tényezőváltozók kontrollálásaként, előzetes rögzítéseként is felfogható, s így ez az eset a kontrollált kísérlet közgazdasági.

társadalomtudományi megfelelőjének tekinthető. Ha a modellünkben szereplő té—

nyezőváltozók száma nem túl nagy, ilyen esetek elég gyakran fordulhatnak elő.

Tegyük fel például. hogy bizonyos háztartások egy főre jutó jövedelmét (Y) kívánjuk megbecsülni a háztartás keresőinek és eltartottjainak száma (X,, illetve Xg) alapján. Ebben az esetben is nyilvánvaló, hogy még a rögzitett összetételű háztartások egy főre jutó jövedelme is többé—kevésbé szóródik további — itt figyelmen kívül hagyott — tényezők hatása következtében. Ha mármost a vizsgá—

landó háztartások sokaságát kombinativ módon rétegekre bontjuk a keresők és az eltartottak száma szerint, s minden így kialakított rétegbe tartozó háztartás közül véletlenszerűen kiválasztunk egyet7. akkor az ennél megfigyelhető egy főre jutó jövedelem (yr) nyilván most is egy Y,- (x,-1, xigz fű, ..., B,) valószínűségi változóra vonatkozó konkrét megfigyelést jelent, ahol xu, illetve x,y az i-edik rétegbe tar- tozó háztartások keresőinek, illetve eltartottjainak számát jelöli. A mondottak alapján nem nehéz észrevenni jelen példánk és az előbb vázolt kontrollált kísér—

let közötti analógiát. Az egyetlen különbség az alapul vett sokaságok eltérő jelle- géből adódik. Előbbi példánk esetében a ,,véletlenszerű kiválasztás" automatikusan valósult meg. mert egy ,,elméleti sokaságot" vettünk alapul. jelen példánk esetében pedig mi magunk hajtottuk azt végre. hiszen most egy fizikailag is létező elemekből álló, ,,valóságos" sokaságot vizsgáltunk.

Két előző példánk tanúsága szerint minden olyan esetben a regressziós modell alkalmazandó, amikor az /1/ regressziófüggvényben szereplő tényezőváltozók determinisztikus változók és nem határozzák meg egyértelműen az eredményvál- tozót. Az első feltétel —— legalábbis a közgazdasági és társadalomtudományi jel- legű alkalmazások során —— általában akkor teljesül, ha a modellünkben szereplő minden változóról teljes körű ismeretekkel rendelkezünk. ilyen esetekben a má—

sodiknak emlitett feltétel teljesülése biztosítja azt, hogy Y-t valószínűségi válto- zónak tekinthessük. Ha ugyanis az eredményváltozónak még a tényezőváltozók rögzített értékei mellett is igen sok értéke adódhat. akkor ezeknek a — többnyire csak elvben létező —— lehetséges értékeknek az összessége mindig egy olyan alapsokaságnak tekinthető, melyből véletlenszerű kiválasztás (megfigyelés) útján jutunk az Yí-re vonatkozó y,- megfigyeléshez. Mivel a közgazdasági és a társada- lomtudományi vizsgálatok során e feltétel szinte minden esetben teljesülg, teljes körű adatok rendelkezésre állása esetén legtöbbször a regressziós modellt kell alkalmazni. Ha például ugyancsak a terméshozam és a felhasznált műtrágyameny—

nyiségi kapcsol-atát vizsgálnánk, de kisérleti parcellák adatai helyett az összes ter- meiőszövetkezet adataival rendelkeznénk, akkor mindkét megadott feltételünk tel—

jesülne, azaz ugyancsak a most tárgyalt regressziós modellt kellene alkalmazni.

7 Az eddig követett gondolatmeneten nyilván az sem változtat, ha minden egyes. a keresők és eltartottak száma alapján kialakított rétegből egynél több háztartást választunk ki véletlenszerűen. Ekkor azonban az X matrix x,- sorai természetesen nem lesznek mind különbözők.

3 Annak. hogy egy modellben nem veszünk figyelembe minden, az eredményváltozóra ható tényező- vdltozót. több oka is lehet. Előfordulhat például. hogy a hatótényezők egy része nem számszerűsíthető, de az is, hogy egyszerűen túl költséges volna minden tényező figyelembevétele. A közgazdasági gyakorlatban legtöbbször a szükséges adatok hiánya vagy nem összehasonlitható volta kényszerít bennünket egyes tényezőváltozók figyelmen kivül hagyására.

(6)

1 160

VlTA'LÁSZLCi

Végül csak a teljesség kedvéért említjük meg, hogy a trendfüggvények is ebbe a kategóriába tartoznak. mert egy idősor adatai mindig egy sztochasztikus folyamat egyik realizációjának tekinthetők, s a független változó szerepét játszó t időváltozó determinisztikus változó. Ennek ellenére nyomatékosan felhívjuk a figyelmet arra. hogy —— az idősorok esetében felvetődő speciális problémák miatt —

a trendfüggvényekre nem alkalmazhatók a regre'ssziófüggvények esetében hasz-

nálatos hibaszámitási módszerek. '

A korrelációs modell alapulvétele —- az /5/ vhipotézissel szemben —-— mindig azt

jelenti, hogy az eredményváltozó értékei—nek becslésére, előrejelzésére az

V: M (v i x1 : xii, xzz—sxig, x sir,-p) : 9 (x? KP) /7,/

feltételes várható értéket használjuk fel, melyben x:,- az Xívalószinűségi változó egy tetszőleges, de rögzitett értéke. A /7/ feltételes várható értéket, mint azi X,- : x,-,- fel—

tételek függvényét. elméleti regressziófüggvénynek szokás nevezni. *

Arra, hogy az elméleti regressziófüggvényt használhassuk fel az eredményvál—

tozó értékeinek becslésére, az a tény jogosít fel bennünket, hogy az

M ([Y—rp (xi, x2, ..., xp)] 2) , /8,/

várható érték akkor lesz minimális, ha a (P (xi, xz, ..., xp) függvény éppen a /7/

elméleti regressziófüggvény. E tulajdonság azt fejezi ki, hogy—va /7/ elméieti regresz—

sziói'ügg'vény bizonyos értelemben az eredményváltozó .,legjobb" becslőfüggvénye.

Magáról az elméleti regressziófüggvény előállításáról egyelőre csak annyit

jegyzünk meg, hogy az az Y, Xi, Xg, , XP valószínűségi változóki együttes elosz- lásának bizonyos paramétereire támasíkodi'k. Itt tehát az elméleti regressziófügg—

vényben szereplő ismeretlen §,- par—amétere'k becslése — a regressziós modellel el- lentétben —— egy olyan n-elemű mintát tételez fel. melynek elemei egy (p —l— 1) di-

menziós valószinűségeloszlásból szánm-azna'k. Ebben az esetben tehát az i-edik

mintaelem kiválasztásakor (megfigyelésekor) egyidejűleg jutunk az Y, Xi, Xg,

X,, változókra vonatkozó i—edik [y,-, Xfi megfigyeléssorozathoz.

— Korrelációs modell alkalmazandó minden olyan esetben. amikor a model- lünkben szereplő Y, Xi, Xz, X,, változók mindegyikére vonatkozó megfigyelések a) egy olyan reprezentatív mintából származnak, amely nincs többszörösen rétegezve az Xi, XZ; ..., Xp tényezőváltozók értékei (értékközei) szerint,

b) idősorok adatai.

Ezekben az esetekben ugyanis modellünk mindegyik változója valószínűségi vál—

tozónak tekinthető. Ezek szerint, ha a terméshozam és a felhasznált műtrágya-

mennyiség kapcsolatát véletlenszerűen kiválasztott termelőszövetikezetek adatai

alapján vizsgálnánk, akkor nem a regressziós. hanem a korrelációs modellt kel-

lene alkalmazni.9

Úgy véljük, hogy az eddig mondottak alapján a közgazdasági és társadalom- tudományi gyakorlatban előforduló esetek többségéről egyértelműen eldönthető, hogy az adott esetben a regressziós vagy a korrelációs modellt kell-e alapul venni Csak utalni kivánunk rá. hogy hallgatólagosan eddig is feltételeztük, és a továb—

biakban is fel fogjuk tételezni, hogy az általunk vizsgált változók mindegyike pon-

tosan, vagy legalábbis gyakorlatilag kielégítő pontossággal mérhető. E feltétele—

zésre azért van szükség, mert mérési hibákkal ,.terhelt" változókat is megengedve

9 Feltételezve természetesen. hogy a minta kiválasztása előtt nem került sor;! termeiőszövetkezeteknek a felhasznált műtrágyamennyiség szerinti rétegzésére.

(7)

A KORRELACIÓ- ÉS A REGRESSZIOELEMZES 1161

korántsem lenne teljesnek tekinthető a regressziós és korrelációs modell eddig vá- zolt gyakorlati elhatárolása. Ha például egy egyébként funkcionális modell ese- tében feltételezzük, hogy a függő változó mérésekor véletlen hibák lépnek fel.

az összefüggés funkcionális jellegétől függetlenül a regressziós modellt kell alapul

vennünk. Az ilyen és ehhez hasonló esetektől azonban a közgazdasági és társa—

dalomtudományi jellegű alkalmazások esetében eltekinthetünk. mert az e területe- ken fellépő szisztematikus felvételi torzítások és a fogalmi elhatárolások esetleges következetlenségeiből adódó mérési pontatlanságok csak a legritkább esetben ke—

zelhetők valószínűségi vál—tozókként. ,

Eddig egyáltalán nem tettünk említést sem a /2/ regressziófüggvény konkrét formájáról, sem az abban szereplő ismeretlen 5,- p-araméterek becsléséről. A /2/

függvény konkrét formájának megválasztását specifikációnak szokás nevezni. A specifikáció végrehajtása többféleképpen is elképzelhető. Előfordulhat, hogy a vizsgált jelenség természetének ismeretében eleve bizonyos "elvárásaink" vannak a regressziófüggvénnyel szemben. Ilyen esetekben még az is elképzelhető. hogy a regressziófüggvénnyel szemben támasztott követelményeink mellett csak egy meg—

határozott függvénytípus jöhet szóba. Az is előfordulhat. hogy a rendelkezésünkre álló adatok elemi módszerekkel való sokoldalú vizsgálata alapján választjuk ki az alkalmazandó függvénytípust.10 A korrelációs modell esetében az is előfordulhat, hogy az Y, Xj, Xg, ..., Xp változók együttes eloszlásának ismeretében ,.tiszta" m::—

tematikaí úton vezetjük le a /7/ elméleti regressziófüggvényt. Sok esetben — kü—

lönösen akkor, ha a szükséges számítások végrehajtására elektronikus számító- gép áll rendelkezésünkre —— lényegében próbálgatással: többféle függvénytípus—

nak alapad-atainldhoz való illesztésével keressük meg a számunkra legmegfelelőbb függ'vénytr'pust.

Bármilyen módon is végeztük azonban el a specifikációt. tudatában kell len- nünk annak, hogy maga a kiválasztott függvénytípus is mindaddig hipotézisként ke- zelendő, amíg erre alkalmas módszerek segítségével meg nem győződtünk a speci- fikáció helyességéről.

. lgen sok esetben — indokoltan vagy indokolatlanul" — feltételezzük, hogy a

/2/ regressziófüggvény lineáris, azaz

Y::őO—l—őjXí—j—n _l—lgp XP 11/9/

áll fenn. Ennek az a magyárazata, hogy a /9/ lineáris regressziófüggvény eseté—

ben igen egyszerűen becsülhetők az abban szereplő ismeretlen ő, regressziós együtthatók, s igen egyszerű és szemléletes interpretáció is fűzhető hozzájuk. Mi—

vel a gyakorlatban a lineáris függvénytípus alkalmazása a legelterjedtebb, a to- vábbiakban csak a /9/ alakú regressziófüggvények tárgyalására szorítkozunk. Be-

vezetve a ;? : lőj), 61. ..., Bp] jelölést, a /9/—ben szereplő ,5; regressziós együtt—

hatók legkisebb négyzetek módszere szerinti ;? becslőfüggvénye a regressziós

modell esetén "

13 : (X'X'l— X"! /10/

alakú, ahol:12

X' : [1, X].

10 Erre nézve lásd a (7) 4. fejezetében leirt módszert.

" Arra a kérdésre. hogy ezt megtehetjük-e. a következő pontban térünk ki.

12 itt 1 az n elemű összegező vektort jelöli.

(8)

1162 ' mm LÁSZLÓ '_ : *

A 1? becslőfüggvény egy konkrét" mintára vonatkozó helyettesítési értékét,)" "" "

azaz a 5,- regressziós együtthatók egy kónkrét minta alapiáh nyert becsült é" ' '

keit tartalmazó vektort a továbbiakban b),-vol (k % 1, 2,. ..) jelöljük. " _

Némileg más a helyzet lo korrelációs modell esetében Ebben az esetben ,_

attól függetlenül, hogy a /7/ elméleti regressiiófüggvény lineáris-e vagy sem, ke— ; reshetünk olyan /9/ alakú lineáris függvényt, amely a lineáris (P (xi, Xg, .. ., Kp) függvények körében minimalizálja (: /8/ Várható értéket.

Annak bizonyítása több helyen is megtalálható ((2), (8)), hogy ekkor az Y

X,, X2, .. .X,; változók tetszőleges együttes eloszlása esetén a /9/Jben szerepiő"

.,3, regressziós együtthatókm nézve -

511p1"*" mMM-.va, ppm—c,

_ i'

[21 [J, 4- 622 [32 4- . . . 4- 529 §]? i CZy

f ' ' /11/

c,,i ,614— C,,gpgi...icpp

Pp meg,

Lamy * *

Fa (31 "71 (Sp m,,

áll fenn, ahol m,, illetve m, az X,-, illetve az Y változó várható értéke, és

_ MUXj—mj) (nem)] hajslrk

0 x— /7 ':k

továbbá ] a]

ij 34 M [(Xj ——/nj) (Yeah,/)]

A/11/ egyenletrendszer oly módon használható fel az ismeretlen 5,- együtt- hatók becslésére. ho₉y meghatározzuk az m ,_v m-,_: C,,_: és c_IY paraméterek

Újkf-n'*L—lfg:;Uz'j "'Xj) (Xi/("MM cjy I"" 2: (Xij *Xle/i—W

becsült értékeit, s azokat or /11/- be helyettesítve az így adódó (p-l—l) ismeretlenes lineáris egyenletrendszert megoldjuk a 19,- ismeretlenekre. A cik becsült kovdriahciák

matrixát C-vel. a c,, becsült kovarionciók vektorót C—vel jelölve a /11/ megoldása —

e

amennyibenC nem szingulárris13 —— a következő módon írható fel:

Él!—víg,, Éz , ..., ÁPJÖZEAIC

Én: y_í*Á151yI—ví* Cila

/12/

ahol: x' : [XL xz, ..., xp].

13 Ez az n ) p esetben szinte kivétel nélkül teljesül.

(9)

A KORRELÁCIÓn es A REGRESSZIÓELEMZES 1163

Könnyen belátható azonban. hogy a /12/ eredmény azonos /10/—zel, azaz a /9/'—ben szereplő 19,- együtthatók az alapul vett modelltípustól függetlenül a /10/

becslőfüggvénnyel becsülhetők. Vegyük ugyanis figyelembe, hogy a /10/-ben sze-

replő (X'* X')'1 inverz a korrelációs modell esetén

__ gum "

__ A—l (x,*x,)_1_ 0

(7—1 //—1 C

1 A "1 —

1 A _1

?? C X HT C

alakú, továbbá

*

— ny

x" y :

A

("_1) C Jr "y,;

5 így

É'f;

4x'- ;"

A

A A .

; _

ly—Vc'le BU

(x7x)*1XWY

: A ?

; Ig.—www 1

c c

§ 1

f*— wm __ _,

'dmi'vel bebizonyítottuk /12/ és /'lÖ/ fdrmo'ilis azonosságát.

A statisztikus14 célja az alkalmazott modelltípustól függően legtöbbször az

/5/ várható érték vagy a /7/ feltételes várható érték —- tehát az eredményvóltozó

valamilyen átlagos és nem egyedi értékének —- becslésem. Ez a gyakorlatban — most már eltekintve attól, hogy a regressziós vagy a korrelációs modellt hasznai-

ja—e fel erre a célra -— a regressziófüggvény /9/ alakú specifikációja esetében úgy

történik. hogy a rendelkezésre álló konkrét véletlen minta16 alapján előállítja a /9/ regressziófüggvény

Y; 60'%81X1 4—62 XZl--—iűp XI] 1/13/

alakú ..becslőfüggvényének"

l/(U ;: Úr?/Á) sállal XI % ÓZWXZ %.. — —f/)/7il') Xp /14/' ..becsült értékét", amelyet a tovabbiakban lineáris becslőfüg'gvénynek nevezünk.

A /'14/ formulában btk) (] : O, 1, ..., p) a korábban már definiált bk vektor j—edik

eleme. Ez az elnevezés többszörösen is indokolt, mert

—— maga a /9/ lineáris regressziófüggvény már eleve az eredményvóltozó becslőfügg-

vénye,

-—V a /9/ lineáris regressziófüggvény ,,becslőfüggvénye" olyan értelemben, hogy az az ismeretlen [S,- paraméterek helyett azok /10/—nek megfelelő ,31- becslőfüggvényeit tarv- talmazza.

l'— Jelen cikkben a korreláció— és regresszióelemzés módszerét elsősorban a statisztikus és nem az e módszereket alkalmazó közgazdász. illetve térsadalomtudós szemszögéből vizsgáljuk. , , ,

15 Egyes esetekben előfordulhat ugyan, hogy az eredményvóltozó egy egyedi értékenek becslese a cel.

de az ilyen egyedi értékek becslésére a statisztikai gyakorlatban csak igen ritkán, például egy, az ered- ményvóltozóra vonatkozó hiányzó megfigyelés helyettesítésekor van szükség. , ) ' ' " A .*.minta" természetesen itt is és a továbbiakban is attól függően értelmezendő, hogy regresszios, [vagy korrelációs modellről van-e szó.

(,smx

(10)

1 164

VITA Msat—Óh,

Erre hívják fel a figyelmet az V, Y és Vik) jelölések is. '

Ha a /14/ lineáris becslőfüggvénybe behelyettesítjük .az X,- (j : 1, 2,. . . . , p) té—

nyezővóltozók tetszőlegesen megválasztható. de rögzített x,-,- (i : l, 2, . n) érté-—

keit, akkor az

'

jiW : halk) ,, bIW Xn * bgl/f) xiz * - ' alap/ff) xm (falu.-,") ns!

regressziós becsült értékekhez jutunk. 'E becsült értékek az esetek többségében ' ,

eltérnek az eredményvóltozónak az xii. Xig, . . . , xip értékek mellett ténylegesen megfigyelt y,- (i : 1, 2. . . n) értékeitől. Ezeket az eltéréseket fejezik ki az

eí/U :yi _íl'óé) (if—1, Z.. . ..ni /16/

empirikus reziduumok, melyek a /15/ regresszió—s becsült érték—ek hibájának. pon—- tatlansdgónaik kifejezői.

A mondottakbó'l nyilvánvaló, hogy a /15/ becsült értékek a /15/-ben sze—

replő rögzitett x,-,- értékeknek a /l3/—ba való behelyettesítésével nyert

l/i"50'/31Xi152 Kat-utá F Xi ? fel,! , .../1 ) /130/

valószínűségi vóltozókra vonatkozó egy-egy_konkrét "megfigyelésnek" tekinthetők.

Ez pedig annyit jelent, hogy ha igen sok véletlen minta alapján többször is meg- határoznánk akár a ő,- paraméterek, akár az eredményvóltozó rögzitett xi,- értékek melletti /15/ becsült értékeit, úgy azok többé-kevésbé eltérnén—e'k egymás—tól, va-

lószínűségi vóltozókk—én't ing—adoznónok mintáról min—tám. Ezzel szemben a /9/ függ—

vény X,-: x,-,- (] : l, 2, ..., p) helyen vett ; helyettesítési értéke már nem való- színűségi változó, hanem maga a becsülni kivánt elméleti érték.", ,

A /1ó/ reziduumokban háromféle eltérés juthat kifejeződésre. melyeknek mindegyike egy-egy hibatorrósnak tekinthető.

a) A regressziós modell esetén nem biztos, hogy igaz az /5/—tel és a /9/-cel együttesen megfogalmazott lineáris hipotézis. A gyakorlatban ugyanis nem ritka az az eset, hogy az eredményvóltozó várható értéke függvényszerű kapcsolatban áll ugyan a figyelembe vett tényezővóltozókkal. de ez a kapcsolat nem lineáris. Ilyen esetekben az egnempirikus rezi—

duumokban kifejeződik a valóságos kapcsolatnak a lineóristól való eltérése. Ugyanez a helyzet a korrelációs mode/I esetén is. de ekkor az előbb mondottak értelemszerűen a /7/

elmeleti regressziófüggvénynek a lineáristól való eltérésére vonatkoztatandók.

b) Az elnempirikus reziduumokban kifejeződik az a már részletesen tárgyalt tény is,

hogy az ismeretlen §, paraméterek becslését egy véletlen mintára alapozzuk, s igy csak közelíteni tudjuk a becsülni kivant M (Y,-). illetve M (Y ! Xi : xii, Xz 3—— x,-2, .. . , Xp :: xip) ér- tékeket.

c) Végül attól függetlenül. hogy általában az eredményvóltozó valamilyen átlagos értékének becslése a cél, az /1/ empirikus reziduumokban kifejeződésre jut az eredményvc'xl- tozó e célra felhasznált egyedi y,. értékeinek a megfelelő M(Y,-) várható értéktől, illetve

M (Yj XI :: Xií' [: 1, 2, .... p) feltételes várható értéktől való eltérés is.

A most mondottak összefoglalóan az

91" : hűti"? )—§(Xi':§' )jt [NKÖM— §(xií bí )je lyi gnú/f)] /17/

17 ltt ..becsülni kivánt elméleti értéken" a regressziós modell esetében az /5/ várható érték. a korre- lációs modell esetében pedig a /7/ feltételes várható érték értendő.

(11)

A KORRELÁCIO- ÉS A REGRESSZIOELEMZÉS 1165

azonossóggal írhatók le. ahol:

9 (x; , y?) —— a valóságos regressziófüggvény,

§ (xj, §? — a feltételezett regressziófüggvény,

§ (xí, bí.) — a feltételezett regresszíófüggvény egy konkrét véletlen minta alapján be—

csült formája (a /17/ formulában szereplő bk — az eddigiektől eltérően — nem a ,/10/ egy konkrét értékét jelöli, hanem egy tetszőleges típusú reg:

ressziófüggvényben szereplő [3]- paraméterek becslőfüggvényének egy konkrét helyettesítési értékét; abban a speciális esetben, ha 9 (xi—"(V) való_

ban linearis, g (x; _§*)-nak és ;; (x;, [f)-nak is ,'9/-nek az x; helyen

vett ;; helyettesítési értéke, §(x ,b; )—nak pedig yíkxfeiei meg).

!

A gyakorlatban a második két hibaforróssal minden esetben, az elsővel pedig csak akkor kell számolnunk, ha hibás a linearitósra vonatkozó hipotézisünk. il—

letve nem teljes pontossággal teljesül az.

A három fenti hibaforrós közül az első szisztematikus, a másik kettő pedig véletlen jellegű. Mivel a valóságos regressziófüggvényt a gyakorlatban szinte soha—

sem ismerjü'k. csak elméletileg végezhető el a /17/ felbontás. Gyakorlati jelentősége csak a hibaszóvmítós soran adódó eredmények interpretálásakor van.

Az ezutón ísmertetendő hibaszómító's a /10/ és i'iBa/ becslőfüggvénye—knek ——

mint valószínűségi valtozóknak — a vizsgálatán alapszik. A híbaszómítósnak három egymást követő lépcsője, fokozata van:

— rezíduólis szórás számítása,

— standard hibák számítása,

—— konfidencia—intervallumok szómíta'sa.

Az egymást követő fokozatok egyre több információt adnak a regressziószómi- tás során adódó eredmények pontatlansógóról. Az egyre több információnak azonban ,,óra" van: (: hibaszómítós egymást követő fokozatai alkalmazhatósagónak

—- mint látni fogjuk — egyre több előfeltétele van.

Az első s egyben legegyszerűbb fokozata /'16/ rezíduumok

/18/

szórósának. az ún. reziduális szórásnak a meghatározásából áll. A reziduólis szórás

/'18/ formában való meghatórozwhatósógúna'k egyedüli feltétele a

elle?) : o /19/

i———1

feltétel teljesülése, akár a regressziós. akár a korrelációs modellt vettük alapul.

E feltétel a /9/ lineáris hipotézis alapulvétele és a /10/ becslőfüggvény alkalmazó-

sakor automatikusan teljesül. A /18/ reziduólis szórás akkor egy olyan átlagos

hibak-ént értelmezhető, melyet akkor követnénk el, ha az eredményvóltozó minden egyes, ténylegesen megfigyelt y,- értékét annak /15/ regressziós becsült értékével helyettesítenénk. Ez a megállapítás azonban természetesen csak a rendelkezésünkre

álló egyetlen mintára vonatkoztatható,18 s éppen ezért vajmi kevés értékű.

15 Ezért nincs szükség itt a torzítatlansógot biztosító (n—p—1)—gyel való osztásra.

(12)

1166 _ . VIT'ALLASÁÓ -

Ennek ellenére —- különösen akkor, ha kétségeink vannak a további hiba-?

számítási fokozatok alkalmazhatósága előfeltételeinek teljesülésével kapcsolat—

ban — a

v(e) :: ggel

Y

módon meghatározható relatív reziduálís szórás hasznos információt nyújt a MA!

regressziófüggvény megbízhatósózgóról. Minél kisebb v(e) értéke, annál megbíz-

hatóbbnak tekinthető (: /'l4/ regressziótüggvény.19 ,

Mivel azonban a reziduális szórás, illetve relatív reziduális szórás igen csekély

értékű az általuk nyújtott információk általánosíthatósága szempontjából, igénye—

sebb vizsg—ólatok esetén, különösen olyan esetekben, ha a /14/ regressziófüg'gvényt

valamely jelenség előrejelzésére kívánjuk felhasználni, törekedni kell a "magasabb"

hibaszómítási fokozatok alkalmazására. Ezek biztonságos alkalmazásának azonban

sajnos a legtöbb esetben akadályai vannak. A :két .,magasabb" hiba'szómítási fo—

kozat tárgyalását már aszerint elkülönítve kell tárgyalnunk, hogy a regressziós vagy

(: korrelációs modell alkalmazásáról van-e szó. ' ,

A regressziós modell esetén —— továbbra is feltételezve. hogy az X matrix sorai

, maind különbözők —— o /16/ rezícluumok az

gyuri—j; (iz1,z,...,n) /20/

módon definiált reziduális változókra vonatkozó egy—egy megfigyelésként foghatók

fel. (Az ;; 'a /9/ függvény helyettesítési értékét jelenti az X,- : x;,— (i s 1, 2, .. . , p)

helyen. Az elmondottaknak megfelelően egy /20/ módon definiált rezidu'ólis változóra nézve csak akkor rendelkezünk egynél több megfigyeléssel, ha a tényezővóltozók rögzített x;1,x,-2, x,-p értékei mellett az eredményv—áltozó töb—b értékét is meg- figyeltük.) Amennyiben ezekre teljesülnek az

Me,.)mo (iz1,2,...,n) /21/

feltételek. bebizonyítható (3), hogy

M ("Él : f*É. /22/

ahol M (.) a zárójelbe tett valószínűségi változó várható értékét, )? a /10/ becslő—

függvényt. r pedig egy tetszőlegesen megválasztható, de rögzitett elemekből álló (p —l— 1) elemű vektort jelöl.

A /21/ feltételek teljesülésének fontos következménye, hogy

32:wa (i:1.2....,n) /23/

bárhogyan is rögzítjük a tényezőváltozók értékeit. Ez másképpen kifejezve annyit

jelent, hogy igaz az /5/ regressziófüggvény linearitósóra vonatkozó. /9/ módon ki—

fejezett hipotézis. Vizsgáljuk most meg részletesebben a /21/ feltételek /22I ikövet—

kezményének jelentését. Az f,- : eHj (] : O, 1, ..., p) választás mellett —— ahol §.ij

a (; —l— l)—edik (p —l— 1) elemű egységvektor -—- azt kapjuk, hogy

of § : rag-, rí á—fü

19 Általában a 0.05 § v(e) § 0.10 esetben szokás jónak tekinteni :: regressziófüggve'nyt.

(13)

A KORRELÁCIÓ— ÉS A REGRESSZIÓELEMZÉS 1167

azaz /'22/ az

mm,-yea]— (j:(l71,....,/J)

alakba megy át. ami azt jelenti. hogy Étorzítatlan becslőfüggvénye az isme—

retlen [f,— paramétereke't tartalmazó ,3 vektornak. Ha viszont

rni :(lr Xi1;X12;-—';Xz'/))9 /24/

akkor

"? É :íz', "fé, : fi /25/

tehát a /'22/ szerint;; is torzítatlan becslőtüggvénye lyi—nek.

Amennyiben a /20/ reziduális változókra /21/ mellett még teljesülnek a

la/ 5W(gi,gj) :M(5i .(gj):0) ha ['?']— (i,j:1,2,..,n) /26/

lb/ 02(6y)362 (l':1.2,4..,/z)

feltételek is. igen egyszerűen meghatározható az f*ű becslőfüggvény szórósának,

azaz standard hibájának becslőfüggvénye is. (Cov (e,-, el.) itt az 8,— és 8; reziduális

(i i ]) változók közötti kovariancát jelöli, ami /21/ miatt felírható az M (S,-'öi) mó—

don is.) Bebizonyitható ugyanis (3), hogy a /21/ és [26/ feltételek együttes telje—

sülése esetén

02(rpj):8'2r (X**X,)'lf', /27/

ahol ? a /26b/ feltételben szereplő 02—nek a

1 /28/

módon meghatározható torzitatlan becslése. A /27/ formula az r,- :; e,;H választás mellett ő,. szórásnégyzetét a /24/ választás mellett pedig )7,- szórásnégyzetét szol—

gáltatja.

Az így meghatározott D (Éj-), illetve D ()?) standard hibáik azt mutatják, hogy a tényezőváltozók X matrixba foglalt rögzített értékei melletti. csak az eredmény—

vóltozóra vonatkozó Ymegfigyelésekben különböző összes lehetséges minta alap—

ján meghatározható bilk), illetveífkl becsült értékek átlagosan mennyivel térnek el

A

saját ÉL" illetve yi: M (Y,-) várható értékürktől. Ez úgy is megfogalmazható, hogy a D (ffi). illetve D (y,-) standard hibák azt az átlagos hibát mutatják, mely a nem

teljes körű megfigyelésből következik,20

A D (E,-) és D (;) standard hibáik csak abban az esetben becsülhetők a /27/

módon. ha teljesülnek a /21/ és /26/ feltételek. E feltételek teljesülését — ha igen hozzávetőlegesen is —— a legegyszerűbben a /16/ rezíduumoknak a /15/ regresz—

sziós becsült értékek függvényében való grafikus ábrázolásával ellenőrizhetjü'k, bár

29 Ez a "teljes körű-" megfigyelés az esetek többségében gyakorlatilag végre sem lenne hajtható.

(14)

1168 VITA LÁSZLÓ

ismeretesek ennél jóval egzaktabb módszerek is. Amennyiben az ábrázolt rezicluu- mok az X-tengelyre szimmetrikus. vízszintes és nem túl széles sávban helyezkednek-

el, igen valószínű a /21/ és /26/ feltételek együttes teljesülése. Az előbb jelzettől eltérő tendencia eleve nem zárja ki, csak valószínűtlenné teszi a /21/ és [26/ fel—

tételek együttes teljesülését, s ilyen esetekben nem tanácsos a /27/ formula alkal- mazása. lsmeretesek olyan 'hibaszámí'tási módszerek, amelyek a /21/ és /26/ fel—

tételek teljesülésének hiányában is alkalmazhatók (14). (18). Ezek azonban jóval

bonyolultabbak a /27/-nél s további — gyakran csak igen nehezen vagy egyáltalán

nem ellenőrizhető — feltételekre támaszkodnak.

A /21/ és /'26/ feltételeknek együttesen eleget tevő regressziós modellt ho-

moszikedasztikus, korrelálatlan reziduális változókat tartalmazó modellnek szokás

nevezni. Ez az elnevezés onnan ered, hogy a /26 b/ feltétel szerint a modellben szereplő /20/ reziduális változók azonos szórásúak, s páronként korrelál—atlvanok is.

A /'21/ és /26/ feltételek azonban nemcsak a standard hibák egyszerű formában

történő meghatározhatóságát b'iztosí'tjó*k,'hanem azt is. hogy az f'gbecslőfüggvény

rendel—kezik a legkisebb szórással Pl? összes lehetséges lineáris torzíta—tlan becs'lő- függvénye közül.21

Ha a /20/ reziduális változókma nézve a /21/ és /26/ feltételeken kívül még az

is teljesül, hogy azok normális eloszlásúak. akkor rátérhetünk a hibaszámítás har-—

madik tokozatára: a konfidencia-intewallu—mo'k meghatározására is. Ez eset—ben az

[I" É—taín—p—1 Ulm/3) 5P*É4ta;n—p—1D(P'á)] /29/

intervallum. ahol fa; n—p—1 az n—p—1 szabadságfokú Student-féle t-eloszlás

199 a százalékos szigni'fikendo-pontjan. 100 a százalékos 'konlidxencia-interva'llum

azt', [9 elméleti értékre nézve , _ '

(, A /27/ és /29/ formulákat a gyakorlatban természetesen oly módon hasznosít—

jukghogy azokban a Ébeoslőfüggvény helyére annak a [konkrét mintának alapján

nyert bk becsült értékét hxelyettesíltjük. Ez' esetben a /29/ konfidencia-intervallum úgy értelmezhető, hogy ha igen sok. 'a tényezőváltozólknak az X matrixba foglalt rögzitett értékei melletti -— tehát csak az eredményváltozór—a vonatkozó megfigye—

lésekben különböző — mintát tekintenénk, akkor az ezek alapján meghatározható /29/ konfidencia-intervallumoknak átlagosan 100 a százaléka tartalmazná (: be—

csülni kivánt, ismeretlen r*/9 értéket.

Abban, a statisztikai gyakorlatban viszonylag ritka esetben. ha az eredmény—

változó egy egyedi értékét kívánjuk becsülni, jobb híján erre a célra is a /14/

lineáris becslő'függvényt használjuk. Ez esetben azonban e becslés standard hibája

WW") ze n; ('x* x)—1 mi /30/

alakú. ahol r,- a /24/—gyel definiált vektor.

Összefoglalva: a regressziós modell alkalmazása esetén a hibaszámitás egyes fokozatai a következő feltételek teljesülését igénylik:

— a rezíduálís szórás meghatározása a /l9/ feltételét.

— a standard hiba /27/ módon történő meghatározása a /21/ és /26/ feltételekét,

—- a /29/ konfidencia—intervallum meghatározása a /21/ és /26/ feltételek teljesülését, valamint a /'20/ reziduális változók normális eloszlását.

2* Ezt mondja ki a Gauss—Morkov-féle tétel. Lásd (3) 6. fejezetében.

" Amennyiben n—p—1 ) 30, IX; ,.,_p..1 a standard normális eloszlás 100 a százalékos ua szignifikán—

ela—pontjával helyettesíthető.

(15)

A KORRELÁCIÓ— ÉS A REGRESSZlÓELEMZES

1169

A második. de különösen a harmadik lépcső alkalmazhatóságához szükséges feltételek teljesüléséről a gyakorlatban csak igen nehezen tudunk meggyőződni.

Ahhoz ugyanis, hogy ezt biztonságosan megtehessük, a /20/ reziduális változók mindegyikére nézve legalább annyi megfigyeléssel kellene rendelkeznünk. hogy azok eloszlásbeli tulajdonságai a szokásos statisztikai próbáklkal vizsgálhatók Ie- gyenek. Mivel ez a feltétel a gyakorlatban szinte sohasem teljesül, igen nagy óva- tossággal kell eljárni már a második, de különösen a harmadik hibaxszámítási lépcsőben kapott eredmények tel'ha—sznólása'kor.

A korrelációs modell esetében alapvetően más a helyzet. Ekkor ugyanis —-

tekintettel arra, hogy egy (p *l— 1)-dimenziós valószínűségeloszlásból vett n elemű mintával állunk szemben —- a /16/ rezíduumok egyetlen

a : Y—V /3l/

módon

detiniál—t reziduálís változóra, más néven monadék'cagna vonatkozó n számú

konkrét megfigyelést jelentenek. Ennek az a fontos következménye. hogy a /3l/ rezi- cluális változóval kapcsolatban fel sem merülhetnek a regressziós modell /20/ re—

ziduális vál'tozóivai szemben támasztott /26/ követelmények. Amenny iben "a /7/ el-

méleti regressziófüggvény valóban lineáris, az abban szereplő ismeretlen B; paran méterek /12/ becslőfüggvénye ugyancsak torzitatlan becslőfügugvény. Ez könnyen

belátható. ha figyelembe vesszük. hogy

M(§1):Mximyixrai )] :Mx [MWG-le)]:

,. _ /32/

A., (X—x * _

:Mx[C 1 _II.—-——11) Mylx(y—y1)]7

ahol M,,x (31) a 31 b—ecslőfüggvény rögzitett x értékek melletti várható értékét jelöli.

Figyelembe véve azonban. hogy a /9/ hipotézis, továbbá /12/ miatt

MW M [23]

valamint

áll fenn.

Mylxly'y1)2(x"li*)é1,

s így /32/ az

MX (F,-16 g,)zgl /33./

alakba megy át. A /12/ és [33/ következtében azonban

MÉg-2190,

6 Statisztikai Szemle

(16)

1170 ' — - , vom LÁSZLÓ

s ezzel bebizonyítottuk az előbbi állitás helyességét. (A bizonyítás során felhasz—

náltuk a könnyen belátható

6: A (,a-m (x—m

?: 1, W—Rf) (yb—51)

azonossagokat )

Amennyiben az Y,X1, X2, .. ,Xp változók együttes eloszlása normális. , _tel-

jesül az előbbi feltétel, s igy a /12/, illetve az azzal formálisan azonos /10/ becslő-

függvény torzítatlan.

Az elméleti regressziófüggvény linearitósóra vonatkozó /7/ feltevés helyességéről egynél több tényezővóltozó esetén igen nehéz meggyőződni, bc'rr újabban történt-ek erre nézve közvetett próbólkozósok (10).

A korrelációs modell esetében az is bebizonyítható, hogy a /31/ mamdéktag

póronfként korrelólatlan az X,- (] ——1*, 2, .., p) tényezővóltozókkal. E tulajdonság

némileg hasonlít a /26 a/ feltételhez, ugyanis mindkettő azt fejezi ki, hogy a reziduumok nagysága nem függ a tenyezővóltozók nagyságától.

Hua teljesül az M$): _13 feltétel. bebizonyítható (3), (6), hogy mind ő;, mind az y,- regressziós becsült érték standard hibája a /27/, illetve a /30/ formula alap—

ján határozható meg. Az ily módon kiszámított standard hibák jelentése azonban jóval általánosabb, mint a regressziós modell esetében: itt ugyanis mindkét eset:

ben a vizsgált (p —l— 1)- dimenziós eloszlásból választható összes lehetséges mintára nézve mutatják a bll') , illetve yllk), (k : 1, 2, ...) értékek saját várható értéküktől való atlagos eltérését.

A/29/ konfidencia—intervallum meghatórozhatósúgónak itt is további feltétele

van: a /31/ maradéktagnak normális eloszlást kell követnie. Ez minden további nél—

kül teljesül abban az esetben, ha az Y. X1._X2, . . . ,Xp változok együttes eloszlása normális, de akkor is, ha együttes eloszlósuk sűrűségfüvggvénye az

_"(y60 ÉVM .FpX/yí

h(x1,x2,.,.,xp) e 262

f(I,X,X,...,X).-_ _—

] 1 2 ,0 Gil—Zen

alakban írható fel, ahol h (Xi, Xz, . . . , xp) nem' tartalmazza a 13,- és 02 paramétereket.

A/29/ konfidencia- intervallum értelmezése ugyancsak általánosabb, mint a regxresz—

sziós modell esetében: nem tételez fel egy rögzített X matrixot.

A három egymást követő hibaszómitósi fokozat tehát a korrelaciós modellese- tében az alábbi feltételek teljesüléset igényli:

— a reziduólis szórás meghatározása a /19/ feltételét,

— a standard hiba /27/ módon való meghatározása az elméleti regressziófüggvéhylinea- ris voltót,

— a /29/ konfidencia- intervallum meghatározása a /31/ maradéktag normális elosz-

lősót. .

megint csak az a helyzet, hogy igen nehéz, szintelehetetlenmeggyőződni agya-

korlatban azok teljesüléséről. — '

(17)

A KORRELACiO- es A REGRESSZIÓELEMZÉS 1171 Az egyetlen különbség a regressziós modellhez képest az, hogy itt már a má- sodik fokozatban előirt feltétel teljesülésének ellenőrzése is igen gyakran proble-

matikus. Ezért a korrelációs modell esetében még fokozottabb óvatossággal kell

eljárni mind a standard hibák. mind a konfidencia-intervallumok értékelésekor.

felhasználás—akor, mind a regressziós modell esetében.

Tanulmányunkban igyekeztünk éles különbséget tenni a gyakorlati alkalma- zások során igen gyakran azonosnak tekintett regressziós és korrelációs modell között. Egyfelől megpróbáltuk megadni a kétféle modell alkalmazásának gyakorlati feltételeit, másfelől rámutattunk a kétféle modellel kapott eredmények eltérő álta- lánosíthatósági fokára. amely ugyancsak gyakorlati szempont. Úgy véljük. hogy -— a két modellel kapcsolatos formulák többségének formális azonossága ellenére

— sikerült rámutatnunk azokra a leglényegesebb különbségekre, amelyek kihatnak

a korreláció— és regresszió-elemzés módszereinek gyakorlati felhasználására. A

tárgyalást -— a hibaszámitásra vonatkozó rész kivételével —- igyekeztünk minél álta—

lánosabbá tenni.

A hibaszámítás részletes ismertetésével az volt a célunk, hogy minél részleteé sebben megadjuk a hibaszámítás előfeltételeit, de rámutassunk azok teljesüléséve!

kapcsolatos aggályainkra is. Ezzel azt a véleményünket kívánjuk kifejezésre jut- tatni. hogy a nem elég körültekintő hibaszámitás s az azzal kapott eredmények mechanikus, minden fenntartás nélküli értelmezése —- véleményünk szerint —— sokkal károsabb, mint a hibaszómítás elmaradása. Ezt azért hangsúlyozzuk, mert nap- jainkban mindinkább kialakulóban van egy olyan elvárás, megítélési mód. amely a kutatás szinvonalát, .,tudományosságát" azon méri le, hogy alkalmaztak—e benne hibaszámitást vagy sem. Ez az elvárás alapjában véve helyes, mert a tudományos kutatásokkal szembeni igények határozott növekedését fejezi ki. de minden feltétel nélküli kielégítése sokszor igen helytelen, sőt kifejezetten félrevezető eredmények- hez vezethet.

iRODALOM

(1) Prékopa András: Vaiószinűségelmélet. Műszaki Könyvkiadó. Budapest. 1962. 440 old.

(2) Prékapa András -- Éltető Ödön: Matematikai statisztika. Budapest. Központi Statisztikai Hivatal.

1961. 218 old.

(3) Graybill, F. A.: Introduction ta linear statistical models. Vol. ]. McGraw—Hill Book Company.

Inc. New York. 1961. 463 old.

(A) Maad, M. A. -- Graybíll, F. A.: introduction, to the theory of statistics. (Second edition) McGraw- Hill Book Company. Inc. New York. 1963. 443 old.

(5) Kendall, M. G. — Stuart, A.: The advanced theory of statistics. Vol. li. Charles Griffin and Com- pany Limited. London. 1961. 676 old.

(6) Johnston, J.: Econometric methods. McGraw-Hili Book Company. Inc. New York. 1963. XIII, 300 old.

517) Morrison, D. F.: Muitivariate statistical methods. McGraw-Hill Book Company. New York. 1967.

338 ol .

(8) Vincze István: Matematikai statisztika ipari alkalmazásokkal. Műszaki Könyvkiadó. Budapest.

1968. 352 old.

(9) Ezekiel, M. — Fox, K. A.: Korreiáció- és regresszióanalízis. (Lineáris és nem lineáris módszerek) Közgazdasági és Jogi Könyvkiadó. Budapest. 1970. 594 old.

(10) Dr. Köves Pál — Dr. Párníczky Gábor: Általános statisztika. (Egyetemi tankönyv.) Kézirat. Budo- pest. 1972.

(11) Rutemíller, H. C. — Bowers. D. A.: Estimation in a heteroscedastic regression model. Journal ol the American Stalitical Association. 1968. 552—557. old.

(12) Wagle, B.: Multivariate beta distribution and a test far multivariate normality. Journal of the Royal Statístícal Society. Series B. 1968. évi 3. sz. 511—516. old.

(13) Tintner, G.: Econometrics. 2. print. John Wiley and Sons lnc. New York. 1954. Xlil. 370 old.

(14) Goldberger, A. S.: Best linear unbiased prediction in the generalized linear regressian model.

Journal of the American Statistícal Association. 1962. 369—375. old. .

(15) Fisher, 6. R.: lterative Solutions and heteroscedasticity in regression analysis. Revue de I'lnstitute de statistiaue. 1962. évi 2. sz. 153—159. old.

(16) Rao, C. R.: Estimation of heteroscedastic variances in linear models. Journal of the American Slatíslícal Association. 1970. 161—172. old.

6.

A korreláció- és regresszióelemzés gyakorlati alkalmazásának néhány kérdése

MÓDSZERTANI TANULMÁNYOK _