• Nem Talált Eredményt

Kapcsolatszorossági vizsgálatok

A gazdasági jelenségek elemzése gyakran igényli annak megállapítását, vajon két vagy több lényeges statisztikai ismérv kapcsolatban áll-e egymással. Az ismérvek lehetnek egymástól függetlenek; köztük a kapcsolat lehet sztochasztikus, illetve függvényszerű (determinisztikus). A változók között tendenciasze-rűen, valószínűségi jelleggel érvényesülő összefüggést sztochasztikus kapcsolatnak nevezzük: any-nyit jelent, hogy egy egyednek az egyik ismérv egy adott ismérvváltozatához való tartozásából kö-vetkeztethetünk arra, hogy ez az egyed egy másik ismérv melyik változatához tartozik. Az esetek egy bizonyos százalékában azonban következtetésünk hibás lesz. Minél szorosabb az összefüggés a változók között, azaz minél közelebb áll a kapcsolat a függvényszerűhöz, annál kisebb a valószí-nűsége a tévedésnek. A fentiek alapján kézenfekvő, hogy a statisztikai módszertan megkísérli vala-milyen eszközzel az ismérvek közötti kapcsolatok szorosságát (illetve egyáltalán a kapcsolat meglé-tét) számszerűsíteni, ezáltal a következtetés hibáját mérsékelni, de legalábbis meghatározni.

21 A sztochasztikus kapcsolatok csoportosítása leggyakrabban a bennük szereplő ismérvek típusa alapján történik. Ennek megfelelően beszélhetünk asszociációs, vegyes és korrelációs kapcsolatról. Asz-szociációs kapcsolatnak a minőségi ismérvek; korrelációs kapcsolatnak a mennyiségi ismérvek kö-zötti kapcsolatot nevezzük; vegyesnek pedig azon kapcsolatokat, melyben mind minőségi, mind mennyiségi ismérvek szerepelnek.

Egy másik kézenfekvő csoportosítása a sztochasztikus kapcsolatoknak a bennük szereplő változók száma alapján történő osztályozás. Ennek megfelelően például a két ismérv közötti kapcsolatot kétváltozós, a három ismérv közötti összefüggést háromváltozós kapcsolatnak nevezzük (termé-szetesen a sor folytatható). A sztochasztikus kapcsolatok elemzése során felhasznált statisztikai módszereket két csoportba oszthatjuk:

 alapsokaság elemzését kapcsolatszorossági mérőszámokkal végezzük,

 minta elemzése során az ismérvek közötti kapcsolat szignifikáns voltát tesztelő hipotézisel-lenőrzési eljárásokat alkalmazunk.

Ebben az alfejezetben a leggyakrabban használt kapcsolatszorossági mérőszámokról lesz szó. Egy kapcsolatszorossági mérőszámtól elvárjuk, hogy

 abszolút értéke a 0 – 1 zárt intervallumban legyen,

 szélsőértékeit csak függetlenség, illetve determinisztikus kapcsolat esetén vegye fel,

 legyen monoton, azaz a szorosabb kapcsolathoz nagyobb abszolút értékű mutatószám tar-tozzon.

Az abszolút értéküket tekintve 0 és 1 közötti intervallumban értelmezett kapcsolatszorossági mé-rőszámok jól interpretálhatók: a 0 a függetlenséget, az 1 a függvényszerű kapcsolatot jelenti, a köz-tes értékek sztochasztikus kapcsolat meglétét mutatják. Egy sztochasztikus kapcsolatot gyengének tartunk, ha a mutató abszolút értéke 0,3 alatt van, az erős összefüggést az mutatja, ha a mérőszám abszolút értéke 0,7 felett található.

A társadalmi-gazdasági elemzések során gyakran szembesülünk olyan kérdéssel, melyben nem csu-pán kettő ismérv kapcsolatát kell elemeznünk. A kettőnél több változót tartalmazó összefüggések esetében a sztochasztikus kapcsolatokat számszerűsítő mutatószámoknak három típusát különböz-tethetjük meg, annak alapján, hogy milyen mértékben használják ki az összes vizsgálatba vont vál-tozóban rejlő információt. Így beszélhetünk:

totális együtthatókról, amelyekkel csak két változó összefüggését elemezzük úgy, hogy telje-sen figyelmen kívül hagyjuk a vizsgálatba vont további változó(k) hatását,

parciális mutatókról, melyekkel két változó összefüggését úgy vizsgáljuk, hogy „kiszűrjük” a vizsgálatban szereplő összes többi változó hatását,

többszörös együtthatóról, mellyel a vizsgálatban szereplő összes változónak a kapcsolatát számszerűsítjük.

Az előbbiekből következik, hogy amennyiben vizsgálatunkban mindössze két változó szerepel, úgy ezek között mindig totális kapcsolatszorossági együtthatót használunk.

22 2.2.1 Asszociációs kapcsolat szorosságának mérése

Az asszociációs kapcsolat mérése kombinációs gyakorisági (ún. kontingencia) táblázat alapján tör-ténik. A kontingencia táblázat általános sémája:

A ismérv

2-2. táblázat: Kontingencia táblázat

Ismeretes, hogy amennyiben az A és B ismérvek függetlenek egymástól, akkor annak valószínűsége, hogy egy egyed az A és a a B ismérvváltozattal jellemezhető, kifejezhető a peremvalószínűségek b szorzataként, vagyis

Ebből meghatározhatók a függetlenség esetére vonatkozó feltételezett gyakoriságok:

. .

Amennyiben az ismérvek nem függetlenek egymástól, akkor a tényleges gyakoriságok eltérnek a (2-10) képletekben meghatározottaktól. Ezen eltérések annál nagyobbak, minél távolabb van a kap-csolat a függetlenségtől. A fentiekből kiindulva megszerkeszthetjük a négyzetes kontingencia mutatóját:

 

2 nagyobb is lehet, az adatállomány nagyságától, illetve a táblázat dimenzió-számától függ. Annak érdekében, hogy teljesüljön a kapcsolatszorossági mérőszámokra vonatkozó valamennyi kritérium, Cramer normált mutatót hozott létre (Cramer, 1946)

   

23 ami már a 0 és 1 közötti zárt intervallumban található, és alkalmas az asszociáció szorosságának mérésére.

Tekintsük a következő egyszerű példát! Egy egyetemi évfolyam 250 hallgatójából 150 lány, akik közül 100-an rendszeresen sportolnak. A fiúk közül 80-an sportolnak rendszeresen. Az adatok az alábbi nagyon egyszerű táblázatba rendezhetők:

Hallgató neme Sportolási szokások

Rendszeresen Nem rendszeresen Összesen

Lány 100 50 150

Fiú 80 20 100

Összesen 180 70 250

Kiszámítható a négyzetes kontingencia:

2 2

Amiből meghatározható a Cramer-mutató

2 15,9250 0,145

C

  ami gyenge kapcsolatra utal.

A minőségi ismérvek közötti kapcsolatnak számos további mérőszáma ismert, ezek jelentős része a négyzetes kontingencia mutatójára épül.

2.2.2 Vegyes kapcsolat elemzése

A gyakorlati elemzések során gyakran merül fel annak az igénye, hogy különböző típusú – minőségi és mennyiségi – ismérvek egymás közötti kapcsolatát elemezzük. Ez annyit jelent, hogy megkísé-reljük a kvalitatív ismérv alapján képzett csoportok kvantitatív ismérv szerinti különbözőségét számszerűsíteni, a változók közötti kapcsolat szorosságát megállapítani.

A vegyes kapcsolat elemzése az ún. varianciaanalízis-modellre épül. Legyen a minőségi ismérv szerinti a-adik csoport i-edik eleme az alábbi módon felírva

ai a ai

x     x (2.13)

vagyis x a sokaság egészére vonatkozó átlag, az a-adik csoporthoz tartozó csoporthatás és az ai adott elemhez tartozó egyedhatás összege. Ha az utóbbi két komponenst így definiáljuk

a a

24 vagyis a csoporthatás a csoportátlag eltérése a főátlagtól és az egyedhatás az adott megfigyelés elté-rése a saját csoportátlagától, akkor a (2.13) összefüggés triviálisan teljesül. Elvégezve az ún. eltérés-négyzetösszeg dekomponálást, felírhatjuk, hogy

 

2

   

2

 

2

 

2

ami a szokásos jelölésekkel

K B

SS SS SS (2.14)

vagyis a teljes eltérés-négyzetösszeg a csoportok közötti, illetve a csoportokon belüli eltérés-négy-zetösszegek összege.

A vegyes kapcsolat szorosságát a szóráshányados méri:

K 1 B

SS SS

HSS   SS (2.15)

A kapcsolatszorossági mérőszám négyzetét (H2) magyarázó erőként értelmezzük.

Példaként elemezzük a következő fiktív adatállományt! Egy országban néhány látványcsapat-sport bajnokságra vonatkozó nézőszámok az alábbi jellemzőkkel rendelkeznek:

Jellemző Sportág

Labdarúgás Kézilabda Kosárlabda Csapatok száma a bajnokságban

Átlagos nézőszám

Mivel a kapcsolatban minőségi (sportág) és mennyiségi (nézőszám) ismérv is szerepel, így ve-gyes kapcsolatról van szó. A kapcsolat szorosságának vizsgálatát a szóráshányados mutatója alapján végezzük el. Ennek számítása:

20 10 000 12 4 000 10 2 500 480 000 000 117 000 000

0,801

25 A fentiek alapján tehát megállapítható, hogy a sportág és a nézőszám között szoros sztochasz-tikus kapcsolat található, a sportág szerinti hovatartozás a nézőszám szerinti szóródás 80%-át magyarázza meg.

A vegyes kapcsolat elemzésének lényegesen összetettebb módozatai is ismertek (többutas varian-ciaanalízis, diszkriminancia-analízis), azonban ezek bemutatásától most terjedelmi okok miatt elte-kintünk.

2.2.3 Korrelációs mérőszámok

A mennyiségi ismérvek közötti összefüggést korrelációs kapcsolatnak nevezzük. Az ilyen kapcsolat vizsgálata során alkalmazott eljárások lényegesen különböznek a korábban bemutatott asszociációs és vegyes kapcsolat elemzésére használt módszerektől, mivel a mennyiségi ismérvek általában in-tervallum-, illetve arányskálán mérhetők, így esetükben nemcsak az ismérvváltozatok különböző-ségét, hanem a különböző változóértékek távolságát, hányadosát is értelmezhetjük.

A korrelációs kapcsolat alapvetően a következő két, lényeges kérdésben tér el a korábban tárgyalt sztochasztikus kapcsolatoktól:

 a kapcsolatnak értelmezzük az irányát: pozitívnak nevezzük, ha az egyik változó növekedése a másik növekedését vonja maga után, illetve a csökkenés csökkenést eredményez, valamint negatívnak, ha a két ismérv változása ellentétes irányú,

 a szorosság mellett a kapcsolat jellege is lényeges: megkülönböztetünk lineáris, monoton, illetve változó irányú kapcsolatokat.

A leggyakrabban alkalmazott korrelációs mérőszámok a

 lineáris kapcsolat esetén használatos lineáris korrelációs együttható,

 monoton kapcsolat esetén alkalmazott Spearman-féle rangkorrelációs együttható.

A lineáris korrelációs kapcsolat mérése a kovariancia mutatójára épül. Ismeretes, hogy a kovariancia elsőrendű vegyes, centrális momentum, melynek8 képlete:

1 1



2 2

A kovariancia mutatója jól hasznosítható a mennyiségi ismérvek közötti kapcsolat irányának meg-állapítása során, hiszen a mutató értéke pozitív, ha az egyes változók saját átlaguktól való eltérésé-nek iránya megegyezik; és negatív fordított esetben. Mivel a kovariancia abszolút értéke nem lehet nagyobb a két változó szórásának a szorzatánál, ezért viszonylag egyszerűen nyerjük a lineáris korre-lációs együtthatót:

8 A továbbiakban a kétváltozós lineáris kapcsolatok vizsgálata során az általános adatállomány első és második válto-zójával példálózunk, ezzel nem sértve semmilyen általánosítást.

26

amely teljesíti a kapcsolatszorossági mérőszámokkal szemben támasztott követelményeket.

Abban az esetben, ha a mennyiségi ismérvek közötti kapcsolat nem egyenesvonalú, de feltételez-hető, hogy monoton, a (2.17) képlet alapján számított korrelációs együttható torzít. Ezért ilyenkor az eredeti változóértékek helyett azok rangszámaival (rangsorban elfoglalt helyével) számolunk, az intervallum-skálát ordinális skálává egyszerűsítve. A rangszámokból számított lineáris korrelációs együttható a Spearman-féle rangkorrelációs együttható, melynek képlete

 

Kettőnél több mennyiségi ismérv kapcsolatának elemzése a korrelációs mátrixon alapul. A mátrix a kétváltozós (totális) korrelációs együtthatókat tartalmazza:

11 12 1 együttható szimmetrikus, a mátrixot általában a következő egyszerűbb alakban írjuk fel:

21

A korrelációs mátrix segítségével kiszámíthatók a többváltozós kapcsolat esetében fontos parciális, illetve többszörös mutatószámok is. Legyen Q mátrix a korrelációs mátrix inverze, azaz

1

qij

  

Q R , ekkor az első és a második változó közötti parciális korrelációs együttható felírható

12

formában. A parciális korrelációs együtthatók megmagyarázzák, hogy milyen szoros a kapcsolat két tetszőlegesen választott változó között, ha kiszűrjük az összes többi változó hatását.

27 Szintén a korrelációs mátrix inverzének felhasználásával számíthatjuk ki a többszörös korrelációs együtt-hatót, melyet R -rel jelölünk. Például az első változóra vonatkoztatva

11

1 1

R  q (2.20)

megmutatja, hogy az adatállomány összes többi változója milyen szoros kapcsolatban áll a kiválasz-tott változóval. A mutatónak inkább a négyzete, az ún. többszörös determinációs együttható hasz-nálatos, ez ugyanis megmutatja, hogy az adatállomány változói együttesen milyen mértékben képe-sek megmagyarázni a kiválasztott változó szóródását.

Mivel a könyv nagy részében korrelációs kapcsolatot vizsgálunk, az előbbi mérőszámokra itt nem mutatunk példát.