eloszlástípusok. Aszimmetria mérése
15. fejezet - Csoportosított adatok átlaga, szórása
A korábbiakban megismerkedtünk a viszonyszámok, középértékek és szóródási mérőszámok számításának alapvető kérdéseivel. A vizsgált jelenségek, folyamatoknak a fenti módszerekkel történő vizsgálata során kimondatlanul is fel kellett tételezni, hogy a sokaság homogén. Természetesen a gyakorlatban többször találkozunk olyan problémával, amikor heterogén (összetett) a vizsgálandó sokaság. Általánosságban heterogénnek nevezzük a sokaságot, ha valamilyen ismérv alapján viszonylag homogén részekre (csoportokra) bontható.
A vizsgálandó sokaság természetének ismeretében található meg az az ismérv, amely alapján egy heterogén sokaság homogén, de minőségileg egymástól különböző csoportokra bontható.
A sportolók vizsgálata során gyakorta észlelhetjük, hogy a sportolók keresetük szerint nem homogén sokaságot alkotnak. Például nemek szerint csoportosítva a keresetek szempontjából homogénebb, egyneműbb csoportok képezhetők. Lényeges csoportképző ismérv a sportoló napi munkahelyre (sportlétesítménybe) történő utazásának időtartama szempontjából a lakóhely (a sportoló helyben sportol vagy ingázó). Viszonylag kézenfekvő a sportolók teljesítményének nemek szerinti bontása, aminek segítségével homogénebb csoportok képezhetőek.
A csoportosított sokaságban is érdeklődésre tarthat számot a korábban megismert valamennyi mutatószám.
Ebben a fejezetben csupán két módszer – a számtani átlag és szórás – számítási sajátosságát mutatjuk be, csoportosított sokaság esetén. Természetesen az összetett sokaság elemzése során is fontos információkat szolgáltatnak a csoportok egyéb mérőszámai, amelyeket a már megismert módszerekkel határozhatunk meg. A sokaság egészére meghatározható mutatószámok tovább színesítik az elemzési eszköztárat.
A csoportosított sokaságból számított átlag és szórás számítását vázlatosan, egy példa segítségével mutatjuk be.
Az edzés időtartamát vizsgáltuk 200 élsportolót megkérdezve. A napi sportolás időtartamára vonatkozóan a 15-1. táblában közölt fontosabb értékeket kapták:
31. táblázat:
15.1. táblázat - A sportra fordított napi időmennyiség
Megnevezés Megkérdezettek
Számítsuk ki a csoport egészére vonatkozóan a napi sportolás átlagos időtartamát és annak szórását!
Meg kell jegyezni, hogy a homogénebb csoportokban (részsokaságokban; itt férfi és nő) mind a számtani átlagokat, mind a szórásokat a korábban megismert módon számítottuk ki.
A fenti példában a nemek csoportképző ismérvek. Segítségükkel létrejött homogén csoportok átlagos értékei ugyanúgy kezelhetők, mintha egy mennyiségi ismérv értékei lennének, a számtani átlag számításának szabályai szerint átlagolhatók. A főátlag a csoportátlagok számtani átlaga.
A főátlag (x) képlete:
ahol: nj – a megfigyelések száma a j-edik csoportban, xj – a j-edik csoport átlaga, m – 1,2…m – a csoportok száma.
Csoportosított adatok átlaga, szórása
A főátlag:
A számításhoz az arányokat felhasználva:
A vizsgált sokaság naponta átlagosan 2,6 órát tölt sportolással.
A csoportosított sokaságban a teljes sokaságra vonatkozóan kiszámítható szórás azonban nem közvetlenül származtatható a részsokaságok (csoportok) szórásaiból. Ennek a megállapításnak a megértését segíti, ha végiggondoljuk a teljes sokaság adatainak szerkezetét. A heterogén (teljes) sokaság egy-egy megfigyelt számadata (pl. adott egyén sportolásának időtartama) eltérhet a saját csoportjának átlagától és egyben a főátlagtól is. Ugyanakkor – mivel valóságos csoportokról van szó – a csoportok átlagai is eltérnek a főátlagtól.
Általánosságban az eltéréseket az alábbi módon írhatjuk fel:
ahol: xij – az i-edik megfigyelt egyedi érték a j-edik csoportban, xj – a j-edik csoport átlaga, x – a főátlag.
Az adatbázis összetett jellege a szóródást kifejező mérőszámokat is jellemzi.
Választ kaphatunk arra a kérdésre, hogy a csoportokon belüli szórások (egyes megfigyelt értékek átlagos eltérései saját csoportátlaguktól) együttesen milyen nagyságrendűek. Ezt az ún. belső szórás, illetve a belső szórásnégyzet (variancia) mutatójával számszerűsíthetjük. A belső szórásnégyzet meghatározható a csoportok szórásnégyzetének átlagaként.
Képlete:
ahol: nj – a j-edik csoport elemeinek száma, n – az összes elemszám, m – a csoportok száma,
– a j-edik csoport szórásnégyzete.
Belső szórásnégyzet:
illetve, σ2B = 0,6 x 1,52 + 0,4 x 0,52 = 1,45.
Belső szórás:
A nők/férfiak sportolással töltött ideje saját csoportátlaguktól átlagosan 1,204 óra/nap értékkel tér el.
Természetesen a belső szórás – mivel csak a csoportokon belüli eltéréseket fejezi ki – nem egyezik meg a teljes szórással. Az adatok szóródásában a heterogén sokaság esetén ugyanis számolni kell a csoportok átlagainak szóródásával is, amit az ún. külső szórás illetve külső szórásnégyzet (variancia) fejez ki. A külső szórásnégyzet () meghatározásához a csoportátlagokat úgy tekintjük, mintha azok nem átlagok, hanem mért értékek lennének.
Képlete:
ahol: nj – a j-edik csoport elemeinek száma, n – az összes elemszám, m – a csoportok száma, xj – a j-edik csoport átlaga, x – a főátlag.
Külső szórásnégyzet:
illetve, σ2K = 0,6 x (3 – 2,6)2 + 0,4 x (2 – 2,6)2 = 0,24.
Külső szórás:
Csoportosított adatok átlaga, szórása
A csoportátlagok a főátlagtól (és egymástól) a sokaság egészében 0,49 óra/nap nagyságrenddel térnek el átlagosan.
A kétféle megközelítéssel mért szórás lehetőséget ad arra, hogy számszerű értékeik birtokában az egész sokaság szórását, a teljes szórást (σ) is meghatározzuk.
Bebizonyítható ugyanis, hogy a teljes szórásnégyzet egyenlő a belső szórásnégyzet és a külső szórásnégyzet összegével:
σ2 = σ2B + σ2K
Példánkban:
σ2 = 1,45 + 0,24 = 1,69 amiből:
Tehát a megfigyelt sokaság egyedei átlagosan 1,3 óra/nap értékkel szóródnak a főátlag körül. Ugyanezt az értéket kaptuk volna, ha a megfigyelt adatokkal a sokaság minden értékére vonatkozóan rendelkezünk.
(Amennyiben a 200 megfigyelés értékéből „hagyományos” módon – csoportosítás nélkül – számítottunk volna szórást.)
A csoportosított adatokból számított szórás segítséget ad a sokaság jobb megismeréséhez. Amennyiben a külső szórás értéke nulla, azaz a részátlagok nem térnek el egymástól, a csoportosításnak nincs értelme, a sokaságot az adott csoportképző ismérv szempontjából homogénnek tekinthetnénk. Mindez a csoportképző és a mennyiségi ismérv függetlenségét is jelentené egyben.
Abban az esetben, ha azt tapasztaljuk, hogy a csoportokon belül az adatok nem szóródnak, tehát a belső szórás értéke is nulla, de a csoportátlagok különböznek, a csoportképző ismérv egyértelműen meghatározza a mennyiségi ismérv értékét. Ilyen esetben az ismérvek között determinisztikus kapcsolatot állapíthatnánk meg.
A fentiekben elmondottak jelzik, hogy a heterogenitás megállapításában, valamint ahogy később látni fogjuk a kapcsolatok mérésében, a szórásnégyzet összetevőkre bontásának kiemelkedő szerepe van.
1. Ellenőrző feladatok, gyakorló példák a fejezethez
• Egy népességcsoportban 4000 főt megkérdezve vizsgálták a sportolási szokásokat. A napi sportolás időtartamára vonatkozóan a következő adatok keletkeztek. A megkérdezettek 70%-a férfi volt. Ők átlagosan 3 órát töltöttek sportolással 1,5 órás szórással. A nők átlagosan 2 órát sportolnak, melynek szórása 0,5 óra.
• Készítse el a fenti adatok alapján a statisztikai táblát!
• Számítsa ki a népességcsoport egészére vonatkozóan a napi átlagos sportolási időt és annak szórását!