• Nem Talált Eredményt

fejezet - Az átlag és a szórás

II. rész - LEÍRÓ STATISZTIKA

4. fejezet - Az átlag és a szórás

Nehéz megérteni, hogy a statisztikusok miért korlátozzák vizsgálódásaikat rendszerint az átlagokra, és nem lelik örömüket egy átfogóbb szemléletben. Szellemük oly tompának tűnik a változatosság varázsával szemben, mint Angliánk egyik sík vidékének azon szülöttéé, aki Svájcra visszatekintve úgy nyilatkozott, hogy ha a hegyeket be lehetne lökni a tavakba, egy csapásra két kellemetlenség is megszűnne. 1

—Sir Francis Galton (Anglia, 1822-1911)

1. 1. Bevezetés

Hisztogram segítségével terjedelmes mennyiségű adatot összesíthetünk. Sokszor ennél drasztikusabb összefoglalást is alkalmazhatunk: csak a hisztogram középpontját, valamint a centrum körüli szóródást adjuk meg. (A „középpont‖ és a „szóródás‖ itt köznapi szavak, pontos matematikai jelentés nélkül.) Az 1. ábrán két hisztogram vázlata látható; bejelöltük a középpontot és a szóródást is. A középpont mindkettőnél ugyanaz, de a második szórtabb – nagyobb terület esik a középponttól messzebbre. A statisztikusi munkához pontos definíciókat kell megadnunk, aminek többféleképpen is nekiláthatunk. A középpont megragadására gyakran használjuk az átlagot, de a mediánt is sokszor használjuk.2 Az átlag körüli szóródást méri a szórás nevű mennyiség; a szóródás egy másik mérőszáma az interkvartilis terjedelem.

Az 1. ábrán látható hisztogramokat összegezhetjük a középpont és a szóródás megadásával, a dolog azonban nem működik mindig ilyen jól. A 2. ábra például a földfelszín tengerszinthez viszonyított magasságának megoszlását mutatja. A tengerszinthez viszonyított magasság szerepel a vízszintes tengelyen, mérföldben mérve a tengerszint alatt (-), illetve felett (+). A hisztogram alatti terület két magasságérték között megadja, hogy a föld felszínének hány százaléka esik ezen két magasságérték közé. Egyértelmű csúcsok láthatók ezen a hisztogramon. A földfelszín túlnyomó részét vagy tenger borítja, mintegy 3 mérfölddel a tengerszint alatt; vagy pedig kontinentális síkság teszi ki, nagyjából a tengerszint körül. Ha erről a hisztogramról csak a középértéket és a szóródást adnánk meg, nem vennénk észre a két kicsúcsosodást.3

4.1. ábra - Középérték és szóródás. A két hisztogram középpontja azonos, de a jobboldali jobban szóródik.

4.2. ábra - A föld felszínének megoszlása a tengerszinthez viszonyított magasság szerint a tengerszint fölött (+), illetve alatt (-).

2. 2. Az átlag

1 Natural Inheritance (London: MacMillan, 1889; újabb kiadásban megjelentette az American Mathematical Society Press, 1973).

2Az adatsor közepének megragadására használatos olykor a módusz is: az a pont, ahol a legmagasabb a hisztogram. Ezt azonban nem javasoljuk, mivel a móduszt az adatok kis változása is jelentősen befolyásolhatja.

3Tom Alexander: „A revolution called plate tectonics‖, Smithsonian Magazine vol. 5, no. 10 (1975). A. Hallam: „Alfred Wegener and the hypothesis of contonental drift‖, Scientific American vol. 232, no. 2 (1975). Ursula Marvin: Continental Drift (Smithsonian Press, 1973).

Az átlag és a szórás

Témánk most az átlag (számtani középnek is nevezik) áttekintése; de beszélni fogunk a keresztmetszeti és a longitudinális kérdőíves felvételek közötti különbségről is. Egy 1976-80 között folytatott, az egészségi állapottal és a táplálkozással foglalkozó amerikai kutatás, a HANESi adatait fogjuk felhasználni. Ennek keretében az 1-74 éves amerikaiak 20 322 fős reprezentatív mintáját vizsgálta a szövetségi Közegészségügyi Hivatal. A cél az volt, hogy alapvető adatokat szerezzenek

• demográfiai változókról, amilyen az életkor, az iskolázottság, a jövedelem;

• fiziológiai változókról, mint a testmagasság, a testsúly, a vérnyomás, a koleszterinszint;

• az étkezési szokásokról;

• a vérben kimutatható ólom és rovarirtószer szintjéről;

• különféle betegségek előfordulásáról.

A begyűjtött adatok elemzése a változók közötti összefüggésekre összpontosított, és jelentősen befolyásolta az egészségpolitikát is. Például a kutatott időszak végére a HANES adatai szerint 37%-kal csökkent az emberek vér-ólomszintje. A Közegészségügyi Hivatal ennek okát az ólmozatlan üzemanyagok elterjedésében határozta meg. Az ólomadalékokat ezután betiltották.4

Nekünk most csak az a célunk, hogy rövid pillantást vessünk a mintára, miközben átismételjük az átlag fogalmát.

Egy számsor átlaga: a számok összege elosztva azzal, ahány számunk van.

A 9, 1, 2, 2, 0 számokból álló listában például 5 szám szerepel, az első közülük a 9-es, az átlaguk pedig

Vajon hogyan néztek ki a mintában szereplő (18-74 éves) nők és férfiak?

• A férfiak átlagos testmagassága 5 láb 9 hüvelyk (175,25 cm) volt, átlagos testsúlyuk 171 font (kb.77,5 kg).

• A nők átlagos testmagassága 5 láb 3,5 hüvelyk (kb. 161 cm), átlagos testsúlyuk 146 font (közelítőleg 66 kg).

Kissé dundik voltak.

Vajon hogyan függ össze a magasság és a testsúly az életkorral? A 3. ábrán láthatjuk a Közegészségügyi Hivatal által vizsgált különböző korcsoportok magasság- és testsúlyátlagát külön a férfiakra és külön a nőkre; az ábrán az átlagokat egyenes vonalakkal kötöttük össze. Hasznos eszköz az átlag az adatok összegzésére – ebbe a négy görbébe is sok-sok hisztogramot sűrítettünk bele. Ám ezt a sűrítést csak úgy érthettük el, hogy figyelmen kívül hagytuk az egyéni eltéréseket. A 18-24 éves férfiak magasságátlaga például 5 láb 10 hüvelyk (178 cm), 10%-uk viszont 6 láb 1 hüvelyknél (185 cm-nél) magasabb; 10%-uk pedig 5 láb 6 hüvelyknél (168 cm-nél) alacsonyabb.

Ezt a sokféleséget az átlag elrejti.

iHealth and Nutrition Examination Survey

4Az egyik lehetséges forrás: Blood Lead Levels for Persons Ages 6 Months-74 Years: United States, 1976-1980. Data from the National Health Survey, series 11, no. 233, U.S. Department of Health and Human Services, Washington, D.C. Vannak bizonyos viták az alacsony ólomszintnek a gyermekek fejlődésére gyakorolt hatásáról: lásd a 12. fejezet 14. lábjegyzetét.

A Public Health Service (Közegészségügyi Hivatal) és a National Center for Health Statistics (Országos Egészségstatisztikai Központ) az Egészségügyi és Népjóléti Minisztérium (Department of Health and Human Services) intézményei. Az adatok a „Vital and Health Statistics‖

11. sorozatából származnak, valamint az Egészségstatisztikai Központ és az Inter-University Consortium for Political and Social Research által rendelkezésünkre bocsátott adatszalagokról. Az adatok értelmezéséért minden felelősség bennünket terhel, legyenek azok jók vagy rosszak. Az első kiadáshoz nyújtott segítségéért köszönettel tartozunk Mr. Arthur J. McDowellnek, aki a Health Examination Statistics részleg vezetője volt 1976-ban. A második kiadáshoz nyújtott segítségükért Dorothy Rice professzort (UCSF) és Dale Hitchcockot (NCHS) illeti köszönet. A harmadik kiadásnál Bob Murphy (NCHS) segített bennünket. A HANES III az 1988 és 1994 közötti időszakban készült;

az adatokat 1997-ben bocsátották közhasználatra.

A 4., 8., 9. ábrákon szereplő hisztogramok a minta súlyozatlan esetszámain alapulnak; ugyanígy az összegző statisztikák is, melyeket kerekítettük. A súlyozás csak kis különbséget okoz. A pontos értékek (átlag ± szórás) a következők:

Az átlag és a szórás

57

4.3. ábra - Az életkorspecifikus testmagasság- és testsúlyátlagok a HANES mintájában szereplő 18-74 éves férfiakra és nőkre. A baloldali ábra a testmagasságokat, a jobboldali a testsúlyokat ábrázolja. (Az eredetileg hüvelykben és fontban mért adatokat itt centiméterben és kilogrammban adjuk meg. A szerk.)

Forrás: Az adatokat mágnesszalagon az Inter-University Consortium for Political and Social Research bocsátotta rendelkezésünkre.

Egy pillanatra most visszatérünk a kutatási elrendezés kérdéséhez (2. fejezet). A 3. ábra szerint a férfiak átlagos testmagassága a 20 éves életkor után csökken, 50 év elteltével körülbelül 5 centiméterrel (2 hüvelykkel).

Hasonlót láthatunk a nők esetében is. Azt jelenti ez vajon, hogy az átlagember ilyen mértékben összemegy?

Nem igazán. A HANES keresztmetszeti, nem pedig longitudinális vizsgálat. Egy keresztmetszeti vizsgálatban különböző alanyokat hasonlítunk össze egyazon időpillanatban. Longitudinális vizsgálatnál az alanyokat követjük az időben, és saját korábbi adataikkal hasonlítjuk össze őket a különböző időpontokban. A 3. ábrán szereplő 18-24 évesek egészen mások, mint a 65-74 évesek. Az első csoport 1955 körül született, a második 1905 táján. Minden jel arra utal, hogy az idők során az emberek egyre magasabbra nőnek. Akcelerációs tendenciának nevezzük ezt, melynek hatása a 3. ábrán egybemosódik az öregedés hatásával. Az öt centiméter magasságcsökkenés nagy része az akcelerációnak tulajdonítható: a 65-74 éves emberek mintegy 50 évvel korábban születtek a 18-24 éveseknél, és ez az oka, hogy néhány centivel alacsonyabbak náluk.5

Ha egy vizsgálatban az életkor hatásáról vonnak le következtetéseket, figyeljünk oda arra, hogy keresztmetszeti vagy longitudinális adatokkal dolgoztak-e.

2.1. „A” feladatsor

1.

5A 3.ábránál használt életkori csoportok: 18-24, 25-34, 35-44, 45-54, 55-64, 65-74. Lásd: Anthropometric Refence Data and Prevalence of Overweight: United States, 1976-1980. Data from the National Health Survey, series 11, no. 238, U.S. Department of Health and Human Services, Washington, D.C. Az akcelerációs tendenciát évtizedenként 1 cm-re (0,4 hüvelyk) becsülik; az 1960-80 közötti húsz éves időszakban az amerikai népesség átlagosan 2 cm-rel (0,8 hüvelykkel) lett magasabb. Azonkívül úgy tűnik, hogy 50 és 75 éves kor között 0,5-1,5 hüvelyknyit veszít az ember a magasságából. (Az egyik lehetséges magyarázat: a testmagasságból körülbelül 2 hüvelyket a testben lévő csontok közötti légrések tesznek ki; az életkorral a test kissé „leülepszik‖, azaz a légrések egyre kisebbek lesznek.) Az akcelerációs tendencia és az „összemenés‖ együtt összesen 2,3-3,5 hüvelyk csökkenést jelentenének 20 és 70 év között. A megfigyelt különbség 2,3 hüvelyk a férfiak, 2,1 hüvelyk a nők esetében, tehát további tényezőnek is szerepet kell játszania. Szeretnénk köszönetet mondani Dr.

Reubin Andresnek (NIH) és Dr. Stanley Garn-nek (University of Michigan) a segítségükért. A testmagasság-trendeknek a társadalmi változások indikátoraként való tárgyalását lásd: R. Floud, K. Wachter, A. Gregory: Height, Health, and History (Cambridge University Press, 1991)

Az átlag és a szórás

a. Az alábbi vízszintes tengelyen bejelöltük a 3-as és az 5-ös számot. Mennyi a két szám átlaga? Jelölje meg egy nyíllal!

b. Ismételje meg ugyanezt a 3, 5, 5 számokra!

c. Bejelöltünk két pontot az alábbi tengelyen. Rajzoljon a két szám átlagához mutató nyilat!

2. 10 szám szerepel egy listán. A számok értéke 1, 2 vagy 3 lehet. Hogyan néz ki a lista, ha a számok átlaga 1?

És ha 3? Lehet-e 4 az átlag?

3. A következő számsorok közül melyiknek nagyobb az átlaga? Vagy ugyanaz? Próbáljon meg számolás nélkül válaszolni!

10, 7, 8, 3, 5, 9 10, 7, 8, 3, 5, 9, 11

4. Egy szobában tíz ember tartózkodik, testmagasságuk átlaga 168 cm. Belép egy 195 cm magas férfi. Mennyi lesz most a 11ember magasságátlaga?

5. A teremben tartózkodó huszonegy ember átlagos magassága 168 cm. Belép egy 195 cm magas férfi. Mennyi lesz most a 22 ember magasságátlaga? Vesse össze a megoldást a 4. feladatéval!

6. A teremben tartózkodó huszonegy ember átlagos magassága 168 cm. Belép még valaki. Milyen magasnak kell lennie ahhoz, hogy a magasságátlag 2 centiméterrel megnőjön?

7. Hol található a Sziklás hegység a 2. ábrán: a vízszintes tengely bal széle körül, középen vagy a jobb szél tájékán? Hová esik Florida? És vajon az olyan mélytengeri árkok, mint például a Mariana-árok?

8. Szívproblémákkal kapcsolatban a szisztolés vérnyomásnál jobb indikátornak tekintik a diasztolés vérnyomást.

Az alábbi ábrán a HANES felmérésében részt vett 18-74 éves férfiak életkor-specifikus diasztolés vérnyomásátlaga látható. Igaz-e, hogy az adatok szerint a férfiak diasztolés vérnyomása nagyjából 55 éves korukig emelkedik, azután pedig csökken? Ha nem igaz: hogyan magyarázhatjuk a görbe menetét? (A vérnyomást higanymilliméterben mérjük.)

9. A munkaügyi statisztikával foglalkozó hivatal (a Bureau of Labor Statistics) havonta kiszámítja az átlagos órabéreket a gazdálkodó szervezetek által bejelentett adatok alapján. Kiszámolják az összes (alkalmazottaknak) kifizetett bért, és elosztják a ledolgozott órák teljes számával. Recesszió idején az átlagórabér tipikusan emelkedik. Ha véget ér a recesszió, az órabérek átlaga többnyire csökkenni kezd. Hogyan lehetséges ez?

3. 3. Az átlag és a hisztogram

Ebben a szakaszban megmutatjuk, hogyan viszonyul az átlag és a medián a hisztogramhoz. Kezdjük egy példával! A 4. ábrán a HANES mintájában szereplő 6588 fő 18-74 éves nő testsúlyának hisztogramját láthatjuk.

Az átlag és a szórás

59

Függőleges vonal jelöli az átlagot, ami 146 font = 66,2 kg). Természetesnek tűnik az a tipp, hogy a nők felének súlya ez alatt volt, a felének meg fölötte. Ez azonban nem egészen stimmel. Valójában csak 41% volt súlyosabb az átlagnál, 59% súlya viszont átlagon aluli volt. Az arányok más esetben még ennél is jobban eltérhetnek az 50%-tól.

4.4. ábra - A HANES mintájában szereplő 6.588 18-74 éves nő testsúlyának hisztogramja. A testsúlyátlagot szaggatott vonal jelöli. Csak 41% testsúlya nagyobb az átlagosnál. (Az adatokat átírtuk font helyett kilogrammra. A szerk.)

Hogyan lehetséges ez? Az egyszerűség kedvéért kezdjük egy hipotetikus példával: legyen a számsorunk 1, 2, 2, 3. Ennek a számsornak a hisztogramja ( lásd az 5. ábrát) szimmetrikus a 2-es értékre. És az átlag is 2. Ha egy hisztogram valamely értékre szimmetrikus, akkor ez az érték az átlag; valamint a hisztogram alatti terület fele ettől az értéktől balra, fele jobbra helyezkedik el. (Hogy mit jelent az, hogy szimmetrikus? Képzeljük el, hogy függőleges vonalat rajzolunk a hisztogram középpontján keresztül, és ennek mentén félbehajtjuk az ábrát: a két félnek illeszkednie kell egymásra.)

4.5. ábra - Az 1, 2, 2, 3 számsor hisztogramja. A hisztogram szimmetrikus a 2-es értékre nézve; a teljes terület 50%-a 2-től balra, 50%-a jobbra helyezkedik el.

Mi történik, ha az 1, 2, 2, 3 számokból álló listán a 3-as értéket nagyobbra, mondjuk 5-re vagy 7-re cseréljük?

Mint a 6. ábrán látható, ehhez az értékhez tartozó téglalap jobbra helyeződik, tönkretéve a szimmetriát. Nyíllal megjelöltük az átlagot az egyes hisztogramoknál; ez a nyíl is tolódik jobbra, követve a téglalapot. Hogy jobban átlássuk ezt, képzeljük el, hogy a hisztogram fa építőkockákból áll, melyeket súlytalan, merev deszkára erősítettek. Helyezzük a hisztogramot egy merev pálcára a 6. ábra alsó részén látható módon. Hisztogramunk az átlagnál lesz egyensúlyban.6 Az átlagtól jó messze eső kis téglalap kiegyensúlyozhat egy, az átlaghoz közel fekvő nagy területet, mivel a területek az alátámasztási ponttól mért távolsággal súlyozandók.

4.6. ábra - Az átlag. Az ábra felső részében három hisztogram látható, az átlagokat nyilak jelölik. Ahogy a besatírozott téglalap tolódik jobbra, az átlagot is húzza maga után. Az átlagtól balra eső terület aránya felmegy 75%-ra. Az ábra alsó részében ugyanezen hisztogramokat merev súlytalan deszkára erősített fatömbökként ábrázoltuk. A hisztogramok az átlagnál alátámasztva lesznek egyensúlyban.

6Ez pontosan igaz, ha egész számokkal dolgozunk és az intervallumok közepét ezekre tesszük. Egyéb esetben csak közelítés.

Az átlag és a szórás

A hisztogram akkor lesz egyensúlyban, ha az átlagnál támasztjuk alá.

A mérleghintán egy kicsi gyerek a középponttól távolabb ül, hogy egyensúlyt tartson a középponthoz közelebb ülő nagyobb gyerekkel. A hisztogram oszlopai is ugyanígy működnek. Ezért van, hogy az átlag egyik oldalára eső esetek aránya eltérhet az 50%-tól.

Az átlag és a szórás

61

Egy hisztogram mediánja az az érték, amelytől balra és jobbra is a terület fele található. A 6. ábrán szereplő mindhárom hisztogramnál 2 a medián. A második és a harmadik hisztogram esetében sokkal messzebb van a mediántól jobbra eső terület, mint az attól balra fekvő. Ebből következik, hogy ha a mediánnál próbálnánk meg alátámasztani a hisztogramot, akkor ledőlne jobbra. Általánosabban: az átlag mindig jobbra van a mediánhoz képest, ha a hisztogram jobbra elnyújtott, amint az a 7. ábrán látható. A testsúlyok hisztogramja (lásd a korábbi 4. ábrát) hosszan elnyúlik jobbra; ezért a 66,2 kg-s (146 fontos) átlag nagyobb a mediánnál, ami 62,5 kg (139 font).

4.7. ábra - A hisztogram ferdesége

Vegyünk egy másik példát! 1992-ben a családi jövedelem mediánja 36 800 dollár körül volt az USA-ban. A jövedelemhisztogram jobbra erősen elnyújtott, így ennél magasabb volt az átlag: 44 500 dollár.7 Valamelyik

7Lásd a 3. fejezet 3. jegyzetét.

Az átlag és a szórás

irányban erősen elnyújtott megoszlás esetén érdemes lehet a mediánt használni az átlag helyett, amennyiben az átlagot túlságosan befolyásolják a távoli értékek.

3.1. „B” feladatsor

1. Három számsor hisztogramját vázoltuk fel. Töltse ki az üresen hagyott helyet mindhárom esetben: Az átlag _______ körül van. Válaszlehetőségek: 25, 40, 50, 60, 75.

2. Egybeesik-e a medián az átlaggal az előző feladatban szereplő hisztogramoknál? Vagy balra esik tőle? Netán jobbra?

3. Lapozzon vissza a cigarettafogyasztás hisztogramjához a 42. oldalra. A medián ________ körül van. Töltse ki az üresen hagyott helyet az alábbi válaszlehetőségek valamelyikével:

10 20 30 40

4. A cigarettafogyasztás hisztogramjánál 15, 20 vagy 25 körül van-e az átlag?

5. Az egyetemekre beiratkozott hallgatók körében melyik nagyobb vajon: az átlagos életkor vagy az életkorok mediánjaii?

6. A következő listákon szereplő számok összességükben vajon 1, 5 vagy 10 körül szóródnak? Számolásra nincs szükség. statisztikusok zöme a 3,5-et (a 2 és 5 között félúton lévő számot) választja „a‖ mediánnak. A (c) lista esetében a medián 2: az öt közül négy szám 2-nél nagyobb vagy azzal egyenlő, három pedig 2-nél kisebb vagy egyenlő. A (d) lista mediánjának meghatározásához rendezzük nagyság szerinti sorba a számokat:

-3, -1, 0, 1, 4, 5, 8

Hét számunk van: négy nagyobb vagy egyenlő 1-gyel, négy kisebb vagy egyenlő 1-gyel. A medián tehát 1.

iiEz utóbbit közepes életkornak is szokás nevezni, de mi most inkább kerüljük ezt a – sokszor egyébként könnyedebb – szóhasználatot. A ford.

Az átlag és a szórás

63

4. 4. A négyzetes középérték

Fejezetünk következő fontos témája az ún. szórás, melyet a szóródás mérésére használunk. Ebben a szakaszban némi matematikai bevezetőt nyújtunk ehhez a

0, 5, -8, 7, -3

számokból álló lista segítségével.

Mekkora ez az öt szám? Az átlaguk 0,2, de ez még elég gyengén jelzi a nagyságukat. Annyit jelent csak, hogy a pozitív számok nagyrészt kioltják a negatívakat. A legegyszerűbben úgy járhatnánk el ezzel a problémával, ha elhagynánk az előjeleket, és úgy vennénk az átlagot. A statisztikusok azonban valami mást tesznek: a lista négyzetes középértékét (rövidebben: négyzetes közepét) használják. Némi fantáziával már az elnevezésből is kitalálható, hogyan kell ezt kiszámolni:

• A számokat NÉGYZETRE emeljük, megszabadulva így az előjelektől.

• Kiszámoljuk a négyzetek ÁTLAGÁT.

• Az átlag NÉGYZETGYÖKÉT vesszük.

Képletszerűen is kifejezhetjük ezt:

1.példa. Határozzuk meg a 0, 5, -8, 7, -3 számokból álló lista átlagát, a számok abszolút értékeinek átlagát (az előjelek figyelmen kívül hagyásával számított átlagot) és a lista négyzetes középértékét.

Megoldás:

A négyzetes közép valamivel nagyobb az előjelek figyelmen kívül hagyásával képzett átlagnál. Ez mindig így alakul – kivéve azt a triviális esetet, amikor minden szám ugyanakkora abszolút értékű. A négyzetre emelés és a négyzetgyökvonás nem ejtik ki egymást, hiszen a kettő között elvégezzük az átlagolás műveletét.

Hogy 5,4 és 4,6 közül melyiket válasszuk a példában szereplő számok nagyságának átfogó jellemzésére, arra nincsenek nyilvánvaló érvek. A statisztikusok azért használják a négyzetes közepet, mert jobban illeszkedik az általuk végzendő számításokhoz.8 Akár elégedett az Olvasó ezzel a magyarázattal, akár nem – ne aggódjon!

Elsőre mindenki utálja a négyzetes közepet, azután nagyon gyorsan megszokja.

4.1. „C” feladatsor

8Az alapvető érv az, amit a statisztikusok ortogonalitásnak neveznek. Ha több, egymástól független forrásból származik a hiba, a teljes hiba négyzetes közepét egzakt és egyszerű képlettel kaphatjuk meg: a hibák négyzetes közepe úgy összegződik, mint a derékszögű háromszög oldalai. Két ortogonális hibaforrás esetén:

c =

ahol a az egyik forrásból, b a másik forrásból származó hiba négyzetes közepe, c pedig a teljes hibáé. Ezt a tényt többször is felhasználjuk majd a könyvben: a regressziónál (III. rész), összeg standard hibájának kiszámításánál (V. rész), és a különbség standard hibájának meghatározásánál (VIII. rész). Az abszolút értékek átlagára nem létezik ilyen képlet.

Az átlag és a szórás

1.

a. Mennyi az átlaga és a négyzetes közepe a következő számoknak?

1, -3, 5, -6, 3.

b. És a most következőknek?

-11, 8, -9, -3, 15.

2. 1, 10 vagy 20 körül van inkább a következő számsorok négyzetes középértéke? Számolásra nincs szükség.

a. 1, 5, -7, 8, -10, 9, -6, 5, 12, -17

b. 22, -18, -33, 7, 31, -12, 1, 24, -6, -16

c. 1, 2, 0, 0, -1, 0, 0, -3, 0, 1

3.

a. Mennyi a négyzetes középértéke a következő számsornak: 7, 7, 7, 7 ?

b. És ennek: 7, -7, 7, -7 ?

4. 103, 96, 101, 104. Mind a négy szám értéke 100 körül van, de valamivel eltérnek attól. Mennyi az eltérések négyzetes közepe?

5. Mennyi a következő számsor átlaga: 103, 96, 101, 104 ? Mindegyik szám valamelyest eltér az átlagtól.

Mennyi az eltérések négyzetes közepe?

6. Egy számítógépes programnak az a feladata, hogy megjósolja a teszteredményeket, összehasonlítsa ezeket a tényleges pontszámokkal, és kiszámolja a kettő közötti eltérések (a becslési hibák) négyzetes középértékét. A kinyomtatott listára pillantva azt látjuk, hogy a becslési hibák négyzetes közepe 3,6, az első tíz vizsgázó pedig a következő pontszámokat érte el:

Becsült pontszám: 90 90 87 80 42 70 67 60 83 94

Elért pontszám: 88 70 81 85 63 77 66 49 71 69

Hihetőnek tűnik az eredmény, vagy valami hiba lehet a programmal?

5. 5. A szórás

Sokszor érdemes úgy gondolkodnunk, hogy egy listában szereplő számok az átlaguk körül szóródnak – amint azt a fejezet elején szereplő idézet is sugallja. Ezt a szóródást többnyire a szórásnak nevezett mennyiséggel mérjük. A szórás az átlagtól való eltérések nagyságát méri: egyfajta átlagos eltérés az átlagtól. A következőkben először valós adatok esetében fogjuk értelmezni a szórást, azután majd megnézzük a kiszámítás módját is.

A HANES mintájában 6588 fő 18-74 éves nő szerepel (lásd a 2. szakaszt). Átlagos testmagasságuk 161cm (63,5 hüvelyk), a szórás pedig 6,3 cm (2,5 hüvelyk). Az átlagból megtudjuk, hogy a nők többségének magassága valahol 161 cm körül volt. De akadtak eltérések az átlagtól. Voltak az átlagosnál magasabb, és az átlagosnál alacsonyabb hölgyek is. Mekkorák voltak ezek az eltérések? Na, itt jön be a szórás.

A szórás megmutatja, milyen messze esnek egy sorozat számai az átlaguktól. A számok többsége nagyjából egy szórásnyi távolságon belül van az átlagtól. Csak nagyon kevés esik két vagy három szórásnyi távolságnál messzebb.

Az átlag és a szórás

65

Abból, hogy a szórás 6,3 cm, megtudjuk, hogy a HANES vizsgálatában résztvevő nők közül sokan 2 - 8 cm-rel tértek el az átlagtól: 2 cm fél szórásnál kevesebb, a 8 cm egy és két szórás között van. Kevesen tértek el 13 cm-nél (két szórásnál) jobban az átlagtól.

Létezik egy gyakorlatban alkalmazott szabály, amely számszerűsíti ezt a gondolatot, és sok adatsorra érvényes:

Egy sorozat számainak durván 68%-a (háromból kettő) az átlagtól egy szórásnyin belül esik, a többi 32% ennél távolabb. Durván 95% (20-ból 19) az átlagtól két szórásnyin belül esik, a maradék 5% van ennél távolabb. Sok

Egy sorozat számainak durván 68%-a (háromból kettő) az átlagtól egy szórásnyin belül esik, a többi 32% ennél távolabb. Durván 95% (20-ból 19) az átlagtól két szórásnyin belül esik, a maradék 5% van ennél távolabb. Sok