• Nem Talált Eredményt

fejezet - Regressziószámítás

III. rész - KORRELÁCIÓ- ÉS REGRESSZIÓSZÁMÍTÁS

10. fejezet - Regressziószámítás

Valahová be kell húznunk azt az egyenest.

1. 1. Bevezetés

A regressziószámítás azt írja le, hogy hogyan is függ az egyik változó a másiktól. Vegyük például a magasságot és a testsúlyt! 988 fő 18-24 év közötti férfiról vannak adataink (az egészségi állapottal és a táplálkozással foglalkozó „HANES‖ vizsgálat alapján – lásd 4. fejezet 2. szakasz). E férfiak magasságátlaga 70 hüvelyk (178 cm) volt, testsúlyuk átlaga 162 font (73 kg). A magasabb férfiak természetesen többet is nyomtak. De vajon mekkora súlykülönbség társul egységnyi különbséghez a testmagasságban? Kiindulásul nézzük meg az 1.ábra pontdiagramját!i A magasságot a vízszintes tengelyre vettük fel, a testsúlyt a függőlegesre. Az összegző statisztikák a következőképpen alakultak:1

magasságátlag ≈ 70 hüvelyk, szórás ≈ 3 hüvelyk

testsúlyátlag ≈ 162 font, szórás ≈ 30 font, r ≈ 0,47

A tengelyek beosztását úgy választottuk meg, hogy egyforma széles legyen a papíron egy szórásnyi testmagasság és egy szórásnyi testsúly is. Így a szórásegyenes (szaggatott vonal) 45 fokos szögben húzódik felfelé. Elég nagy a szóródás az egyenes körül; r értéke mindössze 0,47.

A berajzolt függőleges sáv azokat a férfiakat mutatja, akik egy szórásnyival magasabbak az átlagnál (kerekítve).

Akinek a testsúlya is egy szórásnyival több az átlagnál, az a szórásegyenesre került. A sávban látható pontok többsége azonban határozottan a szórásegyenes alá esik. Más szavakkal: az átlagnál egy szórással magasabb férfiak testsúlya valamivel elmarad az átlagnál egy szórással magasabb értéktől. E férfiak átlagos testsúlya csak a szórás valamekkora részével haladja meg a teljes mintára számított átlagot. És itt jön be a 0,47-es korreláció!

Egy szórásnyi magasságkülönbséghez átlagosan csupán 0,47 szórásnyi súlykülönbség társul.

10.1. ábra - Pontdiagram. Az egyes pontok egy-egy, a HANES-ben résztvevő 18-24 éves férfi magasságát és testsúlyát mutatják, összesen 988 személyét. A berajzolt függőleges sáv jelenti az átlagnál körülbelül egy szórásnyival magasabb férfiakat. A szaggatott vonallal jelölt szórásegyenesre esnek közülük azok, akiknek a testsúlya is egy szórással nagyobb az átlagnál. A sávba eső pontok többsége a szórásegyenes alatt található: a testsúlyok csak a szórás valamekkora részével haladják meg az átlagot. A folytonos vonallal jelölt regressziós egyenes ad becslést az egyes magasságértékekhez tartozó átlagos testsúlyra.

iAz 1.ábrán a súlyok 90-330 font közöttiek, azaz kb. 40,5-148,5kg-ig terjednek, a magasságok pedig az 55-79 hüvelyk közötti értékeknek megfelelően kb. 140-200 cm-ig. A könyv további részeiben többször előfordulnak hosszabb számolások hüvelykben és fontban, ezeket már nem részletezzük a számunkra megszokott mértékegységben. Az átváltás egyszerű: 1 font ≈ 0,45 kg, 1 hüvelyk ≈ 2,54 cm. A szerk.

1Az adatok a College Board sajtó számára készített, 1993. augusztus 19-iki tájékoztatójából származnak. Az egyes államok átlagos SAT pontszámainak átlaga 501, a szórás 37 volt. Az emeltszintű érettségit írók államonkénti arányának átlaga 37, a szórás 28 volt. New York államban 74%, Wyomingban 13% írt emeltszintű érettségit.

Regressziószámítás

159

Hogy konkrétan is lássuk ezt, vegyük az átlagnál egy szórással magasabb férfiakat! Magasságuk:

magasságátlag + magasság szórása = 70 hüvelyk + 3 hüvelyk = 73 hüvelyk.

Átlagos testsúlyuk 0,47 szórásnyival lesz nagyobb az összes férfira vonatkozó átlagnál. Fontra visszafordítva a különbség:

0,47 · 30 font ≈ 14 font.

Átlagos testsúlyuk tehát körülbelül 162 font + 14 font = 176 font.

A (73 hüvelyk; 176 font) pont az egyik kereszttel megjelölt pont az ábrában.

Vajon mi a helyzet az átlagnál 2 szórással magasabb férfiakkal? Az ő magasságuk:

magasságátlag + 2 · (magasság szórása ) = 70 hüvelyk + 2 · 3 hüvelyk = 76 hüvelyk.

A testsúlyátlagnak ebben a második csoportban 0,47 · 2 = 0,94 szórással kell a teljes átlag fölött lennie. Ez 0,94

· 30 font ≈ 28 font. Átlagos testsúlyuk tehát 162 font + 28 font = 190 font körül van. A (76 hüvelyk; 190 font) pontot is bejelöltük egy kereszttel az 1. ábrába.

És mi a helyzet az átlagosnál 2 szórással alacsonyabbakkal? Magasságuk:

magasságátlag – 2 · (magasság szórása ) = 70 hüvelyk – 2 · 3 hüvelyk = 64 hüvelyk.

Testsúlyuk átlaga 0,47 · 2 = 0,94 szórásnyival marad el a teljes átlagtól. Ez 0,94 · 30 font ≈ 28 font. Harmadik csoportunk testsúlyátlaga így 162 font – 28 font = 134 font körül van. A (64 hüvelyk; 134 font) a harmadik, kereszttel megjelölt pont az 1. ábrában.

A (testmagasság; testsúlyátlag becslése) típusú pontok mind az 1. ábrán látható folytonos egyenesre esnek. Ez a regressziós egyenes. Az egyenes átmegy az átlagponton: az átlagos magasságú férfiak testsúlyának is átlagosnak kell lennie.

y x-re vonatkozó (vagy x szerinti) regressziós egyenese becslést ad az egyes x értékekhez tartozó y értékek átlagára.

Regressziószámítás

A regressziós egyenes mentén a magasság egy szórásnyi növekedése 0,47 szórásnyi súlynövekedéssel jár együtt.

Hogy konkrétabban lássuk ezt, képzeljük el a férfiakat magasság szerint csoportosítva. Van egy átlagos magasságú csoport, egy másik csoport egy szórással magasabb az átlagnál, és így tovább. Csoportról csoportra haladva a testsúly is nő, de csak körülbelül 0,47 szórásnyival. Emlékezzünk csak vissza, honnan jön ez a 0,47-es szorzó: azt mutatja, hogy mennyire függ össze a magasság és a testsúly.

Regressziós eljárásnak nevezzük azt, amikor becslést adunk ily módon az egyes x értékekhez tartozó y értékek átlagára. A becslést a következőképpen fogalmazhatjuk meg:

Az x egy szórásnyi növekedéséhez átlagosan az y értékek r szórásnyi növekedése társul.

Két különböző szórás szerepel itt: x szórása, mely az x értékek közötti eltéréseket fogja meg; és y szórása, mely az y értékek különbségeit összesíti. Könnyen elragadja az embert a szimmetria iránti vonzalom, hogy ezt mondja: ha az x egy szórásnyival nő, ugyanígy nő az y is. De ez helytelen! Az y átlagosan csak r szórásnyival nő! Nézze meg ezt a 2. ábrán is!

10.2. ábra - A regressziós eljárás. x egy szórásnyi növekedésekor y átlagos értéke csak r szórásnyival nő.

De miért pont r a megfelelő szorzótényező? Három speciális esetben könnyű ezt közvetlenül is átlátni. Először azt tegyük fel, hogy r értéke 0. Ekkor nincs összefüggés x és y között. Tehát x egy szórásnyi növekedéséhez y nulla szórásnyi növekedése társul átlagosan. Másodjára azt tegyük fel, hogy r = 1. Ekkor minden pont a szórásegyenesre esik; x egy szórásnyi növekedése y egy szórásnyi növekedésével jár. Harmadik esetként vegyük r = –1-et; a gondolatmenet ugyanaz, azzal a különbséggel, hogy az egyenes most jobbra lejt. A köztes r értékek esetén bonyolultabb matematikai bizonyításra van szükség; de higgyük el, hogy valóban r a használandó szorzótényező.

1.1. „A” feladatsor

1. Az egyik egyetemi kurzuson a félévközi zárthelyi dolgozatok átlaga 60 pontra jött ki, 15-ös szórás mellett, a félévvégi vizsgaeredményekkel megegyezően. A ZH és a vizsgaeredmények közötti korreláció 0,50 körül volt.

Adjon becslést arra, hogy átlagosan hány pontot értek el a vizsgán azok a hallgatók, akik a ZH-n a következő pontszámokat érték el:

a. 75

b. 30

c. 60

Ábrázolja a regressziós becsléseket az 1. ábrán láthatóhoz hasonlóan.

2. A HANES felmérésében részt vevő 18-74 éves férfiakra a magasságátlag ≈ 69 hüvelyk, a szórás ≈ 3 hüvelyk,

testsúlyátlag ≈ 171 font, a szórás ≈ 30 font, r ≈ 0,40.

Regressziószámítás

161

Becsülje meg, hogy átlagosan mennyi lesz a következő magasságú férfiak testsúlya:

a. 69 hüvelyk b. 66 hüvelyk c. 24 hüvelyk d. 0 hüvelyk

A (c) és (d) pontnál fejtse ki bővebben is válaszát!

3. A 45-54 éves férfiak magasságátlaga a HANES vizsgálatban 69 hüvelyk volt, egybeesett a teljes minta átlagával. Igaz-e, hogy az átlagos testsúlynak is 171 font körül kell lennie körükben? Indokolja is válaszát!

4. 1993-ban a következő statisztikákkal összesíthető az iskolázottság (a befejezett iskolai osztályok száma) és a jövedelem közötti összefüggés az 55-64 éves amerikai férfiak körében:2

átlagos iskolázottság ≈ 12,5 év, a szórás ≈ 4 év

átlagjövedelem ≈ 30 800$, a szórás ≈ 26 700$, r ≈ 0,45

Becsülje meg a csak általános iskolát (azaz 8 osztályt) végzett férfiak átlagjövedelmét!

5. Tegyük fel, hogy r = –1. El tudná-e magyarázni, hogy miért jár y egy szórásnyi csökkenésével az x szórásnyi növekedése?

2. 2. Az átlagdiagram

A 3. ábrán a HANES mintájában szereplő 18-24 éves férfiak magasságának és testsúlyának átlagdiagramja3 látható. Ez az ábra a különféle magasságú férfiak átlagos testsúlyát mutatja. Középtájt – ahová a legtöbb ember esik – közelítőleg egyenest alkotnak a pontok. A széleken azonban hepehupák találhatók. Például a (kerekítve) 77 hüvelyk magas férfiak átlagos testsúlya 218 font volt, ezt ábrázolja a (77 hüvelyk; 218 font) pontii. A 78 hüvelyk magas férfiak testsúlyátlaga viszont 192 font, ami határozottan kisebb az előzőnél: a magasabb férfiaknak kisebb a testsúlya. Itt a véletlen közreműködését érhetjük tetten. Az embereket véletlenszerűen választották be a mintába. És a kiválasztott 77 hüvelyk magas férfiak a véletlen szeszélye folytán túl súlyosak voltak, a 78 hüvelyk magasak pedig túl könnyűek. Persze mindössze 2-2 ember tartozik ezekbe a csoportokba, amint azt a pöttyök fölé, illetve alá írt számokkal jeleztük. Az ilyen véletlen folytán előállt egyenetlenségeket a regressziós egyenes elsimítja

A regressziós egyenes az átlagdiagram kisimított változata. Ha az átlagok egy vonalba esnek, akkor ez a vonal a regressziós egyenes.

3Az „átlagdiagram‖ nem bevett szakkifejezés. Elméletileg az ábra függ az x tengely beosztásának finomságától is.

iiAz ábrán a 12-es szorzóval megjelölt pont. A szerk.

Regressziószámítás

Bizonyos helyzetekben a regressziós egyenes túlságosan is kisimítja az ábrát. Ha két változó között nemlineáris összefüggés van, mint a 4. ábrán , azt a regressziós egyenes esetleg észre sem veszi. Érdemes tehát az átlagdiagramot használnunk. (A 9. fejezet 3. alfejezetében esett már szó nemlineáris összefüggésekről a korrelációs együtthatóval kapcsolatban; a 4. fejezet 2. szakaszában is láthattunk pár olyan példát, ahol az átlag görbéje nem egyenes.)

10.4. ábra - Nemlineáris összefüggés. Nem használható a regressziós egyenes akkor, amikor a változók közötti összefüggés nem egyenesen arányos (azaz nem lineáris).

2.1. „B” feladatsor

1. Az alábbi ábra a New York-i házaspárok egy reprezentatív mintája alapján készült. A diagramon a feleségek jövedelemátlagát ábrázoltuk a férj jövedelme szerint. 92 olyan pár volt, ahol a férj 1000 és 5000$ között keresett; ezeknél a pároknál a feleségek jövedelme átlagosan 15 584$ volt, amint azt a (2 500$; 15 584$) pont jelzi. 198 pár esetében a férj jövedelme az 5001-10 000$ tartományba esett; itt a nők jövedelemátlaga 9521$-ra jött ki – ezt mutatja a (7500$; 9521$) pont, és így tovább. Berajzoltuk a regressziós egyenest is.4

a. Igaz-e, hogy pozitív összefüggés van a férj és a feleség jövedelme között? Ha igaz: Hogyan magyarázná ezt az összefüggést?

b. Miért esik vajon a regressziós egyenestől ennyire messze a 97 500$-hoz tartozó pont?

c. A 60 000-65 000$ között kereső 44 férj esetében vajon túl alacsony, túl magas vagy nagyjából helyes lesz a regressziós egyenes segítségével adott becslésünk a feleség jövedelméről?

4A medián görbéje meglepő módon sokkal kevésbé szabályos.

Regressziószámítás

163

Forrás: A rendszeres népességfelmérés 1993. márciusi adatai; az adatokat CD-n a U.C. Survey Research Center közreműködésével a Bureau of the Census bocsátotta rendelkezésünkre.

2. Másolja át az alábbi ábrát egy papírra, és minden függőleges sávban jelölje be kereszttel a sávhoz tartozó átlagot. Egyet már mi bejelöltünk. Azután húzza meg a regressziós egyenest. (A szaggatott vonal a szórásegyenest jelöli.)

3. Négy pontdiagramot láthatunk alább, mindegyiken szerepel egy folytonos és egy szaggatott vonal. Mondja meg mindegyiknél, hogy melyik jelöli a szórásegyenest, és melyik az yx-re vonatkozó regressziós egyenesét!

4. A feladat végén kitalált adatsorok láthatók. Rajzolja fel a pontdiagramot, vegye fel az átlagdiagramot, és húzza be a regressziós egyenest az egyes adatsorokra! Ne álljon neki számolni, inkább próbálja meg kitalálni!

Regressziószámítás

Kiegészítő megjegyzés: Az átlagdiagramhoz illesztett regressziós egyenes, amennyiben a pontokat az általuk képviselt esetszámmal súlyozzuk, egybeesik az eredeti pontdiagramra illesztett regressziós egyenessel. (Ez pontosan igaz, ha a különböző x koordinátájú pontokat az átlagdiagramnál elkülönítve kezeljük; egyéb esetben jó közelítés.)

3. 3. Regressziós becslés az egyénekre

A HANES vizsgálatban résztvevő 18-24 éves férfiakra következőképpen összegezhető a magasság és a testsúly közötti összefüggés:

magasságátlag ≈ 70 hüvelyk a szórás ≈ 3 hüvelyk

testsúlyátlag ≈ 162 font a szórás ≈ 30 font r ≈ 0,47.

Képzeljük el, hogy véletlenszerűen kiválasztunk közülük valakit, akinek meg kell tippelnünk a súlyát anélkül, hogy bármit is tudnánk az illetőről. Legjobb tippünk ekkor az összátlag: 162 font. Azután elárulják nekünk a magasságát: mondjuk 73 hüvelyk. Ez az ember magas, tehát valószínűleg a súlya is nagyobb az átlagosnál. A legjobb tipp, amit most adhatunk, a vizsgálatban szereplő 73 hüvelyk magas férfiak testsúlyának átlaga. Ezt az újabb átlagot a regressziós eljárással 176 fontra becsülhetjük (lásd az 1. fejezet 1. ábráját). A szabály: a csoportátlagot használjuk, ha egy változó értékét egy másik változó alapján kell megjósolnunk. A regressziós eljárással sok esetben ésszerű módon megbecsülhetjük a csoportátlagot. Nem alkalmazható természetesen ez az eljárás akkor, ha nem lineáris jellegű összefüggés van a változók között.

1. példa. Az egyik egyetemen statisztikai elemzést készítettek a (200-tól 800-pontig terjedő) matematikai felvételi pontszámok és az első évi tanulmányi átlag összefüggéséről (utóbbi 0-tól 4,0-ig terjedhet Amerikában) az első évet elvégzett hallgatók körében. Az eredmények:

felvételi pontszámok átlaga ≈ 550 a szórás ≈ 80

tanulmányi átlagok átlaga ≈ 2,6 a szórás ≈ 0,6 r ≈ 0,4.

A pontdiagram rögbilabda alakú. Véletlenszerűen kiválasztottak egy hallgatót. Felvételi pontszáma 650 volt.

Tippeljük meg, hogy mennyi lett az elsőéves tanulmányi átlaga!

Megoldás: Ez a hallgató a felvételin az átlagnál 100/80 = 1,25 szórással jobbat ért el. Regressziós becslésünk a tanulmányi eredményére: 0,4 · 1,25 = 0,5 szórással magasabb az átlagnál. Ez az átlagnál 0,5 · 0,6 = 0,3-mal jobbat jelent. Tehát 2,6 + 0,3 = 2,9-es tanulmányi eredményt jósolunk. A lényege ennek: a 650 körüli pontszámú

Regressziószámítás

165

összes hallgatóra a regressziós eljárás szerint 2,9 körül alakul a tanulmányi átlag átlagosan. Ezért 2,9-es tanulmányi eredményt jósolunk ennek a hallgatónak is.

A kutatók általában úgy járnak el, hogy egy vizsgálat alapján kidolgozzák a regressziós becslést, majd pedig extrapolálnak: másokra is alkalmazzák ugyanazt a becslést. Ez sok esetben ésszerű megoldás, de az kell hozzá, hogy a vizsgálatban szereplő személyek jól reprezentálják azokat az embereket, akikre a becslést kiterjesztik. A kérdést minden alkalommal végig kell gondolnunk – a regressziószámítás matematikája nem nyújt fogódzkodót.

Az 1. példánál maradva: az egyetemnek csak az oda járókról vannak tapasztalatai. Problematikus lenne ettől a csoporttól erősen elütő diákokra is alkalmazni ezt a regressziós becslést. (Az egyetemeken a felvétellel foglalkozók többnyire extrapolálnak: a felvett hallgatók alapján azokra, akiket nem vettek fel.)

A regresszió módszerét a percentilis besorolások előrejelzésére is használhatjuk. Ha valaki mondjuk a 90%-os percentilisbe esik a teszten, akkor nagyon jól teljesített: az évfolyamnak csupán 10%-a ért el nála jobb eredményt, 90%-a pedig rosszabbat. A 25%-os percentilis besorolás nem ennyire jó: az évfolyam 75%-a jobbnak bizonyult nála és csak 25%-a rosszabbnak (5. fejezet 5. szakasz).

2. példa. (Az 1. példa folytatása.) Tegyük fel, hogy az egyik elsőéves hallgató felvételi pontszáma a 90%-os percentilisbe esett. Tippeljük meg, hogy vajon melyik percentilisbe fog sorolódni tanulmányi átlag szerint! A pontdiagram rögbilabda alakú: mind a pontszámok, mind a tanulmányi átlagok a normálgörbét követik.

Megoldás: A regressziós eljárást fogjuk alkalmazni. Ez a hallgató átlagon fölüli felvételit írt. Hány szórásnyival is? Mivel a pontszámok a normálgörbét követik, a percentilis besorolás tartalmazza a szükséges információt, ha kissé rejtve is (lásd az 5. fejezet 5. szakaszát):

A hallgató felvételi pontszáma 1,3 szórásnyival volt az átlag fölött. A regressziós eljárás úgy jósolja, hogy tanulmányi eredménye 0,4 · 1,3 ≈ 0,5 szórással lesz az átlag fölött. Visszafordíthatjuk ezt végezetül percentilis besorolásra:

Ez a válasz. Úgy tippeljük, hogy a hallgató elsőéves tanulmányi átlaga a 69%-os percentilisbe fog esni.

A feladat megoldásánál sehol sem használtuk a két változó átlagát vagy szórását. Csak az r számított. Ez azért van, mert végig standard egységekkel dolgoztunk: a percentilis besorolás standard egységben adja meg az eredményeket.

A 2. példában szereplő hallgatót két különböző versengésben mértük össze évfolyamtársaival: a felvételin és az elsőéves vizsgákon. Igazán jól szerepelt a felvételin, a 90%-os percentilisbe került. A regressziós becslés azonban csak a 69-edik percentilisbe várja őt az elsőéves vizsgákon. Ez is jobb az átlagnál, de nem annyira. A gyengébb diákoknak—mondjuk a pontszámok 10-edik percentiliséből—viszont javulást jósol a regressziós becslés. Az elsőéves vizsgákon a 31-edik percentilisbe várja őket. Ez is alatta marad az átlagnak, de már közelebb van hozzá.

Hogy gondosabban is szemügyre vegyük mindezt, tekintsük az összes olyan hallgatót, akik a pontszámaik szerint a 90-edik percentilisbe kerültek: csupa kiváló diák. Közülük egyesek még javulni is fognak az elsőéves vizsgákon, mások viszont rontanak. A csoport átlagosan tekintve azonban rontani fog. Az összehasonlítás kedvéért vegyük a felvételin a 10-edik percentilisbe került összes diákot – ezek gyenge tanulók. Ismét csak igaz, hogy közülük egyesek az eredetinél jobban szerepelnek majd a vizsgákon, mások pedig még gyengébben.

Átlagosan azonban ez a csoport javítani fog. Ezt mondta el számunkra a regressziós becslés.

Eredetileg sokan arra tippeltek volna, hogy az elsőéves rangsor megegyezik a felvételi rangsorral. Ez azonban nem jó stratégia. Hogy ennek okát átlássuk, képzeljük azt, hogy egy diák matematika rangsorbeli helyezését kell megtippelnünk. További információ híján a legbiztonságosabb, ha középre tesszük. Ha viszont tudjuk, hogy nagyon jó volt fizikából, akkor minden bizonnyal jóval a közép fölé tennénk matematikából is. Végül is erős az összefüggés a fizika és a matematika között. Ha viszont csak annyit tudnánk, hogy hányadik lett a

Regressziószámítás

rajzversenyen, az nem sokat segítene a matematika eredmény megtippelésében. A középső hely továbbra is megfelelőnek látszik, hiszen nincs sok összefüggés a matematika és a rajz között.

Térjünk most vissza eredeti problémánkhoz, az elsőéves tanulmányi eredmény előrejelzéséhez a felvételi rangsor alapján. Amennyiben tökéletes korreláció van a kétféle pontszám között, az elsőéves eredmény szerinti sorrend meg fog egyezni a felvételi sorrendjével. A másik véglet a 0 korreláció: ekkor a felvételi rangsor semmiféle segítséget nem nyújt az elsőéves eredmény előrejelzéséhez. A tényleges korreláció valahol a két véglet között van, tehát valahová a felvételi rangsorban elért helyezés és a középső hely közé kell tennünk a becslésünket. A regressziós eljárásból tudhatjuk meg, hogy pontosan hová.

3.1. „C” feladatsor

1. Az egyik egyetemi kurzuson a félévközi zárthelyi dolgozatok átlaga 60 pont lett, 15-ös szórás mellett, a félévvégi vizsga pontszámaival megegyezően. A ZH és a vizsgaeredmények közötti korreláció 0,50 volt. A pontdiagram rögbilabda alakú. Adjon becslést egy olyan hallgató vizsgapontszámára, aki a ZH-n a következő pontszámot érte el

a. 75

b. 30

c. 60

d. ismeretlen

Hasonlítsa össze a válaszokat e fejezet „A‖ feladatsora 1. feladatának eredményeivel!

2. Az egyik egyetem elsőéves hallgatói körében a felvételi pontszámok és az elsőéves tanulmányi átlag közötti korreláció 0,60 volt. A pontdiagram rögbilabda alakú. Adjon becslést arra, hogy milyen helyezést ért el tanulmányi átlag szerint az a hallgató, aki a felvételin az alább megadott percentilisbe sorolódott!

a. 90%

b. 30%

c. 50%

d. ismeretlen

Hasonlítsa össze a válaszokat e fejezet „A‖ feladatsora 2. feladatának eredményeivel!

3. Az alábbi pontdiagram-vázlat a félévközi ZH-n és a félévvégi vizsgán elért pontszámokat mutatja az egyik tantárgyból. Három vonalat rajzoltunk be a diagramba.

a. Az egyik egyenes mentén azok találhatók, akik mindkét tesztnél ugyanabba a percentilisbe sorolódtak.

Melyik ez a vonal, és miért?

b. Az egyenesek egyikét használjuk a vizsgapontszám előrejelzésére a félévközi pontszám alapján. Melyiket?

Miért?

Regressziószámítás

167

4. Az alábbi pontdiagram a Tennessee állambeli férjek és feleségeik életkorát mutatja. (A rendszeres népességfelmérés 1993. márciusi adatai alapján.)

a. Miért nincsenek pöttyök az ábra bal alsó részében?

b. Miért látunk az ábrán csíkokat vízszintesen és függőlegesen is?

5. A HANES mintájában szereplő 18-74 éves férfiak körében a magasság és a testsúly közötti korreláció 0,4; a magasság szórása 3 hüvelyk körül volt. A 65-74 éves férfiak átlagosan mintegy 2 hüvelykkel bizonyultak alacsonyabbnak a 25-34 éveseknél. Igaz-e, és miért a következő állítás? Mivel 2 hüvelyk 0,67 szórással egyenlő, a 65-74 éves férfiak átlagosan 0,4 ·0,67 ≈ 0,27 szórással könnyebbek a 25-34 éveseknél.

Kiegészítő megjegyzés: A 2. példában tárgyalt eljárásnál a rangok mediánjával dolgoztunk. Feltételezzük a normalitást és hogy r = 0,40. A felvételin (évfolyamtársaikhoz viszonyítva) a 90-edik percentilisbe eső hallgatóknak körülbelül a fele a 69-edik percentilisnél jobb, fele pedig rosszabb helyezést fog elérni tanulmányi átlagát tekintve. Az átlagos rangszámok becslése bonyolultabb.

4. 4. A regressziós tévkövetkeztetés

Egy óvodai program a gyerekek IQ-jának növelésére törekszik. Készítenek egy tesztet, amikor a gyerek elkezdi a programot (előzetes teszt), és ismét egyet, amikor befejezi (utólagos teszt). Mindkét alkalommal közelítőleg 100 az átlag, a szórás pedig 15. A programnak, úgy tűnik, semmiféle hatása sincs. Ám ha közelebbről is megnézzük az adatokat, igen meglepő dologra bukkanunk. Az előzetes tesztnél átlag alattinak bizonyult gyerekek átlagosan 5 pontot javultak az utólagos teszt szerint. És fordítva, az átlag fölötti gyerekek átlagosan 5 pontot veszítettek eredményükből. Mit bizonyít ez? A program az intelligencia kiegyenlítődését eredményezné?

Talán arról van szó, hogy amikor az okosabb gyerekek a butábbakkal játszanak, valamitől kiegyenlítődik a két csoport közötti különbség? Jó ez, vagy rossz?

Érdekesek ezek a feltételezések, de az a szomorú helyzet, hogy semmi sem történt, sem rossz, sem jó dolog. Íme a magyarázat: Nem várhatjuk, hogy a gyerekek pontosan ugyanannyi pontot érjenek el mindkét tesztnél, lesz tehát különbség a két pontszámuk között. Senki sem gondolná, hogy ez valamit is számít, vagy hogy magyarázatra szorulna. De ettől a pontdiagramon szóródni fognak a tesztpontszámok a szórásegyenes körül, az ismerős rögbilabda formájú pontfelhőt alkotva. Az egyenes körüli szóródástól az alsó csoport feljebb kerül, a legfölső csoport pedig lejjebb. Semmi másról nincs szó.

Érdekesek ezek a feltételezések, de az a szomorú helyzet, hogy semmi sem történt, sem rossz, sem jó dolog. Íme a magyarázat: Nem várhatjuk, hogy a gyerekek pontosan ugyanannyi pontot érjenek el mindkét tesztnél, lesz tehát különbség a két pontszámuk között. Senki sem gondolná, hogy ez valamit is számít, vagy hogy magyarázatra szorulna. De ettől a pontdiagramon szóródni fognak a tesztpontszámok a szórásegyenes körül, az ismerős rögbilabda formájú pontfelhőt alkotva. Az egyenes körüli szóródástól az alsó csoport feljebb kerül, a legfölső csoport pedig lejjebb. Semmi másról nincs szó.