• Nem Talált Eredményt

fejezet - Kicsit bővebben a korrelációról

III. rész - KORRELÁCIÓ- ÉS REGRESSZIÓSZÁMÍTÁS

9. fejezet - Kicsit bővebben a korrelációról

- Milyen igaz - mondta a Hercegnő. - A flamingó és az angolmustár csípős. Amiből az a tanulság, hogy: „Az egyivású madarak mindig összetartanak.”

- Csakhogy a mustár nem madár – jegyezte meg Alice.

- Igazad van, mint mindig – mondta a Hercegnő. – Hogy te milyen világosan fogalmazod meg a dolgokat!

—Lewis Carroll: Alice Csodaországban

1. 1. A korrelációs együttható tulajdonságai

A korrelációs együttható pusztán csak egy szám. Miért is? Azért, mert r kiszámításának első lépésében standard egységre váltjuk át a változót; az eredeti mértékegység – magasságadatoknál a hüvelyk, hőmérsékleteknél a fok – eltűnik. Hasonlóképpen nem befolyásolja r-et, ha az egyik változó minden értékét megszorozzuk ugyanazzal a pozitív számmal, vagy ha minden értékhez hozzáadjuk ugyanazt a számot. (Egy statisztikus így fogalmazna: r-et nem befolyásolja a skála megváltoztatása; lásd az 5. fejezet 6. szakaszát.)

Ha x értékeit megszorozzuk mondjuk 3-mal, akkor 3-szorosára nő az átlag. Az átlagtól vett eltérések is megháromszorozódnak, a szórás úgyszintén. A közös szorzótényező a standard egységre váltásnál kiesik. Nem változik tehát az r. Másik példaként adjunk hozzá x értékeihez 7-et. Ekkor az átlag is 7-tel nő. Az átlagtól vett eltérések viszont nem változnak. Ahogyan az r sem.

Az 1. ábrán a New York-i és a bostoni napi hőmérsékleti maximumok összefüggését láthatjuk. 1993 júniusának minden napjáról szerepel egy-egy pont a diagramon. Az adott napon New Yorkban mért legmagasabb hőmérsékletet a vízszintes tengelyre vettük fel; a Bostonban mértet a függőlegesre. A baloldali ábrán mindezt Fahrenheit fokban láthatjuk, r = 0,698. A jobboldali ábrán Celsius fokok szerepelnek, de az r ugyanakkora.1 A Fahrenheit fokról Celsiusra való áttérés csupán a skála megváltoztatása, ami nem befolyásolja a korrelációt.

9.1. ábra - A napi maximum hőmérsékletek 1993. júniusában New Yorkban és Bostonban. A baloldali ábrán Fahrenheit fokban; a jobboldalin Celsius fokban ábrázoltuk az adatokat. Az r ugyanakkora.

1Az adatokat Sam Cohen és Doug Hale (Energy Information Administration, Department of Energy) voltak szívesek rendelkezésünkre bocsátani. New Yorkban a Central Parkban, Bostonban a Logan repülőtéren működő mérőállomáson mérték ezeket az adatokat.

Kicsit bővebben a korrelációról

143

Az r másik fontos tulajdonsága, hogy az x és y közötti korreláció megegyezik az y és x közötti korrelációval.

Emlékezzünk vissza, hogy r a standard egységre való áttérés után képzett szorzatok átlaga. Egy szorzat értéke pedig nem függ a tényezők sorrendjétől (a · b = b · a). Példaként nézzük meg az 1993. júniusában New Yorkban mért minimum és maximum hőmérsékletek pontdiagramját! A 2. ábra bal oldali felében az egyes napok minimumhőmérsékletét a vízszintes, a maximumot a függőleges tengelyre vettük fel. A legalacsonyabb és a legmagasabb hőmérséklet közötti korreláció 0,814. A jobb oldali részen ugyanezek az adatok szerepelnek, csak most a vízszintes helyett a függőleges tengelyre vettük föl a napi minimumot. Másképp néz ki az ábra, mivel a pontok egymás tükörképei az átlóra nézve. Az r viszont változatlanul 0,814. A változók sorrendjének felcserélése nem befolyásolja r-t. (Meglepő lehet, hogy csak 0,814 a korreláció, de hát az időjárás mindig csupa meglepetés.)

9.2. ábra - Napi legalacsonyabb és legmagasabb hőmérsékletek 1993. júniusában New Yorkban.

A korrelációs együttható mértékegység nélküli szám. Nem változik, ha

• a változókat felcseréljük,

• a változó minden értékéhez hozzáadjuk ugyanazt a számot,

• a változó minden értékét megszorozzuk ugyanazzal a pozitív számmal.

1.1. „A” feladatsor

1.

a. Melyik városban volt hűvösebb 1993. júniusában – Bostonban vagy New Yorkban?

b. A 2. ábra bal oldali részében minden pont a 45 fokos egyenes fölött található. Miért?

2. Egy kicsike adatsor látható az alábbiakban, melyre r ≈ 0,76. Változik-e r, ha felcseréljük az oszlopokat?

Adjon indoklást vagy számolja ki!

x y

1 2

2 3

Kicsit bővebben a korrelációról

x y

3 1

4 5

5 6

3. Ugyanaz a kérdés, mint a 2. feladatban, csak most az y értékekhez 3-at hozzáadunk az oszlopok felcserélése helyett.

4. Ugyanaz a kérdés, mint a 2. feladatban, csak most az y értékeket megszorozzuk 2-vel.

5. Ugyanaz a kérdés, mint a 2. feladatban, csak most felcseréljük az y utolsó két értékét (az 5-öst és a 6-ost).

6. Tegyük föl, hogy az x és y közötti korreláció 0,73.

a. Felfelé vagy lefelé tart a pontdiagram?

b. Felfelé vagy lefelé fog tartani a pontdiagram, ha y minden értékét megszorozzuk –1-gyel?

c. (c) Mi történik a korrelációval, ha y minden értékét megszorozzuk –1-gyel?

7. Egy növekedéssel kapcsolatos vizsgálatban két kutató dolgozik egymástól függetlenül. Egyikük megméri 100 gyerek testmagasságát, hüvelykben. A másik kutató jobban szereti a méteralapú mértékrendszert, ezért átváltja az adatokat centiméterbe (megszorozza azokat a 2,54 centiméter/hüvelyk váltószámmal). Készül egy olyan pontdiagram is, amelyiken az egyes gyerekek testmagassága hüvelykben mérve szerepel a vízszintes tengelyen, centiméterben mérve a függőleges tengelyen.

d. (a) Mekkora lesz a korreláció, ha nem történt számolási hiba az átváltásnál?

e. (b) Mi történik a korrelációval, ha számolási hibákat követtek el az átváltásnál?

f. (c) Mi történik a korrelációval, ha a második kutató elmegy és újra leméri ugyanazokat a gyerekeket, de most egy centiméterrel?

8. A 8. fejezetbeli első ábrán szereplő 1. ábrán 0,50 a korreláció. Képzeljük el, hogy a vízszintes tengelyre az apai nagyapa testmagasságát mértük fel (az apáé helyett); a függőleges tengelyen továbbra is a fiú magassága szerepel. Kisebb vagy nagyobb lesz a korreláció 0,5-nél?

9. Két meteorológus foglalkozik a washingtoni és bostoni napi maximum hőmérsékletek összefüggésével.

Egyikük 1993. júniusára számolja ki a korrelációt, a másik a teljes 1993-as évre. Melyikük kap nagyobb korrelációt? (Washington városáról van szó, nem az államról.)

10. Hat adatsor szerepel az alábbiakban. Az (i) adatsornál 0,8571 a korreláció, az (ii)-nél 0,7857. Mennyi a korreláció a többi adatsornál? Számolásra nincs szükség.

Kicsit bővebben a korrelációról

145

(i) (ii) (iii) (iv) (v) (vi)

x y x y x y x y x y x y

5 6 5 6 6 5 6 6 5 12 4 18

6 5 6 7 7 6 7 5 6 10 5 21

7 7 7 5 5 7 8 7 7 14 6 15

2. 2. A változók szórása és a pontdiagram

Függ a változók szórásától az, hogy hogyan néz ki egy pontdiagram. Vegyük például a 3. ábrát! Mindkét diagram korrelációs együtthatója 0,70; azonban úgy tűnik, mintha a fölső ábrában szorosabban tömörülnének a pontok a szórásegyenes körül. Azért van ez így, mert itt kisebbek a szórások. A korrelációs együttható kiszámításakor standard egységre váltjuk át változóinkat: az átlagtól vett eltéréseket elosztjuk a szórással. Az r tehát a tömörülés szorosságát relatíve, a szórásokhoz viszonyítva méri, nem pedig abszolút számokban.

Egy konkrét korrelációs együtthatót tehát úgy kell elképzelnünk, hogy a lelki szemeink előtt megjelenő pontdiagramon ugyanolyan szélesre vesszük a függőleges szórást, mint amekkora a 8. fejezet 6. ábráján; és ugyanígy járunk el a függőleges tengelynél is. Ha saját pontdiagramunkra r = 0,40 adódott, akkor pontjaink valószínűleg ugyanolyan mértékben tömörülnek az átló körül, mint a jobb fölső (r = 0,40) rajzon. 0,90-es r esetén pontdiagramunk a bal alsó rajzhoz közelíthet. Általánosságban: saját pontdiagramunk nagy valószínűséggel a hasonló r értékkel jellemezhető pontdiagramhoz hasonlít.

9.3. ábra - A szórások és a pontdiagram. Mindkét ábránál ugyanakkora a korrelációs együttható: 0,70. Úgy tűnik azonban, mintha a fölső ábrában szorosabban tömörülnének a pontok a szórásegyenes körül – ez azért van, mert kisebbek a szórások.

2.1. „B” feladatsor

1. Az alábbi ábrán hat pontdiagram pontjait rajzoltuk be egyazon koordinátarendszerbe; az első pontjait „a‖-val, a második pontjait „b‖-vel stb. jelöltük. Az egyes pontdiagramokra külön-külön véve 0,6 körüli az r. Most tekintsük a pontokat együtt! Mekkora lesz vajon a korreláció az összevont diagramra: 0,0 ; 0,6 vagy 0,9 körüli?

Kicsit bővebben a korrelációról

2. Az egészségi állapottal és a táplálkozással foglalkozó HANES vizsgálatban (lásd 4. fejezet 2. szakasz) gyerekek is szerepeltek. A testmagasság és a testsúly közötti korreláció 0,67 körül alakult mindegyik életévnél 6 és 11 év között. Vajon ha a 6-11 éves gyerekeket együtt nézzük, 0,67 körül, 0,67 fölött vagy 0,67 alatt lesz a korreláció? Indokolja is meg válaszát!

3. Három pontdiagramot láthatunk itt. Ugyanakkora-e a korreláció mindháromnál? Próbáljon meg anélkül válaszolni, hogy kiszámolná az r-eket!

4. Valaki az Ön kezébe nyomta az alábbi pontdiagramot, ám elfelejtette felcímkézni a tengelyeket. Ki tudná-e számolni ennek ellenére az r-t? Ha igen, mennyi lesz? Vagy szükség lenne a tengelyek beosztására is?

Kiegészítő megjegyzések: (i) Ha r közel van 1-hez, akkor a tipikus pontok (lefelé vagy fölfelé vett) távolsága a szórásegyenestől csak töredéke a függőleges szórásnak. Ha r 0-hoz közeli, akkor egy tipikus pont távolsága a szórásegyenestől (lefelé vagy fölfelé) nagyjából a függőleges szórással összemérhető: lásd a 4. ábrát. (A

„függőleges szórás‖ az y tengelyen ábrázolt változó szórása.)

9.4. ábra - A korrelációs együttható. Ahogy az r közelít 1-hez, a tipikus pontok függőleges irányú távolsága a szórásegyenestől egyre kisebb lesz a függőleges szóráshoz viszonyítva.

(ii) Az összefüggés a korrelációs együttható és a szórásegyenestől mért tipikus függőleges irányú távolság között így írható fel: a függőleges távolságok négyzetes középértéke egyenlő

Kicsit bővebben a korrelációról

147 Vegyük például a 0,95-ös korrelációt! Ekkor

Tehát a szórásegyenes körüli szóródás a függőleges szórás mintegy 30%-a. Ezért van az, hogy a pontdiagram r

= 0,95-nél is tisztes szóródást mutat az egyenes körül (lásd a 8. fejezet 6. ábráját). Hasonló összefüggés áll fenn vízszintes irányban is.

3. 3. Kivételek

A korrelációs együttható jól használható akkor, amikor a pontdiagram rögbilabda alakú. De másféle pontdiagramoknál akár félrevezetőnek is bizonyulhat. Ilyen problematikus esetet jelenthet magányos pontok előfordulása, vagy ha nem lineáris az összefüggés. Az 5a ábrán például a pöttyök tökéletes, 1-es korrelációt mutatnak. A kereszttel jelölt magányos eset azonban lerontja a korrelációt, majdnem 0-ra. Ezt az ábrát nem szabad r-rel összegeznünk. Egyeseket viszont szinte elragad a magányos esetek utáni hajsza, pedig minden pontdiagramban előfordulnak a felhő fő részétől többé-kevésbé elszakadó pontok. Csak alapos okkal szabad ezeket kizárni!

9.5. ábra - Ha előfordulnak magányos pontok, vagy ha az összefüggés nemlineáris, a korrelációs együttható félrevezető lehet.

Az 5.b ábra korrelációs együtthatója közel van a 0-hoz, noha a pontok erős összefüggést rajzolnak ki. Az ok:

ábránk cseppet sem hasonlít egy egyenesre – x növekedésével az y előbb nő, majd pedig csökken. Hasonló kapcsolat mutatkozik például a felnőtt férfiak testsúlya és életkora között (lásd a 4. fejezet 3. ábráját). Ilyen adatokat sem szabad r-rel összegezni, mert akkor elvész az összefüggés.

Az r a lineáris összefüggést méri, nem pedig az összefüggést általában véve.

3.1. „C” feladatsor

1. Melyeket lehet r-rel összegezni a következő pontdiagramok közül?

Kicsit bővebben a korrelációról

2. Az egyik 15 fős egyetemi csoportba történetesen 5 kosárlabdajátékos is jár. Igaz-e, és miért: A magasság és a testsúly közötti kapcsolat ebben az esetben összegezhető az r-rel.

3. A d átmérőjű kör területe 1/4pd2. Egy kutató különböző átmérőjű körökből vett minta alapján pontdiagramot készített, amelyre felvette a körök területét az átmérő függvényében. (Az ábrát alább láthatjuk.) A korrelációs együttható értéke _________.Töltse ki az üresen hagyott helyet, és adjon indoklást is! Válaszlehetőségek:

-1; –1-hez közeli érték; 0-hoz közeli érték; 1-hez közeli érték;

4. Egy adatsorra r = 0,57 adódott. Igazak-e az alábbi állítások? Indokolja is röviden válaszát! Ha további információt tart szükségesnek, adja meg, mire lenne szükség, és miért!

a. Nincsenek magányos esetek az adatsorban.

b. Nemlineáris kapcsolat van a változók között.

4. 4. Ökológiai korrelációk

1955-ben mérföldkőnek számító cikket publikált Doll a dohányzás és a tüdőrák közötti kapcsolatról.2 Az egyik bizonyíték egy pontdiagram volt, melyen az egy főre jutó cigarettafogyasztás és a tüdőrák miatt bekövetkezett elhalálozások arányszámait tüntették föl 11 országra. A 11 pontpár közötti korreláció 0,7-nek bizonyult, és ezt úgy tekintették, mint ami a dohányzás és a rák közötti kapcsolat erősségét mutatja. Azonban nem az országok dohányoznak és betegszenek meg tüdőrákban, hanem az emberek. Csak úgy mérhetjük, hogy mennyire erős a kapcsolat az emberek esetében, ha egyénekről vannak a dohányzással és a rákkal kapcsolatos adataink. Ilyen vizsgálatok azóta rendelkezésre állnak, és jellemzően alátámasztják Doll érvelését (lásd 2. fejezet).

A statisztika szempontjából itt az a fontos, hogy az arányszámok vagy átlagok alapján nyert korreláció félrevezető lehet. Nézzünk egy példát! A rendszeres népességfelmérés 1993-as adataiból kiszámolhatjuk az iskolázottság és a jövedelem közötti korrelációt a 25-54 éves amerikai férfiak csoportjára: r ≈ 0,44. Az egyes államokra is kiszámolhatjuk az átlagos iskolázottsági szintet és az átlagjövedelmet. Végezetül kiszámolhatjuk az 51 átlag-pár közötti korrelációt; ez 0,64. Ha az államokra vonatkozó korrelációt használnánk az egyénekre vonatkozó korreláció becslésére, igencsak mellélőnénk. Ennek az az oka, hogy az egyes államokon belül jelentős szóródás van az átlagok körül. Amikor az állam adatait az átlagokkal helyettesítjük, akkor ezt a

2R. Doll, „Etiology of lung cancer,‖ Advances in Cancer Research vol. 3 (1955) 1-50. o. Report of the U.S. Surgeon General, Smoking and Health (Washington, D.C., 1964.)

Kicsit bővebben a korrelációról

149

szóródást figyelmen kívül hagyjuk, és az a félrevezető benyomás keletkezik, mintha az adatok szorosan tömörülnének egy egyenes köré. A 6. ábra szemlélteti a jelenséget.3

Egy ökológiai korreláció arányszámokon vagy átlagokon alapul. A politikatudományban és a szociológiában gyakran használnak ilyeneket. Az ökológiai korreláció jellemzően eltúlozza az összefüggés erősségét. Legyünk tehát résen!

9.6. ábra - Az arányszámokból vagy átlagokból számolt korreláció rendszerint túlságosan nagy. A bal oldali ábrán három (A, B, illetve C) államban élő személy jövedelmét és iskolázottságát ábrázoltuk. Az egyes embereket lakóhelyük betűjelével jelöltük. Mérsékelt korrelációt találunk. A jobb oldali ábrán az egyes államokra vonatkozó átlagok szerepelnek. Az átlagok közötti korreláció majdnem 1.

4.1. „D” feladatsor

1. Az alábbi táblázatot Doll tanulmányából vettük át. A táblázatban különböző országok egy főre jutó cigaretta fogyasztása szerepel 1930-ban, valamint a férfiak tüdőrák miatti halálozási arányszáma 1950-ben. (1930-ban a nők még alig dohányoztak; a dohányzás hatásainak megjelenéséhez pedig hosszabb időre van szükség.)

Ország Cigaretta-fogyasztás Elhalálozás egymillió főre

Ausztrália 480 180

Dánia 380 170

Finnország 1100 350

Hollandia 490 240

Izland 230 60

Kanada 500 150

3Az ötlet forrása: W.S. Robinson, „Ecological correlations and the behavior of individuals,‖ American Sociological Review vol. 15 (1950) 351-357. o. Robinsonnál az írni-olvasni tudás és a bőrszín szerepel az 1930-as népszámlálás adatai alapján. Példánk ennek megismétlése; az adatok forrását lásd a 8. fejezet 5. lábjegyzetében.

Amennyiben minden egyes csoport kétváltozós normális eloszlást követ és közös a regressziós egyenes, akkor az átlagokból becsülni lehet a meredekséget és a tengelymetszetet. Lásd még L. Goodman, „Ecological regression and the behavior of individuals,‖ American Sociological Review vol. 18 (1953) 663-664. o. A kérdés további tárgyalását lásd: S. Klein and D. Freedman, „Ecological regression in voting rights cases,‖ Chance vol. 6 (1993) 38-43. o.

Kicsit bővebben a korrelációról

b. Igaz-e: Minél magasabb volt egy országban az átlagos cigarettafogyasztás 1930-ban, annál magasabb volt a tüdőrák miatti halálozási arányszám 1950-ben. Vagy nem elegendő ennek eldöntéséhez ennyi adat?

c. Igaz-e: A tüdőrák miatti halálozási arány jellemzően magasabb azoknál, akik többet dohányoznak. Vagy nem elegendő ennek eldöntéséhez ennyi adat?

2. Egy szociológus az öngyilkosság és a tanultság közötti összefüggést vizsgálja a 19. századi Itáliában.4 Minden tartományról rendelkezésére áll az írni-olvasni tudók aránya, valamint a tartomány öngyilkossági rátája. A kettő közötti korreláció 0,60. Megfelelő becslést ad-e ez az írástudás és az öngyilkosság közötti kapcsolat erősségéről?

5. 5. Az összefüggés még nem jelent oksági kapcsolatot

Kisiskolások körében az olvasási készség erősen korrelál a cipőmérettel. Új szavak megtanulástól azonban nem lesz nagyobb az ember lába. Inkább egy harmadik tényező játszik itt szerepet—az életkor. Ahogy idősebb lesz a gyerek, egyre jobban megtanul olvasni, és sorra növi ki a cipőit is. (A 2. fejezetben használt statisztikai zsargon szerint összemosó tényező itt az életkor.) Ennél a példánál könnyű volt megtalálni az összefüggést összekuszáló változót. De nem mindig ilyen egyszerű a helyzet. A korrelációs együttható kiszámítási eljárása nem nyújt védelmet ilyen releváns harmadik változókkal szemben.5

A korreláció összefüggést mér. Az összefüggés azonban nem egyenlő az oksági kapcsolattal.

1. példa: Az iskolázottság és a munkanélküliség. A nagy gazdasági válság idején (1929-33) az iskolázottabb emberek jellemzően rövidebb időszakokra maradtak munka nélkül. Véd-e vajon az iskolázottság a munkanélküliséggel szemben?

Elemzés: Talán igen, bár az adatok megfigyelésből származnak. Az életkor viszont releváns harmadik tényezőnek bizonyult itt. A fiatalabbak iskolázottabbak voltak, az iskolázottsági szint ugyanis sokat emelkedett az idők folyamán (és ma is emelkedik). A munkáltatók pedig, ha választhattak, jellemzően a fiatalabb álláskeresőket részesítették előnyben. Az életkor kontrollváltozóként való bevezetésekor sokkal gyengébbnek bizonyult az iskolázottság hatása a munkanélküliségre.6

2. példa: A fajok földrajzi elterjedtsége és élettartama. Működik-e vajon a természetes kiválasztódás a fajok szintjén? A paleontológusokat ez a kérdés is foglalkoztatja. David Jablonski szerint a fajok örökletes jellemzője

4Magyar kiadása: E. Durkheim, Az öngyikosság (Közgazdasági és Jogi Könyvkiadó, 1967, 153. o.). Ezt a korrelációt mi számoltuk ki.

Durkheim tartományok csoportjaira nézte meg az átlagokat, melyekre 0,9 volt a korreláció. Arra a következtetésre jutott, hogy „a népoktatás és az öngyilkosság számai pontosan azonos módon oszlanak el‖.

5Valamelyes segítséget kínál a többváltozós regressziószámítás, ám sokszor több kérdést vet fel, mint amennyire választ ad (lásd a 12.

fejezet 3. szakaszát).

6A kérdés bővebb tárgyalását lásd: H. Zeisel, Say It With Figures, 6th ed. (Harper & Row, 1985, 152ff. o.)

Kicsit bővebben a korrelációról

151

a földrajzi elterjedés: a széles területen elterjedt fajok hosszabb ideig képesek a túlélésre, hiszen ha katasztrófa tör is ki valahol, a faj más helyeken fennmarad.

Egyik bizonyítéka erre egy pontdiagram (7. ábra). A haslábúak (meztelen csigák, házas csigák stb.) 99 faja szerepel a diagramon. A faj fennmaradásának időtartama – az élettartam, millió években – került a függőleges tengelyre; a földrajzi kiterjedtség a vízszintes tengelyre, kilométerben mérve. A változók értékeit a talált őskövületek alapján állapították meg. Jelentős a pozitív összefüggés: az r 0,64 körül alakul. (A pontfelhő talán alaktalannak tűnik, de csak a jobb alsó és a bal felső sarokban található pár kósza pont miatt.) Elősegíti-e vajon a széleskörű elterjedtség egy faj túlélését?

9.7. ábra

-7. ábra A fajok élettartama millió években a kilométerben mért földrajzi elterjedtség függvényében a haslábúak 99 fajára. Több faj is kerülhetett egyazon pontba; ilyen esetben a fajok számát a pont mellett tüntettük fel.

Elemzés: A széleskörű elterjedtség hosszú élettartamot biztosíthat a fajnak. Vagy a hosszú élettartam széleskörű elterjedésre nyújt lehetőséget. Vagy lehet, hogy másvalami történik. Jablonski az első lehetőségre fordította figyelmét. A második valószínűtlen, mivel kimutatták, hogy az egyes fajok felbukkanásuk után hamarosan elérik teljes földrajzi kiterjedtségüket. De mi van a harmadik lehetőséggel? Michael Russell és David Lindberg rámutattak arra, hogy egy földrajzilag széles körben elterjedt faj nagyobb eséllyel őrződik meg kövületekben, és ez keltheti a hosszú fennállás látszatát. Eszerint a 7. ábra csupán mesterséges statisztika („artefaktum‖) lenne.7 Az összefüggés nem azonos az oksági kapcsolattal.

3. példa: A zsiradékbevitel és a rák. Azokban az országokban, ahol az emberek – Amerikához hasonlóan – sok zsiradékot fogyasztanak, magas a mellrák és a vastagbélrák megbetegedések aránya. A mellrákra vonatkozó adatokat a 8. ábrán láthatjuk. Ezen összefüggés alapján gyakran érvelnek amellett, hogy a zsiradékfogyasztás rákot okoz. Mennyire jó vajon ez a bizonyíték?

9.8. ábra - A mellrák miatti halálozási arány a zsiradékfogyasztással összevetve néhány országra.

7M. Russel bocsátotta rendelkezésünkre a tanulmány 1. táblázatának adatait: D. Jablonski, „Larval ecology and macroevolution in marine invertebrates,‖ Bulletin of Marine Science vol. 39 part 2 (1986) 565-587. o. Lásd még: Science vol. 240 (1988) 969. o.

Kicsit bővebben a korrelációról

Megjegyzés: Az életkorra standardizált adatok.

Forrás: K. Carroll, „Experimental evidence of dietary factors and hormone-dependent cancers,‖ Cancer Research vol. 35 (1975) p. 3379. Copyright by Cancer Research. A felhasználás engedélyezve.

Elemzés: Ha az elfogyasztott zsiradék rákot okoz, akkor a diagramban szereplő pontoknak emelkedő tendenciát kell mutatniuk, amennyiben nincsenek másféle különbségek. A diagram így valamelyes bizonyítékot jelent az elmélet mellett. Ám ez a bizonyíték elég gyenge, mivel másfajta eltérések is fennállnak. A sok zsiradékot fogyasztó országokban például a cukorfogyasztás is magas. Ugyanilyen ábrát kapnánk, ha a cukorfogyasztással vetnénk össze a mellrák előfordulását, noha senki sem gondolja, hogy a cukor mellrákot okozna. Mint kiderül, a zsiradékok és a cukor viszonylag drága cikkek. A gazdag országokban az emberek jobban megengedhetik maguknak, hogy zsiradékféleségeket és cukrot fogyasszanak keményítőben gazdag gabonaneműk helyett. Ezen országokban valószínűleg fennállnak olyan, az étkezési szokásokban vagy az életmód más tényezőiben rejlő faktorok, melyek bizonyos típusú rákokat okoznak—viszont védenek másfajta rákokkal szemben. Az epidemiológusok csupán néhányat tudtak beazonosítani ezen tényezők közül bármiféle bizonyossággal. 8

5.1. „E” feladatsor

1. A 7. ábrán szereplő pontdiagram pontjai csíkokba rendeződnek. Miért?

2. Ökológiai korrelációt láthatunk-e a 8. ábrán? Mi lehet a jelentősége ennek a vitában?

8Hivatkozások:

R. Doll and R. Peto, The Causes of Cancer (Oxford University Press, 1981).

B. E. Henderson, R. K. Ross and M. C. Pike, „Toward the primary prevention of cancer,‖ Science vol. 254 (1991) 1131-1138. o.

B. N. Ames, L. S. Gold and W. C. Willett, „The causes and prevention of cancer,‖ Proceedings of the National Academy of Science USA vol. 92 (1995) 5258-5265. o.

B. S. Hulka and A. T. Stark, „Breast cancer: cause and prevention,‖ Lancet vol. 346 (1995. szeptember 30.) 883-887. o.

B. S. Hulka and A. T. Stark, „Breast cancer: cause and prevention,‖ Lancet vol. 346 (1995. szeptember 30.) 883-887. o.