3. 2-próbák
3.1. 2-próba az eloszlás (illeszkedés) vizsgálatára 3.1.1. Illeszkedésvizsgálat a Poisson-eloszlásra 29. példa
(G.E.P. Box, W.G. Hunter, J.S. Hunter: Statistics for experimenters, J. Wiley, 1978, p. 143)
Müzligyár ellenőrzi a mazsolák számát. Az előírás az, hogy egy mintavevő kanálnyi müzliben 36 szem mazsolának kell lennie.
Az adagonkénti mazsolák számának előfordulási valószínűsége Poisson-eloszlással írható le, melynek valószínűségi függvénye:
) !
( k
k e p
k
k E , Var
k Az eloszlásnak egyetlen paramétere van, az egységben való előfordulások várható száma.
12 mintát vettek, az ezekben talált mazsola-szemek száma a következő: 43, 46, 50, 40, 38, 29, 31, 35, 41, 52, 48, 37.
36 :
H0 0 36 :
H1
A nullhipotézis tehát az, hogy az adatok adott paraméterű Poisson-eloszlást követnek (a feladat ún.
tiszta illeszkedésvizsgálat).
A Poisson-eloszlás közelíthető normális eloszlással, ha a paraméter elég nagy:
x
p(x)
0.0 0.1 0.2 0.3 0.4
0 2 4 6 8 10 12 14 16 18 20
=10
=1
k
z , ez az egy adagban található mazsola-szemek számára érvényes. A több mintára:
2 2
i
zi , a szabadsági fok a minták száma.
Az eloszlás akkor ilyen, ha az adagonként található mazsola-szemek száma független egymástól. A próbastatisztika:
i
ki 0 2 0
0
Behelyettesítve:
06 . 36 24
) 36 37 ... ( 36
) 36 46 ( 36
) 36 43
( 2 2 2
2
0
, =12
A 2-táblázat szerint a 0.025 egyoldali valószínűséghez tartozó kritikus érték 23.337, tehát a hipotézist =0.05 (kétoldali) szignifikancia-szinten elutasítjuk (pontosan számolva p=0.02)
A nullhipotézist, hogy mintavevő kanalanként átlagosan 36 szem mazsola van a müzliben, és a mazsolák eloszlása Poisson, elutasítottuk. Lehetséges, hogy nem 36 szem mazsola jut egy kanálra, de az is lehet, hogy nem Poisson-eloszlást követnek a mazsolák.
Vizsgáljuk először az első problémát, ami úgy fogalmazható meg, hogy a Poisson-eloszlás paramétere nem 36.
A Poisson-eloszlás additív tulajdonságú, tehát a Poisson-eloszlású valószínűségi változók összege is Poisson-eloszlást követ, melynek paramétere az összeadandók paramétereinek összege. A nullhipotézis az, hogy a 12 kanálnyi müzliben összesen 1236432 szem mazsola van:
432 :
H0 0 432 :
H1
79 . 432 7
) 432 490
( 2
2
0
, =1
A 2-táblázat szerint a 0.025 egyoldali valószínűséghez tartozó kritikus érték 5.024, tehát a hipotézist =0.05 (kétoldali) szignifikancia-szinten elutasítjuk (pontosan számolva p=0.0053).
Az egy mintavevő kanálra jutó mazsola-szám eszerint nem 36. Adjunk rá becslést a minta adataiból (a 12 mintában összesen 490 szem mazsola volt):
83 . 12 40 ˆ 490
Nézzük most a második problémát, ami úgy fogalmazható meg, hogy a mazsola-szemek előfordulása nem Poisson-eloszlás szerinti (overdispersion). Pontosabban azt fogjuk kérdezni, hogy a minták jöhettek-e olyan Poisson-eloszlásból, amelynek becsült paramétere 40.83 (ún. becsléses illeszkedésvizsgálat).
34 . 83 14
. 40
) 83 . 40 37 ... ( 83
. 40
) 83 . 40 43
( 2 2
2
0
A szabadsági fok eggyel csökkentendő, mivel az eloszlás próbával vizsgált paraméterét is az adatokból becsültük:
11 1 12
A 2-táblázat szerint a 0.025 egyoldali valószínűséghez tartozó kritikus érték 21.92, tehát a hipotézist elfogadjuk (pontosan számolva p=0.215).
Tehát az egy mintavevő kanálra jutó mazsola-szám ugyan Poisson-eloszlás szerint ingadozik (az egyes kanalakban a mazsola-szám független), de nem 36 szem mazsola jut átlagosan egy mintavevő kanálra.
3.1.2. Multinomiális eloszlás
A binomiális eloszlásnál a kísérletnek kétféle kimenetele lehet, pl. fej vagy írás. Más esetben többféle kimenetel lehet.
Legyen c a lehetséges kimenetelek (kategóriák) száma, j a j-edik kategória előfordulásának valószínűsége. Például a kockadobásnak hatféle kimenetele lehet, mindegyik 1/6 valószínűséggel.
Legyen nj a j-edik kategóriába eső előfordulások száma, pl. n1 n dobásból az 1-es dobások száma.
A valószínűségi függvény:
n n cncc
c n n n
n n n n
p
11 22
2 1 2
1 ! ! !
,..., ! ,
Azért nem Poisson-eloszlású az egyes kategóriákban az előfordulások száma, mert az összes kategóriákbeli számok n összege rögzített.
Az eloszlásnak c-1 paramétere van, az egyes kategóriákbeli előfordulások valószínűsége, melyek összege 1 kell legyen. A j-edik kategóriába eső előfordulások nj számának várható értéke:
nj n jE
A multinomiális eloszlás speciális esete a binomiális eloszlás c=2-re.
Megmutatható, hogy az nj számokból képezett következő statisztika elég nagy nj értékek esetén 2- eloszlású:
i i
i i
n n n
2 2
A kifejezés szabadsági fokszáma c-1, mert a szumma tagjai nem függetlenek egymástól, közöttük egy összefüggés van.
Szokás ezt a képletet a következőképpen írni:
i i
i i
E E
O 2
2
ahol Oi az i-edik kategóriában kapott előfordulási szám (observed), Ei ennek várható vagy feltételezett értéke (expected).
Látjuk, hogy nemcsak a binomiális és Poisson-eloszlású valószínűségi változóból képezhetünk 2- statisztikát.
30. példa
(A. C. Wardlaw: Practical statistics for experimental biologists, J. Wiley & Sons, 1985 p. 112) A vércsoport genotípusa és fenotípusa között a következő az összefüggés (az A és B allél domináns, a 0 recesszív):
genotípus AA A0 AB BB B0 00
fenotípus A A AB B B 0
129 olyan gyermek vércsoportját vizsgálták, akinek mindkét szülője AB vércsoportba tartozott. 28 gyermeknek volt A (AA), 36-nak B (BB) és 65-nek AB a vércsoportja. A Mendel-féle öröklődési szabályok szerint az esetek ¼-ében kell A, ¼-ében B, ½-ében pedig AB előfordulásnak lennie. A kérdés az, hogy a talált adatok ellentmondanak-e ennek az aránynak.
H0:
4
1
AA ,
4
1
BB ,
4
2
AB
Az előfordulási számok multinomiális eloszlást követnek.
Talált (O) Feltételezett (E)
A 28 32.25
4 129
B 36 32.25
4 129
AB 65 64.5
2 129
Összesen 129 129
1 2
129 2 65 129
4 129
4 36 129
4 129
4 28 129
2 2
2
2
0
=3-1=2
Elfogadjuk H0-t, az adatok nem mondanak ellent a Mendel-féle elméletnek. (Kétoldali a vizsgálat, mert lehetne túl jó is az illeszkedés.)
3.2. 2-próba a 2x2-es táblázatok elemzésére
Egy tipikus 2x2 táblázat és szokásos jelölései a következők:
a b r1
c d r2
c1 c2 N
A táblázat celláira az ábrán látható betűkkel, vagy a mátrixjelöléssel megegyező módon a következő számokkal hivatkozunk: a:11, b:12, c:21, d:22. A 2x2 táblázat példáján szemléltetve a következő kísérleti elrendezések fordulhatnak elő:
Típus I. II. III. IV. V.
Rögzített - N c1, c2 r1, r2 c1,c2, r1, r2
Véletlen N, c1, c2,
r1, r2 c1, r1 r1 c1 -
Eloszlás 4
független Poisson
multinomiális két független binomiális
két független binomiális
hiper- geometrikus
H0
12=21 (b=c) (szimmetria)
j i
ij
(függetlenség)
11=12 (a=b) 11=21
a=c
1
21 12
22
11
1
c b
d a
Próba McNemar, 2 2, binomiális
egzakt 2, binomiális
egzakt Fisher egzakt, 2 Megj. log-linear cross-sectional case-control,
retrospective
clinical trial, cohort study prospective
A III. és IV. típusnál (ezeket tárgyaltuk a 2.2. pontban) két binomiális eloszlású sokaságot hasonlítunk össze, előbbinél az oszlop-összegek, utóbbinál a sor-összegek rögzítettek. A IV.
elrendezés a tipikus klinikai kísérlet: r1 páciens kapja az egyik kezelést, r2 a másikat. Az oszlopokban a gyógyultak/nem gyógyultak száma van, ez a valószínűségi változó.
A III. típus a retrospektív vizsgálat, amelynél c1 esetet választunk ki az egyik sokaságból (a 22.
példában a tüdőrákosok közül: case), c2 esetet a másik sokaságból (nem szenved tüdőrákban:
control). Itt az a véletlenszerű, hogy egyik ill. másik csoportban hány páciensről találják úgy, hogy dohányos.
A II. típusnál (ezt tárgyaltuk a 2.3. pontban) N egyedet választunk ki, és két szempont (a sorbeli és az oszlopbeli) szerint soroljuk be őket. Itt nem tudjuk előre, hogy hányan lesznek az egyik és a másik sorban ill. oszlopban, a sor- és oszlop-összeg tehát véletlen.
Az V. esetben a sor- és oszlop-összeg is rögzített, ide illik a 2.4. pontban tárgyalt tea-példa.
3.2.1. A sorösszegek rögzítettek (homogenitás-vizsgálat) 31. példa
(M.J. Campbell, D. Manchin, Medical Statistics. A commonsense approach, 2nd edition, J. Wiley &
Sons, 1993, p. 71)
A páciensek kétféle gyógyszert kaptak, kisorsolva, hogy ki melyiket. Kettős vak vizsgálatot végeztek: az orvos és a páciens sem tudja, hogy ki melyik gyógyszert kapja.
A kérdés, hogy van-e a két gyógyszer között különbség a tekintetben, hogy egyforma arányban gyógyultak-e tőlük a betegek.
Az eredmények:
Gyógyszer típusa Gyógyult Nem gyógyult
A 23 7 30
B 18 13 31
41 20 61
Az A és B gyógyszernél a gyógyulás relatív gyakorisága külön-külön binomiális eloszlást követ.
Jelölje 1 annak valószínűségét, hogy a beteg, aki az A gyógyszert kapja, meggyógyul, 2 annak valószínűségét, hogy a beteg, aki az B gyógyszert kapja, meggyógyul.
A hipotézis-pár:
2 1 0 :
H ami úgy is írható, hogy 1A 1B
2 1 1:
H (kétoldali)
A feladatot 15. példaként a binomiális eloszlás normális eloszlással való közelítésével oldottuk meg.
Tiszta illeszkedésvizsgálatnál azt kérdeznénk, hogy az adatok adott 1 ill. 2 paraméterű sokaságokból származnak-e. Itt nem ez a helyzet, itt a paramétereket is az adatokból kell becsülni, vagyis becsléses illeszkedésvizsgálatról van szó.
A próbastatisztika (score) a következő volt:
2 1
2 1
0 1 1
ˆ) 1 ˆ(
ˆ ˆ
n n z
2 1
2 2
` 1
1
ˆ ˆ
ˆ n n
n n
Mivel a standard normális eloszlású valószínűségi változó négyzete =1 szabadsági fokú khi- négyzet eloszlású valószínűségi változó (z2 2), tehát a következő próbastatisztika is használható:
2 1
2 2 2 1
0 2
0 1 1
ˆ) 1 ˆ(
ˆ ˆ
n n z
Gyógyszer típusa Gyógyult Nem gyógyult
A a b r1
B c d r2
c1 c2 N
A táblázat celláinak betű-jelöléseivel fejezzük ki a próbastatisztikát (itt n1= r1 és n2= r2):
b a
a r a
1
ˆ1
,
d c
c r
c
2
ˆ2
d c b a
c a N
c a
ˆ
Ezeket 02 z02kifejezésébe helyettesítve algebrai átalakítások után a következő kifejezést kapjuk:
a b
c d
a c
b d
bc N ad
2
2
0
Használjuk most a
i i
i i
E E
O 2
2
0 általános képletet! A várható előfordulási szám (Ei) becslésénél figyelembe kell venni a 12 nullhipotézist. jelenti az (első oszlopba esés) gyógyulás valószínűségét. A második oszlopba esés valószínűsége 1- (mivel egy személy vagy gyógyult, vagy nem). Így például az a jelű cellába esés gyakoriságának becslése:
N c b a a r
E1 1ˆ ugyanez a b cellára:
N d b b a r
E
11 ˆ
2
s.i.t.
A táblázat négy cellája adja a szumma négy tagját:
1
2
1
2
2
2
2
22
1 1 2 2
(1 ) (1 )
(1 ) (1 )
a r b r c r d r
r r r r
Behelyettesítve és közös nevezőre hozva éppen a
a b
cadd
abc c
b d
N
2
2
0 kifejezést
kapjuk. Ha a Yates- (folytonossági) korrekciót is figyelembe vesszük, a próbastatisztika
a b
c d
a c
b d
bc N ad
N
2
2 0
2
Ez is a megfelelő z0 négyzete.
Helyettesítsük be a példa számadatait:
394 . 2 61
20 31
61 20 13 31
61 41 31
61 41 18 31
61 20 30
61 20 7 30
61 41 30
61 41 23 30
2 2
2 2
2
0
Átalakítva:
23 7
18 13
23 18
7 13
2.39418 7 13 61 23
2 2
2
0
d b c a d c b a
bc N ad
Yates-korrekcióval:
762600 1.622 18 61 7 13 23 2 61
2 2
2
a b c d a c b d bc N
ad
N
Megjegyzendő, hogy az z0 próbastatisztika a következőképpen is átalakítható:
d c b a N
d b N
c a
d c
c b a
a
n n
z ˆ(1 ˆ) 1 1 1 1
ˆ ˆ
2 1
2 1 0
3 2 1 2 1
1 1
2 1 2 1
N c c r r
N c a r
c c r r
bc N ad
3.2.2. A sor- és oszlop-összegek sem rögzítettek: McNemar-próba 32. példa
(G.A.Walker: Common statistical methods for clinical research with SAS examples, Collins- Wellesley Publishing, San Diego, California, 1996)
A páciensek kezelést kapnak.
A kérdés az, hogy a kezelésnek van-e mellékhatása a vizelet bilirubin-szintjére, vagyis hogy a kezeléstől megváltozik-e a bilirubin-szint.
Véletlenszerűen kiválasztottak 86 pácienst. Mindenkinek megmérték a bilirubin-szintjét kezelés előtt és kezelés után is.
A táblázatban a „nincs” azt jelenti, hogy nem magas a szint, a „van” azt jelenti, hogy magas.
Kezelés után
nincs van
Kezelés előtt nincs 60 14 74
van 6 6 12
66 20 86
Itt a két szempont, ami szerint a kategorizálást végezték, a kezelés előtti és utáni állapot.
Ezt a feladatot a 22. példában a McNemar-próbával oldottuk meg:
c b
c b c b
c b
z
4
0 2
A folytonossági korrekcióval:
c b
c z b
1
0
Mivel az z-eloszlású valószínűségi változó négyzete =1 szabadsági fokú 2- eloszlású, a következőt is írhatjuk:
c b
c b
2
2
0 ill.
c b
c b
2 2
0
1
3.1976 14
6
14 2
2 2
0
c b
c
b
Ha folytonossági korrekciót is alkalmazzuk:
45 . 6 2
14 1 6
12 14 2
2
0
c b
c
b
p=0.118, természetesen ugyanakkora, mint az u-próbával talált érték.
3.2.3. A sor- és oszlop-összegek sem rögzítettek (függetlenségvizsgálat)
A 3.4. pontban bemutatandó képlet szerint a függetlenségvizsgálat próbastatisztikája a következő:
5.5820 66 12 74
6 14 6 86 60
2 2
2
0
d b c a d c b a
bc N ad
A folytonossági korrekcióval:
74 12 66 20 3.982 6 86 14 6 60 2 86
2 2
2
0
a b c d a c b d bc N
ad
N
1 5.0242 025 .
0
3.2.4. A sor- és oszlop-összegek is rögzítettek 33. példa
A 27. példa adatai a következők voltak:
vélt sorrend
tej előbb tea előbb tényleges
sorrend
tej előbb 3 1 4
tea előbb 1 3 4
4 4 8
A feladatot Fisher egzakt próbájával oldottuk meg, melyre a nagymintás próbastatisztika (az illusztráció kedvéért eltekintve attól, hogy a minta itt nem biztos, hogy eléggé „nagy”):
1
2
1 1
1 1
1 1
0
N N
c N r N r c
N r a c z
Mivel az z-eloszlású valószínűségi változó négyzete =1 szabadsági fokú 2- eloszlású, a következőt is írhatjuk:
1
2
1
2 1 2 1
2 1 1
2
1 1
1 1
2 1 1 2
0
N N
r r c c
N r a c
N N
c N r N r c
N r a c
Behelyettesítve:
75 . 1 1 8 8
4 4 4 4
8 4 3 4
2 2
2
0
p=0.186, ez jelentősen eltér a pontos számítással kapott 0.24-tól, de nyilvánvalóan nem volt elég nagy a minta a nagymintás számításhoz.
3.3. Cochran, Mantel és Haenszel módszere több táblázat együttes kezelésére
Előfordul, hogy a kísérletsorozatot több kisebb részben végzik el, különböző helyszíneken, időpontokban vagy különböző körülmények között. Ilyenkor a nullhipotézis szerinti valószínűségek különbözők lehetnek az egyes rész-kísérletekre, tehát nem vonhatjuk össze az adatokat egyetlen 2x2-es táblázatban.
A módszer alkalmazásakor kihasználjuk, hogy a normális eloszlású valószínűségi változók összege is normális eloszlást követ, vagy azt, hogy a 2 eloszlású valószínűségi változók összegezhetők.
Utóbbi esetben a szabadsági fokszámok összegződnek.
A sor- és oszlop-összegek is rögzítettek (Ez volt az eredeti Mantel-Haenszel-próba) A próbastatisztika két alakja:
k k k
k k k k k k
k k
k k k
N N
c N r N r c
N r a c
z
2
1
1 1
1 1
1 1
0 ill.
k k k
k k k k k k
k k
k k k
N N
c N r N r c
N r a c
2
1
1 1
1 1
2 1 1 2
0A szabadsági fokszám a k-val indexelt rész-táblázatok száma.
A sorösszegek rögzítettek (Ez Cochran javaslata) A próbastatisztika két alakja:
k k
k k k k k k
k k
k k k
N
c N r N r c
N r a c
z
3
1 1
1 1
1 1
0 ill.
k k
k k k k k k
k k
k k k
N
c N r N r c
N r a c
3
1 1
1 1
2 1 1 2
0Sem a sor- sem az oszlop-összegek nem rögzítettek
A McNemar-próba figyelembe veszi, hogy a vizsgált egyedek egy rész-kísérletnél is különbözőek, ehhez képest nem jelent különbséget, hogy több rész-kísérletet együtt dolgozunk föl, Az egyesített táblázatban b (n12, tehát pl. a nem volt-lett kombinációjú egyedek száma) helyett
k
bk (a rész- kísérletekben együtt a nem volt-lett kombinációjú egyedek száma) áll. A próbastatisztika két alakja:
k
k k k
k k
c b
c b z0
k
k k
c b
c b
2
2
0
A szabadsági fokszám a k-val indexelt rész-táblázatok száma.
3.4. 2-próba az rxc táblázatok elemzésére
A 2-próba alkalmazása az u-próba helyett a 2x2-es táblázatok elemzésére nem jár látható előnnyel.
Sokszor azonban a kísérletek eredményeit összefoglaló táblázatoknál nemcsak két sor és két oszlop értelmezhető, hanem általánosan r sor és c oszlop, az ilyen táblázatokat általánosan rxc táblázatoknak nevezzük.
Ezek kiértékelésére általánosan a
i i
i i
E E
O 2
2
0 formulára épülő 2-próbát használjuk, ennek kétdimenziós táblázatokra használatos alakja:
r
i c
j ij
ij ij
E E
O 2
2
0 .
3.4.1. 2-próba a homogenitás vizsgálatára az rxc táblázatokban
Leggyakoribb az az eset, amelynél a sorösszegek rögzítettek. Ilyenkor r csoportot (pl. kezelést vagy gyógyszert) hasonlítunk össze, és a kimenetel c-féle lehet (pl. teljesen meggyógyult, javult, nem változott, romlott). A csoportok (sorok) független multinomiális eloszlásokat alkotnak, ami azt jelenti, hogy az egyes csoportokra külön-külön multinomiális eloszlás vonatkozik.
Oij az i-edik csoportból a j kimenetelű esetek talált száma, Eij pedig e szám várható értéke. A nullhipotézis Eij–re vonatkozik.
Tipikusan ilyenkor a nullhipotézis az, hogy a multinomiális eloszlások paraméterei megegyeznek (pl. a többféle gyógyszernél egyforma az esélye annak, hogy valaki teljesen meggyógyuljon), vagyis hogy valamely kimenetel előfordulásának j valószínűsége azonos minden i csoportra:
i j
j
:
H0 , minden i-re és j-re.
A nullhipotézis érvényessége esetén
N c N
n
i j ij
j
ˆ , az előfordulások várható számának becslése pedig
N c N r N c N r r
Eij iˆj i j i j
Mivel a szummának rc tagja van, de a c számú j paramétert az adatokból kell becsülnünk (csak c-1 független), és adottak a sor-összegek, ezért a szabadsági fokszám
r1
c1
.34. példa
(G.E.P. Box, W.G. Hunter, J.S. Hunter: Statistics for experimenters, J. Wiley, 1978, p. 145)
Öt kórházban hasonlították össze egy bizonyos betegség-típusban szenvedők gyógyulási statisztikáit:
nincs javulás részleges javulás teljes gyógyulás
kórház A 13 18 16 47
B 5 10 16 31
C 8 36 35 79
D 21 56 51 128
E 43 29 10 82
90 149 128 367
Kezeljük egyelőre a javulási fokozatokat névleges skálán mért értékeknek.
53 . 367 11
90
1 47
1
11
N c E r
... 0.19 0.89 .... 56.753 . 11
53 . 11
13 2
2
0
1
1
31
51
8 r c
8 15.5072 05 .
0
Elutasítjuk a nullhipotézist, szignifikáns a különbség a kórházak között.
A nem-gyógyulás esélye az „E” kórházban a legnagyobb. Az összes kórházat nézve átlagosan 90/367=0.2452 a becsült valószínűsége, hogy nem gyógyul meg a beteg.
Az „E” kórházban 43/82=0.52 az esélye a nem-gyógyulásnak. Az „E” kórház klinika, tehát ott kezelik a súlyos eseteket.
Következő kérdés: Az „E” kórház szignifikánsan különbözik-e a többi kórháztól?
H0: nincs különbség Aggregált táblázat:
A+B+C+D E
nincs javulás 47 43 90
részleges javulás 120 29 149
teljes gyógyulás 118 10 128
285 82 367
89 . 367 68
285 90
11
E
... 49.989 . 68
89 . 68
47 2
2
0
1
1
31
21
2 r c
2 5.9912 05 .
0
Szignifikáns különbség van az „E” és a többi kórház között.
A 2-próba alkalmazásának feltétele, hogy az Eij várható előfordulási számok elég nagyok legyenek. Az irodalomban legtöbbször hivatkozott Cochran-féle kritérium az, hogy Eij nem lehet kisebb 1-nél, és a cellák legföljebb 20%-ában lehet kisebb 5-nél. Conover (Practical nonparametric statistics, J. Wiley, 1999, p. 201) szerint ez a korlátozás túlságosan szigorú, ha néhány Eij érték 0.5 körül van, de a többség nagyobb 1-nél, az eljárás alkalmazható. Ha túlságosan kicsinyek a várható előfordulási számok, a cellákat összevonhatjuk.
3.4.2. 2-próba a változók függetlenségének vizsgálatára az rxc táblázatokban
A kísérlet abban áll, hogy véletlenszerűen kiválasztanak N egyedet, és azokat két szempont szerint kategóriákba sorolják. Itt is használható elvileg a McNemar-próbához hasonló eljárás, amellyel azt vizsgálnánk, hogy a két szempont szerinti besorolás azonos-e, nyilván ennek csak akkor van értelme, ha a két osztályozási szempont analóg (és azonos számú kategóriát használ). Gyakrabban teszik föl a másik típusú kérdést, hogy a két szempont szerinti besorolás független-e egymástól.
A nullhipotézis:
j i
ij
: H0 ahol
c
j ij
i
ri ij
j
A hipotézisben szereplő valószínűségeket becsülnünk kell, ez csökkenti a szabadsági fokok számát.
N n
c
j ij i
ˆ
N
r n
i ij j
ˆ
A i sor-összegekből r van (ahány sor), a j oszlop-összegekből c (ahány oszlop), de ezek nem mind függetlenek, közöttük egy összefüggés van, az egész táblázatra a valószínűségek összege 1. Így a szabadsági fokok száma:
1
1
r c
A 2 próbastatisztika kifejezésébe helyettesítendő nullhipotézis szerint számított előfordulási szám:
N c N r
Eij ˆij i j
35. példa (hipotetikus)
Egy szociológiai vizsgálatnál 50 véletlenül kiválasztott embert megkérdeztek a házastársi hűséghez való viszonyáról. Független-e a két kérdésre adott válasz?
fontosnak tartja-e a hűséget a házasságban
igen nem
hűséges-e igen 18 2 20
nem 6 24 30
24 26 50
4 . 50 0 ˆ1 20
0.48
50 ˆ1 24
6 . 50 9
24 20
11
E s.i.t.
1
1
111 r c
A próbastatisztika talált értéke:
23.5586 . 9
6 . 9
20 2
2
0
A kritikus érték a táblázatból: 02.05
1 3.841 A függetlenség hipotézisét elutasítjuk.3.5. Az asszociáció mértékének vizsgálata
A 2-próbával döntést hozunk arról, hogy két változót függetlennek tekinthetünk-e, de ha nem fogadjuk el őket függetlennek, jogosan kérdezzük az összefüggésük mértékét. A 02 próbastatisztika nagysága függ a minta-elemszámtól: ha kétszeresére növeljük mindegyik cellában az előfordulások számát, megváltozik 02 értéke. Hogy a statisztikai szignifikancia változzék az esetek számával, rendjénvaló, de az összefüggés mértékének jellemzésére emiatt nem alkalmas.
Kézenfekvő a 02 olyan módosítása, aminek következtében kevésbé függ a szabadsági foktól, így kapjuk az ún. kontingencia-együtthatókat.
A 2 definíciója:
N
2 2 0
A 35. példa adataival:
46 . 50 0
558 .
2 23
A Cramér-féle kontingencia-együttható a következő:
1
2 0
q
V N
, ahol
r cqmin , , pl. 2x2-es táblázatra q=2.
A 35. példa adataival:
2 1
0.6950 558 .
23
V
A Pearson-féle kontingencia-együttható:
2 0 2 0
C N
Ennek érdekes tulajdonsága, hogy ha a két kategóriát számokkal kódoljuk (pl. 1 és 0), akkor a két változó közötti korrelációs együttható éppen a Pearson-féle kontingencia-együttható lesz.
32 . 558 0 . 23 50
558 .
23
C
Szokás a 2 négyzetgyökét használni, különösen 2x2-es táblázatra, asszociációs együttható néven.
Ennek előjele alapján beszélhetünk pozitív vagy negatív asszociációról.
Gyakran használt mutató a Cohen-féle (kappa), melynek definíciója:
e e
p p p
1
0
ahol p0 azon esetek aránya, amelyek között megegyezés van a két változóban,
N n
p i
ii 0
i
i i
e N
n
p n 2
pe pedig ennek az aránynak a várható értéke, ha a két változó független.
A 35. példa adataival:
84 . 50 0
24 18
0
p
504 . 50 0
30 26 24 20
2
pe
677 . 504 0 . 0 1
504 . 0 84 . 0 1
0
e e
p p
p
A varianciája:
i
i i i i e
e
e
N
n n N
n p n
p p
N
22 2
2
1 1
A következő döntési táblázatot ajánlják:
75 .
0
kiváló egyezés
75 . 0 4
.
0 jó egyezés
4 . 0
0 gyenge egyezés
35. példa
(B. Rosner: Fundamentals of Biostatistics, Duxbury Press, 5th ed. 2000, p. 407)
Egy vizsgálatnál ellenőrzik, hogy két felmérés koherens volt-e. Két különböző időpontban kérdőívet küldenek ki, amelyekben az étkezési szokásokról érdeklődnek. Az egyik (ellenőrző) kérdés azt firtatja, hogy hetente hányszor esznek marhahúst. Az eredmények:
2. kérdőív
1 >1
>1 69 240 309
205 332 537
77.42332 205 309 228
69 92 240 537 136
2 2
2
0
d b c a d c b a
bc N ad
144 . 0
2
2 0
N
537
2 1
0.14442 . 77 1
2
2 0
q V N
700 . 537 0
240 136
0
N n
p i
ii
518 . 537 0
332 309 537
205 228
2 2
2
i i i
e N
n p n
378 . 518 0 . 0 1
518 . 0 7 . 0 1
0
e e
p p
p
i
i i i i e
e
e
N
n n N
n p n
p p
N
22 2
2
1 1
0.00185537
332 309 332 309 205 228 205 518 228
. 0 518 . 518 0 . 0 1 537
1
3 2
2
043 .
0
A szignifikanciájára statisztikai próbát végezhetünk:
8 . 043 8 . 0
378 . 0
0
z
Ugyan a próba szerint szignifikánsan különbözik zérustól, de mégsem túlságosan nagy.