Az előírás az, hogy egy mintavevő kanálnyi müzliben 36 szem mazsolának kell lennie

(1)

3. ²-próbák

3.1. ²-próba az eloszlás (illeszkedés) vizsgálatára 3.1.1. Illeszkedésvizsgálat a Poisson-eloszlásra 29. példa

(G.E.P. Box, W.G. Hunter, J.S. Hunter: Statistics for experimenters, J. Wiley, 1978, p. 143)

Müzligyár ellenőrzi a mazsolák számát. Az előírás az, hogy egy mintavevő kanálnyi müzliben 36 szem mazsolának kell lennie.

Az adagonkénti mazsolák számának előfordulási valószínűsége Poisson-eloszlással írható le, melynek valószínűségi függvénye:

) !

( k

k e p

k



 ^

 

k 

E , Var

 

k 

Az eloszlásnak egyetlen paramétere van, az egységben való előfordulások  várható száma.

12 mintát vettek, az ezekben talált mazsola-szemek száma a következő: 43, 46, 50, 40, 38, 29, 31, 35, 41, 52, 48, 37.

36 :

H₀ ₀  36 :

H₁  

A nullhipotézis tehát az, hogy az adatok adott paraméterű Poisson-eloszlást követnek (a feladat ún.

tiszta illeszkedésvizsgálat).

A Poisson-eloszlás közelíthető normális eloszlással, ha a  paraméter elég nagy:

x

p(x)

0.0 0.1 0.2 0.3 0.4

0 2 4 6 8 10 12 14 16 18 20

 =10

 =1



k

z , ez az egy adagban található mazsola-szemek számára érvényes. A több mintára:

2 2







i

zi , a szabadsági fok a minták száma.

Az eloszlás akkor ilyen, ha az adagonként található mazsola-szemek száma független egymástól. A próbastatisztika:

(2)



^



i

ki 0 2 0

0 

 

Behelyettesítve:

06 . 36 24

) 36 37 ... ( 36

) 36 46 ( 36

) 36 43

( ² ² ²

2

0        

 , =12

A ²-táblázat szerint a 0.025 egyoldali valószínűséghez tartozó kritikus érték 23.337, tehát a hipotézist =0.05 (kétoldali) szignifikancia-szinten elutasítjuk (pontosan számolva p=0.02)

A nullhipotézist, hogy mintavevő kanalanként átlagosan 36 szem mazsola van a müzliben, és a mazsolák eloszlása Poisson, elutasítottuk. Lehetséges, hogy nem 36 szem mazsola jut egy kanálra, de az is lehet, hogy nem Poisson-eloszlást követnek a mazsolák.

Vizsgáljuk először az első problémát, ami úgy fogalmazható meg, hogy a Poisson-eloszlás  paramétere nem 36.

A Poisson-eloszlás additív tulajdonságú, tehát a Poisson-eloszlású valószínűségi változók összege is Poisson-eloszlást követ, melynek  paramétere az összeadandók  paramétereinek összege. A nullhipotézis az, hogy a 12 kanálnyi müzliben összesen 1236432 szem mazsola van:

432 :

H₀ ₀  432 :

H₁ 

79 . 432 7

) 432 490

( ²

2

0   

 , =1

A ²-táblázat szerint a 0.025 egyoldali valószínűséghez tartozó kritikus érték 5.024, tehát a hipotézist =0.05 (kétoldali) szignifikancia-szinten elutasítjuk (pontosan számolva p=0.0053).

Az egy mintavevő kanálra jutó mazsola-szám eszerint nem 36. Adjunk rá becslést a minta adataiból (a 12 mintában összesen 490 szem mazsola volt):

83 . 12 40 ˆ 490 



Nézzük most a második problémát, ami úgy fogalmazható meg, hogy a mazsola-szemek előfordulása nem Poisson-eloszlás szerinti (overdispersion). Pontosabban azt fogjuk kérdezni, hogy a minták jöhettek-e olyan Poisson-eloszlásból, amelynek becsült paramétere 40.83 (ún. becsléses illeszkedésvizsgálat).

34 . 83 14

. 40

) 83 . 40 37 ... ( 83

. 40

) 83 . 40 43

( ² ²

2

0      



A szabadsági fok eggyel csökkentendő, mivel az eloszlás próbával vizsgált paraméterét is az adatokból becsültük:

11 1 12 

 

A ²-táblázat szerint a 0.025 egyoldali valószínűséghez tartozó kritikus érték 21.92, tehát a hipotézist elfogadjuk (pontosan számolva p=0.215).

Tehát az egy mintavevő kanálra jutó mazsola-szám ugyan Poisson-eloszlás szerint ingadozik (az egyes kanalakban a mazsola-szám független), de nem 36 szem mazsola jut átlagosan egy mintavevő kanálra.

(3)

3.1.2. Multinomiális eloszlás

A binomiális eloszlásnál a kísérletnek kétféle kimenetele lehet, pl. fej vagy írás. Más esetben többféle kimenetel lehet.

Legyen c a lehetséges kimenetelek (kategóriák) száma, j a j-edik kategória előfordulásának valószínűsége. Például a kockadobásnak hatféle kimenetele lehet, mindegyik 1/6 valószínűséggel.

Legyen nj a j-edik kategóriába eső előfordulások száma, pl. n1 n dobásból az 1-es dobások száma.

A valószínűségi függvény:

 

ⁿ ⁿ _cⁿ^c

c

c n n n

n n n n

p   



  ₁¹ ₂²

2 1 2

1 ! ! !

,..., ! ,

Azért nem Poisson-eloszlású az egyes kategóriákban az előfordulások száma, mert az összes kategóriákbeli számok n összege rögzített.

Az eloszlásnak c-1 paramétere van, az egyes kategóriákbeli előfordulások valószínűsége, melyek összege 1 kell legyen. A j-edik kategóriába eső előfordulások nj számának várható értéke:

 

nj n j

E  

A multinomiális eloszlás speciális esete a binomiális eloszlás c=2-re.

Megmutatható, hogy az nj számokból képezett következő statisztika elég nagy nj értékek esetén ²- eloszlású:

 



^



i i

n n n



 

2 2

A kifejezés szabadsági fokszáma c-1, mert a szumma tagjai nem függetlenek egymástól, közöttük egy összefüggés van.

Szokás ezt a képletet a következőképpen írni:

 



^



i i

E E

O ²

2

ahol Oi az i-edik kategóriában kapott előfordulási szám (observed), Ei ennek várható vagy feltételezett értéke (expected).

Látjuk, hogy nemcsak a binomiális és Poisson-eloszlású valószínűségi változóból képezhetünk ²- statisztikát.

30. példa

(A. C. Wardlaw: Practical statistics for experimental biologists, J. Wiley & Sons, 1985 p. 112) A vércsoport genotípusa és fenotípusa között a következő az összefüggés (az A és B allél domináns, a 0 recesszív):

genotípus AA A0 AB BB B0 00

fenotípus A A AB B B 0

129 olyan gyermek vércsoportját vizsgálták, akinek mindkét szülője AB vércsoportba tartozott. 28 gyermeknek volt A (AA), 36-nak B (BB) és 65-nek AB a vércsoportja. A Mendel-féle öröklődési szabályok szerint az esetek ¼-ében kell A, ¼-ében B, ½-ében pedig AB előfordulásnak lennie. A kérdés az, hogy a talált adatok ellentmondanak-e ennek az aránynak.

H0:

4

 1

AA ,

4

1

BB ,

4

 2

AB

Az előfordulási számok multinomiális eloszlást követnek.

(4)

Talált (O) Feltételezett (E)

A 28 32.25

4 129 

B 36 32.25

4 129 

AB 65 64.5

2 129 

Összesen 129 129

1 2

129 2 65 129

4 129

4 36 129

4 129

4 28 129

2 2

2

0  



 



 





 



 





 



 





=3-1=2

Elfogadjuk H0-t, az adatok nem mondanak ellent a Mendel-féle elméletnek. (Kétoldali a vizsgálat, mert lehetne túl jó is az illeszkedés.)

3.2. ²-próba a 2x2-es táblázatok elemzésére

Egy tipikus 2x2 táblázat és szokásos jelölései a következők:

a b r1

c d r2

c1 c2 N

A táblázat celláira az ábrán látható betűkkel, vagy a mátrixjelöléssel megegyező módon a következő számokkal hivatkozunk: a:11, b:12, c:21, d:22. A 2x2 táblázat példáján szemléltetve a következő kísérleti elrendezések fordulhatnak elő:

Típus I. II. III. IV. V.

Rögzített - N c1, c2 r1, r2 c1,c2, r1, r2

Véletlen N, c1, c2,

r1, r2 c1, r1 r1 c1 -

Eloszlás 4

független Poisson

multinomiális két független binomiális

két független binomiális

hiper- geometrikus

H0

12=21 (b=c) (szimmetria)

j i

ij  



(függetlenség)

11=12 (a=b) 11=21

a=c

1

21 12

22

11 



1

c b

d a



Próba McNemar, ² ², binomiális

egzakt ², binomiális

egzakt Fisher egzakt, ² Megj. log-linear cross-sectional case-control,

retrospective

clinical trial, cohort study prospective

(5)

A III. és IV. típusnál (ezeket tárgyaltuk a 2.2. pontban) két binomiális eloszlású sokaságot hasonlítunk össze, előbbinél az oszlop-összegek, utóbbinál a sor-összegek rögzítettek. A IV.

elrendezés a tipikus klinikai kísérlet: r1 páciens kapja az egyik kezelést, r2 a másikat. Az oszlopokban a gyógyultak/nem gyógyultak száma van, ez a valószínűségi változó.

A III. típus a retrospektív vizsgálat, amelynél c1 esetet választunk ki az egyik sokaságból (a 22.

példában a tüdőrákosok közül: case), c2 esetet a másik sokaságból (nem szenved tüdőrákban:

control). Itt az a véletlenszerű, hogy egyik ill. másik csoportban hány páciensről találják úgy, hogy dohányos.

A II. típusnál (ezt tárgyaltuk a 2.3. pontban) N egyedet választunk ki, és két szempont (a sorbeli és az oszlopbeli) szerint soroljuk be őket. Itt nem tudjuk előre, hogy hányan lesznek az egyik és a másik sorban ill. oszlopban, a sor- és oszlop-összeg tehát véletlen.

Az V. esetben a sor- és oszlop-összeg is rögzített, ide illik a 2.4. pontban tárgyalt tea-példa.

3.2.1. A sorösszegek rögzítettek (homogenitás-vizsgálat) 31. példa

(M.J. Campbell, D. Manchin, Medical Statistics. A commonsense approach, 2^ndedition, J. Wiley &

Sons, 1993, p. 71)

A páciensek kétféle gyógyszert kaptak, kisorsolva, hogy ki melyiket. Kettős vak vizsgálatot végeztek: az orvos és a páciens sem tudja, hogy ki melyik gyógyszert kapja.

A kérdés, hogy van-e a két gyógyszer között különbség a tekintetben, hogy egyforma arányban gyógyultak-e tőlük a betegek.

Az eredmények:

Gyógyszer típusa Gyógyult Nem gyógyult 

A 23 7 30

B 18 13 31

 41 20 61

Az A és B gyógyszernél a gyógyulás relatív gyakorisága külön-külön binomiális eloszlást követ.

Jelölje 1 annak valószínűségét, hogy a beteg, aki az A gyógyszert kapja, meggyógyul, 2 annak valószínűségét, hogy a beteg, aki az B gyógyszert kapja, meggyógyul.

A hipotézis-pár:

2 1 0 :

H   ami úgy is írható, hogy 1A 1B

2 1 1:

H   (kétoldali)

A feladatot 15. példaként a binomiális eloszlás normális eloszlással való közelítésével oldottuk meg.

Tiszta illeszkedésvizsgálatnál azt kérdeznénk, hogy az adatok adott 1 ill. 2 paraméterű sokaságokból származnak-e. Itt nem ez a helyzet, itt a paramétereket is az adatokból kell becsülni, vagyis becsléses illeszkedésvizsgálatról van szó.

(6)

A próbastatisztika (score) a következő volt:



 



 



 

2 1

0 1 1

ˆ) 1 ˆ(

ˆ ˆ

n n z



2 1

2 2

` 1

1

ˆ ˆ

ˆ n n

n n



   



Mivel a standard normális eloszlású valószínűségi változó négyzete =1 szabadsági fokú khi- négyzet eloszlású valószínűségi változó (z² ²), tehát a következő próbastatisztika is használható:

 



 



 



 



2 1

2 2 2 1

0 2

0 1 1

ˆ) 1 ˆ(

ˆ ˆ

n n z



 

Gyógyszer típusa Gyógyult Nem gyógyult 

A a b r1

B c d r2

 c1 c2 N

A táblázat celláinak betű-jelöléseivel fejezzük ki a próbastatisztikát (itt n1= r1 és n2= r2):

b a

a r a

 



1

ˆ1

 _,

d c

c r

c

 



2

ˆ2



d c b a

c a N

c a



 

 

ˆ

Ezeket ₀² z₀²kifejezésébe helyettesítve algebrai átalakítások után a következő kifejezést kapjuk:

 



a b



c d



a c



b d



bc N ad



  ²

2

0

Használjuk most a ^

 

^



i i

E E

O ²

2

0 általános képletet! A várható előfordulási szám (Ei) becslésénél figyelembe kell venni a ₁₂  nullhipotézist.  jelenti az (első oszlopba esés) gyógyulás valószínűségét. A második oszlopba esés valószínűsége 1- (mivel egy személy vagy gyógyult, vagy nem). Így például az a jelű cellába esés gyakoriságának becslése:

 

N c b a a r

E₁ ₁^ˆ   ugyanez a b cellára:

   

N d b b a r

E 







 ₁1 ˆ

2

s.i.t.

(7)

A táblázat négy cellája adja a szumma négy tagját:



1



²



1



²



2



²



2



²

2

1 1 2 2

(1 ) (1 )

a r b r c r d r

r r r r

   

    

     

   

 

Behelyettesítve és közös nevezőre hozva éppen a

 



^a ^b



^c^ad^d



^a^bc ^c



^b ^d



N    

  ²

2

0 kifejezést

kapjuk. Ha a Yates- (folytonossági) korrekciót is figyelembe vesszük, a próbastatisztika



a b



c d



a c



b d



bc N ad

N    



 



  



2

2 0

 2

Ez is a megfelelő z0 négyzete.

Helyettesítsük be a példa számadatait:

394 . 2 61

20 31

61 20 13 31

61 41 31

61 41 18 31

61 20 30

61 20 7 30

61 41 30

61 41 23 30

2 2

2

0  



 



  

 



 



  

 



 



  

 



 



  

 

Átalakítva:

 

      



23 7



18 13



23 18



7 13



²^.³⁹⁴

18 7 13 61 23

2 2

2

0 







 

 



 

d b c a d c b a

bc N ad



Yates-korrekcióval:

    

762600 ¹^.⁶²

2 18 61 7 13 23 2 61

2 2

2 



 



    



 





 



  

 a b c d a c b d bc N

ad

 N

Megjegyzendő, hogy az z0 próbastatisztika a következőképpen is átalakítható:





 





 



 

 



 



 



 

d c b a N

d b N

c a

d c

c b a

a

n n

z ˆ(1 ˆ) 1 1 1 1

ˆ ˆ

2 1

2 1 0



3 2 1 2 1

1 1

2 1 2 1

N c c r r

N c a r

c c r r

bc N ad



 



3.2.2. A sor- és oszlop-összegek sem rögzítettek: McNemar-próba 32. példa

(G.A.Walker: Common statistical methods for clinical research with SAS examples, Collins- Wellesley Publishing, San Diego, California, 1996)

A páciensek kezelést kapnak.

(8)

A kérdés az, hogy a kezelésnek van-e mellékhatása a vizelet bilirubin-szintjére, vagyis hogy a kezeléstől megváltozik-e a bilirubin-szint.

Véletlenszerűen kiválasztottak 86 pácienst. Mindenkinek megmérték a bilirubin-szintjét kezelés előtt és kezelés után is.

A táblázatban a „nincs” azt jelenti, hogy nem magas a szint, a „van” azt jelenti, hogy magas.

Kezelés után

nincs van 

Kezelés előtt nincs 60 14 74

van 6 6 12

 66 20 86

Itt a két szempont, ami szerint a kategorizálást végezték, a kezelés előtti és utáni állapot.

Ezt a feladatot a 22. példában a McNemar-próbával oldottuk meg:

c b

c b c b

c b

z 

 





 4

0 2

A folytonossági korrekcióval:

c b

c z b





  1

0

Mivel az z-eloszlású valószínűségi változó négyzete =1 szabadsági fokú ²- eloszlású, a következőt is írhatjuk:

 

c b



  ²

2

0 ^ill.

 

c b





 

2 2

0

 1

   

₃_.₁₉₇

6 14

6

14 ²

2 2

0 



 



  c b

c

 b

Ha folytonossági korrekciót is alkalmazzuk:

  _ _

45 . 6 2

14 1 6

1² 14 ²

2

0 





 





 

c b

c

 b

p=0.118, természetesen ugyanakkora, mint az u-próbával talált érték.

3.2.3. A sor- és oszlop-összegek sem rögzítettek (függetlenségvizsgálat)

A 3.4. pontban bemutatandó képlet szerint a függetlenségvizsgálat próbastatisztikája a következő:

 

      

₅_.₅₈

20 66 12 74

6 14 6 86 60

2 2

2

0 





 

 



 

d b c a d c b a

bc N ad



A folytonossági korrekcióval:

    

74 12 66 20 ³^.⁹⁸

2 6 86 14 6 60 2 86

2 2

2

0 





 



    



 





 



  

 a b c d a c b d bc N

ad

 N

(9)

 

1 5.024

2 025 .

0 



3.2.4. A sor- és oszlop-összegek is rögzítettek 33. példa

A 27. példa adatai a következők voltak:

vélt sorrend

tej előbb tea előbb tényleges

sorrend

tej előbb 3 1 4

tea előbb 1 3 4

4 4 8

A feladatot Fisher egzakt próbájával oldottuk meg, melyre a nagymintás próbastatisztika (az illusztráció kedvéért eltekintve attól, hogy a minta itt nem biztos, hogy eléggé „nagy”):

  



1



2

1 1

0



 

N N

c N r N r c

N r a c z

Mivel az z-eloszlású valószínűségi változó négyzete =1 szabadsági fokú ²- eloszlású, a következőt is írhatjuk:

  



1



²



1



2 1 2 1

2 1 1

2

1 1

2 1 1 2

0





 

 







 

 



N N

r r c c

N r a c

N N

c N r N r c

N r a c



Behelyettesítve:

 

75 . 1 1 8 8

4 4 4 4

8 4 3 4

2 2

2

0 







 



 



 

p=0.186, ez jelentősen eltér a pontos számítással kapott 0.24-tól, de nyilvánvalóan nem volt elég nagy a minta a nagymintás számításhoz.

3.3. Cochran, Mantel és Haenszel módszere több táblázat együttes kezelésére

Előfordul, hogy a kísérletsorozatot több kisebb részben végzik el, különböző helyszíneken, időpontokban vagy különböző körülmények között. Ilyenkor a nullhipotézis szerinti valószínűségek különbözők lehetnek az egyes rész-kísérletekre, tehát nem vonhatjuk össze az adatokat egyetlen 2x2-es táblázatban.

A módszer alkalmazásakor kihasználjuk, hogy a normális eloszlású valószínűségi változók összege is normális eloszlást követ, vagy azt, hogy a ² eloszlású valószínűségi változók összegezhetők.

Utóbbi esetben a szabadsági fokszámok összegződnek.

(10)

A sor- és oszlop-összegek is rögzítettek (Ez volt az eredeti Mantel-Haenszel-próba) A próbastatisztika két alakja:

  

 





 

 



 



k k k

k k k k k k

k k

k k k

N N

c N r N r c

N r a c

z

2

1

1 1

0 ill.

  

 





 





 





 

 



 



k k k

k k k k k k

k k

k k k

N N

c N r N r c

N r a c

2

1

1 1

2 1 1 2



0

A szabadsági fokszám a k-val indexelt rész-táblázatok száma.

A sorösszegek rögzítettek (Ez Cochran javaslata) A próbastatisztika két alakja:

  





 

 



 



k k

k k k k k k

k k

k k k

N

c N r N r c

N r a c

z

3

1 1

0 ill.

  





 

 



  

 



 



k k

k k k k k k

k k

k k k

N

c N r N r c

N r a c

3

1 1

2 1 1 2



0

Sem a sor- sem az oszlop-összegek nem rögzítettek

A McNemar-próba figyelembe veszi, hogy a vizsgált egyedek egy rész-kísérletnél is különbözőek, ehhez képest nem jelent különbséget, hogy több rész-kísérletet együtt dolgozunk föl, Az egyesített táblázatban b (n12, tehát pl. a nem volt-lett kombinációjú egyedek száma) helyett



k

bk (a rész- kísérletekben együtt a nem volt-lett kombinációjú egyedek száma) áll. A próbastatisztika két alakja:

 









k

k k k

k k

c b

c b z₀

 







 



 

 ^k

k k

c b

2

0

(11)

A szabadsági fokszám a k-val indexelt rész-táblázatok száma.

3.4. ²-próba az rxc táblázatok elemzésére

A ²-próba alkalmazása az u-próba helyett a 2x2-es táblázatok elemzésére nem jár látható előnnyel.

Sokszor azonban a kísérletek eredményeit összefoglaló táblázatoknál nemcsak két sor és két oszlop értelmezhető, hanem általánosan r sor és c oszlop, az ilyen táblázatokat általánosan rxc táblázatoknak nevezzük.

Ezek kiértékelésére általánosan a ^

 

^



i i

E E

O ²

2

0 formulára épülő ²-próbát használjuk, ennek kétdimenziós táblázatokra használatos alakja:

 



^

 ^r

i c

j ij

ij ij

E E

O ²

2

0 .

3.4.1. ²-próba a homogenitás vizsgálatára az rxc táblázatokban

Leggyakoribb az az eset, amelynél a sorösszegek rögzítettek. Ilyenkor r csoportot (pl. kezelést vagy gyógyszert) hasonlítunk össze, és a kimenetel c-féle lehet (pl. teljesen meggyógyult, javult, nem változott, romlott). A csoportok (sorok) független multinomiális eloszlásokat alkotnak, ami azt jelenti, hogy az egyes csoportokra külön-külön multinomiális eloszlás vonatkozik.

Oij az i-edik csoportból a j kimenetelű esetek talált száma, Eij pedig e szám várható értéke. A nullhipotézis Eij–re vonatkozik.

Tipikusan ilyenkor a nullhipotézis az, hogy a multinomiális eloszlások paraméterei megegyeznek (pl. a többféle gyógyszernél egyforma az esélye annak, hogy valaki teljesen meggyógyuljon), vagyis hogy valamely kimenetel előfordulásának j valószínűsége azonos minden i csoportra:

i j

j 

  :

H₀ , minden i-re és j-re.

A nullhipotézis érvényessége esetén

N c N

n

i j ij

j 





ˆ , az előfordulások várható számának becslése pedig

N c N r N c N r r

E_ij  _iˆ_j  ⁱ ^j  ⁱ ^j

Mivel a szummának rc tagja van, de a c számú j paramétert az adatokból kell becsülnünk (csak c-1 független), és adottak a sor-összegek, ezért a szabadsági fokszám



r1



c1



.

34. példa

(G.E.P. Box, W.G. Hunter, J.S. Hunter: Statistics for experimenters, J. Wiley, 1978, p. 145)

Öt kórházban hasonlították össze egy bizonyos betegség-típusban szenvedők gyógyulási statisztikáit:

(12)

nincs javulás részleges javulás teljes gyógyulás 

kórház A 13 18 16 47

B 5 10 16 31

C 8 36 35 79

D 21 56 51 128

E 43 29 10 82

 90 149 128 367

Kezeljük egyelőre a javulási fokozatokat névleges skálán mért értékeknek.

53 . 367 11

90

1 47

1

11    

N c E r

 

_... ₀_.₁₉ ₀_.₈₉ _.... ₅₆_.₇

53 . 11

13 ²

2

0      

 



1



1

 

 31



51



8

 r c



 

⁸ ¹⁵^.⁵⁰⁷

2 05 .

0 



Elutasítjuk a nullhipotézist, szignifikáns a különbség a kórházak között.

A nem-gyógyulás esélye az „E” kórházban a legnagyobb. Az összes kórházat nézve átlagosan 90/367=0.2452 a becsült valószínűsége, hogy nem gyógyul meg a beteg.

Az „E” kórházban 43/82=0.52 az esélye a nem-gyógyulásnak. Az „E” kórház klinika, tehát ott kezelik a súlyos eseteket.

Következő kérdés: Az „E” kórház szignifikánsan különbözik-e a többi kórháztól?

H0: nincs különbség Aggregált táblázat:

A+B+C+D E 

nincs javulás 47 43 90

részleges javulás 120 29 149

teljes gyógyulás 118 10 128

 285 82 367

89 . 367 68

285 90

11  

 E

 

_... ₄₉_.₉

89 . 68

47 ²

2

0    





1



1

 

 31



21



2

 r c



 

² ⁵^.⁹⁹¹

2 05 .

0 



Szignifikáns különbség van az „E” és a többi kórház között.

(13)

A ²-próba alkalmazásának feltétele, hogy az Eij várható előfordulási számok elég nagyok legyenek. Az irodalomban legtöbbször hivatkozott Cochran-féle kritérium az, hogy Eij nem lehet kisebb 1-nél, és a cellák legföljebb 20%-ában lehet kisebb 5-nél. Conover (Practical nonparametric statistics, J. Wiley, 1999, p. 201) szerint ez a korlátozás túlságosan szigorú, ha néhány Eij érték 0.5 körül van, de a többség nagyobb 1-nél, az eljárás alkalmazható. Ha túlságosan kicsinyek a várható előfordulási számok, a cellákat összevonhatjuk.

3.4.2. ²-próba a változók függetlenségének vizsgálatára az rxc táblázatokban

A kísérlet abban áll, hogy véletlenszerűen kiválasztanak N egyedet, és azokat két szempont szerint kategóriákba sorolják. Itt is használható elvileg a McNemar-próbához hasonló eljárás, amellyel azt vizsgálnánk, hogy a két szempont szerinti besorolás azonos-e, nyilván ennek csak akkor van értelme, ha a két osztályozási szempont analóg (és azonos számú kategóriát használ). Gyakrabban teszik föl a másik típusú kérdést, hogy a két szempont szerinti besorolás független-e egymástól.

A nullhipotézis:

j i

ij 

 : H₀ ahol



 

c

j ij

i 

 ^ ^



^r

i ij

j 



A hipotézisben szereplő valószínűségeket becsülnünk kell, ez csökkenti a szabadsági fokok számát.

N n

c

j ij i





ˆ

N

r n

i ij j





ˆ

A i sor-összegekből r van (ahány sor), a j oszlop-összegekből c (ahány oszlop), de ezek nem mind függetlenek, közöttük egy összefüggés van, az egész táblázatra a valószínűségek összege 1. Így a szabadsági fokok száma:



1



1



 r c



A ² próbastatisztika kifejezésébe helyettesítendő nullhipotézis szerint számított előfordulási szám:

N c N r

E_ij  ˆ_ij  ⁱ ^j

35. példa (hipotetikus)

Egy szociológiai vizsgálatnál 50 véletlenül kiválasztott embert megkérdeztek a házastársi hűséghez való viszonyáról. Független-e a két kérdésre adott válasz?

fontosnak tartja-e a hűséget a házasságban

igen nem

hűséges-e igen 18 2 20

nem 6 24 30

24 26 50

4 . 50 0 ˆ₁_  20 

 0.48

50 ˆ_₁ 24



(14)

6 . 50 9

24 20

11   

E s.i.t.



1



1



111

 r c



A próbastatisztika talált értéke:

 

₂₃_.₅₅₈

6 . 9

20 ²

2

0  

 

A kritikus érték a táblázatból: ₀²_.₀₅

 

1 3.841 A függetlenség hipotézisét elutasítjuk.

3.5. Az asszociáció mértékének vizsgálata

A ²-próbával döntést hozunk arról, hogy két változót függetlennek tekinthetünk-e, de ha nem fogadjuk el őket függetlennek, jogosan kérdezzük az összefüggésük mértékét. A ₀² próbastatisztika nagysága függ a minta-elemszámtól: ha kétszeresére növeljük mindegyik cellában az előfordulások számát, megváltozik ₀² értéke. Hogy a statisztikai szignifikancia változzék az esetek számával, rendjénvaló, de az összefüggés mértékének jellemzésére emiatt nem alkalmas.

Kézenfekvő a ₀² olyan módosítása, aminek következtében kevésbé függ a szabadsági foktól, így kapjuk az ún. kontingencia-együtthatókat.

A ² definíciója:

N

2 2 0

 

A 35. példa adataival:

46 . 50 0

558 .

2  23 



A Cramér-féle kontingencia-együttható a következő:



1



2 0

  q

V N 

, ahol

 

r c

qmin , , pl. 2x2-es táblázatra q=2.



2 1



⁰^.⁶⁹

50 558 .

23 



  V

A Pearson-féle kontingencia-együttható:

2 0 2 0



  C N

Ennek érdekes tulajdonsága, hogy ha a két kategóriát számokkal kódoljuk (pl. 1 és 0), akkor a két változó közötti korrelációs együttható éppen a Pearson-féle kontingencia-együttható lesz.

(15)

32 . 558 0 . 23 50

558 .

23 

  C

Szokás a ² négyzetgyökét használni, különösen 2x2-es táblázatra, asszociációs együttható néven.

Ennek előjele alapján beszélhetünk pozitív vagy negatív asszociációról.

Gyakran használt mutató a Cohen-féle  (kappa), melynek definíciója:

e e

p p p



  1

 0

ahol p0 azon esetek aránya, amelyek között megegyezés van a két változóban,

N n

p ⁱ



ii 0 



^ ^



i

i i

e N

n

p n ₂

pe pedig ennek az aránynak a várható értéke, ha a két változó független.

84 . 50 0

24 18

0  

 p

504 . 50 0

30 26 24 20

2  



  pe

677 . 504 0 . 0 1

504 . 0 84 . 0 1

0 



 



 

e e

p p

 p

A  varianciája:

  _ ^ ^ ^  _ ^ ^

 



 



 

 

^ ^ ^ ^

i

i i i i e

e

N

n n N

n p n

p p

N

²

2 2

2

1 1





A következő döntési táblázatot ajánlják:

75 .

0

 kiváló egyezés

75 . 0 4

.

0   jó egyezés

4 . 0

0  gyenge egyezés

35. példa

(B. Rosner: Fundamentals of Biostatistics, Duxbury Press, 5^th ed. 2000, p. 407)

Egy vizsgálatnál ellenőrzik, hogy két felmérés koherens volt-e. Két különböző időpontban kérdőívet küldenek ki, amelyekben az étkezési szokásokról érdeklődnek. Az egyik (ellenőrző) kérdés azt firtatja, hogy hetente hányszor esznek marhahúst. Az eredmények:

2. kérdőív

1 >1 

(16)

>1 69 240 309

 205 332 537

 

      

₇₇_.₄₂

332 205 309 228

69 92 240 537 136

2 2

2

0 





 

 



 

d b c a d c b a

bc N ad



144 . 0

2

2  0 

N

 

 

537



2 1



⁰^.¹⁴⁴

42 . 77 1

2

2 0 



 

  q V N 

700 . 537 0

240 136

0 



  

N n

p ⁱ

ii

518 . 537 0

332 309 537

205 228

2 2

2  

 





^ ^

i i i

e N

n p n

378 . 518 0 . 0 1

518 . 0 7 . 0 1

0 



 



 

e e

p p

 p

     ^

 

 



 



 



 

 

^ ^ ^ ^

i

i i i i e

e

N

n n N

n p n

p p

N

²

2 2

2

1 1





     

₀_.₀₀₁₈₅

537

332 309 332 309 205 228 205 518 228

. 0 518 . 518 0 . 0 1 537

1

3 2

2 







         



 

043 .

0



A  szignifikanciájára statisztikai próbát végezhetünk:

8 . 043 8 . 0

378 . 0

0   



z 

Ugyan a próba szerint  szignifikánsan különbözik zérustól, de mégsem túlságosan nagy.