Az előírás az, hogy egy mintavevő kanálnyi müzliben 36 szem mazsolának kell lennie

Loading.... (view fulltext now)

Teljes szövegt

(1)

3. 2-próbák

3.1. 2-próba az eloszlás (illeszkedés) vizsgálatára 3.1.1. Illeszkedésvizsgálat a Poisson-eloszlásra 29. példa

(G.E.P. Box, W.G. Hunter, J.S. Hunter: Statistics for experimenters, J. Wiley, 1978, p. 143)

Müzligyár ellenőrzi a mazsolák számát. Az előírás az, hogy egy mintavevő kanálnyi müzliben 36 szem mazsolának kell lennie.

Az adagonkénti mazsolák számának előfordulási valószínűsége Poisson-eloszlással írható le, melynek valószínűségi függvénye:

) !

( k

k e p

k

 

k 

E , Var

 

k 

Az eloszlásnak egyetlen paramétere van, az egységben való előfordulások  várható száma.

12 mintát vettek, az ezekben talált mazsola-szemek száma a következő: 43, 46, 50, 40, 38, 29, 31, 35, 41, 52, 48, 37.

36 :

H0 0  36 :

H1  

A nullhipotézis tehát az, hogy az adatok adott paraméterű Poisson-eloszlást követnek (a feladat ún.

tiszta illeszkedésvizsgálat).

A Poisson-eloszlás közelíthető normális eloszlással, ha a  paraméter elég nagy:

x

p(x)

0.0 0.1 0.2 0.3 0.4

0 2 4 6 8 10 12 14 16 18 20

=10

 =1

k

z , ez az egy adagban található mazsola-szemek számára érvényes. A több mintára:

2 2

i

zi , a szabadsági fok a minták száma.

Az eloszlás akkor ilyen, ha az adagonként található mazsola-szemek száma független egymástól. A próbastatisztika:

(2)

i

ki 0 2 0

0

 

Behelyettesítve:

06 . 36 24

) 36 37 ... ( 36

) 36 46 ( 36

) 36 43

( 2 2 2

2

0        

 , =12

A 2-táblázat szerint a 0.025 egyoldali valószínűséghez tartozó kritikus érték 23.337, tehát a hipotézist =0.05 (kétoldali) szignifikancia-szinten elutasítjuk (pontosan számolva p=0.02)

A nullhipotézist, hogy mintavevő kanalanként átlagosan 36 szem mazsola van a müzliben, és a mazsolák eloszlása Poisson, elutasítottuk. Lehetséges, hogy nem 36 szem mazsola jut egy kanálra, de az is lehet, hogy nem Poisson-eloszlást követnek a mazsolák.

Vizsgáljuk először az első problémát, ami úgy fogalmazható meg, hogy a Poisson-eloszlás  paramétere nem 36.

A Poisson-eloszlás additív tulajdonságú, tehát a Poisson-eloszlású valószínűségi változók összege is Poisson-eloszlást követ, melynek  paramétere az összeadandók  paramétereinek összege. A nullhipotézis az, hogy a 12 kanálnyi müzliben összesen 1236432 szem mazsola van:

432 :

H0 0  432 :

H1 

79 . 432 7

) 432 490

( 2

2

0   

 , =1

A 2-táblázat szerint a 0.025 egyoldali valószínűséghez tartozó kritikus érték 5.024, tehát a hipotézist =0.05 (kétoldali) szignifikancia-szinten elutasítjuk (pontosan számolva p=0.0053).

Az egy mintavevő kanálra jutó mazsola-szám eszerint nem 36. Adjunk rá becslést a minta adataiból (a 12 mintában összesen 490 szem mazsola volt):

83 . 12 40 ˆ 490 

Nézzük most a második problémát, ami úgy fogalmazható meg, hogy a mazsola-szemek előfordulása nem Poisson-eloszlás szerinti (overdispersion). Pontosabban azt fogjuk kérdezni, hogy a minták jöhettek-e olyan Poisson-eloszlásból, amelynek becsült paramétere 40.83 (ún. becsléses illeszkedésvizsgálat).

34 . 83 14

. 40

) 83 . 40 37 ... ( 83

. 40

) 83 . 40 43

( 2 2

2

0      

A szabadsági fok eggyel csökkentendő, mivel az eloszlás próbával vizsgált paraméterét is az adatokból becsültük:

11 1 12 

 

A 2-táblázat szerint a 0.025 egyoldali valószínűséghez tartozó kritikus érték 21.92, tehát a hipotézist elfogadjuk (pontosan számolva p=0.215).

Tehát az egy mintavevő kanálra jutó mazsola-szám ugyan Poisson-eloszlás szerint ingadozik (az egyes kanalakban a mazsola-szám független), de nem 36 szem mazsola jut átlagosan egy mintavevő kanálra.

(3)

3.1.2. Multinomiális eloszlás

A binomiális eloszlásnál a kísérletnek kétféle kimenetele lehet, pl. fej vagy írás. Más esetben többféle kimenetel lehet.

Legyen c a lehetséges kimenetelek (kategóriák) száma, j a j-edik kategória előfordulásának valószínűsége. Például a kockadobásnak hatféle kimenetele lehet, mindegyik 1/6 valószínűséggel.

Legyen nj a j-edik kategóriába eső előfordulások száma, pl. n1 n dobásból az 1-es dobások száma.

A valószínűségi függvény:

 

n n cnc

c

c n n n

n n n n

p   

  11 22

2 1 2

1 ! ! !

,..., ! ,

Azért nem Poisson-eloszlású az egyes kategóriákban az előfordulások száma, mert az összes kategóriákbeli számok n összege rögzített.

Az eloszlásnak c-1 paramétere van, az egyes kategóriákbeli előfordulások valószínűsége, melyek összege 1 kell legyen. A j-edik kategóriába eső előfordulások nj számának várható értéke:

 

nj n j

E  

A multinomiális eloszlás speciális esete a binomiális eloszlás c=2-re.

Megmutatható, hogy az nj számokból képezett következő statisztika elég nagy nj értékek esetén 2- eloszlású:

 

i i

i i

n n n

 

2 2

A kifejezés szabadsági fokszáma c-1, mert a szumma tagjai nem függetlenek egymástól, közöttük egy összefüggés van.

Szokás ezt a képletet a következőképpen írni:

 

i i

i i

E E

O 2

2

ahol Oi az i-edik kategóriában kapott előfordulási szám (observed), Ei ennek várható vagy feltételezett értéke (expected).

Látjuk, hogy nemcsak a binomiális és Poisson-eloszlású valószínűségi változóból képezhetünk 2- statisztikát.

30. példa

(A. C. Wardlaw: Practical statistics for experimental biologists, J. Wiley & Sons, 1985 p. 112) A vércsoport genotípusa és fenotípusa között a következő az összefüggés (az A és B allél domináns, a 0 recesszív):

genotípus AA A0 AB BB B0 00

fenotípus A A AB B B 0

129 olyan gyermek vércsoportját vizsgálták, akinek mindkét szülője AB vércsoportba tartozott. 28 gyermeknek volt A (AA), 36-nak B (BB) és 65-nek AB a vércsoportja. A Mendel-féle öröklődési szabályok szerint az esetek ¼-ében kell A, ¼-ében B, ½-ében pedig AB előfordulásnak lennie. A kérdés az, hogy a talált adatok ellentmondanak-e ennek az aránynak.

H0:

4

 1

AA ,

4

1

BB ,

4

 2

AB

Az előfordulási számok multinomiális eloszlást követnek.

(4)

Talált (O) Feltételezett (E)

A 28 32.25

4 129 

B 36 32.25

4 129 

AB 65 64.5

2 129 

Összesen 129 129

1 2

129 2 65 129

4 129

4 36 129

4 129

4 28 129

2 2

2

2

0  

 

 



 

 



 

 

=3-1=2

Elfogadjuk H0-t, az adatok nem mondanak ellent a Mendel-féle elméletnek. (Kétoldali a vizsgálat, mert lehetne túl jó is az illeszkedés.)

3.2. 2-próba a 2x2-es táblázatok elemzésére

Egy tipikus 2x2 táblázat és szokásos jelölései a következők:

a b r1

c d r2

c1 c2 N

A táblázat celláira az ábrán látható betűkkel, vagy a mátrixjelöléssel megegyező módon a következő számokkal hivatkozunk: a:11, b:12, c:21, d:22. A 2x2 táblázat példáján szemléltetve a következő kísérleti elrendezések fordulhatnak elő:

Típus I. II. III. IV. V.

Rögzített - N c1, c2 r1, r2 c1,c2, r1, r2

Véletlen N, c1, c2,

r1, r2 c1, r1 r1 c1 -

Eloszlás 4

független Poisson

multinomiális két független binomiális

két független binomiális

hiper- geometrikus

H0

12=21 (b=c) (szimmetria)

j i

ij 

(függetlenség)

11=12 (a=b) 11=21

a=c

1

21 12

22

11

1

c b

d a

Próba McNemar, 22, binomiális

egzakt 2, binomiális

egzakt Fisher egzakt, 2 Megj. log-linear cross-sectional case-control,

retrospective

clinical trial, cohort study prospective

(5)

A III. és IV. típusnál (ezeket tárgyaltuk a 2.2. pontban) két binomiális eloszlású sokaságot hasonlítunk össze, előbbinél az oszlop-összegek, utóbbinál a sor-összegek rögzítettek. A IV.

elrendezés a tipikus klinikai kísérlet: r1 páciens kapja az egyik kezelést, r2 a másikat. Az oszlopokban a gyógyultak/nem gyógyultak száma van, ez a valószínűségi változó.

A III. típus a retrospektív vizsgálat, amelynél c1 esetet választunk ki az egyik sokaságból (a 22.

példában a tüdőrákosok közül: case), c2 esetet a másik sokaságból (nem szenved tüdőrákban:

control). Itt az a véletlenszerű, hogy egyik ill. másik csoportban hány páciensről találják úgy, hogy dohányos.

A II. típusnál (ezt tárgyaltuk a 2.3. pontban) N egyedet választunk ki, és két szempont (a sorbeli és az oszlopbeli) szerint soroljuk be őket. Itt nem tudjuk előre, hogy hányan lesznek az egyik és a másik sorban ill. oszlopban, a sor- és oszlop-összeg tehát véletlen.

Az V. esetben a sor- és oszlop-összeg is rögzített, ide illik a 2.4. pontban tárgyalt tea-példa.

3.2.1. A sorösszegek rögzítettek (homogenitás-vizsgálat) 31. példa

(M.J. Campbell, D. Manchin, Medical Statistics. A commonsense approach, 2nd edition, J. Wiley &

Sons, 1993, p. 71)

A páciensek kétféle gyógyszert kaptak, kisorsolva, hogy ki melyiket. Kettős vak vizsgálatot végeztek: az orvos és a páciens sem tudja, hogy ki melyik gyógyszert kapja.

A kérdés, hogy van-e a két gyógyszer között különbség a tekintetben, hogy egyforma arányban gyógyultak-e tőlük a betegek.

Az eredmények:

Gyógyszer típusa Gyógyult Nem gyógyult 

A 23 7 30

B 18 13 31

 41 20 61

Az A és B gyógyszernél a gyógyulás relatív gyakorisága külön-külön binomiális eloszlást követ.

Jelölje 1 annak valószínűségét, hogy a beteg, aki az A gyógyszert kapja, meggyógyul, 2 annak valószínűségét, hogy a beteg, aki az B gyógyszert kapja, meggyógyul.

A hipotézis-pár:

2 1 0 :

H   ami úgy is írható, hogy 1A 1B

2 1 1:

H   (kétoldali)

A feladatot 15. példaként a binomiális eloszlás normális eloszlással való közelítésével oldottuk meg.

Tiszta illeszkedésvizsgálatnál azt kérdeznénk, hogy az adatok adott 1 ill. 2 paraméterű sokaságokból származnak-e. Itt nem ez a helyzet, itt a paramétereket is az adatokból kell becsülni, vagyis becsléses illeszkedésvizsgálatról van szó.

(6)

A próbastatisztika (score) a következő volt:



 

 

 

2 1

2 1

0 1 1

ˆ) 1 ˆ(

ˆ ˆ

n n z

2 1

2 2

` 1

1

ˆ ˆ

ˆ n n

n n

   

Mivel a standard normális eloszlású valószínűségi változó négyzete =1 szabadsági fokú khi- négyzet eloszlású valószínűségi változó (z2 2), tehát a következő próbastatisztika is használható:

 



 

 

 

2 1

2 2 2 1

0 2

0 1 1

ˆ) 1 ˆ(

ˆ ˆ

n n z

 

Gyógyszer típusa Gyógyult Nem gyógyult 

A a b r1

B c d r2

c1 c2 N

A táblázat celláinak betű-jelöléseivel fejezzük ki a próbastatisztikát (itt n1= r1 és n2= r2):

b a

a r a

 

1

ˆ1

,

d c

c r

c

 

2

ˆ2

d c b a

c a N

c a

 

 

ˆ

Ezeket 02z02kifejezésébe helyettesítve algebrai átalakítások után a következő kifejezést kapjuk:

 

a b



c d



a c



b d

bc N ad

  2

2

0

Használjuk most a

 

i i

i i

E E

O 2

2

0 általános képletet! A várható előfordulási szám (Ei) becslésénél figyelembe kell venni a 12  nullhipotézist.  jelenti az (első oszlopba esés) gyógyulás valószínűségét. A második oszlopba esés valószínűsége 1- (mivel egy személy vagy gyógyult, vagy nem). Így például az a jelű cellába esés gyakoriságának becslése:

 

N c b a a r

E11ˆ   ugyanez a b cellára:

   

N d b b a r

E

11 ˆ

2

s.i.t.

(7)

A táblázat négy cellája adja a szumma négy tagját:

1

2

1

2

2

2

2

2

2

1 1 2 2

(1 ) (1 )

(1 ) (1 )

a r b r c r d r

r r r r

   

    

     

   

 

Behelyettesítve és közös nevezőre hozva éppen a

 

a b



cadd



abc c



b d

N    

  2

2

0 kifejezést

kapjuk. Ha a Yates- (folytonossági) korrekciót is figyelembe vesszük, a próbastatisztika

a b



c d



a c



b d

bc N ad

N    



 

  

2

2 0

 2

Ez is a megfelelő z0 négyzete.

Helyettesítsük be a példa számadatait:

394 . 2 61

20 31

61 20 13 31

61 41 31

61 41 18 31

61 20 30

61 20 7 30

61 41 30

61 41 23 30

2 2

2 2

2

0  



 

  

 



 

  

 



 

  

 



 

  

 

Átalakítva:

 

      

23 7



18 13



23 18



7 13

2.394

18 7 13 61 23

2 2

2

0

 

 

 

d b c a d c b a

bc N ad

Yates-korrekcióval:

    

762600 1.62

2 18 61 7 13 23 2 61

2 2

2



 

    

 



 

  

a b c d a c b d bc N

ad

N

Megjegyzendő, hogy az z0 próbastatisztika a következőképpen is átalakítható:



 

 

 

 



 

 

 

d c b a N

d b N

c a

d c

c b a

a

n n

z ˆ(1 ˆ) 1 1 1 1

ˆ ˆ

2 1

2 1 0

3 2 1 2 1

1 1

2 1 2 1

N c c r r

N c a r

c c r r

bc N ad

 

3.2.2. A sor- és oszlop-összegek sem rögzítettek: McNemar-próba 32. példa

(G.A.Walker: Common statistical methods for clinical research with SAS examples, Collins- Wellesley Publishing, San Diego, California, 1996)

A páciensek kezelést kapnak.

(8)

A kérdés az, hogy a kezelésnek van-e mellékhatása a vizelet bilirubin-szintjére, vagyis hogy a kezeléstől megváltozik-e a bilirubin-szint.

Véletlenszerűen kiválasztottak 86 pácienst. Mindenkinek megmérték a bilirubin-szintjét kezelés előtt és kezelés után is.

A táblázatban a „nincs” azt jelenti, hogy nem magas a szint, a „van” azt jelenti, hogy magas.

Kezelés után

nincs van 

Kezelés előtt nincs 60 14 74

van 6 6 12

 66 20 86

Itt a két szempont, ami szerint a kategorizálást végezték, a kezelés előtti és utáni állapot.

Ezt a feladatot a 22. példában a McNemar-próbával oldottuk meg:

c b

c b c b

c b

z

 

 4

0 2

A folytonossági korrekcióval:

c b

c z b

1

0

Mivel az z-eloszlású valószínűségi változó négyzete =1 szabadsági fokú 2- eloszlású, a következőt is írhatjuk:

 

c b

c b

  2

2

0 ill.

 

c b

c b

 

2 2

0

 1

   

3.197

6 14

6

14 2

2 2

0

 

  c b

c

b

Ha folytonossági korrekciót is alkalmazzuk:

 

45 . 6 2

14 1 6

12 14 2

2

0

 

 

c b

c

b

p=0.118, természetesen ugyanakkora, mint az u-próbával talált érték.

3.2.3. A sor- és oszlop-összegek sem rögzítettek (függetlenségvizsgálat)

A 3.4. pontban bemutatandó képlet szerint a függetlenségvizsgálat próbastatisztikája a következő:

 

      

5.58

20 66 12 74

6 14 6 86 60

2 2

2

0

 

 

 

d b c a d c b a

bc N ad

A folytonossági korrekcióval:

    

74 12 66 20 3.98

2 6 86 14 6 60 2 86

2 2

2

0



 

    

 



 

  

a b c d a c b d bc N

ad

N

(9)

 

1 5.024

2 025 .

0

3.2.4. A sor- és oszlop-összegek is rögzítettek 33. példa

A 27. példa adatai a következők voltak:

vélt sorrend

tej előbb tea előbb tényleges

sorrend

tej előbb 3 1 4

tea előbb 1 3 4

4 4 8

A feladatot Fisher egzakt próbájával oldottuk meg, melyre a nagymintás próbastatisztika (az illusztráció kedvéért eltekintve attól, hogy a minta itt nem biztos, hogy eléggé „nagy”):

  

1

2

1 1

1 1

1 1

0

 

N N

c N r N r c

N r a c z

Mivel az z-eloszlású valószínűségi változó négyzete =1 szabadsági fokú 2- eloszlású, a következőt is írhatjuk:

  

1

2

1

2 1 2 1

2 1 1

2

1 1

1 1

2 1 1 2

0



 

 



 

 

N N

r r c c

N r a c

N N

c N r N r c

N r a c

Behelyettesítve:

 

75 . 1 1 8 8

4 4 4 4

8 4 3 4

2 2

2

0



 

 

 

p=0.186, ez jelentősen eltér a pontos számítással kapott 0.24-tól, de nyilvánvalóan nem volt elég nagy a minta a nagymintás számításhoz.

3.3. Cochran, Mantel és Haenszel módszere több táblázat együttes kezelésére

Előfordul, hogy a kísérletsorozatot több kisebb részben végzik el, különböző helyszíneken, időpontokban vagy különböző körülmények között. Ilyenkor a nullhipotézis szerinti valószínűségek különbözők lehetnek az egyes rész-kísérletekre, tehát nem vonhatjuk össze az adatokat egyetlen 2x2-es táblázatban.

A módszer alkalmazásakor kihasználjuk, hogy a normális eloszlású valószínűségi változók összege is normális eloszlást követ, vagy azt, hogy a 2 eloszlású valószínűségi változók összegezhetők.

Utóbbi esetben a szabadsági fokszámok összegződnek.

(10)

A sor- és oszlop-összegek is rögzítettek (Ez volt az eredeti Mantel-Haenszel-próba) A próbastatisztika két alakja:

  

 

 

 

 

k k k

k k k k k k

k k

k k k

N N

c N r N r c

N r a c

z

2

1

1 1

1 1

1 1

0 ill.

  

 

 

 

 

 

 

k k k

k k k k k k

k k

k k k

N N

c N r N r c

N r a c

2

1

1 1

1 1

2 1 1 2

0

A szabadsági fokszám a k-val indexelt rész-táblázatok száma.

A sorösszegek rögzítettek (Ez Cochran javaslata) A próbastatisztika két alakja:

  

 

 

 

k k

k k k k k k

k k

k k k

N

c N r N r c

N r a c

z

3

1 1

1 1

1 1

0 ill.

  

 

 

  

 

 

k k

k k k k k k

k k

k k k

N

c N r N r c

N r a c

3

1 1

1 1

2 1 1 2

0

Sem a sor- sem az oszlop-összegek nem rögzítettek

A McNemar-próba figyelembe veszi, hogy a vizsgált egyedek egy rész-kísérletnél is különbözőek, ehhez képest nem jelent különbséget, hogy több rész-kísérletet együtt dolgozunk föl, Az egyesített táblázatban b (n12, tehát pl. a nem volt-lett kombinációjú egyedek száma) helyett

k

bk (a rész- kísérletekben együtt a nem volt-lett kombinációjú egyedek száma) áll. A próbastatisztika két alakja:

 

 

k

k k k

k k

c b

c b z0

 

 



 

 

k

k k

c b

c b

2

2

0

(11)

A szabadsági fokszám a k-val indexelt rész-táblázatok száma.

3.4. 2-próba az rxc táblázatok elemzésére

A 2-próba alkalmazása az u-próba helyett a 2x2-es táblázatok elemzésére nem jár látható előnnyel.

Sokszor azonban a kísérletek eredményeit összefoglaló táblázatoknál nemcsak két sor és két oszlop értelmezhető, hanem általánosan r sor és c oszlop, az ilyen táblázatokat általánosan rxc táblázatoknak nevezzük.

Ezek kiértékelésére általánosan a

 

i i

i i

E E

O 2

2

0 formulára épülő 2-próbát használjuk, ennek kétdimenziós táblázatokra használatos alakja:

 



r

i c

j ij

ij ij

E E

O 2

2

0 .

3.4.1. 2-próba a homogenitás vizsgálatára az rxc táblázatokban

Leggyakoribb az az eset, amelynél a sorösszegek rögzítettek. Ilyenkor r csoportot (pl. kezelést vagy gyógyszert) hasonlítunk össze, és a kimenetel c-féle lehet (pl. teljesen meggyógyult, javult, nem változott, romlott). A csoportok (sorok) független multinomiális eloszlásokat alkotnak, ami azt jelenti, hogy az egyes csoportokra külön-külön multinomiális eloszlás vonatkozik.

Oij az i-edik csoportból a j kimenetelű esetek talált száma, Eij pedig e szám várható értéke. A nullhipotézis Eij–re vonatkozik.

Tipikusan ilyenkor a nullhipotézis az, hogy a multinomiális eloszlások paraméterei megegyeznek (pl. a többféle gyógyszernél egyforma az esélye annak, hogy valaki teljesen meggyógyuljon), vagyis hogy valamely kimenetel előfordulásának j valószínűsége azonos minden i csoportra:

i j

j

:

H0 , minden i-re és j-re.

A nullhipotézis érvényessége esetén

N c N

n

i j ij

j

ˆ , az előfordulások várható számának becslése pedig

N c N r N c N r r

Eijiˆji ji j

Mivel a szummának rc tagja van, de a c számú j paramétert az adatokból kell becsülnünk (csak c-1 független), és adottak a sor-összegek, ezért a szabadsági fokszám

r1



c1

.

34. példa

(G.E.P. Box, W.G. Hunter, J.S. Hunter: Statistics for experimenters, J. Wiley, 1978, p. 145)

Öt kórházban hasonlították össze egy bizonyos betegség-típusban szenvedők gyógyulási statisztikáit:

(12)

nincs javulás részleges javulás teljes gyógyulás 

kórház A 13 18 16 47

B 5 10 16 31

C 8 36 35 79

D 21 56 51 128

E 43 29 10 82

 90 149 128 367

Kezeljük egyelőre a javulási fokozatokat névleges skálán mért értékeknek.

53 . 367 11

90

1 47

1

11    

N c E r

 

... 0.19 0.89 .... 56.7

53 . 11

53 . 11

13 2

2

0      

 

1



1

 

 31



51

8

r c

 

8 15.507

2 05 .

0

Elutasítjuk a nullhipotézist, szignifikáns a különbség a kórházak között.

A nem-gyógyulás esélye az „E” kórházban a legnagyobb. Az összes kórházat nézve átlagosan 90/367=0.2452 a becsült valószínűsége, hogy nem gyógyul meg a beteg.

Az „E” kórházban 43/82=0.52 az esélye a nem-gyógyulásnak. Az „E” kórház klinika, tehát ott kezelik a súlyos eseteket.

Következő kérdés: Az „E” kórház szignifikánsan különbözik-e a többi kórháztól?

H0: nincs különbség Aggregált táblázat:

A+B+C+D E 

nincs javulás 47 43 90

részleges javulás 120 29 149

teljes gyógyulás 118 10 128

 285 82 367

89 . 367 68

285 90

11  

E

 

... 49.9

89 . 68

89 . 68

47 2

2

0    

1



1

 

 31



21

2

r c

 

2 5.991

2 05 .

0

Szignifikáns különbség van az „E” és a többi kórház között.

(13)

A 2-próba alkalmazásának feltétele, hogy az Eij várható előfordulási számok elég nagyok legyenek. Az irodalomban legtöbbször hivatkozott Cochran-féle kritérium az, hogy Eij nem lehet kisebb 1-nél, és a cellák legföljebb 20%-ában lehet kisebb 5-nél. Conover (Practical nonparametric statistics, J. Wiley, 1999, p. 201) szerint ez a korlátozás túlságosan szigorú, ha néhány Eij érték 0.5 körül van, de a többség nagyobb 1-nél, az eljárás alkalmazható. Ha túlságosan kicsinyek a várható előfordulási számok, a cellákat összevonhatjuk.

3.4.2. 2-próba a változók függetlenségének vizsgálatára az rxc táblázatokban

A kísérlet abban áll, hogy véletlenszerűen kiválasztanak N egyedet, és azokat két szempont szerint kategóriákba sorolják. Itt is használható elvileg a McNemar-próbához hasonló eljárás, amellyel azt vizsgálnánk, hogy a két szempont szerinti besorolás azonos-e, nyilván ennek csak akkor van értelme, ha a két osztályozási szempont analóg (és azonos számú kategóriát használ). Gyakrabban teszik föl a másik típusú kérdést, hogy a két szempont szerinti besorolás független-e egymástól.

A nullhipotézis:

j i

ij 

 : H0 ahol

c

j ij

i

r

i ij

j

A hipotézisben szereplő valószínűségeket becsülnünk kell, ez csökkenti a szabadsági fokok számát.

N n

c

j ij i

ˆ

N

r n

i ij j

ˆ

A i sor-összegekből r van (ahány sor), a j oszlop-összegekből c (ahány oszlop), de ezek nem mind függetlenek, közöttük egy összefüggés van, az egész táblázatra a valószínűségek összege 1. Így a szabadsági fokok száma:

1



1

r c

A 2 próbastatisztika kifejezésébe helyettesítendő nullhipotézis szerint számított előfordulási szám:

N c N r

Eij  ˆiji j

35. példa (hipotetikus)

Egy szociológiai vizsgálatnál 50 véletlenül kiválasztott embert megkérdeztek a házastársi hűséghez való viszonyáról. Független-e a két kérdésre adott válasz?

fontosnak tartja-e a hűséget a házasságban

igen nem

hűséges-e igen 18 2 20

nem 6 24 30

24 26 50

4 . 50 0 ˆ1  20 

 0.48

50 ˆ1 24

(14)

6 . 50 9

24 20

11   

E s.i.t.

1



1

111

r c

A próbastatisztika talált értéke:

 

23.558

6 . 9

6 . 9

20 2

2

0  

 

A kritikus érték a táblázatból: 02.05

 

1 3.841 A függetlenség hipotézisét elutasítjuk.

3.5. Az asszociáció mértékének vizsgálata

A 2-próbával döntést hozunk arról, hogy két változót függetlennek tekinthetünk-e, de ha nem fogadjuk el őket függetlennek, jogosan kérdezzük az összefüggésük mértékét. A 02 próbastatisztika nagysága függ a minta-elemszámtól: ha kétszeresére növeljük mindegyik cellában az előfordulások számát, megváltozik 02 értéke. Hogy a statisztikai szignifikancia változzék az esetek számával, rendjénvaló, de az összefüggés mértékének jellemzésére emiatt nem alkalmas.

Kézenfekvő a 02 olyan módosítása, aminek következtében kevésbé függ a szabadsági foktól, így kapjuk az ún. kontingencia-együtthatókat.

A 2 definíciója:

N

2 20

 

A 35. példa adataival:

46 . 50 0

558 .

2  23 

A Cramér-féle kontingencia-együttható a következő:

1

2 0

  q

V N

, ahol

 

r c

qmin , , pl. 2x2-es táblázatra q=2.

A 35. példa adataival:

2 1

0.69

50 558 .

23 

  V

A Pearson-féle kontingencia-együttható:

2 0 2 0

  C N

Ennek érdekes tulajdonsága, hogy ha a két kategóriát számokkal kódoljuk (pl. 1 és 0), akkor a két változó közötti korrelációs együttható éppen a Pearson-féle kontingencia-együttható lesz.

(15)

32 . 558 0 . 23 50

558 .

23 

  C

Szokás a 2 négyzetgyökét használni, különösen 2x2-es táblázatra, asszociációs együttható néven.

Ennek előjele alapján beszélhetünk pozitív vagy negatív asszociációról.

Gyakran használt mutató a Cohen-féle  (kappa), melynek definíciója:

e e

p p p

  1

0

ahol p0 azon esetek aránya, amelyek között megegyezés van a két változóban,

N n

p i

ii 0

i

i i

e N

n

p n 2

pe pedig ennek az aránynak a várható értéke, ha a két változó független.

A 35. példa adataival:

84 . 50 0

24 18

0  

p

504 . 50 0

30 26 24 20

2  

  pe

677 . 504 0 . 0 1

504 . 0 84 . 0 1

0

 

 

e e

p p

p

A  varianciája:

 

 

 

 

 

i

i i i i e

e

e

N

n n N

n p n

p p

N

2

2 2

2

1 1

A következő döntési táblázatot ajánlják:

75 .

0

 kiváló egyezés

75 . 0 4

.

0   jó egyezés

4 . 0

0  gyenge egyezés

35. példa

(B. Rosner: Fundamentals of Biostatistics, Duxbury Press, 5th ed. 2000, p. 407)

Egy vizsgálatnál ellenőrzik, hogy két felmérés koherens volt-e. Két különböző időpontban kérdőívet küldenek ki, amelyekben az étkezési szokásokról érdeklődnek. Az egyik (ellenőrző) kérdés azt firtatja, hogy hetente hányszor esznek marhahúst. Az eredmények:

2. kérdőív

1 >1 

(16)

>1 69 240 309

 205 332 537

 

      

77.42

332 205 309 228

69 92 240 537 136

2 2

2

0

 

 

 

d b c a d c b a

bc N ad

144 . 0

2

20

N

 

 

537

2 1

0.144

42 . 77 1

2

2 0

 

  q V N

700 . 537 0

240 136

0

  

N n

p i

ii

518 . 537 0

332 309 537

205 228

2 2

2  

 

i i i

e N

n p n

378 . 518 0 . 0 1

518 . 0 7 . 0 1

0

 

 

e e

p p

p

    

 

 

 

 

 

 

i

i i i i e

e

e

N

n n N

n p n

p p

N

2

2 2

2

1 1

     

0.00185

537

332 309 332 309 205 228 205 518 228

. 0 518 . 518 0 . 0 1 537

1

3 2

2





         

 

043 .

0

A  szignifikanciájára statisztikai próbát végezhetünk:

8 . 043 8 . 0

378 . 0

0   

z

Ugyan a próba szerint  szignifikánsan különbözik zérustól, de mégsem túlságosan nagy.

Ábra

Updating...

Hivatkozások

Updating...

Kapcsolódó témák :