A binomiális eloszláson alapuló próbák
• Binomiális próba: Hipotézisvizsgálat az előfordulások arányára, egy minta esetén
• Két arány összehasonlítása
9. példa
Az újszülöttek között a tapasztalatok szerint a fiúk aránya 50/100.
Egy kórházban egy napon 8 fiú és 4 lány születik. Jelent-e ez bármi szokatlant?
Előfordulhat ilyen? Milyen valószínűséggel?
5 . 0 :
H0 0 H1 : 0
Binomiális próba
Hipotézisvizsgálat az előfordulások arányára, egy minta esetén
5 . 0 :
H0 0 H1 : 0 0.5
Kismintás (egzakt) eljárás
A próbastatisztika a mintában a lányok k0 száma.
k n kk k n
P
(1 )
k 4 0.5
P
Annak vsz-e, hogy 4 vagy kevesebb lány legyen 12 közül, 0.194 Döntés?
Mekkora annak vsz-e, hogy 1 vagy kevesebb lány legyen 12 közül, ha p=0.5? (H0: p=0.5)
Elhiggyük?
a nullhipotézis igazsága esetén annak valószínűsége, hogy a talált vagy még szélsőségesebb adódjék p
Ha p0.05, elutasítjuk a nullhipotézist.
Pontosabban, ha p, elutasítjuk a nullhipotézist.
a szignifikanciaszint
Hogy döntünk, ha = 0.05, 0.01, 0.001?
Nagymintás eljárás
n11 p nn1) 1
(
0 0
n
n
u k nem ismert
Wald: ˆ
0
ˆ) 1 ˆ(
0
0
n
n u k
score
) 1
( 0
0
0
0
n
n u k
n
k
ˆ
Wald: ˆ
5 .
0 0
score
333 .
12 0 ˆ 4
n
k
225 .
667 1 .
0 333 .
0 12
5 . 0 12 4
ˆ) 1 ˆ(
0
0 0
n
n u k
155 .
) 1 5 . 0 1 ( 5 . 0 12
5 . 0 12 4
) 1
( 0
0
0
0 0
n
n u k
11 . 0 89
. 0
1
p
124 .
0 876
. 0
1
p
Wald: ˆ
score
919 .
667 0 .
0 333 .
0 12
5 . 0 12 5
. 0 4 ˆ)
1 ˆ(
5 .
0 0
0 0
n
n u k
A folytonossági (Yates-) korrekcióval
4 vagy kevesebb → 4.5 vagy kevesebb : +0.5
-1.155 ill. p0.124 helyett 867
. ) 0
5 . 0 1 ( 5 . 0 12
5 . 0 12 5
. 0 4 )
1 (
5 . 0
0 0
0
0 0
n
n u k
-1.225 ill. p=0.11 helyett
konzervatív (a nullhipotézist megtartó) irányban változott 18
. 0 82
. 0
1
p
193 .
0 807
. 0
1
p
Döntés?
333 .
0 120
40 12
4
10. példa
Az illető kórházban egy napon 80 fiú és 40 lány születik.
Jelent-e ez bármi szokatlant?
11. példa
Mekkora minta szükséges ahhoz, hogy 90% biztonsággal
észrevegyük, ha 0.5 helyett 0.4 (0.45, 0.49) a lányok születésének valószínűsége?
90% (0.9) a próba ereje (Power) p=0.5 a nullhipotézis
Sample Size Calculation
One Proportion, Z, Chi-Square Test H0: Pi >= Pi0
Value Null Proportion (Pi0)
Population Proportion (Pi) Alpha (Nominal)
Actual Alpha (Exact) Power Goal
Actual Power (Normal Approx.) Actual Power (Exact)
Required Sample Size (N) 0.5000 0.4000 0.0500 0.0544 0.9000 0.8945 0.9017 206.0000
One Proportion: Sample Size Calculation Test on One Proportion (H0: Pi >= Pi0) N vs. Pi (Alpha = 0.05, Pi0 = 0.5, Power = 0.9)
0.38 0.40 0.42 0.44 0.46
Population Proportion (Pi) 100
200 300 400 500 600 700 800 900
Sample Size (Exact)
One Proportion: Sample Size Calculation Test on One Proportion (H0: Pi >= Pi0) N vs. Pi (Alpha = 0.05, Pi0 = 0.5, Power = 0.9)
0.38 0.40 0.42 0.44 0.46 0.48 0.50 0.52
Population Proportion (Pi) -2500
2500 7500 12500 17500 22500
Sample Size (Exact)
A binomiális eloszláson alapuló kétmintás próbák A binomiális eloszláson alapuló kétmintás próbák
12. példa
(M.J. Campbell, D. Manchin, Medical Statistics. A commonsense approach, 2nd edition, J. Wiley & Sons, 1993, p. 71)
A páciensek kétféle gyógyszert kaptak, kisorsolva, hogy ki melyiket. Kettős vak vizsgálatot végeztek: az orvos és a páciens sem tudja, hogy ki melyik gyógyszert kapja.
Van-e a két gyógyszer között különbség a tekintetben, hogy egyforma arányban gyógyultak-e tőlük a betegek?
1 annak valószínűsége, hogy a beteg az A gyógyszertől meggyógyul
2 annak valószínűsége, hogy a beteg a B gyógyszertől meggyógyul
2 1
0 :
H H1 :1 2
Az A és B gyógyszernél a gyógyulás relatív gyakorisága külön- külön binomiális eloszlást követ 1 és 1 paraméterrel
7667 .
30 0 ˆ1 23
0.5806
31 ˆ2 18
ˆ ) ( ˆ )
( ˆ ˆ
ˆ ) ( ˆ
ˆ ˆ
2 1
2 1
2 1
2 1
2 1
2 1
Var Var
u Var
Elég nagy minták esetén
Nagymintás eljárás
ˆ ) ( ˆ )
(
ˆ ˆ
2 1
2 1
0
Var u Var
Var (1n ) ˆ)
(
2 2 2
1 1 1
2 1
) 1
( )
1 ) (
( ˆ ˆ )
( Var n n
Var
2 2 2
1 1 1
2 1
0 (1 ) (1 )
ˆ ˆ
n n
u
2 2 2
1 1 1
2 1
2 1
0 (1 ) (1 )
1 1
2 ˆ 1
ˆ
n n
n u n
A folytonossági korrekcióval
1 és 2 nem ismert
2 2 2
1 1 1
2 1
0 (1 ) (1 )
ˆ ˆ
n n
u
Wald 1 ˆ1 2 ˆ2
2 2 2
1 1 1
2 1
0 ˆ (1 ˆ ) ˆ (1 ˆ )
ˆ ˆ
n n
u
583 .
1 31
) 5806 .
0 1 ( 5806 .
0 30
) 7667 .
0 1 ( 7667 .
0
5806 .
0 7667 .
0
1.583
1 .9433 0.0571 F p 20.057 0.114
1 és 2 nem ismert
2 2 2
1 1 1
2 1
0 (1 ) (1 )
ˆ ˆ
n n
u
score 0.672
61 18 ˆ 23
ˆ ˆ
2 1
2 2
` 1
1
n n
n n
547 .
1 31
1 30
) 1 672 .
0 1 ( 672 .
0
31 18 30
23 1
) 1 1 ˆ
ˆ(
ˆ ˆ
2 1
2 1
0
n n
u
1.547
1 0.939 0.0611 F p 2 0.061 0.122
Wald
2 2 2
1 1 1
2 1
2 1
0 ˆ (1 ˆ ) ˆ (1 ˆ )
1 1
2 ˆ 1
ˆ
n n
n u n
folytonossági korrekcióval
304 .
1 31
) 5806 .
0 1 ( 5806 .
0 30
) 7667 .
0 1 ( 7667 .
0
31 1 30
1 2
5806 1 .
0 7667 .
0
0
u
konzervatívabb 1.583 ill. p=0.114 helyett p=0.904
Módosított kérdés:
Az A (új) gyógyszer jobb-e a B (elfogadott jelenlegi) gyógyszernél?
2 1
0 :
H H1 :1 2
1.547
1 0.939 0.0611
F
p
547 .
1 31
1 30
) 1 672 .
0 1 ( 672 .
0
31 18 30
23 1
) 1 1 ˆ
ˆ(
ˆ ˆ
2 1
2 1
0
n n
u
Gyógyszer típusa
Gyógyult Nem
gyógyult
A 23 7 30
B 18 13 31
41 20 61
Statistics>Nonparametrics
2 x 2 Table (creditscoring) Column 1Column 2 Row
Totals Frequencies, row 1
Percent of total Frequencies, row 2 Percent of total Column totals Percent of total Chi-square (df=1) V-square (df=1)
Yates corrected Chi-square Phi-square
Fisher exact p, one-tailed two-tailed
McNemar Chi-square (A/D) Chi-square (B/C)
23 7 30
37.705% 11.475%49.180%
18 13 31
29.508% 21.311%50.820%
41 20 61
67.213% 32.787%
2.39 p= .1218 2.35 p= .1249 1.62 p= .2025 .03925
p= .1009 p= .1737 2.25 p= .1336 4.00 p= .0455
a b
cadd
bca c
b d
N
2 2
0
a b
c d
a c
b d
bc N ad
N
2
2 0
2
(folytonossági korrekcióval)
Gyógyszer típusa
Gyógyult Nem
gyógyult
A 23 7 30
B 18 13 31
41 20 61
A szükséges minta-elemszám meghatározása A szükséges minta-elemszám meghatározása
2 1
0 :
H
n n
u
2 2
1 1
2 1
0 1 1
ˆ ˆ
u
u0 elfogadjuk, ha
u0 u H0
Az elsőfajú hiba valószínűsége: P
2 1
1 :
H
A szükséges minta-elemszám meghatározása A szükséges minta-elemszám meghatározása
n n
u
2 2
1 1
2 1
0 1 1
ˆ ˆ
u
u0 elfogadjuk, ha
2 1
0 :
H
13. példa
Mekkora mintákra van szükség, ha 80% biztonsággal észre akarjuk venni, hogy az egyik gyógyszerrel a betegek 20%-a, a másikkal
30%-a gyógyul meg?
Az elsőfajú hiba valószínűsége: P
u0 u H0
2 1
1 :
H
n n
u
2 2
1 1
2 1
0 1 1
ˆ ˆ
n n
n n
2 2
1 1
2 1
2 2
1 1
2 1
2 1
1 1
1 1
ˆ ˆ
u
u0 elfogadjuk, ha
1
2 2
2 1
2
1 H
1
1
u
n n
u P
0 H1
P u u
P u u
n n
u u
P
2 2
2 2
2 H 1
1 1
1
n n
u
u H
1 1
2 2
2 1
1 1
1
1 1
2 H 2
1 2 1
2 H 1
2
1
1
u u n
Példa n1 n2 n ?
=0.05, =0.2, A=0.2, B=0.3 645
.
1
u u 0.84
0.2
1 0.2
0.3
1 0.3
228.43 . 0 2
. 0
84 . 0 645
. 1
2 2
n
1 1
2 H 2
1 2 1
2 H 1
2
1
1
u u n
Comparing 2 Proportions: Sample Size Calculation Two Proportions, Z-Test (H0: Pi1 <= Pi2) N vs. Power (Pi1 = 0.3, Pi2 = 0.2, Alpha = 0.05)
0.70 0.75 0.80 0.85 0.90 0.95 1.00
Power Goal (No Continuity Correction) 150
200 250 300 350 400 450
Sample Size for Each Group (N1 = N2)
A Statistica Power Analysis eredményei:
A B n (korr. nélkül) n (korrekcióval)
0.2 0.3 231 251
0.3 0.4 281 300
0.3 0.5 71 83
0.1 0.3 49 58
0.4 0.6 77 86
0.4 0.3 281 300
Nagyobb javulás (vagy romlás) kimutatásához kevesebb kísérlet is elég.
A placebóval való kísérletezést egyre többször tiltják.
Kismintás (egzakt) eljárás Kismintás (egzakt) eljárás
2 1
0 :
H H1 :1 2
(az előző példához képest fordított) 14. példa
2 1
0 :
H H1 :1 2
Annak valószínűsége, hogy r1 közül (akik az A gyógyszert szedik) a gyógyuljon meg
a
r aa a r
x
P
1 1 1 1
1 1
Annak valószínűsége, hogy r2 közül (akik a B gyógyszert szedik) c gyógyuljon meg:
c
r cc c r
x
P
2 2 2 2
2 1 független események
a b r1
c d r2
c1 c2 N
x1 a; x2 b H0
P
r a c
r c a c
r r a ca
c r a
r c
r a
r
1 1 1 2 1 2 1 2 1 1 2
p annak valószínűsége, hogy a kapott vagy annál is szélsőségesebb eredmény adódjék, ha a nullhipotézis igaz
1 , 2 H0
a r2 1 2 x1 x2
1
r1 r2 x1 x2x r x
c r x
a x
P
p
a b r1
c d r2 c1 c2 N
Hogy a képlettel számolni tudjunk, számértékére is szükség van
, ami mellett p maximális: =0.3
P(1,9,3,1) P(0,10,3,1) P(1,9,4,0) P(0,10,4,0) p
0.01249515 0.0091522
0.0021355 0.0009806
0.0002288
a b r1
c d r2 c1 c2 N
1 2
1 2 1 21
2
2
1 H
,
0 2
2 1
1 0
2 1
x x r x r
a x x
r c
x x
r x
c r x
a x
P
p
A nagymintás (közelítő) eljárással:
2857 .
14 0 3
ˆ 1
N c
a
43 . 2 4
1 10
2857 1 .
0 1 2857 .
0
4 3 10
1 1
ˆ 1 ˆ 1
ˆ ˆ
2 1
2 1
0
n n
u
p=0.0075
folytonossági korrekcióval p=0.038 0.0125
p
A hatás nagyságának értelmezése A hatás nagyságának értelmezése
2 1
RR kockázati arány (Risk Ratio )
2 1
ˆ ˆ
RR
1
ˆ1
r
b
2
ˆ2
r
c
1 2
cr RR br
a b r1 c d r2 c1 c2 N
2 1
2
1 ln ˆ
ln ˆ
ln cr
d ar
Var b Var
RR
Var
2 1
2 1
2 2
1 2
1
2 exp exp
cr d ar
u b cr
RR br cr
d ar
u b cr
br
Konfidencia-intervallum a kockázati arányra
ac bd rr12c1 c2 N
2 1
2 1
2 2
1 2
1
2 ln ln
ln cr
d ar
u b cr
RR ar cr
d ar
u b cr
ar
41 . 1 24
.
1 RR A 13. példára
15. példa
(B. Rosner: Fundamentals of Biostatistics, Duxbury Press, 5th ed. 2000, p.
358)
A 40 és 44 év közötti életkorú nőknél a fogamzásgátló tabletta szedése növeli-e a szívinfarktus kockázatát?
1 annak valószínűsége, hogy aki szedett fogamzásgátló tablettát (exposed), infarktust kapjon
2 …aki nem szedett (unexposed) …
0026 .
5000 0 ˆ1 13
ˆ2 100007 0.0007
71 . 0007 3
. 0
0026 .
0 10000
50007 13 ˆ
ˆ
2
1
RR
7 10000
9993 5000
13 96 4987 .
5000 1 7
10000 ln 4987
ln
2 1
2 1
2
cr d ar
u b cr
br
394 .
0 4685
. 0 96 . 1 312 .
1
230 .
2 4685
. 0 96 . 1 312 .
1
A kockázati arány logaritmusára a 95%-os konfidencia- intervallum alsó határa:
fölső határa:
A 95%-os konfidencia-intervallum magára a kockázati arányra:
e0.394, e2.230
1.5, 9.3
(retrospektív!)Esélyhányados
odds 1
Esélyhányados-arány (odds ratio)
2 2
1 1
1 1
OR
a megbetegedés esélyhányados-aránya (disease odds ratio)
bcad d
c d
d c
c
b a b
b a a
OR
ac bd rr12
c1 c2 N
1 2
1 1
RR OR
1 ,
1 2
1
ha OR RR
A vizsgálatok esetei
Prospektív (prospective)
clinical trial (kisorsolják, hogy ki melyik gyógyszert kapja) cohort study*
Retrospektív (retrospective) case-control*
matched pair (?) cross-sectional*
*observational (/experimental)
16. példa
(A. Agresti: Categorical data analysis, J. Wiley, 2002, p. 41) 709 tüdőrákkal diagnosztizált páciens mellé választottak 709 olyan pácienst, akit ugyanabban a kórházban kezeltek,
ügyelve arra, hogy nem- és kor-eloszlásuk hasonló legyen.
dohányos tüdőrákban szenved igen (T) nem (T) igen (D) 688 650
nem (D) 21 59
709 709
T DP
T D
P
D T RR P
A dohányzás szerinti két csoportba nem válogathatták véletlenül a pácienseket, mint a szokásos gyógyszer-kísérleteknél,
nem a dohányzás (igen/nem) a rögzített, és a tüdőrák előfordulása a valószínűségi változó, hanem fordítva ezért csak az esély-hányados-arányt számíthatjuk ki:
DT
P
T D OR P
a veszélyeztetettség esélyhányados-aránya (exposure odds ratio)
T D
P
D T OR P
a megbetegedés esélyhányados-aránya (disease odds ratio), ez lenne érdekes, de…
DT
P
T D OR P
a veszélyeztetettség esélyhányados-aránya (exposure odds ratio)
97 . 21 2
650
59
688
bc
ad
d b
d d b
b c a
c c a
a
OR
a b r1 c d r2 c1 c2 N
dohányos tüdőrákban szenved igen (T) nem (T) igen (D) 688 650
nem (D) 21 59
709 709
d c
b OR a
Var 1 1 1 1
ln
0.067659 1 21
1 650
1 688
ln OR 1
Var
0.579,1.599
0676 .
0 96
. 1 089 .
1 :
lnOR OR: (1.745, 4.948)
97 . 21 2
650
59
688
bc
ad
d b
d d b
b c a
c c a
a
OR
A veszélyeztetettség becsült esélyhányados-arányának kifejezése pon- tosan ugyanaz, mint a megbetegedés becsült esélyhányados-arányáé!
97 . 21 2
650
59
688
bc
ad
d c
d d c
c b a
b b a
a
OR
DT P
T P
DT P
TP
T P T D D P
T
P
P(T) prevalencia ismerete szükséges Bayes-tétel:
1 2
1 1
RR
OR ha 1< <1, 2< <1 ORRR