• Nem Talált Eredményt

1.1. Általános alapfogalmak

1.1.6. Frekventista statisztika

Hipotézistesztelés Genetikai asszociációs vizsgálatok esetén a fenotípussal (pl. beteg-séghajlam) asszociálódó változók (polimorfizmusok, klinikai paraméterek) meghatáro-zására a leggyakrabban használt statisztikai technika a klasszikus hipotézistesztelés[5].

Ennek során minden egyes változóra teszteljük azt a hipotézist, hogy az nem asszociál a fenotípussal. Ez az ún.null-hipotézis,H0. Amennyiben nincs elegend˝o bizonyítékunk arra, hogy ez a hipotézis nem igaz, akkor azt nem tudjuk elvetni; azaz nem tudjuk el-fogadni az ún.alternatív hipotézist, H1-et, amely szerint az adott változó és a fenotípus között asszociáció áll fenn. Azt a módszert, amivel összegezzük az adatainkban található bizonyítékokat (az ún.teszt statisztikakiszámításával) annak érdekében, hogy választani tudjunk a két hipotézis közül,hipotézistesztelésnek nevezzük. A teszt statisztika

kiszámí-tásának eredménye egy valószín˝uség (az ún.p-érték), ami a null-hipotézis abszurditásá-nak mértékét jelzi. Más szóval, ha a p-érték kisebb mint egy el˝ore definiált, nulla közeli α érték (ún. szignifikancia szint), az azt jelzi, hogy a null-hipotézis nagyon valószín˝ut-len, abszurd, így el kell vetnünk, és helyette el kell fogadnunk az alternatív hipotézist. A hipotézistesztelés folyamatát összefoglalva a 2. ábrán láthatjuk.

A leggyakrabban használt asszociációs tesztek például a Pearson-féleχ-négyzet teszt vagy a Fisher-féle egzakt teszt. A logisztikus regressziós modell alkalmazása szintén köz-kedvelt, ezzel ugyanis már komplexebb összefüggések tesztelésére is lehet˝oség van, mint például több SNP együttes hatásának vagy interakciójának elemzése, illetve környezeti változók, klinikai paraméterek (nem, életkor stb.) figyelembevétele.

Feltételezés A null-hipotézis, H0 igaz, azaz az v változó és a fenotípus között nem áll fenn asszociáció

Ezután Kiszámítjuk a teszt statisztikát, zv-t, és azt találjuk, hogy a p-érték (annak valószín˝usége, hogy legalábbzvértéket figye-lünk meg abban az esetben, ha a null-hipotézisH0 igaz) ki-sebb mintα

De Éppen az el˝obb figyeltük megzv-t

Tehát A null-hipotézis hamis, és az alternatív hipotézis (majdnem biztosan) igaz, azaz avváltozó asszociál a fenotípussal

2. ábra.A frekventista hipotézistesztelés menete asszociációs vizsgálatokban

Esélyhányados, konfidencia-intervallum Populációs genetikai asszociációs vizsgála-tok esetén a leggyakrabban kiszámított asszociációs mér˝oszám az ún. esélyhányados (odds ratio, OR), amely azt mutatja meg, hogy mekkora a kimenetel esélyének aránya, ha valaki egy adott tényez˝o hatásának ki van téve ahhoz képest, ha nincs kitéve. Például ha arra a kérdésre keressük a választ, hogy egy adott SNP domináns formája milyen mértékben emeli meg az ALL kialakulásának a kockázatát, akkor ezt az OR kiszámításával válaszol-hatjuk meg. Ebben az esetben az OR azt jelenti, hogy mekkora az ALL kialakulásának esélye az SNP alléljának hordozásakor ahhoz képest, mint amekkora a betegség esélye, ha az allél nincs jelen. Az OR értéke mellett általában a becslés konfidencia-intervallumát (confidence interval, CI) is megadjuk (tipikusan95%). Ez a tartomány azt adja meg, hogy ha a kísérletet végtelen sokszor elvégeznénk, akkor az esetek95%-ában a kiszámított OR hova esne. Ha az OR szignifikánsan nagyobb mint1, akkor a tényez˝o növeli a kimenetel

rizikóját; ha kisebb, mint1, akkor csökkenti.

Többszörös hipotézistesztelési probléma A genetikai asszociációs elemzéseknek egy súlyos problémával kell szembenéznie, amely akkor jelentkezik, ha egyszerre párhuzamo-san több hipotézist is tesztelünk. Ez az ún. „többszörös hipotézistesztelési probléma” [5].

A választott statisztikai módszert˝ol függetlenül minél nagyobb számú hipotézisünk van, annál nagyobb annak valószín˝usége, hogy véletlenül extrém teszt statisztika-értékeket fi-gyelünk meg, így egyre valószín˝ubb, hogy tévesen el fogjuk utasítani a null-hipotézist (és ezzel hamis pozitív kijelentést teszünk, azaz els˝ofajú hibát követünk el). Sokféle meg-közelítés létezik ennek a problémának a kezelésére, amelyek abban különböznek, hogy milyen hibát próbálnak meg kontrollálni és mennyire konzervatívak.

A legkonzervatívabbnak tartott módszer az ún.Bonferroni-eljárás, amely a családi-szint˝u hibát(familywise error rate, FWER) kontrollálja. Ez annak a valószín˝usége, hogy az összes vizsgált, nem valódi asszociáció közül legalább egyr˝ol tévesen azt állítjuk, hogy fennáll. A Bonferroni módszer során egyszer˝uen elosztjukα-t (a megkívánt FWER szig-nifikanciaszintet) a hipotézisek számával. Például annak biztosítására, hogy1000 statisz-tikai teszt elvégzése esetén is a családi-szint˝u hiba aránya kisebb legyen mint 0,05, az elfogadási küszöböt5×10−5-re kell állítanunk. Ugyanakkor a Bonferroni-korrekció az SNP-k kapcsoltsága miatt a legtöbb vizsgálatban túlságosan konzervatív; használatával sok valódi asszociációt figyelmen kívül hagyunk (azaz hamis negatív kijelentést teszünk;

másodfajú hibát követünk el). Ebben az esetben az egyik leggyakrabban használt módszer ahamis felfedezési arány(false discovery rate, FDR) kontrollálása. Az FDR, mint aho-gyan az el˝oz˝o alfejezetben láttuk, a nem valódi asszociációk várható aránya azok között, amelyekr˝ol azt állítjuk, hogy fennállnak. Más szóval, ha a célunk az, hogy el˝oálljunk hipotézisek egy olyan halmazával, amelynek a legnagyobb része igaz, akkor az FDR-t érdemes kontroll alatt tartani. Benjamini és Hochberg javasolt [10, 11] erre egy felfelé lépeget˝o eljárást: az asszociációkat rendezzük sorba a p-értékük szerint, majd a legki-sebbt˝ol indulva viszonyítsuk azokat egy folyamatosan növekv˝o küszöbértékhez (ak-dik p-értéket viszonyítsuk mkα-hoz, aholm a vizsgált hipotézisek száma), és utasítsuk el az összes nullhipotézist (azaz fogadjuk el az alternatív hipotézist) a legnagyobb olyank-ig, amelyre a p-érték még kisebb, mint az adott küszöbérték. Ez egy kevésbé konzervatív

korrekciós eljárást eredményez, ami jobban illeszkedik a genetikai asszociációs tesztek felderít˝o jellegéhez.