A predikciós módszerek pontossága - Bevezetés a bioinformatikába

és 13. fejezet). Fontos emlékeztetnünk rá, hogy az eukariótában a gének általában intronokat is

10. Bevezetés a bioinformatikába

10.6. A predikciós módszerek pontossága

10.6.1. Egy predikció "jóságát" leíró paraméterek. Optimális döntések.

Az előrejelző módszerek részletes tárgyalása után nem kerülhetjük el, hogy magáról az előrejelzés

minőségéről ne beszéljünk, ezt kell ugyanis mérlegelni akkor, amikor arról döntünk, hogy elfogadjuk-e egy módszer jóslatát vagy sem. A predikciók jóságának tárgyalásához előbb néhány statisztikai fogalmat kell bevezetnünk. Egy két-kimenetelű (+/-) mérés, elemzés vagy döntés esetén szenzitivitásnak nevezzük a sikeresen felismert elemek arányát (az összes pozitív elem közül), specificitásnak pedig a sikeresen elvetett elemek arányát (az összes negatív elem közül). A legtöbb eddig leírt algoritmus rendelkezik egy vagy több változtatható paraméterrel, ami befolyásolja a módszer jóságát. Például az illesztések magas p-érték mellett nagyon magas szenzitivitással (megtalálják az összes egyezést), de alacsony specificitással (rengeteg véletlen egyezést is találnak) fognak rendelkezni. Alacsony p-érték (mint határérték) esetén megfordul a helyzet: az összes egyezés jó lesz (magas specificitás), de a valódi egyezések csak kis hányadát találjuk meg (alacsony szenzitivitás). A döntésre használt határértéket szoktuk levágási értéknek (cutoff) nevezni. Egy-egy levágási érték jóságát pedig  a mérnöki tudományokból kölcsönvett módszerrel  az úgynevezett ROC görbével fejezhetjük ki. Az ROC (Receiver Operating Characteristics) grafikon pontosan mutatja, hogy egy adott paraméter-érték, mint levágási érték esetén a valódi pozitívoknak mely részét találtuk meg, illetve hogy az összes lehetséges elem hányad részét fogadtuk el (ld. 10.17. ábra). Az optimális döntéseket a valódi pozitívok arányának becslésével (Bayes-analízis alkalmazásával) ilyen görbék alapján már viszonylag könnyű megadni (főleg a tévedés "költségének" ismeretében). E szerint minden módszer rendelkezik egy rá jellemző, fix hibavalószínűséggel, még az optimális döntés esetén is: ezek léte a módszer lényegéből fakad.

143 10.17. ábra: ROC görbék használata bioinformatikai jósló módszerek jóságának elemzésére

10.6.2. Adatbázisok minősége: elsődleges és másodlagos hibák

A jóslataink helyességét nemcsak az eredendő hiba befolyásolja. Az adatbázisokban tárolt szekvenciák minősége is lehet hibaforrás. Könnyű belátni, hogy ilyen mennyiségű adat mérésénél és elemzésénél hiba nélkül dolgozni szinte lehetetlen. Az adatbázisokban előfordulhatnak elsődleges hibák: ezek mérési hibákból fakadnak, például egy-egy kétes minőségű szekvenálásból. Érdekes tény például (és könnyű megfigyelni) hogy a legkorábban szekvenált modell organizmusok (pl. Mus musculus, D. melanogaster, S. cerevisiae) genomi és cDNS szekvenciája sokkal több hibával rendelkezik, mint az újabban szekvenáltaké. Így ha azt találjuk, hogy az egér egy adott génjének adott aminosava eltér az összes többi emlősben megfigyelhető, mindig konzervált aminosavtól, az eltérés eredete vélhetően szekvenálási hibában keresendő: nem arról van szó ugyanis, hogy az egér "feltalált" volna számos, amúgy teljesen szokatlan biológiai megoldást. Mivel a legtöbb élőlény cDNS-szekvenciái nem, vagy csak darabokban hozzáférhetőek, nagyon sok, az

adatbázisokban található fehérjeszekvencia valójában csak jóslat (ez a tény fog remélhetőleg megváltozni az RNAseq új-generációs szekvenálás elterjedésével; ld. 5.3. fejezet). Az ilyen, prediktált szekvenciákban pedig viszonylag gyakoriak a másodlagos hibák: tévesen jósolt transzlációs kezdőhelyek, eltévesztett exonok (valójában intron-szekvenciák, exonként átírva) és hiányzó szakaszok. Ezek az annotáló-program tévedéséből fakadnak. Az ilyen hibákat leginkább a biológiai korrelációk segítségével, többszörös

szekvencia-illesztésekkel szűrhetjük ki. Ha például a ló egy adott, genomi szekvenciából jósolt fehérjéjének közepén található egy szokatlan, hosszú darab, ami az összes emlőstől különbözik (de máshol mindig konzervált), akkor ebben az esetben egy hibásan jósolt exonról lehet szó (ld. 10.18. ábra).

10.18. ábra: Fehérje-szekvencia adatbázisokban előforduló gyakoribb hibák többszörös illesztéssel kimutatva.

144

10.6.3. Ellenőrzött adatbázisok. Ellentmondó kísérleti eredmények kezelése

Az elsődleges adatbázisok minősége javítható, ha nem csak automatizált módszerekkel előállított adatokat tartalmaznak. Az ilyen, szakemberek által ellenőrzött rendszerek (manually curated databases) közé tartozik például a UniProt fehérje adatbázis (ld. 10.1.3.). Itt a gépi analízist kísérleti adatokkal váltják fel, amikor azok a szakirodalomban elérhetővé válnak. Ezek a kézi annotációk jelentős emberi munkaerőt kötnek le, cserében viszont a legmegbízhatóbb adathalmazt nyújtják. Persze a szakirodalomban leírt kísérletek sem mindig mentesek a hibáktól: mérési hibák éppúgy előfordulhatnak, mint hibás értelmezések. Ebből fakadóan találkozhatunk egymásnak tökéletesen ellentmondó publikációkkal is: hol az egyik, hol a másik, esetleg mindkét kutatócsoport tévedett.. Mindezek rontják a "kézi" annotációk pontosságát is. Ezért a szakemberek által ellenőrzött adatokat sem szabad feltétlenül hibátlanként kezelni.

10.6.4. Mikor használjunk jóslásokat?

Mindezek után bizonyára felmerül az olvasóban a kérdés: érdemes-e egyáltalán előrejelző programokat használnunk? És ha igen, akkor mikor? Általános aranyszabálynak annyit mondhatunk, hogy a kísérletes adatok általában pontosabbak, mint a jóslatok. A prediktáló módszereket is mindig a rendelkezésre álló információ alapján válasszuk meg. Tehát amennyiben mód van pl. egy fehérje doménjének homológia alapú elemzésére, ne kezdjünk ab initio folding szimulációkba. Fontos megjegyezni, hogy a kutatás maga

kétirányú: a már kísérletesen igazolt eredményeket is érdemes újra számítógépes analíziseknek alávetni, és új modelleket építeni rájuk. Rengeteg új felismerés, és tudományos eredmény származhat így

10.7. További olvasnivaló a fejezethez

Edwards, D, Stajich, J, & Hansen D (2009) Bioinformatics: Tools and Applications. Springer Science.

ISBN: 978-0-387-92737-4.

Eddy, SR (2004) What is a hidden Markov model? Nature Biotechnology 22:1315-6.

De Fonzo, V, Aluffi-Pentini, F, Parisi, V (2007) Hidden Markov Models in Bioinformatics. Current Bioinformatics. 2: 49-61.

Neural Networks: http://www.doc.ic.ac.uk/~nd/surprise_96/journal/vol4/cs11/report.html (by Christos Stergious and Dimitrios Sigianos)

Dickter Wickmann (1999) Bayes-statisztika. ELTE Eötvös Kiadó. ISBN: 978-963-463-311-2

Bujnicki, JM (2009) Prediction of Protein Structures, Functions and Interactions. John Wiley & Sons Ltd., ISBN: 978-0470517673

145

In document fehérjemérnökség és Géntechnológia (Pldal 142-145)