Az n-gram paraméterek kiválasztása - Algoritmusok egynyelvű és különböző nyelvek közötti fordít

Az algoritmusok teszteléséhez az angol Wikipédiából kézzel fordított szövegre van szükségünk. Ennek az alapját a 12 véletlenszerűen kiválasztott, körülbelül fél-fél oldalas szövegek adták, melyek megtalálhatóak a magyar fordítással együtt a 9.4 mellékletben. Két fontos paramétert kell néznünk az összehasonlítás során: a fedést és a pontosságot. A fedést sokkal könnyebb vizsgálni, hiszen csak attól függ, hogy ennek a 12 Wikipédia-szócikknek a neve közte lesz-e az eredmények között. A pontosság sokkal nehezebb, két okból is: először nem minden olyan szócikk számít hibás találatnak, amit visszaad a rendszer de nem volt közte a 12 eredeti cikk között. A Wikipédiában vannak ismétlődések, és hasonlóságok a szócikkek között, és ezért nem lehet automatikusan hamis pozitívnak tekinteni minden „rossz” találatot. A másik nehézség, hogy hamis pozitívokat nagy mennyiségű keresés során van értelme csak

103 vizsgálni, hiszen annak nem nagy a jelentősége, hogy szűk 6 oldalnyi szöveg esetében nem túl sok a hamis találat. Mindezekért olyan dokumentumokkal is tesztelni kell a két algoritmust, amelyek függetlenek a Wikipédiától, és elég hosszúak ahhoz, hogy nagy valószínűséggel kijelenthessük, hogy az eredmények reprezentatívak. Ehhez a feladathoz megfelelőek szakmai cikkek, amelyekben nem szoktak Wikipédia-idézetek lenni, és így biztosak lehetünk benne, hogy a találatok (egy esetleges közös forrásból származó rövid idézeten kívül), mind hamis pozitív találatok lesznek.

Az első körben az adatbázis felépítéséhez az n-gram paraméterét, a lehető legkisebbre, n=3-ra vettük. Könnyen belátható, hogy ez adja a legtöbb találatot, mind valósat, mind hamis pozitívat. Mielőtt kipróbálnánk a 4-es paramétert, érdemes megnézni, hogy milyen eredményre jutunk a 3-assal, hiszen jól meg lehet állapítani, hogy ott milyen eredményt kapnánk. Négy egymás után szereplő szóból, amely megtalálható azonos módon a másik dokumentumban is, két 3-gram egyezés lesz, illetve egy 4-gram (átlapolódó szavas darabolást használunk). Két közvetlen egymás után szereplő 3-gram találat két dolgot jelenthet:

1. 4 egymás utáni szó azonosan szerepel a másik dokumentumban

2. ez a két 3-gram nem egymás után, hanem elszórtan szerepel, véletlen osztoznak 2 szón

Ez azt jelenti, hogy az 1 távolságra lévő 3-gramok egy jó felső becslést adnak a 4-gramos darabolás eredményére. Azaz ahány ilyen közeli 3-gram található egy dokumentumban, maximum annyi lehet ugyanebben 4-gram darabolást használva. Ezért most nézzük meg előbb a később ismertetett 3-gramos darabolás eredménye alapján a 4-gramosra kapott felső korlátot. Az aláhúzott címek a helyes találatok, a számok a zárójelben a 4-gramok maximális lehetséges számát jelölik.

1. University of Oxford (1)

2. Foreign relations of Pakistan (4) 3. Politics of Pakistan (2)

4. Pete Seeger (9) 5. Charles Seeger (4) 6. Mike Seeger (7) 7. Seeger (1)

8. Meitetsu 5000 series (2008) (1) 9. Upper 10 (9)

10. Fruktsoda (1)

11. Dr Pepper Snapple Group (1) 12. Dr Pepper/Seven Up (1) 13. Munich Philharmonic (6)

104 14. Castle Rock (Pineville, West

Virginia) (3) 15. Tumulus (1)

16. Dragon-and-Tiger Pagoda (1) 17. Golden Twenties (3)

18. GpsGate (1) 19. Wialon (10)

20. GPS tracking server (8) 21. Web accessibility (5)

A 12 szócikkből 2-t egyáltalán nem tudna így megtalálni, 2 pedig csak 1-1 n-gramban egyezik, amit a hamis pozitív találatok kiszűrése, csökkentése miatt biztos, hogy el kéne dobnunk, véletlen egyezésnek minősítve. Ez azt jelenti, hogy maximum a szócikkek kétharmadát találnánk meg 4-gramokat használva. Természetesen ez nagyon kicsi adatbázis ahhoz, hogy messzemenő következtetést tudjunk leszűrni ebből, de be lehet látni, hogy annak az esélye, hogy egy oda-vissza fordítás után 4 szó is megtartja a helyét, és valahogy egymás mellé kerülnek, elég kicsi.

Most nézzük meg a 3-gramra kapott eredményeket: ha semmit se módosítunk az algoritmuson, akkor 5 477 Wikipédia-szócikkel talál egyezést. Ha kizárjuk az 1 db n-gramot tartalmazó találatokat, akkor már csak 386-tal, de még ez is elfogadhatatlanul sok. A 3 db közös töredékkel rendelkező találatokat is kizárva 78 szócikk marad, ami nem tűnik túl soknak, de ha pl. az egyik, mindössze 15 oldalas angol nyelvű cikkemet (Pataki 2012) megadjuk ennek az algoritmusnak, akkor így is 240 Wikipédia szócikkel talál egyezést. Mivel ebben a cikkben nincs Wikipédia-idézet, ez azt jelenti, hogy ennyi hamis pozitív találatunk van. Az a legnagyobb probléma, hogy a 15 oldalas cikk 2712 töredékéből 1360-hoz talált hasonlót. Ez gyakorlatilag egy átlapolódó szavas darabolás esetén 100%-os egyezés a teljes szövegre (de ha ez mind az első felében lenne, akkor is 50%-os). Az a gond, hogy 3 jelentéssel bíró szó egymás után még nem elég egyedi ahhoz, hogy bármi egyebet meg lehetne belőle állapítani, mint hogy ugyanarról szól a két szöveg. Három szó sokkal inkább jellemzi a témát, a nyelvet, a szóösszetételeket, mint az író stílusát. Mivel láttuk, hogy a 4-es paraméter már valószínűleg alkalmatlan a találatok kimutatására, így ezeket az eredményeket kell megfelelően megszűrni, hogy kezelhető eredményt kapjunk. Ahogy a hasonlósági metrikán alapuló algoritmusnál, itt is szűrni kell a kapott találatokat, és csak a közelieket értékelni. Mivel nincs a hasonlóságnak mértéke, így csak az egyező darabok egymáshoz viszonyított helyzetére tudunk szűrni: i- j <d Ezen kívül meg tudjuk határozni, hogy minimum hány ilyen közeli darab legyen: #d_ij ³d_num Még egy további paramétert változtattunk: azt, hogy

105 hány töredéknek kell d távolságon belül lennie. E mögött az a meggondolás áll, hogy esetenként 2 töredék véletlen is egymás mellé kerülhet, de 4 vagy 5 talán már biztosabban jelzi a találatot.

Az algoritmust lefuttattuk a 12 Wikipédia-cikk magyar fordításának az angol visszafordítására (Google fordítóval), az említett 15 oldalas cikkre és, hogy legyen egy hosszabb dokumentum is, a Harry Potter első kötetére (annak is az eredeti angol verziójára) így zárva ki a gépi fordítás torzításait, és hozva ki a maximumot az algoritmusból. Induljunk ki abból a (majdnem helyes) feltevésből, hogy a 15 oldalas dokumentumban, illetve a Harry Potter első kötetében lévő találatok mind hamis pozitívak (F+), és a 12 Wikipédia-cikkből megtaláltak a valós pozitív értékek (T+):

ebből már könnyen ki tudjuk számolni a pontosság és a fedés értékét. Mivel számunkra a tényleges egyezések megtalálása fontosabb, így érdemes F2 értékét kiszámolnunk, azaz a fedés értékének kétszer akkora súlyt adunk, mint a pontosságnak.

A 15 oldalas cikk esetében a legjobb paraméterek a 4.27. táblázatban találhatóak, d+

jelöli azt, hogy d távolságon belül hány töredékkel nézünk előre, azaz azt számoljuk, hogy di után a sorban hányadik elem dj. A d+ = 5 azt jelenti, hogy minimum 6 töredéknek kell lennie d távolságon belül. A dnum/D pedig azt jelenti, hogy ilyen töredékhalmazból hánynak kell lennie egy dokumentumon belül, hogy az adott forrást kijelezzük.

F2 d+ d dnum/D T+ F+

0.78947368421053 7 120 1 9 0

0.78947368421053 7 140 1 9 0

0.78947368421053 7 160 1 9 0

0.78947368421053 7 180 1 9 0

0.78947368421053 7 200 1 9 0

0.78947368421053 7 220 1 9 0

0.78947368421053 7 240 1 9 0

0.78947368421053 7 260 1 9 0

0.78947368421053 7 280 1 9 0

0.78947368421053 7 300 1 9 0

0.77586206896552 6 80 1 9 1

0.77586206896552 5 80 1 9 1

0.77586206896552 5 100 1 9 1

0.77586206896552 6 100 1 9 1

0.77586206896552 5 120 1 9 1

0.77586206896552 6 120 1 9 1

0.77586206896552 5 140 1 9 1

0.77586206896552 6 140 1 9 1

0.77586206896552 6 160 1 9 1

0.77586206896552 5 160 1 9 1

0.77586206896552 6 180 1 9 1

106

4.27. táblázat: Lehetséges paraméterek, az F2 maximalizációjára törekedve (15 oldalas cikk)

Az érdekesség kedvéért kiszámoltuk az F4 értékét is a különböző paraméterekre. Ezt a 9.8 mellékletben lehet megtekinteni, a két eredmény gyakorlatilag megegyezik, ugyanazokat a paramétereket preferálja.

4.28. táblázat: Lehetséges paraméterek, az F2 maximalizációjára törekedve (Harry Potter)

A legjobb paraméternek mindkét esetben a d+ = 7, d = 120 illetve dnum/D = 1 bizonyult (4.27. és 4.28. táblázat). Ez annyit jelent, hogy azt az adatbázisban lévő szócikket tekintjük találatnak, amelyben: minimum 1-szer 8 töredék 120 szó távolságon belül van.

Látható módon a 140 illetve a 160 is megfelelő paraméterek lettek volna, de minél

107 kisebb d értéke annál kevesebb a hamis pozitív találatok száma, ezért döntöttünk úgy, hogy a továbbiakban a 120-ast választjuk.

Ezzel a paraméterrel az alábbi találatokat kaptuk a 12 Wikipédia-cikkre:

1. Mike Seeger (19) 10. GPS tracking server (11) 11. Politics of Pakistan (10) 12. Avidius Cassius (8) A Harry Potterre pedig az alábbi találatokat:

1. Places in Harry Potter (145)

5. Harry Potter (character) (78)

6. Harry Potter universe (57) 7. Portal:Harry Potter/Quotes (57) 8. List of fictional books (56) 9. Treacle (13)

Kimondottan jónak tűnik, hiszen megtaláltuk azokat a cikkeket, amelyek erről a könyvről szólnak, ugyanakkor érdemes megnézni a 9.9 mellékletben a részletes találati listát. Számos kisebb, lényegtelen egyezés van, mint például: „when Harry saw this”

vagy „what had happened when he”. Egyébként ezek a találatok már egész jók, hiszen ezért választottuk az adott paramétert, hogy a hamis pozitívakat minél inkább csökkentsük.

Az érdekesség kedvéért megnéztük, hogy amennyiben nagyobb fedést szeretnénk elérni, akkor milyen egyéb paraméterek jöhetnek szóba. A teljes táblázat megtalálható a 9.8 mellékletben, itt most csak a legjobb értékek szerepelnek adott fedés (T+) értékhez.

F6 d+ d dnum/D T+ F+

0.82723577235772 2 60 1 11 49

0.77405857740586 3 40 1 10 36

0.75510204081633 7 120 1 9 0

4.29. táblázat: Lehetséges paraméterek, az F6 maximalizációjára törekedve (15 oldalas cikk)

108

F6 d+ d dnum/D T+ F+

0.75356415478615 3 40 1 10 49

0.73509933774834 7 120 1 9 12

4.30. táblázat: Lehetséges paraméterek, az F6 maximalizációjára törekedve (Harry Potter)

A 4.29. és 4.30. táblázatban jól lehet látni, hogy ha több valós pozitív találatot szeretnénk visszakapni, akkor sokkal több hamis pozitív találatunk lesz. 11 valós találatot kapunk vissza, ha d+ = 2, d = 60 illetve dnum/D = 1 , viszont ez 49+185 hamis pozitív találatot ad a két másik műben, ami elfogadhatatlan. 10 valós találat esetén, d+

= 3, d = 40 illetve dnum/D = 1 paraméterekkel 36+49 hamis pozitív találatot kapunk. Az érdekesség kedvéért egy listába összegyűjtöttük ez utóbbiakat, melyek megtalálhatóak a 9.14 mellékletben. Ez a lista már nagyon hosszú, számos, még a témában se egyező találatot ad, ugyanakkor, olyan helyen, ahol van türelme a felhasználónak átnéznie egy nagyon hosszú listát, el lehet gondolkodni a használatán.

In document Algoritmusok egynyelvű és különböző nyelvek közötti fordítások és plágiumok megtalálására (Pldal 102-108)