• Nem Talált Eredményt

Mondat alapú hasonlóság- és plágiumkeresés egy nyelven belül nyelven belül

5.1. Bevezetés

Az új, a 4. fejezetben ismertetett, fordítási plágiumok megkeresésére használt algoritmust akár egynyelvű szövegek összehasonlítására is alkalmazhatjuk. Ebben az esetben a szótári azonosság, illetve a fordítási függvény helyett szinonima-, esetleg antonima-, hiponima- és hipernima-azonosságokat vezethetünk be, és ezek alapján értékelhetjük két szöveg azonosságát. A korábban bemutatott képlethez hasonlóan ezt így definiálhatjuk: szinonima használata egyértelműen elkerülhetetlen, antonimákat használni nagy mennyiségben egy szöveg átdolgozásánál hatalmas munka és valószínűleg sok tagadószó kerülne a szövegbe. A hipernimák használata sokkal egyszerűbb és kevésbé specifikussá is teszi a szöveget, például ahelyett, hogy:

Egy nagy tölgy alatt telepedtek le.

könnyen írhatjuk azt, hogy:

Egy nagy fa alatt telepedtek le.

Fordítva valószínűleg ritkábban fordul elő plágiumok esetében, azaz a hiponima használata ritkább, ugyanakkor ahhoz, hogy tudjuk, hogy melyik irányt kell alkalmaznunk, ahhoz tudnunk kéne, hogy melyik az eredeti, és melyik a másolt mű, ez viszont nem mindig van így. Egy egyetemi környezetben például nem lehetünk biztosak, hogy az eredeti mű került be hamarabb az adatbázisunkba, lehet, hogy a plagizált művet adták be hamarabb, vagy a korábbi dolgozatokat lassabban dolgozták

117 fel a könyvtárban. Hasonlóan, a Wikipédia az első számú forrása a plagizálásnak (Turnitin 2011), ugyanakkor volt már arra is példa, hogy a Wikipédiába kerültek be máshonnét átvett, lopott tartalmak. (Wikihu 2011)

Most nézzük meg négy angol szónak a lehetséges szino-, anto-, hiper-, és hiponimáit, hogy lássuk, mennyi hasonló szóról beszélünk. Ehhez a WordNet (Miller 1995) adatázist használtuk:

apple

Synonyms (2): malus pumila, orchard apple tree Antonyms (0):

Hypernyms (4): edible fruit, false fruit, pome, apple tree Hyponyms (5): crab apple, crabapple, dessert apple, eating apple, cooking apple

cold

Synonyms (12): coldness, frigidity, frigidness, low temperature, common cold, cold-blooded, inhuman, insensate, frigid, dusty, moth-eaten, stale

Antonyms (1): hot

Hypernyms (8): communicable disease, respiratory disease, respiratory disorder, respiratory illness, pressor, vasoconstrictive, vasoconstrictor, temperature perish, pop off, snuff it, break, break down, conk out, fail, give out, give way, go bad, move, run, plump, run low, run short, rifle, function, operate, work, locomote, travel, depart, go away, get going, start, sound, endure, hold out, hold up, last, live, live on, survive, fit, extend, lead, blend, blend in, belong

Antonyms (1): no-go

Hypernyms (11): duty period, shift, work shift, mdma, methylenedioxymethamphetamine, attempt, effort, endeavor, endeavour, try, board game

Hyponyms (0):

ten

Synonyms (5): ten-spot | 10 | decade | tenner | x Antonyms (0):

Hypernyms (2): large integer | spot Hyponyms (0):

Több érdekes dolgot is felfedezhetünk: először is rengeteg kifejezés van, főleg a hiper-, és hiponimák között. Ez azért érdekes, mert ha az algoritmusunk nem támogatja a

118 kifejezéseket, vagy nem kezeli azokat megfelelően, akkor ez újabb hibákat vezethet be a rendszerbe. A második, amit észre lehet venni, hogy mivel nem használtunk jelentés-egyértelműsítést, így a különböző jelentésekhez tartozó szino-, anto-, hiper-, és hiponimák keverednek, amint a go, a cold és ten szavaknál megfigyelhetjük ezt.

5.2. Hasonlósági metrikán alapuló algoritmus tesztelése azonos nyelvű szövegek összehasonlítására

Miután részletesen teszteltük az algoritmust az angol WordNet adatbázisból a szinonimák, antonimák valamint a hipernimák összességét választottuk ki a fordításbeli trans függvény helyettesítésére. Az alárendelt hiponimákat azért hagytuk ki, mert a WordNetben legtöbb esetben a hétköznapi, gyakran használt szavak alatt is vannak még specifikusabb szintek, amelyek már nem igazán értelmesek erre a felhasználásra. Az apple (alma) szóra például az alábbi hiponimákat adja: crab apple, crabapple, eating apple, dessert apple, cooking apple. Ezen belül pedig az almafajtákat. A hiponimák kihagyása helyett sokkal elegánsabb lett volna megnézni, hogy mely gyakori szavak találhatóak meg a WordNetben, ezeket összekötni (akár pár köztes viszonyt kihagyva), és egy ilyen szűk szótárból dolgozni, de erre nem volt lehetőségünk. Ez egy következő kutatás témája lehet.

Most nézzük meg, hogy az előző fejezetben használt tesztdokumentumokra miként teljesít az egynyelvű kereső.

A 15 oldalas cikk esetében az alábbi találatokat kapjuk:

1. Books LLC (1)

A blog about plagiarism from a German professor, written in English.

o A blog about plagiarism from a German professor, written in English.

(18)

2. Word-sense disambiguation (1)

In Proceedings of the 20th National Conference on Artificial Intelligence (AAAI, Pittsburgh, PA).

o Proceedings of the 13th International Conference on Artificial Intelligence. pp. 83–92. (8)

119 3. Wolfgang Wendland (1)

Google machine translation

o Machine translation was done with Google Translate API. (8) 4. Tepper Aviation (1)

Machine translation by Google.

o Machine translation was done with Google Translate API. (8)

A rendszer láthatólag jól működött, és megtalálta azt az egy mondatot, ami az irodalomjegyzékben található Weber-Wulff Copy, Shake, and Paste blogjának (CSPblog) jellemzésére. Egy időben ez volt a blog alcíme, ami mára már kicsit megváltozott: „A blog about plagiarism and scientific misconduct”. A Google 2,570 találatot ad erre az egy mondatra, hiszen a Wikipédián és a fenti cikken kívül is számos szerző így hivatkozik a blogra, ez az egy mondat tömören összefoglalta a blog lényegét.

A többi egyezés láthatólag hasonlóság, de viszonylag lényegtelen mondatok esetében. A mögé írt számból látszik, hogy ezek épp a minimumot, 8 hasonlósági pontot, kaptak – pont elérték Sim2 szintjét – míg az első, a tényleges átvétel, 18 pontot kapott.

12 Wikipédia cikk magyar fordításának Google Translate fordítóval történt angol