• Nem Talált Eredményt

Az algoritmus implementálása és használata a gyakorlatban gyakorlatban

6.1. Bevezetés

A fentebb ismertetett fordítási plágiumok keresésére irányuló kutatásnak az volt a célja, hogy kiderítsük, lehetséges-e, és ha igen, milyen hatásfokkal, angol és magyar nyelvek között fordítási plágiumokat felismerni. Mivel az eredmények nagyon bíztatóak, és az algoritmus a gyakorlatban is használhatónak bizonyult, lehetővé vált, hogy beépítésre kerüljön a SZTAKI KOPI Plágiumkeresőbe is. 2011. év végén a világon elsőként nyújtott fordítási plágiumkereső szolgáltatást a KOPI Portál.

6.2. A felhasználói felület

A KOPI Plágiumkeresőt elsősorban a hazai felsőoktatásban is elharapódzott plagizálás visszaszorítása fejlesztettük ki, de a házi feladatok és diplomadolgozatok, cikkek összehasonlításán felül még sok egyéb célra is alkalmas a rendszer. Oktatók számára lehetőséget biztosít a Rendszer a házidolgozatok és diplomák összehasonlítására, akár a korábbi évek hasonló műveivel, akár a KOPI adatbázisával és a Wikipédia teljes szövegével is. Diákok ellenőrizhetik a művüket, megnézhetik, hogy az összes idézet mennyisége nem haladta-e meg az oktatási intézményben megengedettet. Diplomájukat ők maguk feltölthetik, hogy másolás esetén látható legyen az eredeti szerző. Szerzők feltölthetik az eredeti művüket a KOPI portálba, és utána szabadon publikálhatják, közzétehetik, árulhatják. A KOPI védi a szerzői jogokat, ha valaki idéz a műből, akkor pillanatok alatt megtalálható az eredeti forrás. Bírálók használhatják a Plágiumkeresőt arra, hogy a szerző korábbi műveivel és a forrásként megjelölt cikkekkel összehasonlítsák a beadott cikket, így kiszűrhetőek a nem jelölt idézetek, és az önplagizálás – egy cikk, gondolat többszöri eladása – is. Konferenciaszervezőknek segít a cikkek minél egyedibbé, értékesebbé tételében, és a hasonló témájú cikkek, szerzők megtalálásában. A SZTAKI KOPI plágiumkereső szolgáltatása a http://kopi.sztaki.hu címen érhető el.

122 6.2.1. Dokumentum feltöltése

A plágiumkeresés öt fő lépésből áll, melyet a felhasználói felület is tükröz. A felhasználónak először fel kell töltenie azt a dokumentumot, amelyet össze szeretne hasonlítani más forrásokkal. A rendszer jelenleg html, doc, docx, rtf, txt és pdf formátumú dokumentumokat kezel. Érdemes kitölteni a dokumentum címét és szerzőjét, hogy pontosan lehessen látni a keresés eredményénél, hogy ugyanaz a dokumentum szerepel kétszer a rendszerben, vagy tényleges egyezésről van szó.

6.1. ábra: Dokumentum feltöltése

6.2.2. Dokumentum(ok) kiválasztása

A feltöltés után ki kell választani egy dokumentumot (6.2. ábra), amelyet az adatbázissal, vagy több dokumentumot, amelyeket egymással szeretnénk összehasonlítani.

6.2. ábra: Feltöltött dokumentum

Amennyiben a dokumentum melletti jelölőnégyzet helyén egy kis ikon van, akkor nem választható ki, és nem indítható vele keresés. A kis háromszög ( ) jelentése, hogy a dokumentumot a rendszer nem tudta értelmezni, nem tudta konvertálni, és ezért nem használható plágiumkeresésre. Ilyenkor érdemes a dokumentumot más formátumban feltölteni. A kis óra ( ) jelentése, hogy a dokumentum feldolgozás alatt van, ez általában pár perc alatt megtörténik, de ha nagyon le van terhelve a rendszer, akkor elképzelhető, hogy egy órát is várni kell rá.

123 6.2.3. Keresési lehetőségek kiválasztása

Attól függően jelennek meg a választható keresési lehetőségek (6.3. ábra), hogy hány dokumentumot választottunk ki. Egy dokumentum esetén azt összehasonlíthatjuk a KOPI adatbázisával (minden felhasználó dokumentumával), ez jelenleg körülbelül 35 000 dokumentumot jelent. Ugyancsak lehetőségünk van a dokumentumot összehasonlítani az angol vagy magyar Wikipédiával, melyek a 4. és 5. fejezetekben ismertettet algoritmusokkal való keresést jelentik. Amennyiben több dokumentumot választottunk ki, akkor azokat egymással is összehasonlíthatjuk – ez a funkció alkalmas egy dolgozatban található szakirodalmak mennyiségének megállapítására vagy hasonló témában íródott dokumentumok összehasonlítására is.

6.3. ábra: Plágiumkeresési lehetőségek

Miután kiválasztottuk a megfelelő keresést, például a magyar Wikipédiát, elindíthatjuk a plágiumkeresést. Erről a rendszer egy kis üzenetben tájékoztat minket.

6.4. ábra: Plágiumkeresés fut

A keresés eredménye

A kereséseket a kereső beérkezési sorrendben dolgozza fel. A rendszer leterheltségétől függően az eredmény pár perc vagy pár óra múlva jelenik meg az üzenetek között, és ha a felhasználó nem tiltotta le, akkor az eredményről egy email üzenetet is kap.

124 6.5. ábra: A plágiumkeresés eredménye, magyar-magyar keresés

A Wikipédiával történő összehasonlításkor az üzenet tartalmazza a Wikipédia szócikk nevét, a szócikkben talált mondatokat, valamint azokat a mondatokat, amelyekhez a dokumentumon belül hasonlított (lásd 6.5. és 6.6. ábra). Ez történhet egy nyelven is, mint a 6.5. ábrán látható, de lehet a cikk magyar nyelvű és a dokumentum angol nyelvű, vagy fordítva.

6.6. ábra: A plágiumkeresés eredménye, magyar-angol keresés

125 Fontos kiemelni, hogy ezeket a rendszereket plágiumkeresőnek hívjuk, de tulajdonképpen hasonlóságot keres, azaz nem különbözteti meg az idézetet a plágiumtól, ennek eldöntését mindig a felhasználóra bízza.

6.3. Az algoritmus implementálásának tapasztalatai

Az új fordítási plágiumkereső 2011 decemberi integrálása után két hónappal derül ki, hogy Schmitt Pál plagizálta doktori disszertációját. Ez nagyban megnövelte a felhasználóink számát, és elősegítette a közvélemény felhívását erre az igen fontos problémára. A jelenlegi statisztikák alapján körülbelül havi 1 500 plágiumkeresést végez a rendszer: 57%-ban a rendszerbe feltöltött dokumentumokhoz viszonyítanak egy másikat a felhasználók, 17%-ban dokumentumokat egymáshoz és a maradék 26 százalékban használják a fordítási plágiumkeresőt. Ez utóbbi jelenleg az angol és a magyar Wikipédiát takarja, amelyhez magyar, angol és német nyelvű szövegeket hasonlíthatnak.

Az algoritmus kialakítása egy évet vett igénybe. A visszajelzések alapján jól működik, jobban használható, és kevesebb panasz érkezik rá, mint az egynyelvű keresésre. Ennek az is az oka, hogy képes megjeleníteni az egyező részek szövegét.

126