• Nem Talált Eredményt

Lindsay Bywood, Panayota Georgakopoulou és Th ierry Etchegoyhen

4. A SUMATPROJEKT

Már korábban fény derült rá, hogy a  feliratozás területén a  fordítói termelékenység növekedését jelentősen elősegíthetné a statisztikai gépi fordítás (statistical machine translation, SMT) technológiájának bevezetése (Castilho Monteiro de Sousa, Aziz és Specia 2011; Hardmeier és Volk 2009; Volk 2008). Részben azért, mert a feliratok ide-ális SMT-oktatóanyagok rövidségük és nyelvtani elkülönülésük miatt (Volk 2008: 7).

A sablonok használata már több mint egy évtizede teszi lehetővé, hogy a feliratkészítő

cégek továbbra is egyre nagyobb mennyiségben és szakszerűen állítsák elő a jó minő-ségű feliratokból álló párhuzamos korpuszokat (Volk 2008: 7). Ezek az adatbázisok az MT kutatói számára nagyon fontosak, azonban nehéz hozzájuk férni, ugyanis a hiva-talos feliratokból álló hatalmas archívumok legnagyobb része a feliratkészítő cégek és ügyfeleik tulajdonában van.

A SUMAT-projekt a fent említett helyzet megoldásához nagyobb feliratozó cégeket hívott meg, hogy csatlakozzanak a projektkonzorciumhoz. Az EU által fi nanszírozott projekt három évig tartott, négy feliratkészítő cég és öt műszaki partner együttmű-ködésével. A feliratozó cégeket a Deluxe Media Europe8, a Voice & Script Internatio-nal9, az InVision Ondertiteling10 és a Titelbild Subtitling and Translation11 képviselte, amelyek közül kettő a világ több pontján is irodákkal rendelkező, nagy multinacionális feliratkészítő vállalat, a  másik kettő pedig helyi piacuk viszonylatában szintén vezetőnek számít a feliratkészítő iparágon belül. Az említett négy cég vállalta magára az adatszolgáltatói és rendszerelemzői szerepet a  projekten belül. Az öt műszaki partner: az iparág számára készülő gépi fordítási megoldásokra szakosodott CAPITA TI12 és TextShuttle13; két kutatóközpont, az ATC14 és a Vicomtech-IK415; valamint a Ma-ribori Egyetem16.

A projekt 2014 elején ért véget, és magában foglalta a hivatásos fordítók által ké-szített, feliratnak szánt SMT-megoldások eddigi legrészletesebb értékelését. A  pro-jekt során összesen hét nyelvpárban (angolról németre, franciára, spanyolra, svédre, portugálra, hollandra és vissza, valamint szerbről szlovénre és vissza) több mint hét-millió párhuzamos feliratot, ezenkívül 15 hét-millió egynyelvű feliratot gyűjtöttek össze a feliratkészítő cégek archívumaiból, illetve készítettek elő a kutatók az MT-rendszerek fejlesztéséhez. A  kutatás résztvevői megépítették a  szükséges SMT-motorokat is, a rendszereket pedig módszeresen fi nomították a visszatérő hibák javítására alkalma-zott változatos technikákkal. Nagy számban használtak továbbá szabadon elérhető, amatőr és professzionális minőségű korpuszokat is (összesen körülbelül 110 millió ösz-szefüggő szegmenst) a rendszerek bővítése céljából, valamint számos próbát végeztek a projekt során összegyűjtött, szakemberek által készített és az említett szabadon elér-hető feliratok ötvözésével.17 A különböző kombinációk eredményeként született meg-oldásokat minőségi szempontból összehasonlították, és a végső értékeléshez a legjobb rendszereket választották ki (Etchegoyhen, Fishel, Jiang és Sepesy Maučec 2013).

A projekt közel egy évet szentelt a részletes értékeléseknek, bevonva az automati-zált mérések mellett a konzorciumban részt vevő professzionális cégek képzett felira-tozóit is.18 A projekt végére a feliratozók körülbelül 65.000 feliratot utószerkesztettek két értékelési szakasz során. Az első szakaszban számos értékelési módszer szerepet kapott az utószerkesztésen kívül, az utószerkesztők például egyenként értékelték a fel-iratok minőségét egy 1-től 5-ig terjedő skálán, a visszatérő hibákat a megadott taxo-nómia alapján jelölve, illetve minőségi információt nyújtva nyitott kérdésekre adott válaszok formájában a feliratkészítők folyamatra vonatkozó észrevételeiről. A projekt második értékelési szakasza azt vizsgálta, milyen hatással van a gépi fordítás haszná-lata a feliratozók termelékenységének növekedésére az utószerkesztési idő összefüggé-sében. Két utószerkesztési helyzetet fi gyeltünk meg: az egyik az összes MT-kimenetet

tartalmazta, a  másik viszont automatizált minőségbecslés alkalmazásával szelektálta a  találatokat. A  második szakaszban is használtunk kérdőíveket, amelyeken azt kér-tük a feliratozóktól, hogy osszák meg észrevételeiket az utószerkesztési tapasztalataik-ról erőfeszítés és hatékonyság tekintetében. Mindkét értékelési szakaszban arra kértük őket, hogy a megszokott minőségi színvonalukhoz mérten utószerkesszék a feliratokat annak érdekében, hogy a keletkező fájlok ugyanolyan minőségűek legyenek, mint a hi-vatásos feliratozók által, gépi fordítás használata nélkül készített feliratfájlok.

A feliratkészítők az első szakaszban azt a  feladatot kapták, hogy értékeljék mind a  27.565 gépi fordítással előállított feliratot, és szükség esetén utószerkesszék őket a szakmai minőségi követelmények alapján. Az osztályozást egy 1-től 5-ig terjedő skála segítségével végezték el az adott felirathoz szükséges utószerkesztés mértékének megfe-lelően. 1-es értékelést a leggyengébb minőségű, érthetetlen és teljesen új fordítást igény-lő, MT által készített feliratok, 5-öst pedig a legjobb minőségű, szerkesztést alig vagy egyáltalán nem is igénylő feliratok kaptak. A köztes értékelések közül 2-essel azt jelölték, ha a publikálási színvonal eléréséhez jelentős szerkesztési beavatkozás volt szükséges, 4-essel pedig a többnyire világos, érthető és csupán apróbb szerkesztést igénylő felirato-kat látták el. A számos hibát és félrefordítást tartalmazó feliratok 3-as értékelést kaptak.

Az MT-megoldások minőségi értékelésének főbb eredményei az 1. ábrán láthatók, valamint leolvasható az összes nyelvpárban előforduló, különböző osztályozási kategó-riákba tartozó feliratok százalékos eloszlása is.19

1. ábra. Globális minősítési átlagok

Összességében véve a  feliratkészítők az osztályozandó feliratok 56,79%-át 4-es vagy 5-ös minőségűre értékelték, azaz szinte alig vagy egyáltalán nem volt szükség utószer-kesztésre ahhoz, hogy a feliratok elérjék a közzétételhez szükséges színvonalat.

Az MT fordítóiparba történő integrációjának sikerességét elsősorban természete-sen az határozza meg, vajon a gépi fordítás ténylegetermészete-sen javít-e a termelékenységen és a hatékonyságon.

A projekt értékelésének második szakaszában a termelékenység megítéléséről szóló kísérletek kerültek a középpontba. 19 feliratkészítő vett részt a kísérletben, és összesen 37.104 feliratot utószerkesztettek. A vizsgálatok azokra a nyelvpárokra összpontosítot-tak, amelyek kereskedelmi szempontból érdekesebbek lehetnek, azaz üzleti értelem-ben véve a gyakrabban előforduló nyelvpárokat választottuk ki (az angolt tartalmazó összes nyelvpárt, valamint a franciáról, a németről és a spanyolról angolra történő köz-vetítéseket). Emellett bekerült az elemzésekbe a szerb–szlovén nyelvpár is, hogy a pro-jekt alulfi nanszírozott nyelvei is megfelelő fi gyelmet kapjanak. Minden nyelvpárra két szakértő jutott, akik fejenként összesen hat-hat feliratfájlt értékeltek.20 A feliratkészítő-ket három különböző feladat végrehajtására kértük: (a) fordítsanak le két fájlt közvetle-nül a sablonból, hogy viszonyítási alapul szolgálhassanak; (b) utószerkesszenek két fájlt, amelyek esetében minden felirathoz vannak MT-megoldások; (c) utószerkesszenek két szűrt fájlt, amelyek minőségbecslésen21 estek át az adott minőségi küszöbértéket el nem érő gépi feliratok kiválogatására. Ennek megfelelően végezzék az utószerkesztés (a minimális minőségi küszöbértéket meghaladó MT-feliratokon) és a teljes újrafordí-tás (a minimális minőségi küszöbértéket el nem érő, ezáltal a fájlok szűrése során tö-rölt gépi fordítású feliratokon) kombinációját. A feliratkészítőket arra kérték, rögzítsék Toggllel – egy ingyenesen elérhető, könnyen használható időmérő alkalmazással –, mennyi ideig tartott nekik az egyes feladatok teljesítése.22

A projekt második értékelési szakaszában kapott globális termelékenységi eredmé-nyek a 2. ábrán láthatók minden vizsgált nyelvpárban. A termelékenység növekedését/

csökkenését a feliratkészítő gyorsaságának növekedési/csökkenési százalékával fejez-tük ki. Mindezt pedig a  második és a  harmadik feladatban szereplő fájlok utószer-kesztése során vizsgáltuk, összehasonlítva azzal, hogy a feliratozó milyen gyorsasággal fordította le a viszonyítási alapként szolgáló fájlt közvetlenül a sablonból.23

A kísérleteink során vizsgált összes nyelvpárban (beleértve a szűrt és a szűretlen fáj-lokat) elért átlagos termelékenységi növekedés 39,90%-ra tehető. Ez lényegesen maga-sabb érték, mint a SUMAT-projekt megkezdésekor célként kitűzött 25%. Ezenkívül az átlagos termelékenységi növekedés külön a szűretlen fájlok esetében 33,12%, a szűrt fájlok tekintetében pedig 46,68% volt. Ez az eredmény jelentős, 40,92%-os növekedést mutat a szűretlen fájlok és a szűrtek között. A 3. ábra az értékelés második szakaszá-ban elért globális termelékenységi eredményeket foglalja össze.

2. ábra. Átlagos termelékenységnövekedési eredmények nyelvpárokra bontva

3. ábra. Globális termelékenységi eredmények