• Nem Talált Eredményt

A gépi fordítás típusai 1 Direkt rendszerek

Gépi fordítás

2. A gépi fordítás típusai 1 Direkt rendszerek

Boitet et al. szerint a gépi fordítást a kutatások különböző korszakaiban különbözőféle-képpen csoportosították. Először a ’70-es években a gépi fordítási módszereket a fordí-tás előbb említett három részfolyamatában felhasznált technológia alapján generációkba sorolták (Boitet et al. 2009). Kezdetben, a második világháború utáni időszakban a ku-tatók – főként a számítástudomány művelői – a mesterséges intelligencia iránti hatalmas lelkesedéssel és naivitással vetették bele magukat a gépi fordításba. A kriptográfia terü-letét felhasználva az első rendszerek az úgynevezett direkt rendszerekvoltak, amelyek-ben a dekódolás és a kódolás folyamata helyett egyszerű szótári behelyettesítést használtak.

A transzkódolás folyamata kimaradt. Ez a módszer ebben a formában természetesen nem volt sikeres, de a fejlesztésekben és kutatásokban ekkor a nyelvészet szerepét jelentékte-lennek tartották, és így nyelvészeket nem is hívtak segítségül. Ekkor az elméletek a for-mális nyelvekről még nem jelentek meg, a nyelvészek pedig lehetetlennek tartották, hogy a nyelvet annyira szigorúan és formálisan le tudják írni, hogy a számítógép ebből jó fordítást készíthessen, a számítástudomány kutatói pedig nem rendelkeztek megfelelő nyelvészeti ismeretekkel (Somers 2000). Nem csodálkozhatunk ezek után, hogy az 1966-os

ALPAC-jelentésben a gépi fordítást elmarasztalták, és bár kísérletezésre érdemesnek tartották, nem fűztek nagy reményeket a hasznosságához a közeljövőben. Ezt a véleményt a tapasztalatok már megcáfolták, hiszen például a jól ismert METEO időjárásjelentése -ket fordító program már 1977-től működik Kanadában (Thouin 1981). Sőt a gépi fordí-tást bizonyos nyelvpároknál a gyakorlatban is jól használják (utószerkesztéssel).

2.2 Indirekt módszerek

Bár a gépi fordítás kutatása ekkor a finanszírozás hiánya miatt Amerikában és Ang-liában nagymértékben megtorpant, Európa többi részén azért folytatódtak a kutatá-sok. Csak az 1960-as években ajánlotta először Y. Yngve (Boitet 1988), hogy a direkt megközelítés helyett a folyamatot három részfolyamatra kellene bontani: egynyelvű analízis, kétnyelvű transzfer és egynyelvű szintézis, amely megfelel a fordítás három részfolyamatának. Az analízis után kapott reprezentáció egy köztes reprezentáció le-gyen, és ne a célnyelvre támaszkodjon. Ez a módszer a transzfer megközelítés.

Bar-Hillel 1951-ben ajánlotta, hogy egy közvetítő nyelvet használjanak a köztes reprezentációhoz, például az eszperantót (Bar-Hillel 1951), vagy egy absztrakt köz-vetítő nyelvet, amelyről azután bármilyen más nyelvre végrehajtható a szintézis fo-lyamata. Schubert is az eszperantót ajánlja erre a célra (Schubert 1992: 79). Ezt a meg-közelítést hívják interlingua módszernek, és bár a népszerűsége a ’80-as, ’90-es években volt a legnagyobb, még ma is folynak kísérletek (például Dave et al. 2001).

A transzfer és az interlingua módszer a gépi fordítórendszerek második generációja, és ezek gyűjtőnéven indirekt rendszereknekis nevezhetők.

Ezeket a megközelítéseket láthatjuk a következő ábrán (1. ábra),amelyet Vauquois vezetett be 1976-ban a gépi fordítás lépéseinek illusztrálására (Vauquois 1976: 131).

1. ábra:A gépi fordítás első és második generációja

2.3 Tudásalapú rendszerek

A gépi fordítórendszerek harmadik generációját azok a rendszerek alkotják, amelyek valamilyen formában tudást tartalmaznak a világról, ilyenek a tudásalapú rendsze-rek(Knowledge-Based Machine Translation). Ezek a rendszerek egyáltalán nem ter-jedtek el.

2000-től kezdve a hangsúly átkerült a két fő irányvonalra, a szabályalapú(RBMT, Rule-Based Machine Translation) és a statisztikaimegközelítésre (SBMT/SMT, Sta-tistics-Based Machine Translation vagy Statistical Machine Translation). Az 1980-as években előtérbe kerültek a korpuszalapú módszerek a kutatásban, amelyek két fő irányvonala a statisztikaigépi fordítás (SMT) és a példaalapúgépi fordítás (EBMT, Example Based Machine Translation). A statisztikai és a példaalapú rendszerek is két-nyelvű párhuzamos korpuszt használnak.

A statisztikai rendszerek alapvetően a következő modellt használják (Hutchins 2005b): a mondatonként és szavanként is illesztett párhuzamos korpuszból fordítási modellt (a forrásnyelvi és célnyelvi gyakoriságokra) és nyelvi modellt (a célnyelvi szó-szekvenciák valószínűségei alapján) készítenek, majd minden bemenő szóra a legva-lószínűbb célnyelvi szót választják, és meghatározzák ezekre a szavakra a legvalegva-lószínűbb sorrendet. A fordítás alapegysége a szó. A fordítási modell azokat a valószínűségeket határozza meg, hogy egy célnyelvi elemnek mi a forrásnyelvi megfelelője. A nyelvi mo-dell pedig azt, hogy a szavak egy adott sorozata mekkora valószínűséggel elfogadható sorozat egy adott célnyelven.

A példaalapúrendszerek hasonlóképpen működnek (Hutchins 2005b), de a for-dítási egység itt a szószerkezet (phrase). Az analízis fázisában a bemenő mondatot fel-bontja megfelelő részekre, ezeket pedig hozzáilleszti a megfelelő forrásnyelvi részek-hez az adatbázisban. Ezek a forrásnyelvi részek a minták, amelyek tartalmazhatnak változókat. A rendszer szintézis-előkészítő fázisában a forrásnyelvi részeket a célnyelvi részekhez illeszti az adatbázisban, valamint származtatja a mintákat/sablonokat (temp-late). A szintézis folyamatában a kinyert célnyelvi részeket átalakítja és összekombinálja, hogy létrehozza a kimenő mondatot. A példaalapú rendszerek több módszert, technikát is integrálhatnak különböző egyéb megközelítésekből (szabályalapú, statisztikai, for-dítómemóriák). Bármelyik rendszer ötvözheti a különböző módszereket.

A szabályalapú rendszerek nyelvi szabályok, nyelvtanok segítségével elemzik a forrásszöveget, majd ezek alapján generálják a célszöveget. A rendszerek természe-tesen szótárakat is használnak. A fordítás folyamatában a szabályok használatával lét-rehoznak egy köztes reprezentációt, majd ebből a célnyelvi szöveget.

2.4 A MetaMorpho fordítórendszer

Angol–magyar vonatkozásban a MetaMorpho (www.webforditas.hu) mintaalapú rendszer (pattern-based system) (Prószéky és Tihanyi 2002) a legjobb minőségű for-dítórendszer. Ez a mintaalapú rendszer az optimumot próbálja megtalálni a példaalapú és a szabályalapú rendszerek közötti átmenetben. A rendszer „tudását” minták al-kotják, amelyek tulajdonságokkal rendelkeznek. Ha a tulajdonságoknak konkrét ér-téke van, akkor a mintákat példáknak nevezzük, ha pedig a tulajdonságok érér-tékei nem

„kitöltöttek”, akkor ezek a minták szabályok. Az általánosított minták azok a minták,

amelyekben néhány tulajdonság meghatározott. A példákat szótárakból, korpuszokból, kollokációs adatbázisokból generálják, a szabályokat pedig kézzel készítik. Minden for-rásnyelvi mintához tartozik egy célnyelvi minta. Ezeket a fordítás folyamatában páro-sítja a rendszer. Előfordulhat, hogy egy célnyelvi egység több mintához is illeszkedik.

Ekkor a specifikusabb minták felülírják az általánosabbakat, tehát a rendszer azt a for-rásnyelvi mintát választja, amelyben a tulajdonságok értéke jobban kitöltött.

A fordítás folyamatakor (2. ábra)az analízis fázisa után azonnal szintézis követ-kezik a másik nyelven – létrejön a célnyelvi fa –, tehát a transzfer folyamata kimarad.

A célnyelvi fából pedig azonnal elkészül a célnyelvi mondat. Az analízis három fázisa:

1. Mondatok tokenizálása szavakra, valamint morfológiai elemzés.

2. A bemenő mondat szintaktikai elemzése alulról felfele működő elemzővel, amely létrehozza a célnyelvi fát terminális és nemterminális szimbólumokkal. Ha a mon-dat helyes, akkor az elemző egy vagy több gyökérszibólumot hoz létre.

3. Felépül a célnyelvi fa, majd a fa levelein levő terminális szimbólumokból a mor-fológiai generátor létrehozza a kimenő mondatot. A terminális szimbólumok halmaza egy véges halmaz, amely azokat az elemeket tartalmazza, amelyekből a nyelv mondatai felépülnek (Prószéky és Kis 1999: 115).

A fordítás folyamatában nincs szükség transzferre a forrásnyelvi reprezentációból a cél-nyelvi reprezentációba, valamint köztes nyelvre sincs szükség.

2. ábra: A MetaMorpho fordítási folyamata

A rendszer unifikációs nyelvtant használ, a tokenizálást követő morfológiai elemzést pedig a HUMOR morfológiai elemző végzi (Prószéky 1994). A MetaMorpho kipró-bálható korlátozott méretű szövegek és teljes weblapok fordítására: http://www.web forditas.hu.