• Nem Talált Eredményt

Eötvös József Collegium kovacsgyorgyi0528@gmail.com

A számítógépes nyelvészet, és ezen belül a gépi fordítás interdisz-ciplína, a nyelvészetet, az informatikát és a matematikát köti össze.

Ha a szöveget nemcsak tárolni és megjeleníteni kell, hanem fel kell ismerni a benne lévő nyelvi szerkezeteket is, belépnek a nyelvtechnoló-gia eszközei [1]:171–173. A gépi fordítást három részre szokás osztani.

Az első a teljesen automatizált gépi fordítás, amivel a továbbiakban foglalkozni szeretnék. A második a géppel támogatott fordítás, ami két különböző rendszert foglal magában: az ember által támogatott gépi fordítást, amikor az ember és a gép interaktív kapcsolatban vannak a fordítás során, és a gép által támogatott emberi fordítás, amikor egy számítógépes rendszer van az ember segítségére a fordítás során, és nem egy szótár. Az utolsót alkotják a terminológiai adatbankok, melyek egy adott szakterület szókincsét tartalmazzák [2]:401.

Valódi gépi fordítás alatt (machine translation) azt értjük, hogy a számítógépes program a forrásszöveg mondatait tulajdonképpen felügyelet nélkül, a felhasználói interakció kihagyásával fordítja a célnyelvre” [4]:277.

A gépi fordítás ma egyik élő nyelvről fordít mondatokat egy másik élő nyelvre egy program segítségével, a szöveg hosszúságától függően több vagy kevesebb idő szükséges hozzá, de mindenképpen az emberi fordításhoz képest ez elenyészően kevés.

A gépi fordítás eredménye azonban nem tökéletes, szükséges, hogy egy ember is átnézze és kijavítsa utána a szöveget, ami viszont sok időt igényel. Ennek oka, hogy az emberi fordítás mögött ott van a nyelvhez a nyelvi elemek jelentése útján kapcsolódó kognitív háttér.

2009–

Ezért nem is alkalmas irodalmi szövegek fordítására, mert az sok kulturális háttérismeretet igényel, szakmai szövegeket, melyek jóval kötöttebbek, könnyebben és kevesebb hibával fordít [4]:277–278. A gépi fordító rendszerek jelentették eleinte az egyetlen nyelvészeti szoftvert, később pedig a nyelvészeti szoftverek legspeciálisabbjává váltak, hiszen rengeteg bonyolult elemző és generáló részrendszert tartalmaznak [2]:401.

Különösen a gyorsan fejlődő tudományágak, például az informatika terén szokás, hogy egy újonnan megjelent szakirodalmat fordítóprogrammal fordítanak le, és ezt emberek igazítják ki fejezetekre leosztva, mert önmagában, gép nélkül az emberi fordítás túlságosan lassú lenne.

1. A fordítóprogramok története

A gépi fordítás születését a második világháború utáni időszaktól számítjuk, ekkor jelentek meg a végrehajtására ténylegesen is alkalmas szerkezetek, a számítógépek. Ekkor lehetségesnek tartották a háborúbeli kódmegfejtő programok továbbfejlesztésével a gépi fordítást, ez az elkép-zelés Weaver nevéhez kötődik, a géppel való fordítást is dekódolásnak fogta fel. Ez az első gépi fordítási időszak (körülbelül 1946 és 1954 között), amit mai értelemben nem is nevezhetünk fordításnak, inkább csak többnyelvű szótárban való keresésnek [3].

Ezt váltotta fel az úgynevezett

”optimista” korszak, ez már alkalmazta olykor a szerkezeti megfelelést. 1954-ben az amerikai Georgetown Egyetemen bemutatták az első gépi fordítást, a rendszer egyszerű orosz mondatokat fordított angolra 6 szabály és egy 250 szavas szótár segítségével. Célja annak bizonyítása volt, hogy a gépi fordítás lehetséges, az alapelvei világosak, csak technikai jellegű munkára van szükség a jó minőségű fordítások előállításához. Ebben az időszakban az Egyesült Államokban 17 különböző intézmény összesen 20 millió dollárt költött ennek a kutatására, a várakozásokkal ellentétben azonban nem került sor ugrásszerű fejlődésre [3].

1964-ben létrejött az ALPAC, az amerikai nyelvfeldolgozás tanácsadó bizottsága, aminek 1966-os jelentése szerint a gépi fordítás lassabb és pontatlanabb az emberi fordításnál, de legalább még egyszer annyiba kerül, ezért nem javasolják az ez irányú kutatások további támogatását.

Ebben az időben a fordítóprogramok stratégiája a közvetlen fordítás volt [3].

Az ALPAC jelentése ellenére a kutatás tovább folytatódott, és egyre

jobb minőségű, a gyakorlatban is alkalmazható rendszerek születtek, közülük az egyik legjelentősebb a SYSTRAN. Az 1960-as években megjelentek a közvetítőnyelvre épülő első rendszerek, majd annak a hibáit próbálták kiküszöbölni a transzfer alapú rendszerek, ilyen például a TAUM. A gépi fordítás egyre népszerűbb lett, amit az is bizonyít, hogy a közvetlen fordítást alkalmazó SYSTRAN átállt a transzfer alapú módszerre, így más nyelveket is be tudott vonni a fordító hálózatba.

Megjelentek az úgynevezett résznyelvek, azaz a korlátozott szintaxisú és szemantikájú nyelvrészletek [3].

A 80-as évek elején kezdődött az EUROTRA-projekt, az Európai Közösség országainak nyelvei között tetszőleges fordítást biztosító, transzfer alapú rendszer kidolgozása, melyhez felhasználták a szemantika és a mesterséges intelligencia kutatásának legújabb eredményeit. Az EU nem látta elég sikeresnek az EUROTRA-t, és leállt a támogatásával, ezért nem fejeződtek be a munkálatok [3]. 1984-ben összesen félmillió oldalt fordítottak le számítógépes rendszerek segítségével [2]:407.

2. A fordítóprogramok osztályozása

Megkülönböztetünk produktív és minta-alapú fordítóprogramokat.

A produktív fordítóprogram maga szintetizálja a célnyelvi mondatot, a minta-alapú fordítóprogram kikeresi a forrásnyelv mondatai közül a leghasonlóbbat, és annak tárolt fordítását adja elő, minimális módosítással. Ma minden kereskedelemben kapható fordítórendszer produktív [4]:278–279.

Az átváltási művelet absztrakciós szintje szerint háromféle produktív fordítási technikát különböztetünk meg:

• közvetlen (direct),

• közvetítőnyelves (interlingual),

• transzfer (transfer).

A közvetlen fordítás kizárólag a forrásnyelv és a célnyelv egyedi tulajdonságaira épül. A szintaktikai elemzés az azonos alakú szavak azonosítására szolgált. Szemantika a mai értelemben nem is volt a rendszerben, csak néhány szemantikai jellegű jegy a már formalizált mondatokban [3].

A közvetítőnyelves modell a hatvanas évek terméke. Itt a forrásnyelvi szöveg analízise és a célnyelvi szöveg szintézise teljesen elválik egymástól, a rendszer a forrásnyelvi szöveget úgynevezett közvetítő nyelvre fordítja le, és a közvetítő nyelvből állítja elő a célnyelvi szöveget. Az elemző és generáló komponensek függetlenek egymástól, a rendszer külön forrásnyelvi és célnyelvi forrásokat tartalmaz, ennek a modellnek az a célja, hogy további nyelveket a meglevő stratégiák módosítása nélkül lehessen a rendszerbe kapcsolni. A közvetítőnyelv elsősorban szintaktikai szerkezet, szemantikai elemek beépítésére csak kevés példa volt. A szintaktikai szerkezet azonban gyakran többértelmű, ezért könnyen fordíthatott mellé. Az analizáló folyamat bármely szintjén végrehajtott rossz alternatívválasztás pedig kihatott az összes további szintre [3].

A transzfer stratégiában a forrásnyelv és a célnyelv önálló, egymástól független mélyszerkezeti reprezentációkkal rendelkezik, ezért a fordítás három lépésből áll:

• analízis,

• transzfer,

• szintézis.

A szintaktikai elemzés itt nem olyan mély, mint a közvetítőnyelves fordítások esetében, hisz az ott tárolandó információk egy részét a transzfer fázis viszi a rendszerbe [3].

A gépi fordítórendszereket másképpen is lehet osztályozni, meg-különböztethetünk szabály-alapú és statisztika-alapú rendszereket. A szabály-alapú rendszerek jellemzése:

”a számítógép programjába olyan szabályokat írnak, amelyek az ember nyelvi vagy nyelvészeti tudását tükrözik, leképezve a számítógép programozási nyelveinek lehetőségeire.”

”Ekkor a számítógépes nyelvész a saját nyelvérzéke vagy nyelvészeti tudása – megfelelő forrásmunkák – alapján fogalmazza meg a szabályo-kat. A szabályok gépi megfogalmazása általában többé-kevésbé megfelel valamelyik matematikai nyelvmodellnek.” Előzetes hipotézist tartalmaz arról, milyen szerkezetek lehetnek a szövegben [1]:174. A szabály-alapú rendszerek az esetek kisebb részét kezelik, azokat viszont hibátlanul (kis fedés, nagy pontosság – (low recall, high precision) [3]. A statisztika-alapú rendszerek esetében a számítógépes nyelvész nem ad előzetes tudást a számítógépnek, a gépnek kell felismernie a szövegben megjelenő szabályosságokat, ismétlődő mintákat, és ezt statisztikai számításokkal