• Nem Talált Eredményt

Amerika a gépi nyelvészet szemszögéből megtekintése

N/A
N/A
Protected

Academic year: 2022

Ossza meg "Amerika a gépi nyelvészet szemszögéből megtekintése"

Copied!
6
0
0

Teljes szövegt

(1)

681.39/73/i801.3

AMERIKA A GÉPI NYELVÉSZET SZEMSZÖGÉBŐL Kiefer Ferenc

MTA Számítástechnikai Központ

1. A m e r i k a i tanulmányutunk során a modern nyelvészet /matema­

t i k a i nyelvészet/ elméleti éö g y a k o r l a t i kérdéseit tanulmányoztuk.

S beszámolóban a g y a k o r l a t i kérdésekre szorítkozunk, v a g y i s a r r a , hogy a számológépet m i l y e n területen használjak a nyelvtudományban és m i l y e n eredménnyel. A m a t e m a t i k a i nyelvészetnek e z t a g y a k o r l a ­ t i b b részét számológépes nyelvészetnek / c o m p u t a t i o n a l l i n g u i s t i c s / i a n e v e z i k , de l e h e t n e a l k a l m a z o t t nyelvészetnek i s / a p p l i e d l i n ­ g u i s t i c s / , bár az angol t e r m i n u s , - legalább i s Amerikában -

most j e l e n t meg. /Elsősorban a nyelvtanítás problémáit öleli f e l . / A gépi nyelvészet f e l a d a t a , problémaköre éppúgy nem tisztázott még, mint a m a t e m a t i k a i nyelvészeté. Minden kutatónak saját vélemé­

nye van e fogalmakról, ami a kutatás mai szintjén j o g o s u l t i s . Ál­

talában azonban megegyezik a kutatók véleménye abban, hogy a számo­

lógép felhasználása a nyelvtudományban hasznos, kifizetődő és majd­

nem elengedhetetlenül szükséges i s . Abban azonban már eltérnek a vélemények, hogy a számitógépes nyelvészet önálló tudományágnak t e ­ kinthető-e, vágy pedig a számítógép alkalmazási lehetőségei közül egy terület, amelynek azonban nincsenek meg a külön, sajátos módsze­

r e i . Uas szóval, a formális n y e l v e k vizsgalatára k i d o l g o z o t t módsze­

reknek alkalmazásáról van szó formális n y e l v e k h e l y e t t természetes n y e l v e k r e . A módszer ugyanaz, csupán az eredmény l e s z különböző.

Természetes n y e l v e k esetén azonban nem várhatunk pontos eredménye­

k e t , h i s z e n az emberi n y e l v nem formális r e n d s z e r . Abban szintén különböznek a vélemények, hogy a számológépéé nyelvészet érdekes-e a nyelvtudomány szempontjából, azaz, hogy vezet-e o l y a n eredmények­

r e , amelyek e d d i g i s m e r e t l e n összefüggésekre világítanak rá, vagy pontosan e d d i g meg nem f o g a l m a z o t t törvényszerűségekre v e t n e k fényt.

Kétségtelen, hogy a számológép sok a d a t o t szolgáltat a nyelvészet­

nek, de az összefüggéseket a nyelvész állapítja meg és nem a gép.

Másrészt a számológépes nyelvészetnek - legalább i s j e l e n l e g - dur­

va közelitésekkel k e l l d o l g o z n i a , amennyiben gazdaságos k i v a n l e n n i . Ezek m i a t t a legtöbb a m e r i k a i nyelvészt nem érdekli közvetlenül a számológépes nyelvészet, de örömmel használja f e l a gép munkáját, amikor csak t e h e t i . A z t természetesen mindenki e l i s m e r i , hogy az öt­

venes évek elején, amikor a számológépes nyelvészet /elsősorban a gépi fordítás/ kezdetét v e t t e és nyelvészek, matematikusok egyaránt

(2)

TMT U . é v f . 7.szám 1967.július

érdeklődéssel f o r d u l t a k az u j problémái felá, a m a t e m a t i k a i nyelvé­

s z e t elképzelhetetlen v o l t számítógépes nyelvészet nélkül. P i l l a n a t ­ n y i l a g tehát ugy látszik, hogy a túlzott b i z a l o m a számológépben csak a m l országainkban él még, ami v i s z o n t valószínűleg elsősorban a megfelelő t a p a s z t a l a t hiányával magyarázható. Tudvalevő u g y a n i s , hogy s1gondolásóinkat vagy egyáltalán nem valósítottuk meg e d d i g a gépeken, vagy p e d i g csak kísérletképpen, i g e n k i s anyagon, ami még tulajdonképpen semmiféle következtetés levonására nem jogosít.

Az előbb e m i i t e t t kérdések tehát még tisztázatlanok és egyelő­

r e mind a számológépeknek /elsősorban a perifériális berendezések­

nek, m i n t p l . az a u t o m a t i k u s olvasónak/, mind p e d i g a természetes n y e l v e k m a t e m a t i k a i elméletének további fejlődésére v a n szükség a h ­ hoz, hogy a lehetőségeket és k o r l a t o k a t világosan lásBuk.

m i v e l valószinüleg a vélemények megegyeznek abban, hogy a szá­

mológépek hasznosak a nyelvtudomány számára és hozzátehetnénk sok más terület, i g y p l . a dokumentáció kutatás számára, a következők­

ben röviden áttekintjük a l e g f o n t o s a b b területeket, a h o l e d d i g szá­

mottevő eredmények születtek.

2. A különböző gépi nyelvészeti munkák középpontjában a l e x i ­ kológiai munkák állnak, azaz különböző rendeltetésű egynyelvű szó­

tárak gépi feldolgozása. I l y e n e k az a t e r g o szótárak /a szavak f o r ­ dított, "hátulról előre" való megadása/, amelyek sok szempontból a¬

lapját képezik a s z i n t a k t i k a i jellegű kutatásoknak. A hagyományo- sabb nyelvész számára i s sok érdekes a d a t o t szolgáltatnak a végző­

désékre vonatkozóan. Ugyanazzal az a n y a g g a l a gyakoriségi szótár i s elkészíthető, aminek ismét sok g y a k o r l a t i felhasználási lehetősége van. így például elengedhetetlenül szükséges a gépi kivonatoláshoz, de f o n t o s szempontokat szolgáltathat a nyelvtanításhoz i s . A morfé- matárak /a szó h e l y e t t annak önálló alkotórészeit tartalmazó "tárak'/

i s f o n t o s és érdekes információt nyújthatnak a nyelvészeknek. Az ér- telme-ző szótárak gépi feldolgozása hozzásegíthet egy jelentéstani kategória-rendszer kidolgozásához. Műszaki' vonatkozásban f o n t o s a k a szakszók glosszáriumok formájában történő feldolgozása. Sok h e l y e n a különböző szakterületek s z a v a i t külön tárolják a gép memóriájá­

ban. Vannak azonban o l y a n kísérletek i s , amelyek e g y e t l e n szótárban e g y e s i t i k a különböző szakterűletek s z a v a i t megfelelő kádokHal. I ¬ l y e n e s e t b e n az a probléma, hogy v a l a m e l y szakterület esetén, meg­

felelő kódok alapján, a glosszáriumot a gép készítse e l . Gépi mód­

s z e r e k k e l könnyebbnek látszik a n e o l o g i z m u s o k / u j szavak/ felvéte­

l e a szótárba, m i n t e m b e r i gyűjtőmunkával. Különböző időben k i a d o t t szótárak összehasonlítása a szókészlet fejlődésére v e t h e t fényt, írói szótárak i s nagy számban készülnek. Ami a gép számára könnyű f e l a d a t , ezekben az e s e t e k b e n több ember valószínűleg hosszú évti­

zedeken át tartó munkáját venné igénybe. S t a t i s z t i k a i és g y a k o r l a ­ t i /gépi nyelvészeti/ kutatások számára egyaránt f o n t o s a k az un.

konkordancia-szótárak. Hogy mennyire f o n t o s a k , a z t mi sem b i z o n y l t ­ j a j o b b a n , m i n t a z , hogy az e g y i k a m e r i k a i egyetem /Georgetown U n i - v e r s i t y , W a s h i n g t o n / jóformán kizárólag konkordancia-szó tárak i n ­ formációira támaszkodva t u d végezni s i k e r e s n e k mondható gépi fordí­

tást.

(3)

KTEPER f.t Gépi nyelvészet

5. A gépi nyelvészet egy másik nagy területe a a t a t i e z t i k a i nyelvészet alkalmazási köréhez t a r t o z i k . Mar az előző pontban em­

lítettük a gyakorisági szótárakat. A gyakorisági szótárakon kívül még a n y e l v n e k sok s t a t i s z t i k a i jellegű tulajdonsága vizsgálható géppel. A Bzóstatieztlka m e l l e t t f o n t o s a k l e h e t n e k a morféma és f o ­ néma /nagyjából: hang/ statisztikák és talán főleg s t a t i s z t i k a i k u ­ tatások számára a fonémakombináciők / u n , b i - és t r i g r a m m o k , nagyjá­

ból: két, i l l . három hang egymásutánja/ vizsgálata. A s t a t i s z t i k a i Jellegű vizsgálatokhoz t a r t o z n a k az un. r e d u n d a n c i a vizagálatok i s >

amelyek érdekes tényeket f e d h e t n e k f e l a nyelv, m i n t információk közlésének eszköze szempontjából. Szövegek különböző s t a t i s z t i k a i paraméterek s z e r i n t i vizsgálata több területen hasznosítható. A s t a t i s z t i k a i szemponton kivűl i t t megemlíthetnénk i s m e r e t l e n s z e r - zőségü kéziratok szerzőségének valószínűsítését, továbbá i s m e r e t ­ l e n , m e g f e j t e t l e n Írások megfejtésének könnyítését szolgáló a d a t o k szolgáltatását, mindezek a területek a nyelvtudomány számára nem e¬

gészen u j a k , h i e z e n különböző vonatkozású s t a t i s z t i k a i Jellegű v i z s ­ gálatokat már a m u l t század vége óta végeznek. Ezek azonban többnyi­

r e kézi erővel készültek.A gép azonban nemcsak olcsóbb,hanem s o k k a l gyorsabb i s . Másrészt a régebben k a p o t t adatok s o k s z o r megbízhatat­

l a n o k v o l t a k / s t a t i s z t i k a i szempontból/, mert a f e l d o l g o z o t t anyag nem v o l t elég nagy, vagy más szempontból nem t e t t e l e g e t a s t a t i s z ­ t i k a i mintavétel követelményeinek.Ojszerű l e n n e s z i n t a k t i k a i J e l l e ­ gű statisztikák végzése. Bár valószínűleg m i n d e n k i e l i s m e r i ezek fontosságát, egyelőre e f e l a d a t megvalósíthatatlan, megfelelő s z i n ­ t a k t i k a i analízis hiányában.

4. Ami a fordítás gépesítését i l l e t ' . , nagyjából következő a h e l y z e t :

G y a k o r l a t i forditás gép segitségével több h e l y e n készül, egv- egy szűk szakterületen / p l . szerve3kémia, a t o m f i z i k a , halmazelme­

l e t / , a fordítások n y e l v i l e g r o s s z a k , de s z a k m a i l a g érthetők. A f o r ­ dítási a l g o r i t m u s o k egyrészt a már említett konkordancia-szótárakra támaszkodnak, másrészt elő- és utószerkesztőt i s felhasználnak. I ¬ l y e n közelítő forditás gazdaságilag i s kifizetődő,elsősorban azért, mert nagy a hiány emberi fordítóban. Másrészt nem szabad e l f e l e j t e ­ n i a z t sem, hogy a konkordancia-szótárak, továbbá a megfelelő a l g o ­ r i t m u s o k elkészítése az ötvenes években nagy pénzt emésztett f e l , és ma már csak t e l e x /lyukasztás!/ munkára és gépi időre van költ­

ség.

Több h e l y e n forditás h e l y e t t a gép csak szőtáraz, azaz a kí­

vánt szakterületnek megfelelően k i i r j a és lefordítja az a d o t t szak­

szöveg s z a v a i t . Az e m b e r i fordítónak i g y a szakszavak, a szövegben való előfordulásuk s z e r i n t i s o r r e n d b e n , állnak rendelkezésére. Az I l y e n , ember és gép együttműködésen alapuló fordítás elkészítése a t a p a s z t a l a t o k alapján legalább 50 ?&-os megtakarítást J e l e n t , azon­

kívül p e d i g az előkészítő munkák i s s o k k a l kevesebb a n y a g i megter­

helést J e l e n t e n e k .

Természetesen több h e l y e n f o l y n a k kutatások, amelyek majd a J e l e n l e g működő fordítói a l g o r i t m u s o k korrekcióJához v e z e t h e t n e k .

(4)

IBIT 14.évi. 7.szám 1967.Július

Ezeket a kutatásokat "gépi s z i n t a k t i k a i analízis" t e r m i n u s s z a l szo­

kás jelölni. Egyelőre minden kétságet kizáróan b e b i z o n y o s o d o t t / e l ­ sősorban a m a t e m a t i k a i nyelvészet elméleti eredményeinek alapján/, hogy az e d d i g i elemzési módszerek /és i d e nemcsak az Egyesült Álla­

mokban használt módszerek t a r t o z n a k / nem v e z e t h e t n e k kívánt eredmé­

nyekhez. Más szóval, az ezeken alapuló forditás nem l e h e t lényege­

sen j o b b az eddiginél. Kétségtelennek látszik, hogy az e d d i g i mód­

s z e r e k finomitása h e l y e t t minőségileg u j módszerre van szükség, a¬

m i t több kutató c s o p o r t a transzformációs grammatikában!/vél megta­

lálni. E területen sok érdekes eredmény született, de még k o r a i l e n ­ ne megmondani, hogy a módszer beváltja-e a hozzáfűzött reményeket.

Egyelőre mindenesetre ugy látszik, hogy hosszú évek kutatása k e l l ahhoz, hogy a kezdés eldönthető l e g y e n .

5. A gépi nyelvészethez sok o l y a n terület i s kapcsolódik, a¬

melynek közvetlen haszna a dokumentáció kutatásban mérhető l e . J e l ­ lemző, hogy sok o l y a n kutatócsoport, amely régebben kizárólag gépi forditáasal f o g l a l k o z o t t , áttért a dokumentáció kutatásra, elsősor­

ban talán azért, m e r t az előző területen már a n y a g i támogatást nem k a p o t t . A dokumentáció kutatás szempontjából érdekes gépi nyelvésze­

t i területek a következők:

a/ Gépi kivonatolás. E téren H.P.IUHK óta sok minden történt,a releváns mondatokat gépi u t o n mind meg tudják találni, de a k i v o n a t még túlságosan bő, azaz a k i v o n a t nagyon sok nem releváns mondatot i s t a r t a l m a z . A j e l e n l e g i kutatások e fölösleges mondatok kizárásá­

r a vonatkoznak. A f e l a d a t nem látszik könnyűnek, ezért a gépi k i v o ­ natolás esetén i s csak kísérleti stádiumról beszélhetünk.

Q/ Általános probléma, amely a nyelvtudományban i s j e l e n t k e z i k , az ínformációk kicserélésének meggyorsítása. Gondolunk i t t például a nyelvészeti bibliográfiák kiadására, amelyek általában kétévi ké­

séssel látnak napvilágot. Bár e kérdéssel külön c i k k b e n kívánunk majd f o g l a l k o z n i , hadd jegyezzük meg i t t i s , hogy egyrészt az ada­

t o k /bibliográfiai kártyák/ egybegyűjtésének meggyorsításáról van szó, másrészt a nyomdai folyamatéról, ami lehetségessé válik a szá­

mológép által végzett kompozíció és sokszorosítás esetén. E téma­

körhöz kapcsolódik a decimális osztályozás nyelvtudományra v o n a t k o ­ zó részének felülvizsgálása és u j osztályozási r e n d s z e r kidolgozá­

sa.

c/ Az előbbi, elsősorban g y a k o r l a t i n a k látszó munka két terü­

l e t e n kapcsolódik / p e r s z e a g y a k o r l a t b a n közvetlenül hasznosítható/

elméleti kutatásokhoz. Az e g y i k az osztályozás problémáival f o g l a l ­ k o z i k , a másik az információ tárolás és visszakeresés kérdése. Ter­

mészetesen ez a két kérdés i s s z o r o s a n összefügg. E rövid beszámo­

ló k e r e t e i nem e n g e d i k meg, hogy e z e k k e l a témákkal részletesen f o g l a l k o z z u n k , de az érdekes eredmények m i a t t , m i n d e g y i k n e k , - ame­

l y e k e t láttunk - külön-külön c i k k e t szánunk.

^ V ó . KIEPSR F.: Matematikai nyelvészeti tanuünányok, Bp. OHKDK, 1965. 179 P.

(5)

KlHKHB T,t Gépi nyelvészet

d/ Külön hangsúlyozni k e l l , hogy már a 2- 4 . pontban e m i i t e t t területek eredményei l a hasznosíthatók a dokumentáció kutatásban.

Maga a gépi fordítás i s fÓleg a dokumentációs szakembereknek J e l e n t majd az első időben h a s z n o t .

6. Röviden megemlíthetjük a nyelvtanítás "gépesítését" is.Nem­

csak arról v a n szó, hogy ember h e l y e t t gép végezze a nyelvtanulás k e z d e t i f e l a d a t a i t , hanem arról i s , hogy a nyelvtanárok " a l g o r i t ­ mus" formájában, m i n t e g y imitálva a gépet, tanítsanak i d e g e n n y e l ­ v e t . A k e z d e t i s i k e r e k éa az újszerűség vonzóereje azonban nem e l e - gendóek ahhoz, hogy végleges eredményekről beszélhessünk. Tisztán k e l l látnunk, hogy e téren i s egyelőre csak kísérletekről beszél­

hetünk.

7. E beszámolóban nem törekedtünk teljességre abban az érta- lemben sem, hogy nem s o r o l t u k f e l a gépi nyelvészet minden terüle­

tét. Beszélhettünk v o l n a még a beszédfelismerési kísérletekről,sok érdekes p B z i c h o l i n g v i s z t i k a i kísérletről és sok minden egyébről.Mi a l e g f o n t o s a b b témákat kívántuk k i e m e l n i és ezek helyzetét röviden vázolni. A gazdag / a z t i s m o n d h a t j u k , minden túlzás nélkül, hogy e téren a leggazdagabb/ t a p a s z t a l a t o k k a l rendelkező a m e r i k a i kutatók, kutatócsoportok véleményét, állásfoglalását érdemes f i g y e l e m b e v e n ­ n i a mi lényegesen k i s e b b méretű kutatási programunkban i s . Tapasz­

t a l a t u k elsősorban a r r a t a n i t bennünket, hogy a számitógép s z e r e ­ pét a nyelvtudomány szempontjából,vagy a számitógépes nyelvészet szerepét a dokumentáció kutatás szempontjából h e l y e s e n t u d j u k érté­

k e l n i . H e l y t e l e n l e n n e , ha e s z e r e p e t lebecsülnénk, de az i s h e l y ­ t e l e n és káros, ha a z t tapasztalatlanságunkból fakadó o p t i m i z m u s ­ ból túlbecsülnénk.

.oOo.

QSFER.P.: Research i n m e c h a n l c a l l l n g u l s t i c B i n t h e O n l t e d S t a t e s

The a r t l c l e r e v i e w s t h e r e e e a r c h work conducted on m e c h a n l c a l U n g u i B t i c B i n t h e D n i t e d S t a t e s . I t c o v e r s t h e most i m p o r t a n t f i e l d e o f l i n g u i s t i c B i l e x i c o l o g y , s t a t i s t i c a l l i n g u l a t l c s , mecha­

n l c a l t r a n s l a t i o n , and l i n g u i s t l c problems connected w l t h r e e e a r c h i n d o c u m e n t a t i o n . A b r i e f s u r v e y and e v a l u a t i o n o f t h e r e s u l t s achieved I n these f l e l d s a r e g l v e n .

(6)

THT 14.ávf. 7.asám 1967.Július

CT S T B H o ö c y a a a e T H a y i H O - f l c c a e a o s a i e j i M i t H e paűoTH no u e x a H H - l e c K O ü y a3biKO3H3Hii!0 3 C Q A , ox3aTWBaiOEaie Bazne Sülne oTpacjm H3üito- 3H3HKH, B TOM HHCJIG JieKCÜKO.IOriIK), CTSTHCTllieCIvOe H3blK03HOHHe, íjexaHiinecicHe nepeBoau a JiüHrBHOimectCHB npoÖJieuu, cBH33HHtie c HCC.ie4033HiieH B o O j i a c t n aofty?;eHTamiM, 7Ja»TCH OBOÁKa H otjeHKa ÍOCTHTHVTHX B 3TtOC 0ŐJI3CTHX pe3y3LTaT0B.

Q a

KIEFER.P.i Amerika Yom G e e i c h t e p u n k t d e r mechaniachen L l n g u i a - t i k

Ea w i r d e i n e Übersicht d e r a m e r l k a n i a c h e n Forschungen auí dam G e b i e t e d e r mechaniachen L i n g u i a t i k gégében. Die wíchtigsten G e b i e t e d i e s e r neuen E i a z i p l l n werden d e r Relhe nach b e h a n d e l t : d i e l e x i k o - l o g i s c h e n Porachungen, d i e probleme d e r s t a t i e t i s c h e n L i n g u i e t i k , d i e Fragen d e r mechaniachen Ubereetzungen und d i e m i t d e r Porechung a u f dem G e b i e t e d e r D o k u m e n t a t i o n r e r b u n d e n e n l i n g u i s t i a c h e F r o b l e ­ me. Die e r z i e l t e n E r g e b n i e e e verdén k u r z g e e c h i l d e r t und b e w e r t e t .

0 ° 0

Hivatkozások

KAPCSOLÓDÓ DOKUMENTUMOK

Az Össz-szövetségi Gépi-számviteli Központ által 15 gépi—számviteli állomáson és 5 gépi-számviteli irodában 1951-ben elvégzett vizsgálat anyaga azt mutatja, hogy

A gépállomá-r soknak nem az a feladata és nem azért rendelkeznek a legkorszerűbb erő- és munkagépekkel, hogy ellensúlyozzák a gépi erő hiányát a gépi erővel _nem

A Központi Statisztikai Hivatal Gépi Adatfeldolgozás Országos Felügelete 1957 novemberében rendezte 'meg a lyuk—.. kártyarendszerű gépi

A statisztikai információ—rendszert alkotó információk köre, tartalma. meny- nyisége és minősége a társadalmi fejlődés során sokat változott attól függően, hogy

A hagyományos gépi adatfeldolgozási rendszer szerint az egyes évek adatai az abban az évben érvényes kódszámokkal, a mindenkori csoportosítási követelmé—.. nyeknek

Az állami tudományos—műszaki információs rendszer fejlesztésének első szakasza előirányozza, hogy meg kell szervezni az információs központok együttműködését a

[r]

Ebből a helyzetből három kiút lehetséges... Monton