Beszámolók, szemlék, közlemények
Kísérlet cseh nyelvű kivonatok gépi indexelésére
Az Ustredí védeckych, technicicyeh a ekonomickych informací /Tu
dományos, Műszaki és Gazdasági Tájékoztatási Központ/ a p i l z e n i Skoda- HUvek Tájékoztatási Központjával együttműködve 1973 folyamán 779 cseh nyiilvü, gőzturbinákról szóló s z a k i r o d a l m i k i v o n a t gépi indexelésére t e t t kísérletet. A maga nemében elsőnek tekinthető kísérlet program
n y e l v e a FORTRAN v o l t , a kísérletben használt számitógép p e d i g ICL 1905 t i p u s u .
A szóban forgó k i v o n a t o k a t először intellektuális munkával i n dexelték, amiből az i s következik, hogy a kísérlet elsődleges céljá
u l annak megállapítását tűzték k i , hogy a gépi indexelés mennyire meg
bízható az intellektuálishoz képest. /Ennek érdekében az intellektuá
l i s indexelést i s szuperrevíziónak vetették alá./
A kisérlet befejezése után 200-200 intellektuálisan és gépi u t o n I n d e x e l t k i v o n a t o t v e t e t t e k össze. Ennek nyomán a következőket l e h e t e t t megállapítani;
1 . Egy-egy k i v o n a t r a átlagosan 4,25 releváns d e s z k r i p t o r e s e t t . Az intellektuális indexelés egy-egy k i v o n a t o t átlagosan 2,73 d e s z k r i p - t o i r a l j e l l e m z e t t , a gépi u t o n történő 5 , 0 7 - t e l . Ebből 3,45 v o l t a r e leváns, 1,62 p e d i g a hibásan megadott d e s z k r i p t o r . Az intellektuális indexelésnél tehát 1,52, a gépinél 0,80 v o l t a releváns d e s z k r i p t o r o k átlagos hiánya.
2. A gépi indexelésnél a releváns d e s z k r i p t o r o k hiányát 51,2$- ban a forditó szótár hibái, 31,3^-ban az egyszerű identifikálási sza
bályok előírásának lehetetlenségei, 17,5^-ban különféle formális vét
ségek okozták.
J. A hibás d e s z k r i p t o r o k létrejöttének ugyancsak sokféle oka v o l t , nevezetesen: az identifikátorok szótári készletének hibás kivá
lasztása / 4 2,5íí/, hibás identifikátor-komblnáoiúk létrejötte a monda
t o k szintjén /27,8^/> hibás identifikátor-kombináciúk létrejötte a szöveg szintjén /10,2jí/, a szótár átfedései és a program hibái /18,6$/, a lexikális többértelműség hatása /0,9$/.
A kisérlet, i l l e t v e az összevetés során tematikusán " k i b u k t a t o t t " hibák jelentős részét k i l e h e t küszöbölni. De az i s kitűnt,hogy a aépí indexelésben egyelőre nem l e h e t 100;''-os megbízhatóságra töre
k e d n i , mint ahogy ez tulajdonképpen a s z e l l e m i munkával történő i n dexelésben sem i g e n érhető e l .
A kisérlet egyébként rámutatott azokra a kutatási szükségletek
r e l s , amelyek nélkül a ma meglévő problémák nem mindegyikét l e h e t kiküszöbölni a gépi indexelésből / m o n d a t t a n i , a cimek és szövegek struktúrájára vonatkozó tanulmányok/ a k i v o n a t o k indexeléséről^az un. extraktumok /az e r e d e t i szövegből k i e m e l t mondatok/ indexelésére való áttérés lehetőségeinek vizsgálata, a f o r d i t d szótárak elméleti kérdéseinek megoldása, e t b . / .
/Ceskoslovenská I n f o r m a t i k a , 17.1:. l . a z . 1975.
P**-9-/ Fatála T i b o r 834