• Nem Talált Eredményt

A tezauruszok automatizálása. A gépi tezauruszkészítés és használat néhány kérdése megtekintése

N/A
N/A
Protected

Academic year: 2022

Ossza meg "A tezauruszok automatizálása. A gépi tezauruszkészítés és használat néhány kérdése megtekintése"

Copied!
11
0
0

Teljes szövegt

(1)

3 0 . é v f . 1 0 . sz. 1 9 8 3 . o k t ó b e r K E

udományos é s ^ f | B HÉ8Ü IVIűszaki

ájélooztatás

A TEZAURUSZOK A U T O M A T I Z Á L Á S A .

A GÉPI TEZAURUSZKÉSZÍTÉS ÉS H A S Z N Á L A T N É H Á N Y K É R D É S E *

Ungváry Rudolf OSZK Fejlesztési Csoport

1. Bevezető

1.1 A gépi tezaurusz környezete

Az információkereső tezauruszok elterjedése szorosan összefügg a szöveges adatok és bibliográfiai tételek gépi tárolásával és azzal az igénnyel, hogy ezeket a tételeket a tartalmukra v o n a t k o z ó kérdések alapján tehessen vissza­

keresni.

Az a u t o m a t i z á l t d o k u m e n t á c i ó s rendszerekben a ha­

g y o m á n y o s ..bibliográfiai t é t e l " helyett helyénvalóbb az általánosabb értelmű . . i n f o r m á c i ó t é t e l " [ Í j kifejezést használni, mivel a keresőszavakkal - legyenek ezek szabadon v á l a s z t h a t ó k ( ú n . „szabad szöveges" rendsze­

rekben) vagy k ö t ö t t e k (szótárba, pl. tezauruszba, tárgy­

szójegyzékbe, osztályozási t á b l á z a t o k b a stb. foglalt in­

formációkereső nyelvek) - k o r á n t s e m csak a szorosan vett bibliográfiai tétel az egyetlen fajta visszakereshető egység. Ilyen önállóan k é r d e z h e t ő egységek lehetnek a bibliográfiai tételek egyes részei (mint például a szerző neve, a k i a d ó , a dokumentum fajtája, a cím stb.), az a n n o t á c i ó vagy a referátum és ezek részei, sőt egyes d o k u m e n t á c i ó s rendszerekben az eredeti dokumentum- szövegek és ennek részei is. Mindig az adott keresési cél határozza meg. hogy milyen fajtájú a keresett tétel, ezért néha külön névvel is m e g k ü l ö n b ö z t e t i k ezeket a tétele­

ket: a GOLEM-ben használt terminológia szerint például céünformációkröl beszélnek.

* E tanulmány előzményét a MagyawrszáROn készülő teza­

uruszok a nemzetközi szabványosítás tükrében című felmé­

rés | XXIII] képviseli, melyet kiegészít a gépesítésre vonatkozó kérdésekkel.

A szöveges i n f o r m á c i ó t é t e l e k szervezett á l l o m á n y á t szöveges vagy bibliográfiai adatbázisnak nevezzük. Álta­

lános értelemben minden szervezett és k e z e l h e t ő adatál­

l o m á n y adatbázisnak t e k i n t h e t ő (ilyen é r t e l e m b e n ..adatbázis", ,,manuális adatbank" a könyvtári katalógus vagy a telefonkönyv adatainak összessége is), s z ű k e b b értelemben azonban csak a géppel olvasható formában rögzített és számos - i t t nem részletezett - követel­

m é n y n e k [ V I ] eleget tevő a d a t g y ű j t e m é n y t nevezik adatbázisnak. M e g k ü l ö n b ö z t e t h e t ő k az elsődleges doku­

mentumokat t a r t a l m a z ó adatbázisok a másodlagos ada­

tokat - például a bibliográfiai adatokat, r e f e r á t u m o k a t stb. - t a r t a l m a z ó bibliográfiai a d a t b á z i s o k t ó l , s más s z e m p o n t b ó l típusba s o r o l h a t ó k aszerint, hogy szöveges és/vagy faktografikus jellegű adatokat tartalmaznak.

Egyes szerzők s z ű k k e b l ű é n [ V I . 8 2 - 8 3 ] csak a ..logikai"

szerkezettel leírható faktografikus a d a t b á z i s o k a t tekintik a d a t b á z i s o k n a k (és nem használják a ..faktografikus"

j e l z ő t ) , a tartalom alapján - például deszkriptorokkal, kulcsszavakkal, osztályozási jelzetekkel stb. - kezelt g y ű j t e m é n y e k e t ..szöveges a d a t á l l o m á n y n a k " nevezik.

Azt a programrendszert, melynek segítségével az adatbázisokat kezelik és a szolgáltatást biztosítják, adat- báziskezelö rendszernek hívják. Bibliográfiai adatbázisok - vagy „szöveges a d a t á l l o m á n y o k " - esetében különle­

ges eljárások szükségesek a h a t é k o n y tartalmi informá­

ciókereséshez, a . . h a g y o m á n y o s " adatbáziskezelő rend­

szerek túlságosan erős kötöttségei általában nem teljesít­

h e t ő k , illetőleg feleslegesek. Mivel i t t a rendszer fő funkciója rendszerint nem az adatok k a r b a n t a r t á s a , hanem kész a d a t o k b ó l válaszinformációk kiválogatása, h a n g s ú l y o z o t t a n információkereső rendszerről szoktak

(2)

Ungváry R.: A tezauruszok automatizálása . . .

beszélni [ 2 ] . Az adatok szerkezetének formális leirása helyébe i t t .kevésbé szigorúan formalizált eszközök álta­

lánosabb keresést lehetővé tevő felhasználása l é p . A tartalom szerinti keresés érdekében a kezelőrend­

szer nyelvi összetevőt - az információkereső nyelvet - kezelő résszel is rendelkezik. A z információkereső nyelv szavai — szótár ( p l . tezaurusz) esetén a lexikai egységek

— biztosíthatják a tartalmi szempontok m e g h a t á r o z o t t jellegű és finomságú érvényesítését az információkeresés­

ben, rajtuk keresztül f é r h e t ü n k hozzá az egyszerű vagy az összetett információtételekhez. Úgy is mondhatjuk, hogy a lexikai egységek behatárolják a lehetséges célin­

formációk k ö r é t , de egyúttal strukturálják is a visszake­

reshető információkat a tartalom szerint.

A programrendszer által használt - kezelt - teza­

uruszt nevezik gépi tezaurusznak. (A tárgyalt fogalmak k ö z ö t t i összefüggések az 1. ábrán l á t h a t ó k . )

ínformáció- ^ ADATBÁZIS _»

tétel - adattétel

adat

tényadat másodlagos

adat elsődleges

adat

ADATBAZISKEZELO .<.

RENDSZER (ált.l

nyelvi összetevő

faktográf iar adatbázis szöveges adat­

állomány

• információkereső rendszer passzív része

bibliográfiai adatbázis szöveges

adatbázis

adatbáziskezelö rendszer (spec.l információkereső \

rendszer (spec.) -*•

•= szöveges adatkezelő rend szer

" információkereső rendszer aktív része

nómenklatúra osztályozási rendszer

programrendszer

tárgyszójegyzék tezaurusz

gépi tezaurusz 1. ábra A gépi tezaurusz fogalmi k ö r n y e z e t é n e k címkézett, irányított gráfja

I *- faj —nem reláció; »- rész—egész reláció; —• — • — • > - eszköz—rendel­

tetés reláció; — • — — • * eredet-eredmény reláció) A nyilakkal jelölt Összefüggések olvasására néhány példa:

A TÁRGYSZÓJEGYZÉK és a TEZAURUSZ nem más, mint az INFORMÁCIÓ­

KERESŐ NYELV SZÓTÁRA, mely része az INFORMÁCIÓKERESŐ RENDSZER¬

nek, s mint ilyen nem más. mint NYELVI ÖSSZETEVŐ. Az INFORMÁCIÓ­

KERESŐ RENDSZER a SZÖVEGES ADATÁLLOMÁNY kezelésének eszköze.

1.2 A gépi tezauruszkészítés

A gépi tezauruszok adatállományát — a lexikai egységeket, a k ö z ö t t ü k m e g h a t á r o z o t t relációkat és a lexikai egységeket jellemző egyéb adatokat (mint a szakcsoportjuk, a fogalmi kategóriájuk stb.) - számító­

géppel olvasható a d a t h o r d o z ó n rögzítik. É r t h e t ő törek­

vés az, hogy a tezauruszok készítését is gépi segítséggel végezzük. Az információkereső rendszerek egy része ugyan alkalmas arra, hogy karbantartsa és a keresésbe bevonja a meglévő gépi tezauruszt, de magának a készítésnek és fejlesztésnek különleges adatfeldolgozási

feladatait nem lehet velük megoldani, vagy legfeljebb nagyon leegyszerűsített formában és drágán. A teza­

uruszkészítés gyűjtő, válogató, átalakító és szerkesztő műveletei ugyanis azzal j á r n a k , hogy minduntalan sok tezauruszadatot - megnevezést, szakcsoportos besoro­

lást, relációjelet stb. — kell t ö r ö l n i , bevinni, m ó d o s í t a n i , átrendezni stb. Az információkereső rendszerek teza­

uruszkezelő moduljaival a már kész gépi tezaurusz egyes adatait lehet ugyan m ó d o s í t a n i , de sok adat esetén a módosítás már nem végezhető el h a t é k o n y a n , elfogadha­

tó időn belül. Ezeket a tezauruszkezelö programmodulo­

kat ugyanis csak a kész gépi tezaurusz kis m é r t é k ű

(3)

TMT 30. óvf. 1983. 10.

változtatásokkal j á r ó aktualizálására m é r e t e z t é k ; ráadá­

sul számos - a készítéskor feltétlenül szükséges - tezauruszadatot t ö b b n y i r e nem is tudnak nyilvántartani (pl. a lexikai egységek szakcsoportos besorolását). Úgy is mondhatjuk, hogy magával az információkereső prog­

ramrendszerrel gazdaságtalan tezauruszt készíteni: olyan, mintha traktort használnának személyszállításra. Szükség volt tehát ö n á l l ó , csak a készítésre specializált program­

rendszerekre is.

F e l h a s z n á l h a t ó k ezek a programrendszerek a kézzel kezelt információtárak és katalógusok tezauruszainak készítéséhez is, mivel ezeknek a készítése is nagy adatfeldolgozási és rendezési m u n k á t igényel. A tezauru­

szok a finom, részletes feltárás eszközei, és ezért - m é g a rendkívül szük szakterületek kisebb tezauruszai is - általában t ö b b ezer lexikai egységet tartalmaznak [ 3 ] , Ha lexikai egységenként átlagosan csak 5 relációt cs annak 5 inverzét vesszük számításba, cs t e z a u r u s z o n k é n t átlago­

san 5000 lexikai egységgel s z á m o l u n k , a b e é p í t e n d ő adatelemek száma eléri az ötvenezret. Gépi segitség nélkül nagy nehézséget okoz annak állandó ellenőrzése hogy minden kapcsolatnak bejegyeztek-e az inverzét is.

és nem tartalmaz-e ellentmondást a tezauruszcikk (nem kapcsolódik-c például nemdeszkriptorhoz valamilyen csak deszkriptorok k ö z ö t t lehetséges - pl. e g é s z - r é s z , rokonsági stb. - relációban dcszkriptor stb.).

A 60-as évek közepétől kezdve vannak adatok arról, hogy kézi. illetve gépi tezauruszok készítéséhez speciális programrendszereket használtak, ezek azonban t ö b b n y i ­ re csak a manuális műveletek elvégzésében n y ú j t o t t a k segítséget, amilyen a betú'rendezés, a kapcsolatnyilván­

tartás stb. Készítésük ad hoc jellegéből fakadt, hogy mindig csak egyetlen tezauruszhoz használták Őket fel, a felhalmozott tapasztalatok alapján a programrendszer tökéletesítésére már nem került sor. Ezért a legtöhb rendszert ugyanazok a gyermekbetegségek jellemzik:

nehézkesen h a s z n á l h a t ó k , nem n y ú j t a n a k kifogástalan, szabványos t e z a u r u s z - k i n y o m t a t á s o k a t , számos hiba au­

tomatikus ellenőrzése és kiszűrése nem lehetséges stb.

Az újdonsült tezauruszkészítő tehát mindig ugyanab­

ba a p r o b l é m á b a ü t k ö z ö t t : az itt-ott valamikor használt programrendszerek beszerzése k ö r ü l m é n y e s volt, ha sike­

rült beszerezni, k i d e r ü l t , hogy a d o k u m e n t á c i ó j u k hi­

á n y o s , legfeljebb az ismeri ki magát b e n n ü k , aki készítet­

te ő k e t . m á s igények kielégítésére készüllek, nem alkal­

mazkodtak a kialakult n e m z e t k ö z i és nemzeti szabvá­

nyokhoz, t ö b b n y i r e speciálisabbak voltak annál, mint amit átalakítás nélkül fel lehetett volna használni. Ezért aztán vagy a kézi tezauruszkészitést választotta, vagy maga is készíttetett egy egyszerűbb vagy igényesebb a d a t k e z e l ő rendszert a m u n k á j á h o z .

Ez a feladat egyrészt k ö n n y e b b n e k l á t s z o t t , mint valamilyen meglévő, de nehezen b e s z e r e z h e t ő , rosszul d o k u m e n t á l t , k ö r ü l m é n y e s e n k e z e l h e t ő szoftvertermék adaptálása, másrészt valóban sokkal e g y s z e r ű b b , mint

m a g á n a k az információkereső programrendszernek a kidolgozása [ 4 ] , melyből a 70-es évek eleje ó t a egyre t ö b b került kereskedelmi forgalomba. Ezért a programo­

zók részéről sokszor nagy a kísértés, hogy i n k á b b belevágjanak új, tezauruszkészítést t á m o g a t ó program­

rendszer kidolgozásába, amely aztán semmivel sem j o b b a z o k n á l , amelyek helyett készültek.

Idővel mégis ismertté vált n é h á n y programcsomag [ V I I I . X V I , X I X ] , melyet t ö b b tezaurusz készítésére is felhasználtak és kereskedelmi forgalomban is beszerezhe­

tők. Ezek a 70-es évek végén készültek, és j e l l e m z ő rájuk, hogy maguk a felhasználók az előállítói, szemben az információkereső rendszerekkel, melyeket a nagy számítógépgyártó cégek - mint az I B M , SIEMENS.

ROBOTRON stb. - dolgoztak k i és dobtak piacra.

2. A kereskedelmi forgalomban k a p h a t ó , Magyarországon ismertebb programcsomagok 2.1 Gépi tezauruszt is használó információkereső

rendszerek

Az ismertebb programcsomagok közül a G Ó L E M [ V ] , a STAIRS [ X V I I I ] cs az AIDOS [ 5 . I ] tartozik az élvonalba. A teljesítmény - és nem utolsósorban a d o k u m e n t á l t s á g - s z e m p o n t j á b ó l a GÓLEM [ 6 ] és a STAlRS felülmúlják az AIDOS-t. A t o v á b b i a k b a n csak az információkereső és szótárkezelő képességek szem­

pontjából értékelem ő k e t .

Az információkereső' funkciók ( p l . az automatikus hierarchiaszint emeléssel és süllyesztéssel végzett keresés, az automatikus nemdeszkriptor-deszkriptor utalás, a s z ó t ö r e d é k e k k e l - csonkolással, „ m a s z k o l á s s a l " , illet­

ve a deszkriptorok rangsorolásával végzeit keresés) szem­

pontjából is fejlettebb a GÓLEM és a STAIRS (a GOLEM-mcl egyedül az automatikus hierarchiaszint változtatás nem lehetséges).

A tezauruszkezelő funkciók ( p l . szóhosszúság, szak- csoportos rendszer, relációk száma, tezauruszadatok felvitelének módja stb.) s z e m p o n t j á b ó l szintén a GÓLEM és a STAIRS a rugalmasabb: e téren a GÓLEM h á t r á n y a , hogy k ö r ü l m é n y e s e b b valamivel a tezaurusz­

adatok felvitele, és nincs lehetőség a szakcsoportos besorolásra.

A STAIRS h a g y o m á n y o s változatában nem használ­

nak tezauruszt, hanem szabadon választott szövegszavak, illetve töveik alapján végezhető a keresés. Ilyen „szabad szöveges" információkeresés elvileg a többi ismertetett rendszerben is végezhető, de a STAIRS-nél kisebb hatásfokkal, és drágán. A STAIRS h a g y o m á n y o s változa­

t á n a k kipróbálására Magyarországon a 70-es években került sor. Legújabb, virtuális'tánal m ű k ö d ő változata -¬

a STAIRS VS/TLS | X V I I 1 ] - többnyelvű tezauruszok kezelésére is alkalmas rendszer. Magyarországi adaptálá­

sára eddig nem kerüli sor.

(4)

Ungvírv A tezauruszok automatizál*M .

Az ISIS [ I X ] lényegesen ..kevesebbel t u d " . A reláció- kai legfeljebb nyilvántartja, de kezelni még a nemdesz- k r i p t o r - d e s z k r i p l o r kapcsolatokat sem képes, és semmi­

féle szintaktikai relációt nem ismer [ 7 ] .

A D I A L Ó G információkereső rendszert [ 8 ] az NTMIK-ban fejlesztették k i : bár . . ő s é n e k " a STAIRS h a g y o m á n y o s változata t e k i n t h e t ő , annak színvonalától elmarad. Tezauruszkezelő képessége az ISIS-nél valami­

vel j o b b — automatikus nemdeszkriptor-deszkriptor utalás lehetséges - , de az AIDOS-énál jóval gyengébb ( m é g a deszkriptorok k ö z ö t t i relációkat sem ismeri).

Különlegessége, hogy - a STAIRS-hez hasonlóan - nyilvántartja és kezeli a túl általános jelentésű, ú n . negatív deszkriptorokat (a rendszerben stop-paraméter a n e v ü k ) . Magyarországi felhasználására várhatóan a közel­

j ö v ő b e n kerül sor.

A hazai t e r m é k e k közül a H Í R ( V I I ] , a M I R [ X l l l ] é s a S Z Í V [ X X I ] - illetve ez u t ó b b i továbbfejlesztett változata, a PRESZIV - alkalmasak arra, hogy gépi tezauruszt kezeljenek. A m i a feldolgozható információ­

tételek mennyiségét illeti, teljesítőképességük messze az e l ő b b ismertetett programrendszerek alatt marad. A SZÍV teljesítőképessége a legkisebb, 1 0 - 2 0 ezer infor- mációtétcl fölött már gazdaságtalan a használata. A H Í R [ V I I ] általános célú rendszer, eredetileg az országos jogszabálynyilvántartás céljaira készült, tezauruszkezelö cs információkereső képességek t e k i n t e t é b e n igényes rendszer. Különlegessége, hogy biztosítja n é h á n y , a faktografikus adatbáziskezelö rendszerekre jellemző funkció ellátását is; a tárolt i n f o r m á c i ó t é t e l e k n e k ugyan­

is lehet ö s s z e t e t t , belső — „ h i e r a r c h i k u s " - szerkezete, mely alapján ugyancsak végezhető keresés (ez egyébkent a GOLEM-et is jellemzi). Gyakorlati teljesítőképességeit m é g nem p r ó b á l t á k k i .

A M I R [ X I I I ] mikroszámítógépen tárolt szöveges és bibliográfiai a d a t b á z i s o k kezelésére készült információ­

kereső rendszer. Az ilyen programcsomagok esetén nem a gyorsaságnak van jelentősége — hiszen rendkívül kicsi,

„magánjellegű" a d a t á l l o m á n y o k kezeléséről van s z ó —, hanem a laikus felhasználót messzemenően t á m o g a t ó nyelvi k é n y e l e m n e k . A M I R ö t szemantikai relációjával, automatikus s z i n o n i m a u t a l ó és hierarchiaszintemelő ké­

pességeivel a tezauruszkezelés s z e m p o n t j á b ó l a HIR-hez hasonlóan igényes rendszer.

A többi hazai információkereső programcsomag - mint a BIBDOSZ [ X V ] , a BINÁR [ X ] és a KSH-ban a d a p t á l t TEXT-PACK nem kezel szótárral rendelkező nyelvi összetevőt, így tezauruszt sem. A BINÁR arra sem képes, hogy a felhasznált kulcsszavakat rendezetten tárolja.

Különleges rendeltetésű rendszer a LOGEL, mely eredetileg tudományszervezési és döntéselőkészítési cé­

lokra készült [ X I ] . Kezelni lehet vele egyszerű szerkezetű - monohierarchikus, egyetlen relációt t a r t a l m a z ó - tezauruszt is, s ezáltal bizonyos információkereső felada­

tok is megvalósíthatók vele.

2.2 Az információkereső rendszerek alkalmazásának hazai problémái az információkereső nyelv szempontjából

A BIBDOSZ t ö r t é n e t e ( 9 ] , akárcsak a számítástechni­

ka hazai t ö r t é n e t é r ő l a k ö z e l m ú l t b a n megjelent tanul­

m á n y [ I I ] - alátámasztja azt az érvelést, hogy megfelelő színvonalú szakmai h á t t é r (s t e g y ü k h o z z á : anyagi ráfordítás) nélkül, csak n é h á n y k i e m e l k e d ő tehetségű emberre támaszkodva nem érdemes hazai erőből na­

gyobb teljesítményű információkereső programrendszer készítésébe belefogni. Az ilyen rendszerekkel szemben t á m a s z t o t t összetett követelmények specializált tervező­

intézetek — ú n . szoftverházak — k ö z r e m ű k ö d é s é t igény­

l i k , melyek már megfizették a t a n u l ó p é n z t . Meg a külföldi programcsomagok igényes, a b e n n ü k rejlő lehe­

tőségeket teljesen kihasználó cs ezáltal a felhasználó kényelmét maradéktalanul biztosító adaptálása is rend­

kívüli nehézségekkel jár, ahogy ezt a GÓLEM és az ISIS tapasztalatai bizonyítják. , , . . .Ha hazai e r e d m é n y e k e t nem is sikerült elérni, a külföldi megértése és követése is elég nagy feladat, a jelenleginél nagyobb erőfeszítést igényel" [ I I ] .

Előfordul, hogy az alkalmazó vállalatokban van a hiba: elsősorban a puszta m ű k ö d t e t é s t tartják fontosnak, mintha valaki csak azzal t ö r ő d n é k , hogy az a u t ó n a k járjon a motorja cs guruljanak a kerekei, az már nem számít, milyen az ülés, lehel egy deszkalap is. A nyelvi, tartalmi szempontok iránt gyakran érzéketlen rendszer­

tervező figyelmen kívül hagyja a felhasználó szempontja­

it és k é n y e l m é t , lényegében tehát a m é l y e b b értelemben vett kereskedelmi szempontokat is.

A kereskedelmi forgalomban k a p h a t ó külföldi prog­

ramrendszerekkel kapcsolatban gyakran m e g t ö r t é n i k , hogy beszerzésükkor nem mérlegelik kellően információ­

kereső nyelvi össztevőjüket, így tezauruszkezelő képessé­

güket sem. így aztán csak a gyakorlati üzembehelyezés­

kor derül ki — amikor az adatbázis feltöltéséhez az információkereső nyelvhez m é l y e b b e n é r t ő szakemberek kezdenek hozzá - , hogy mennyire kezdetlegesek a tezauruszkezelő funkciók. Holott éppen ez a funkció, az információkereső-nyelvi összetevő a lényege annak a feladatnak, mely az ilyen rendszerek nevében is megfo­

galmazódik.

Az információkereső-nyelvi összetevő k i t ü n t e t e t t sze­

repet játszik a laikus felhasználó és az adatbázis k ö z ö t t i kapcsolatban, s kényelmére még nagyobb figyelmet kell szentelni, mint a faktografikus adatbázis a d a t t í p u s a i n a k - adatfajtáinak - jegyzékét t a r t a l m a z ó és szemantikai s z e m p o n t b ó l sokkal egyszerűbb a d a t s z ó t á r r a , ahol az a d a t t í p u s o k k ö z ö t t i relációkat nem a s z ó t á r - tehát a

„ n y e l v " - , hanem maga a faktografikus adatbázis tartal­

mazza [ V I , 2 7 5 - 3 0 2 ] . A faktografikus a d a t b á z i s o k a t elsősorban a rekordok k ö z ö t t i explicit kapcsolat jellemzi (az információtételeknek tehát összetett belső szerkezete van), szemben a bibliográfiai a d a t b á z i s o k k a l , melyekben

(5)

TMT 30. évf. 1983. 10.

a rekordok k ö z ö t t i kapcsolatok nyelvi kapcsolatokon keresztül realizálódnak [ V I , 82—83f. A természetes nyelvi Összetevő fejlettsége t e h á t a szöveges információ­

kereső rendszerek beszerzése és m ű k ö d t e t é s e szempont­

jából nemcsak számítástechnikai cs szervezéstechnikai

részletkérdés, hanem a dolog lényegét é r i n t ő p r o b l é m a [ 1 0 ] .

Az ismertebb információkereső rendszerek tulajdon­

ságait és főbb adatait az !. táblázatban foglaltuk össze.

1. táblázat Az ismertebb kereskedelmi forgalomban k a p h a t ó információkereső rendszerek

és tezauruszépítést t á m o g a t ó programcsomagok

Ma K M M Ftlruirnílo PoírJmvtrV GM

honra portot rtrcjrftl

Autón

Irívptcr - d m - fcrrpTOT

utaldi dtukfio- deukiio-TOr- TO' uTl-

1*1 Sunub- likai rtit-

CM4

STAIRS IBM KFKI P U I IBM 370 korlát­

lan nincs korlát­

lan

van van van

GÓLEM SIEMENS S2KI

ÉTK Assembler Siemens 255 nincs korlát­

lan van ninci van

AtOOS ROBOTRON loari Informatikai

KöEpont PL/1 P. 20 50

100

v»n 14 v*n van van

DIALÓG NTMIK OMIKK Aswmblei E S Z - I I . 63 ni n a 1 van nincs van

ISIS Urwsco/ILO S2ÁMALK PL/1 IBM 370 256 nincs nincs nincs nincs nincs

H m SZÁMA LK

-

PL/1 Fortran

ESZ-II.

IBM 370

756 ninci 16 van van nincs

MIR Informatika

GmkVCiákv B.

-

Assembler VT20A 40 ninci 5

van van nincs

SZÍV SZKI Zrinyi Katonai Akadémia Assembler n zo 220 nincs 60 nincs nincs nincs

BINÁR KFKI OMIKK

KFKI

Fortran Assembler

R 4 0 korlát

lan nincs nincs nincs nincs rvr.C*

LOGEL INFELOWÉTP ÉTI

Ipari Minisztérium Fo'tran R 30

R 55 20

31

nincs ! nincs n i n a ninci

TSPR Sehfange* L. Ipari InformaTrkai Központ. SZÁMALK.

MÉM N A K i t b .

PL/1 R 30

IBM 360

40 IS T2:eraL n j « ké« ÜK vele

ASTUTE EJRONET

-

Cobol IBM 360/370

Siemens 35 • * n 10

SZVET NTMIK

-

Assembler E S Z - I . - I I , 63 v t n 5

2.3 A tezauruszkészítést támogató ismertebb programcso magok

A kevés kereskedelmi forgalomban h o z z á f é r h e t ő kül­

földi programcsomag közül az ASTUTE az EGK Bizott­

ságának s z á m í t ó k ö z p o n t j á b a n készült, eredetileg az EURONET-ben használt t ö b b n y e l v ű tezauruszok készí­

tésének támogatására { V I t i ] . A SZVET az NTMIR-hen készülő tezauruszok kidolgozását és k a r b a n t a r t á s á t hiva­

t o t t segíteni [ X I X ] . Beszerezhető hazai fejlesztésű, kipró­

bált programcsomag is. a TSPR, melyet 1975 ó t a folyamatosan használnak tezauruszok készítésére, és részletcsen d o k u m e n t á l t á k [ X V I . I I ] .

A legfejlettebb k ö z ü l ü k a TSPR. Tökéletesítéséhez nagyban hozzájárult, hogy eddig már t ö b b mint tíz tezaurusz készült el vele (illetve van készülőfélben). A TSPR-rel a lexikai egységek szakcsoportok, elvont fogal­

mi kategóriák és a gyűjtés forrása szerint csoportosítha­

t ó k egyszerre; az ASTUTE - akárcsak a SZVET -

egyszerre csak egyetlen szempont szerint rendezi a szavakat. Mindegyik rendszerben ellenőrizhetően szer­

kesztett azonosítási szám képviseli a lexikai egységeket, amely nagyon leegyszerűsíti a relációk bevitelét és m ó d o s í t á s á t , mert a megnevezések ismételt, hosszas leírása szükségtelen. Mind az egy-, mind pedig a t ö b b ­ nyelvű tezauruszok készítésére alkalmasak. Az ASTUTE egyszerre ö t . a TSPR korlátlan számú nyelv tezauruszát képes kezelni.

Az ASTUTE legnagyobb h á t r á n y a , hogy legfeljebb 4 400 lexikai egységet képes kezelni. A TSPR-nél ez az é r t é k elég nagy (142 ezer lexikai egység). Előnye a TSPR-nek. hogy segítségével a lexikai egységek permu­

tált mutatója egyszerű m ó d o n k i n y o m t a t h a t ó .

A relációk kezelése s z e m p o n t j á b ó l az ASTUTE annyi­

ban e l ő n y ö s , hogy vele három" k ü l ö n b ö z ő nyelv egymás­

sal p á r h u z a m o s , h á r o m h a s á b o s k i n y o m t a t á s a lehetséges.

A TSPR segítségével definiálható a l e g t ö b b reláció, és a hibaellenőrzési lehetőségek gyakorlatilag minden előfor-

(6)

Ungváty R.: A tezauruszok automatizálása .

dűlő ellentmondásra kiterjednek. Nemcsak az ellenőriz­

h e t ő automatikusan, hogy egy nemdeszkriptorhoz desz­

kriptorok k ö z ö t t i relációban más deszkriptort kapcsol­

tak, hanem az is. ha ugyanazt a d e s z k r i p t o r p á r t két k ü l ö n b ö z ő relációjcllel kapcsolták össze, ha az i r á n y í t o t t rclácíóláncban végtelen ismétlődés — ciklus - fordul elő stb. A nemdeszkriptorok és deszkriptorok. valamint a k ü l ö n b ö z ő nyelvű kifejezések k ö z ö t t i É S . V A G Y és DE NEM relációkat csak a TSPR kezeli.

Különösen j e l e n t ő s a tezauruszkészítés szempontjából az összegyűjtött lexikai egységek besorolási rendszerének - például a szakcsoportosításnak - a megváltoztathatósá­

ga, melyre egyrészt a szerkesztési munka tapasztalatai n y o m á n van szükség, másrészt olyankor, amikor a tezaurusz a d a t á l l o m á n y á t k ü l ö n b ö z ő felhasználói szem­

pontok szerint rendezve kell kinyomtatni. Ez is csak a TSPR segítségével valósítható meg, ugyanolyan egyszerű m ó d o n , mint az, hogy egy-egy tezauruszból meghatáro­

zott részeket válogassanak k i , hogy belőlük speciálisabb résztezauruszokat állítsanak elő. Ennek különösen a nagy v o l u m e n ű tezauruszok és tezauruszrendszerek ese­

tén van jelentősége.

3. A gépesítés hatása a tezauruszok szerkezetére

A gépesités két oldalról befolyásolja a szerkezetet:

egyrészt a gépi tezauruszt befogadó információkereső rendszerek, másrészt a számítógéppel t á m o g a t o t t teza­

uruszkészítés részéről. A legjelentősebb h a t á s o k a reláci­

ók automatikus kezelhetőségéből és a szintaktikai relá­

ciók használatának lehetőségéből a d ó d n a k . Automatikus indexelés esetén ezekhez járulnak még a t ő s z ó t á r haszná­

l a t á n a k k ö v e t k e z m é n y e i .

3.1 A relációk automatikus kezelésének hatása

A legtöbb fejlettebb programrendszer biztosítja az automatikus nemdeszkriptor—deszkriptor utalást. A z i n ­ dexelő közvetlenül a nemdeszkriptorral is o s z t á l y o z h a t , a programrendszer automatikusan összekapcsolja a fel­

használt kifejezést a szinonima- illetve kvázi szinonima- csoportot képviselő kifejezéssel. Bár ez a t é n y nem annyira a tezaurusz szerkezetét, mint i n k á b b használatát befolyásolja, előfordul, hogy emiatt kisebb jelentőséget tulajdonítanak annak, hogy melyik kifejezés legyen a deszkriptor és melyik a nemdeszkriptor. Ez ellentében van a tezaurusz-szabványok ama követelményével, hogy az i n k á b b elfogadott kifejezést kell deszkriptornak kije­

lölni.

A legkorszerűbb rendszerekben - mint a STAIRS VS/TLS és a GÓLEM — a nemdeszkriptor-deszkriptor utalás operatív m ó d o n k i - és b e i k t a t h a t ó : a kérdésben előírhatjuk, hogy a rendszer vegye figyelembe a kérdés­

ben szereplő kifejezések nemdeszkriptor-deszkriptor

kapcsolatait vagy hagyja figyelmen kívül ő k e t , és csak azokat a dokumentumokat válogassa k i , melyeket a kérdésben szereplő kifejezésekkel indexeltek. A GOLEM-ben például az e b t e n y é s z t é s magyarországi iro­

dalmára v o n a t k o z ó , természetes nyelven megfogalmazott kérdés a k ö v e t k e z ő k é p p e n fogalmazható meg az első, illetve a második esetben:

ADES SYNOUT E B*TE NY ÉSZT ÉS'M AGYARORSZÁG ADES SYNIN EB*TE NY ÉSZT ÉS* MAGYARORSZÁG

ahol a SYNOUT, illetve a S Y N I N az utalás k i - , illetve beiktatásának a parancsa, s ettől függően vagy nem kapjuk meg a K U T Y A lexikai egységgel indexelt doku­

mentumokat, vagy megkapjuk ő k e t .

Ezekben az ínformációkereső rendszerekben tehát nemcsak szabad nemdeszkriptorral indexelni, hanem kell is; azaz mindig azt a lexikai egységet kell használni - ha van ilyen a tezauruszban - , amelynek megfelelő alakú szó a dokumentumban is szerepei, tekintet nélkül arra, hogy ez nemdeszkriptor .vagy deszkriptor. Célszerű a valódi szinonimján és a kváziszinonímián alapuló nem­

deszkriptor-deszkriptor kapcsolatokat eltérő m ó d o n je­

lölni, mivel nyilvánvalóan csak az u t ó b b i esetében van értelme az automatikus utalás kiiktatásának. Kváziszino- nímia esetében ilyenkor a keresőkérdés p o n t o s í t h a t ó . A gépi tezauruszokban tehát előfordulhat kétféle nemdesz­

kriptor-deszkriptor kapcsolat is. A szabványosítás ezt a lehetőséget nem tartja nyilván.

Az előbb említett programrendszerekben a deszkrip­

torok k ö z ö t t i relációk is k e z e l h e t ő k automatikusan. Ez azt jelenti, hogy a keresőkérdésbe b e v o n h a t ó k mindazok a deszkriptorok. melyek a tezauruszban kapcsolatban állnak a keresőkérdés deszkriptorláncának valamelyik deszkrjptórával, fly m ó d o n a kérdés k ü l ö n b ö z ő értelem­

ben kiterjeszthető. A legjelentősebb az automatikus hierarchiaszint emelése, illetve süllyesztése, azaz a fölé­

rendelt, illetve az alárendelt deszkriptorok bevonása a k e r e s ő k é p b e . Ezáltal a találatok száma n ö v e l h e t ő , illetve c s ö k k e n t h e t ő anélkül, hogy a kérdés értelme megváltoz­

n é k (csak általánosabb, illetve specifikusabb lesz). A z A l DOS-ban például az agártenyésztés magyarországi irodalmára v o n a t k o z ó keresőkérdés az AGÁR-ra vonat­

k o z ó a n a k ö v e t k e z ő k é p p e n terjeszthető k i , ha a t t ó l tartunk, hogy túl kevés — páldául 10 tétel alatti — a találatok száma;

AGÁR < 10 (0011

ahol a < 1 0 utal arra az esetre, amikor a találatok száma kevesebb tíznél, az 0 b e t ű a fölérendelt (Oberbegriff) bevonását, a 01 pedig a közvetlen — első szinten k a p c s o l ó d ó — deszkriptort jelenti.

E lehetőség k ö v e t k e z t é b e n a gépi tezauruszokban nagy jelentősége van a logikailag pontosan é r t e l m e z e t t

(7)

T M T 3 0 . évf. 1983. 10.

nem-faj reláció (az ú n . „szigorú hierarchia") betartásá­

nak. Ilyen reláció áll fenn pl. az A G Á R - K U T Y A , Ú T É P Í T É S - É P Í T É S , A S Z T A L - B Ú T O R , LOBBANÁS­

P O N T - P A R A M É T E R fogalmak k ö z ö t t , s legalábbis m e g f o n t o l a n d ó , hogy milyen k ö v e t k e z m é n y e i lesznek a h é t k ö z n a p i értelmezésben „ t á g a b b " vagy „ s z ű k e b b "

összefüggés (az ú n . „laza hierarchia") alkalmazásának, mint például A G Á R - V A D Á S Z A T , A S Z T A L - B Ú T O R ­ IPAR, L O B B A N Á S P O N T - H Ö T A N . A z u t ó b b i a k valójá­

ban különféle i r á n y í t o t t relációkat képviselnek, mint a

„tevékenység—tevékenység e s z k ö z e " , „ r é s z - e g é s z " stb.

A magyar szabvány előírásai következetesen alkalmazzák az a l á - f ö l é r e n d e l t s é g i viszonyt. Az ISO 2788 nemzet­

közi szabványban a ..laza h i e r a r c h i á t " is engedélyezik, de lehetőséget adnak a „szigorú hierarchia" m e g k ü l ö n b ö z t e ­ tésére (BTJNT. illetve BTG/NTG relációjelek formájá­

ban).

A másik k ö v e t k e z m é n y e az automatikus relációkeze­

lésnek az, hogy a gépi tezauruszokban olykor a szokásos­

nál t ö b b relációtípust k ü l ö n b ö z t e t n e k meg. így például a MÉM N ö v é n y v é d e l m i és Agrokémiai tezauruszában a

„ n ö v é n y - k á r o s í t ója", ,.növényvédőszer—károsító" és

„ k á r o s í t ó - b e t e g s é g " relációtípusokat is használják.

Gépi tezauruszokban azért értelmezik és k ü l ö n b ö z t e ­ tik meg pontosabban a relációkat, hogy a k e r e s ő k é p automatikus módosítása valóban automatikusan történ­

hessen, logikailag m e g b í z h a t ó a n definiált relációtípusok alapján. Ezek használatakor előre tudhatjuk, milyen irányban terjesztődik ki a kérdés, s nem kell minden esetben a tezauruszban is ellenőrizni, hogy az adott relációval milyen fogalmakat kapcsoltak össze.

Gyakori eset, hogy fontosabb fogalmaknak sok az alárendeltje, ezek azonban különféle szempontok szerint c s o p o r t o s í t h a t ó k ( p l . „felhasználás", „ m ű k ö d é s " stb.).

Az ISO s z a b v á n y b a n erre az esetre azt javasolják, hogy a túerarchialáncot fel kell osztani e szempontok szerint ú n .

„elágazási szintekre" ( „ n o d e label"), ezeket megfelelő megjegyzésekkel jelölve. Mivel a megjegyzések gépi kezelése k ö r ü l m é n y e s , a relációjeleké viszont nem, a gépi tezauruszokban nem megjegyzésekkel jelölik az elágazá­

sokat, hanem h á t r a v e t e t t értelmezővel annyi fölérendelt deszkriptort alkotnak, ahány szempont szerint az aláren­

delteket csoportosítani kívánják.

P 1- REPÜLÉS

A REPÜLÉS (RAKOMÁNY SZERINT) REPÜLÉS (HASZNÁLÓK SZERINTI REPÜLÉS (GÉPTÍPUS SZERINTI REPÜLÉS(RAKOMÁNY REPÜLÉSIHASZNÁLÓK SZERINT) SZERINT)

F REPÜLÉS F REPÜLÉS

A SZEMÉLYSZÁLLÍTÓ A KATONAI REPÜLÉS

REPÜLÉS KERESKEDELMI TEHERSZÁLLÍTÓ REPÜLÉS

REPÜLÉS KUTATÓREPÜLÉS SPORTREPÜLÉS

A megoldás e l ő n y e , hogy a deszkriptort képviselő, mesterséges h o m o n i m á k segítségével kereséskor automa­

tikusan utalni lehet egy közvetlen gyűjtőfogalomra, ha az egyes speciális fogalmak alapján nincs elég találat.

Ha az elágazások egyéb relációkon alapulnak, akkor egyes gépi tezauruszokban önálló relációval ( p l . „eszkö­

ze", „ r e n d e l t e t é s e " , „ n ö v é n y v é d ő s z e r e " , „ b e t e g s é g e "

stb.) jelölik az elágazást, nem pedig megjegyzéssel.

Pl.

KÖNYV és nem KÖNYV

T KÖNYVSOROZAT P ClMLAP

GERINC R TÁROLÁS

KÖTÉS NYOMÁS X BETŰ

KÖNYVÉSZET

T KÖNYVSOROZAT P ClMLAP

GERINC X BETŰ

KÖNYVÉSZET Müvelet szerint:

TÁROLÁS KÖTÉS NYOMÁS

A szabványban javasolt megoldás kirívó hibája - amiért a „manuális tezauruszokban" sem válik be - . hogy tisztázatlan marad az összefüggés inverze.

3.2 A szintaktikai relációk hatása

Az információkereső nyelv szintaxisa lényegében a deszkriptorlánc szerkesztési szabályainak összessége. A STAIRS, G Ó L E M . AIDOS lehetővé teszik a deszkriptor­

lánc elemeinek összekapcsolását, biztosítva a „ m o n d a ­ t o k " egyértelműségét. A „magyar a u t ó k exportja Fran­

ciaországba" tényállást például a k ö v e t k e z ő k é p p e n kü­

l ö n b ö z t e t i k meg az AlDOS-ban a „francia a u t ó k export­

ja Magyarországra" tényállástól:

MAGYARORSZÁG-SZEMÉLYAUTÓ. EXPORT, FRANCIA­

ORSZÁG;

FRANCIAORSZÁG-SZEMÉLYAUTÓ, EXPORT, MAGYAR­

ORSZÁG;

ahol a csillag egyszerű kapcsolatjelülöt - angolul: „ l i n k "

- képvisel.

A GOLEM-ben arra is lehetőség van, hogy az ú n .

„ i n d e x e k " segítségével a k ü l ö n b ö z ő d e s z k r i p t o r l á n c o k b a felvett elemek k ö z ö t t is kapcsolatokat jelöljenek.

A kézi rendszerekben - pl. c é d u l a k a t a l ó g u s o k b a n — szintaktikai relációkat nem használnak, s ugyanez vonat­

kozik az egyszerűbb információkereső programrendsze­

rekre is. amilyen az ISIS .vagy a SZÍV. A fejlett programrendszerekben használt szintaktikai relációk alapvetően befolyásolják a tezaurusz megnevezéseinek fajtáit és szerkezetét, különösen pedig a tezaurusszal indexelt á l l o m á n y o k r ó l készült m u t a t ó k felépítését.

(8)

Ungváry R,: A tezauruszok automatizálása . . .

Mivel a t ö b b é r t e l m ű s é g a szintaktikai reláció alkalma­

zásával k i k ü s z ö b ö l h e t ő , a G Ó L E M , az AIDOS vagy a STAIRS tezauruszaiban p r o b l é m a m e n t e s e n vehetők fel uniterm — egytagú — kifejezések. A szabványok szerint azokat az összetett kifejezéseket, melyek az összetevők sorrendjétől függően mást és mást jelentenek ( p l . OLAJ­

T R A N S Z F O R M Á T O R és T R A N S Z F O R M Á T O R O L A J ) , összetett formában - p r e k o m b i n á l t a n — kell felvenni a tezauruszba. A GOLEM-ben páldául nincs erre szükség, a deszkriptorláncban az O L A J és a T R A N S Z F O R M Á T O R deszkriptorokat utólagosan - posztkombinálva — is e g y é r t e l m ű e n kezelni lehet:

TRANSZFORMÁTOR::OLAJ;;

illetve

OLAJ::TRANSZFORMÁTOR;;

ahol a szintaktikai reláció jele a k e t t ő s p o n t , melyet azért alkalmaznak k e t t ő z v e , hogy a tárolt kifejezésekben, illetve szövegekben írásjelként egyedileg továbbra is használni lehessen. Az ilyen összetett kifejezéseket - ú n .

„összetett deszkriptorokat" - mindig csak az első tag, az ú n . „ a s p e k t u s " szerint lehet először keresni, ez az elem képviseli tehát a „ f ó k u s z t " . A t t ó l függően, hogy melyik kifejezés kerül az aspektus h e l y é r e , képviseli az összetett deszkriptor az egyik vagy a másik j e l e n t é s t .

Ugyancsak a szintaktikai relációk alkalmazhatóságá­

ból k ö v e t k e z ő nagyobb biztonsággal m a g y a r á z h a t ó , hogy a gépi tezauruszokban sokszor az adott szakterületen fontosnak s z á m í t ó összetett kifejezéseket sem veszik fel, hanem csak morfológiai összetevőiket, holott a szabvá­

nyok ezt kifejezetten előírják. Erre olyankor kerül sor, amikor az adott kifejezésnek nincs a hierarchikus szerke­

zetben f ö l é r e n d e l t k é n t összefoglaló szerepe, s ezért az automatikus hierarchiaszint emelés szempontjából nem játszik szerepet. (Az automatikus hierarchiaszint emelés kihasználhatósága érdekében viszont sokszor használnak összetett, mesterségesen a l k o t o t t , a szaknyelvben olykor nem is használt kifejezéseket, hogy velük az egyébként fölérendelt deszkriptorral nem rendelkező deszkriptoro­

kat a tezauruszban összefoghassák [ X X I ] . )

A szintaktikai relációk használatának lehetősége fo­

kozza a tezaurusszal végzett tartalmi feltárás analitikus jellegét, ami a melléknevek és egyéb szófajok deszkrjp- t o r k é n t való használatában is megnyilvánul, bár ezt a szabványok nem ajánlják. A magyarországi gépi tezauru­

szokban például nemcsak az olyan kifejezések szerepel­

nek, mint B I L L E N Ő , F R O N T Á L I S , G É P I stb., hanem olyan m o r f é m á k - töredékszavak - is, mint M I K R O - , MENTES, N É L K Ü L I stb. A s z a b v á n y o k szerint az u t ó b b i a k szereplése kizárt az információkereső tezauru­

szokban.

3.3 Az automatikus indexelés hatása

Az automatikus indexeléshez a programrendszerben a szavak töveit az ú n . tőszótárban tartják nyilván. Ebben a főnevek és melléknevek tövei mellett az igetöveket is feltüntetik. A h a t é k o n y információkereséshez a tartalmi­

lag közel álló töveket — szófajukra való tekintet nélkül - össze kell vonni és k ö z ö s deszkriptorral kell képviselni.

Ennek k ö v e t k e z t é b e n a gépi tezauruszban a szótövek vagy - például - az igék is megjelennek, külön relácio- jellel kapcsolódva a v e z é r d e s z k r i p t o r o k h o z .

Az ilyen gépi tezauruszoknak valójában része az ú n .

„negatív tezaurusz", mely a tartalom szerinti keresésből kizárt, jelentés nélküli, üres (negatív, nulla-) deszkripto­

rokat tartalmazza. Ilyen lehetőségekre nyílik m ó d a STAIRS programrendszerrel.

3.4 A számítógéppel támogatott tezauruszkészítés hatása

A tezauruszok készítéséhez használt programrendsze­

rek vagy megnevezéseket, vagy megnevezéseket és relá­

ciókat kezelnek. A kezelés szempontjából m e g k ü l ö n b ö z ­ tetik a megnevezés- és a relációtételeket.

A megnevezéstétel felépítése a TSPR-ban például a k ö v e t k e z ő :

Azonosítási szám Fogalmi Forrásjel hibaellenőrzés! kategória

lehetőséggel

\

003514 D56 F H LEX~KERESKEDELMI REPÜLÉS Szakcsoport/el Ny elv kód

A kapcsolattétel felépítése:

Megnevezés

A vezérszó jele Relációjelek

^ L 0 0 3 5 1 4 F TÓ356T^91~4^O"A 210371 A kapcsolódó fogalmak azonosítási száma

A végső k i n y o m t a t á s b a n a megnevezéstételben sze­

replő egyes adatok tetszés szerint e l h a g y h a t ó k . A tétel felépítésétől függ t e h á t , milyen formában jelenik meg a géppel k i n y o m t a t o t t tezaurusz. Ma az a helyzet, hogy ahány programrendszert készítenek, annyiféleképpen alakítják k i a megnevezés- és k a p c s o l a t t é t e l t , s e t t ő l függően változnak a gépi tezauruszkinyom tat ás ok.

Az információkereső rendszerekben a megnevezéseket általában nem kapcsolják össze belső azonosítási szám­

mal, ezért minden adatkezelés m a g á h o z a k ü l ö n b ö z ő hosszúságú megnevezéshez k a p c s o l ó d i k . A kapcsolatté­

telben tehát nem két s z á m o t , hanem — mint például az

(9)

T M T 3 0 . évf. 1983. 10.

AIDOS esetén - két teljes megnevezést kell kiírni, ami lényegesen k ö r ü l m é n y e s e b b , továbbá a módosítások alkalmával hibaellenőrzésre sincsen m ó d .

A gépesítés hatásával a szabványosítás — mint erre korábban r á m u t a t t a m [ X X I I I ] - nem foglalkozik, holott a gépi tezauruszok terjedésével ez a hatás egyre erőseb­

ben érvényesül.

Megjegyzések

111 Az adatok érlel mezAeííí, az információk értelmezefí ismereteket képviselnek. A számit ás technikában mindig az adattétel, a dokumentációban - cs i továbbiakban c tanulmányban is - többnyire az információtétel kifejezést használják.

[21 A könyvtári cs dokumentációs szakirodalomban | I V ] inkább egy másik szóhasználat honosodott meg. Eszerint az adatbázist az információkereső rendszer passziv részé­

nek, a kezelőrendszert pedig az aktiv részének nevezik, lebben az értelmezésben tehát az információkereső rend­

szer gyűjtőfogalom. Ha nem programrendszertől van szó.

akkor az információkereső rendszer aktív része azonos az információkereső nyelvvel, mivel a ..kezelőrendszer" eb­

ben az esetben az emberi tudatban van.

Véleményem szerint az információkereső rendszer fogal­

mát nem célszerű ilyen általánosan értelmezni. Automati­

zált körülmények között ez a rendszer nem más, mint maga a kezelőrendszer. Alátámasztja ezt, hogy a szöveges, bibliográfiai adatokai kezelő programcsomagokat készítő­

ik általában információkereső rendszernek nevezik. PL:

STAIRS • Storage and Information Retrieval System;

SZÍV - Szöveges Információvissza kereső Rendszer.

|3] Az NDK-ban 1974-ig elkészült 23 tezaurusz esetében átlagosan 4300 |X1IJ, az 1980-ig elkészült 15 magyaror­

szági tezaurusz esetében átlagosan 11 000 jXXII |, a többnyelvű tezauruszokra vonatkozó 1980-as felmérés szerint átlagosan 5800 lexikai egység esett egy tezaurusz­

ra.

|4] Az AIDOS információkereső rendszer DOS változatának elkészítéséhez pl. 300 emberevre volt szükség [IJ, ami kb.

60 ember S évi munkájának felel meg. Az OS változat to­

vábbi embercveket vett igénybe.

|5| Csak az AIDOS legújabb, OS operációs rendszerben működő változata felel meg ennek a színvonalnak. Az eredeti - nálunk adaptált - DOS változatban az, előny értéket kérdésessé teszi néhány szigorú megszorítás. Példá­

ul a nem-faj reláció kizárólag monohierarchikus lehet, rajta kivül csak egyetlen további deszkriptorok közötti - rokonsági - reláció létezik, melyet ráadásul csak ugyan­

azon szakcsoportba sorolt deszkriptorok között lehel meghatározni.

|6| A GOLEM-et annak idején a müncheni olimpiára készítet­

ték; információkereső előírásait a laikus számára könnyen érthetően fogalmazták meg, hogy a rendszeri egyáltalán nem ismerő újságírók is használhassák.

| 7 | A SZÁMALK-ban használt ISIS-BABILON az egyetlen olyan magyarországi online adatbázisrendszer, melyhez bárki szabadon hozzáférhet, A GÓLEM csak a felhasználó vállalatok - SZKI. MÉM NAK, ÉTK - illetékes szak­

embereinek áll rendelkezésére.

|8] Ez a rendszer nem tévesztendő össze a közel 180 adatbázist kezelő amerikai DIALÓG Information Re­

trieval Service nevű ismeri rendszerrel, mellyel az utóbbi években már Magyarországon is - pl. az SZKI-n és az OMlKK-on keresztül - kapcsolatot teremtettek. Az NTMIK DIALÓG rendszerének üzem behelyezésére az, OMIKK-ban kerílt sor |XX).

|9| A BIBDOSZ nemzetközi mércével mérve is igényes vállalkozás volt. mely alkotójának, Pclhcs Ivánnak korai halálával lényegében kereskedelmi forgalmazáshoz érett dokumentáció nélkül maradt, s ma már alkalmazását is megszüntették az Országos Vezetőképző Központban.

|10| Az egyik legjelentősebb hazai online fejlesztés ] X X | keretében minden jel szerint két olyan programcsomag - a CDS ISIS és az NTMIK DIALÓG - beszerzése mellett döntöttek, melyek információkereső nyelvet kezelő ké­

pessege sajnos elavult. A fejlett rendszerek beszerzéséhez feltehetően nem biztosítják az anyagi fedezetet. Kétséges azonban, hogy hosszú távon az elavult termékek beszerzé­

se a gazdaságos.

A 70-es évek elején a KSH-ban használt TE XT-PA CK in Tor máció kereső rendszerben nyilvántartott kulcsszavak­

hoz egy másik hazai tezaurusz készít 5 és nyilvántartó programrendszer kidolgozásához is hozzákezdtek, de az elkészült modulok csak a megnevezések szintjén működ­

tek, relációkat nem tudlak kezelni |111|.

Bibliográfia

| 1 | SOPS AIDOS Generierungsvariantc DOSlES Version.

Berlin, ZIID, 1976. 98 p.

[II] BALÁZS K.: Felzárkózás - követés - lemaradás. Egy intézctiörtcneli ásatásból = Valóság. 24. k ö t 8. sz.

1981. p. 18-31.

'III! BALOGH Z-: Tezaurusz előállítására alkalmas prog­

ramcsomag = Számvitel és ÜgyvitcHechnika, 1973. I . melléklet. 33 p.

11V1 Fogalomgyűjtemény az informatika válogatót! terüle­

teiről, összeállította: Várady É. |et al|. Bp. OMKDK.

1972. 191 p.

[V] GÓLEM (BS 20001 Softuarcprodukt. Siemcns-Syslem 7000/4004. Datenbankdicnstc. Bedienu n esa n lcitu n g.

Teil I. und 2. München. 1976.

í VI | HA LA SS Y B.: Adatbázisok kezelésének alapvető kér­

dései. Bp. SZÁMOK, 1978. 440 p.

|VI1] A HIR 2 rendszer alapelve, működése, jellemzői.

Fejlesztési javaslat, összeállította; Csáky Béla. Bp.

SZÁMKI. 1981. 26 p. (SZÁMKI 2364181)

[ V I I I | ILJON. A.: Lclogiciel ASTUTE: un outil informatigue pour la création. la mise á jour l'édition de l'impression de thésauri mono- et multilincue = Documentaliste, 14. köt. 5-6. sz. 1977. p. 25-33.

|IX1 CDS/ISIS: Általános leírás. Tervezet. Párizs, Unesco CDS. 1978. március 55 p. |SZÁMALK fordítási.

IX] Hazai szoftver kínálat 1982. Bp. KSH. 15-137-VIH p.

[XI] KUNSZT GY.: A tudományos kutatás logikai modelle­

zése és tematikai irányítása. Bp. Akadémiai Kiadó.

1974. 435 p. /Tudományszervezési füzetek!

(10)

Ungváry R.: A tezauruszok Automatizálása

[ X I I | MANECKE, H. J.: Statislischc Analysc von in der DDR angcwcndctcn Thesauri = Wisscnt.schafllichc Zcil- schrift dcr TH Ilmenau. 20. köt. 4/5. sz. 1974.

p. 213-217.

[XIII1 MIR. Általános felhasználású információ tároló cs visszakereső rendszer. Rendszerterv. Kcszitclte: Infor­

matika Gmk. Bp.1982. augusztus.28 p.

[X1V| Az NTMIR programcsomagjai: DIALÓG. SZKIF. Bp.

OMFB. 1981. 62 p. /NTMIR dokumentumai. 19./

[XVI PETHES I.-TOLNAI GY.: BIBDOSZ. Egy megvalósí­

tott komplex számítógépes könyvtári és dokumentá­

ciós rendszer = Könyvtári Figyelő. 24. köt. 5. sz. 1978.

p. 495-512.

[ X V I | SCHLANGF.R L.: Tezauru szépít és számítógépes segíté­

se. Bp. OSZK-KMK. 1983. 280 p.

| X V I I | SLYPE, G.. van: Qalitative und quantitavie Merkmale ein- und mehrsprachiger Thesauri = Dritter euro- paischer Kongress über Dokumentationssysteme und -netze. München, Kommission dcr curopaischc Gc- meinschaften, Verlag Dokumcntation, 1977. p. 355¬

367.

fXVI111 IBM System/370. Storage and Information Rctrieval System/Virtual Storage - Thesaurus and Linguistic Intcgrated System. General Information Manuál GH12-5123-1. Second Edition (November 1976) 38 p.

[XIX! SUMAROKOV. L. N.: Pakety prikladnyh programm dia obnbolkl naucno—tcchniccskoj informacii: sosto.1- nic a perspektivy =Problemy MSNTI 1/1982. p. 3-22.

| X X | SZABÓ I.-KERTÉSZ J.-SZARKA GY.: Számítógé­

pes információrendszer fejlesztési elképzelései az OMKDK-ban • Információ-Elektronika, 16. köt. 5. sz.

1981. p. 292-294.

|XXI) Számítógépes Információvissza kereső Rendszer (SZÍV). Felhasználói dokumentáció. Alkalmazói le­

írás. Bp..SZKI. 1974. 84 p.

|XX11| UNGVÁRY R-: Tezaurusz-technológia. Az információ­

kereső tezauruszok készítésének folyamata. Bp.

OSZK-KMK, 1979, 277 p.

(XXIII! UNGVÁRY R.: A magyarországi tezauruszok a nem­

zetközi szabványosítás tükrében = Tudományos és Műszaki Tájékoztatás, 30. köt. 8-9. sz. 1983.

p. 305-330.

UNGVÁRY Rudolf: A tezauruszok automatizálása. A gépi tezauruszkészítés és használat néhány kérdése

Az a u t o m a t i z á l t információkereső rendszerek által kezelt gépi tezauruszok tulajdonságait jelentős m é r t é k ­ ben befolyásolják a programrendszer adottságai. A z automatikus nemdeszkriptor-deszkriptor utalás követ­

keztében külön relációjellel jelölik a valódi, és külön relációjellel a kvázi szinonimján alapuló kapcsolatokat.

Az automatikus deszkriptorok k ö z ö t t i relációk kezelése k ö v e t k e z t é b e n a szokásosnál t ö b b , és logikailag szigorúb­

ban értelmezett relációk használatára kerül sor. A szintaktikai relációk használata k ö v e t k e z t é b e n bizonyos szóösszetételek nem szerepelnek lexikai egységként a tezauruszban, mivel a p o s z t k o m b i n á c i ó k b a n b i z t o s i t h a t ó az egyértelműség. A melléknevek cs egyéb szófajok kifejezései is gyakrabban szerepelnek d e s z k r i p t o r k é n t . Az automatikus indexelésnek is h a s o n l ó a hatása. Az információkereső programrendszerek tezauruszkezelő képességeit a beszerzéskor nem veszik kellő m é r t é k b e n figyelembe, holott e képességek szempontjából rendkívül nagy k ü l ö n b s é g van az egyes t e r m é k e k k ö z ö t t .

UNGVÁRY, R.:Automation of thesauri:

Its effect on their structure

The capabilities o f computer programs affect con- siderably the characteristics of mechanized thesauri applied in automatic Information retrieval systems. Due to automatic reference from nondeseriptors to de­

seriptors, relations based on real synonyms and quasi- synonyms are designated differently. In consequencc of the automatic handlíng of relations between deseriptors, more and semantically more precise relations are used than usual. As a result o f using syntactical relations certain compound words are not included in the thesauri, because the unanimity can be assured through post-coordination. Adjectives and other parts o f speech are used as deseriptors more often than usual. Automatic indexing results in identical problems. During acquisi- t i o n , more attention should be paid to the language component of the available programs, because they differ considerably in this respect.

(11)

TMT 30. évf. 1983. 10.

VHPBAPH, P.:

A B T O M a T H 3 a m i a T e a a y p y c o B H

ee

B/IHHHHe H a H X c r p y K T y p b t

C B O Í Í C T B C L M a u i H H H o r o x e 3 a y p y c a . y n p a r w i a e r n o r o a BTO MaTH3 I I pO B&HHOH HHtpOpMaUHOHHO-nOKCKOBOÍÍ CHCTCMOK, B 3Hat!HTe^bHOH c r e n e H H n o r t s e p -

»<•<[[,[ BJIHHHHtO OCOÖCHHOCTCR CHCTeMbI n p O r p B M M . B c n e a C T B H e a B T O M a T H i e c x o i í C C U Z I K H H e a e c K p i i n - T O p - f l e C K p m T T O p , OÖOSHaHaiOT OTJje JIbHbIMK 3HaKaMH OTHOineHHfi a e H C T B H T e ibnbie C B H S H Y. OT/rejibUbiMii 3 H 8 K & M H CB513H, 6a3HpyK>IUHeCfl H a KBB3HCHHO*

H H M H H . B c ^ e a c T B H e y n p a B ^ e H H B C B s o e í í M e i w i y a B T O M a T H i e c K H M H r i e c K p H n T o p a M H H c n o ^ b 3 y e T c a ö o ^ b i u c e KO/iH<!ecTBO A o r u q e c K H 6onee C T p o r o B b i p a » c e H H b i x C B u s e ü . B c J i e a c r B H e H c n o ; i b 3 0 B a i r n s i C H H T a K T H i e C K H X O T H O i D f m i i i HfKOTOpi.Te CJIOBOCO- l e T a H H a n e n p n c y T C T B y K J T B T e 3 a y p y c e B K a ^ e c T a e

!''-.• Í C L K ; Í X e i n i m i u , T a K KUK B n o C T K O M Ö H H a u H j r x o ö e c n e i H B a e T C j i o r o r o s H a i H o c T b . B K a i e e r B e jr.ec.K- p H n T o p o B <iacTo B C T p e i a r o T C S i' n p H J i a r a T e ^ b H b i c

H flpyriie q a c T H

pc™.

AHa;iorH»iHoe B ^ H H H H C H M C E T H a B T O M a t H M e c K o e H H a c K c n p o B a H H e .

IlpH npnoö-

p e T e H H H H H t p o p M a u H O H H o - n O K C K O B o r o n a K d a n p o r - p a « M H C

o6pamaercn

A O A K H o r o BHHMaHHH H a e r o c B o i i c T B a n o B e a e H H i o i n a u i H H H o r o T e 3 a y p y c a , X O T S I C TOVKH 3 p e H H S 3THX C B O Í Í C T B HMeeTCH 0«!CHb ÖOflb- u i a s i p a s i m n a nexsy OT/teabKbiMH CHCTeMBMM.

UNGVÁRY, R.: Die Automatisierung der Thesauri und ihre Auswírkung auf

die Thesaurusstruktur

Thesauri können - als integrierter Teii eines Infor- mationsrecherchesystems - automatisiert verwendet, bzw. - mit HÜfe spezieller Programmsysteme - „auto­

matisiert" erstellt werden. Die Eigenschaften der Thesa­

uri werden in bedeutendem Masse durch das jcweilige Programsystem beeinflusst. infolge der automatischen benützung der Bezichungen zwischen den Nichtde- skriptoren und Deskriptoren wird die Áquivalcnzrelation und die Quasiaquivalenzrelation unterschiedlich gekenn- zeichnet. Infolge der Möglichkeit, die Bezichungen zwischen den Deskriptoren ebenfalls automatisch zu benützen werden mehr Relationen als üblich verwendet und sie werden semantisch genauer definiert. Infolge der Möglichkeit, beim fndexieren syntaktische Relationen anzugeben werden gewisse Komposita nicht als lexí- kalische Einheiten im Thesaurus aufgenommen, da bei der Postkombination die Eindeutigkeit gesichert werden kann. Adjektive sowie sonstige Wortarten werden des öfteren als Deskriptoren aufgenommen. Auch das auto- matische Indexieren führt zu áhnlichen Ergebnissen. Bei der Beschaffung von Informationsrecherchesystemen wird der Bedeutung der Sprachlichen Verwaltungs- komponente meistens ungenügend Aufmerksamkeit ge- schenkt, obwohl hinsichtlich der „sprachlichen" Fáhig- keiten zwischen den handelsüblichen Softwareprodukten sehr grosse Unterschiede bestehen.

A KÖZELJÖVŐBEN JELENIK MEG

A KGST-tagországok Nemzetközi T u d o m á n y o s és Műszaki Információs Rendszere. Á t f o g ó ismertetés

(Az NTMIR dokumentumai sorozat 22. füzete)

1976 óta nem jelent meg átfogó ismertetés az NTM I R-ről. A végbement változásnak és fejlődésnek megfelelően az eltelt időszak szükségessé tette egy új átfogó ismertetés kiadását. A kiadvány részletesen bemutatja az NTMIR szervezeti felépítését, az NTMIK tevékenységét, a nemzetközi speciális információs rendszerek működését és a nemzetközi ágazati információs rendszerek működését. Kitér az információs rendszerek működésének biztosításához szükséges elméleti- tudományos kérdésekre, így a géppel olvasható információhordozókra, a kompatibilitás és szabványosítás kérdéseire, valamint a program ellátás helyzetére. Külön fejezetet szentel az információs dolgozók képzése és továbbképzése terén megvalósuló együttműködésnek.

A kiadványt ábrák és táblázatok teszik szemléletessé, terjedelme kb. 10 szerzői ív, ára 9 0 , - F t

Megrendelhető az O M I K K Értékesítési osztályától: (1428 Budapest, Pf. 12.)

Hivatkozások

KAPCSOLÓDÓ DOKUMENTUMOK

tanévben az általános iskolai tanulók száma 741,5 ezer fő, az érintett korosztály fogyásából adódóan 3800 fővel kevesebb, mint egy évvel korábban.. Az

Legyen szabad reménylenünk (Waldapfel bizonyára velem tart), hogy ez a felfogás meg fog változni, De nagyon szükségesnek tar- tanám ehhez, hogy az Altalános Utasítások, melyhez

Az olyan tartalmak, amelyek ugyan számos vita tárgyát képezik, de a multikulturális pedagógia alapvető alkotóelemei, mint például a kölcsönösség, az interakció, a

Nagy József, Józsa Krisztián, Vidákovich Tibor és Fazekasné Fenyvesi Margit (2004): Az elemi alapkész- ségek fejlődése 4–8 éves életkorban. Mozaik

A „bárhol bármikor” munkavégzésben kulcsfontosságú lehet, hogy a szervezet hogyan kezeli tudását, miként zajlik a kollé- gák közötti tudásmegosztás és a

táblázat: Az innovációs index, szervezeti tanulási kapacitás és fejlődési mutató korrelációs mátrixa intézménytí- pus szerinti bontásban (Pearson korrelációs

(Ha ez üres volt, akkor az a mező számít első rendezési kulcsnak, amelyet helyette kijelöltünk.) A kiemelés esetén a megjelenítési formátumhoz hasonlóan megadhatjuk,

A szabvány használatának megkönnyítése céljából a függelék önálló táblázatos formában a kódok betűrendjében, illetve számsorrendjében is közli a kétjegyű latin-