A F A K T O G R A F Í K U S I N F O R M Á C I Ó K E R E S Ő R E N D S Z E R E K N É H Á N Y E L M É L E T I K É R D É S E
Dr. Kovács Árpád—Nagy Péter
Ipari I n f o r m a t i k a i K ö z p o n t
A t u d o m á n y o s - m ű s z a k i információs tevékenység je
lenlegi fejlődési iránya az információs szolgáltatások formáinak és módszereinek bővülését t ü k r ö d . A szakiro
dalmi információk szolgáitatásának igénye mellett egyre t ö b b használói igény vonatkozik közvetlenül a t é n y e k r e és adatokra, a primer dokumentumok igénybevétele nélkül. Ilyen típusú információs igény a t u d o m á n y o s és műszaki, a t á r s a d a l o m t u d o m á n y i és a gazdasági t e r ü l e t e
i n egyaránt jelentkezik. Az igényeket közvetlenül
J
.nyekkel és adatokkal kielégítő rendszereket általában faktografikus információkereső rendszereknek nevezik.C i k k ü n k célja az alapvető idevágó p r o b l é m á k bemuta
tása egységesen é r t e l m e z e t t fogalmak alapján, fenntartva a lés j o g á t , hiszen az információkereső rendszerek .imélete még k o r á n t sincs k i f o n v a . Ezen belül is a .' i:tografikus információkereső rendszerek egzakt elmé
r t é n e k a létrehozása egyelőre az informatika távlati latai közé tartozik.
és tényszerű (faktografikus) információ
,tény"-t ( f a k t u m o t ) filozófiai, k o n k r é t t u d o m á - . . - ' és informatikai s z e m p o n t b ó l h a t á r o z h a t j u k meg.
niatikai s z e m p o n t b ó l a kérdés az, hogy a t é n y maga ijektív jelenség, avagy „ c s a k " az objektív jelenséget ' i n f o r m á c i ó ( k ) . Az i n f o r m a t i k á b a n célszerűnek tű-
i.ényen az objektív valóság azon jelenségeit érteni, melyekről információink vannak. E b b ő l a m e g h a t á r o zásból k ö v e t k e z i k , hogy
a tény az objektív jelenség, és nem a róla szóló információ;
nem minden jelenség t é n y , hanem csak a/uk.
a m e l y e k r ő l információink vannak.
A második megállapítás tartalma az, hogy a számunk
ra ismeretlen t é n y e k nem rendelkeznek azzal a tulajdon
sággal, hogy az ember felhasználhatná Őket d ö n t é s e k m e g h o z a t a l á h o z , t u d o m á n y o s elméletek felállításához, megalapozásához, illetve m e g d ö n t é s é h e z stb.
A faktografikus információ fogalmának bevezetése azt vonja maga u t á n , hogy egyidejűleg m e g h a t á r o z z u k a ,,nem-faktografikus" információt is, amely k ö r b e ebből a s z e m p o n t b ó l minden más információfajta beletartozik.
Választ kell adnunk arra a kérdésre is, hogy hogyan viszonyul a faktografikus információ az i n f o r m á c i ó más típusaihoz.
Faktografikus információn egyszerűen k o n k r é t isme
reteket, adatokat é r t e n e k , függetlenül a t t ó l , hogy azok ténylegesek, hipotetikusak, illetve prognosztikai jelle
gűek. A közös b e n n ü k az, hogy k o n k r é t t á r g y k ö r r e , és nem az ezeket t ü k r ö z ő dokumentumokra vonatkoznak.
A k o n k r é t dokumentumokat leíró ismereteket doku- mentografikus i n f o r m á c i ó n a k nevezzük, formái pedig a bibliográfiai leírás, r e f e r á t u m , a n n o t á c i ó stb.
Gyakorlatilag faktografikusnak n e v e z h e t ő az az infor
m á c i ó , amelyhez a felhasználók d ö n t ő többsége nem közvetve a dokumentumokat leíró adatok révén akar hozzájutni, hanem a dokumentumok hordozta informá
ciók közvetlen használatával.
Felvetődik a kérdés: célszerű-e így megalkotni a faktografikus információ fogalmát, ha ennek k ö v e t k e z t é ben bizonyos adatszerű ismeretek ( m i n t például a bibliográfiai leírás) nem-faktografikusnak m i n ő s ü l n e k , viszont sok, látszatra nem-faktografikus ismeret fakto
grafikusnak? A faktografikus információ szó szerinti jelentése: tényleiró i n f o r m á c i ó , de a n e m - t é n y s z e r ű
adatok (tervadatok, hipotézisek stb.) szintén l e í r h a t ó k , mint t é n y e k . T e h á t a faktografikus információ fogalma
Kovíct Á-—Nagy P.: A faktografikus információkereső rendizerek ,
kitágul: tartalmazza nemcsak a t é n y e k leírását, hanem minden olyan m á s t is, ami tényszerűen l e í r h a t ó . Szem előtt kell azonban tartani egy gyakorlatias k ö v e t e l m é n y t : nem m i n ő s í t h e t ő faktografikusnak a dokumentografikus információ, amely k ö z v e t í t ő szerepet játszik a kommuni
kációs folyamatban.
A faktografikus i n f o r m á c i ó k osztályozása
A faktografikus információkat többféle s z e m p o n t b ó l lehet o s z t á l y o z n i , egybevágóan az információ osztályozás elveivel. Ennek megfelelően a faktografikus ínformációt m e g k ü l ö n b ö z t e t j ü k tárgya szerint (ágazati, t u d o m á n y i stb.), beszélünk hipotetikus, nem hipotetikus és prog
nosztikai i n f o r m á c i ó k r ó l , t o v á b b á potencionális és tény
leges, mennyiségi és minőségi, valamint egyedeket, folya
matokat, rendszereket stb. leíró információkról.
A feldolgozottság foka szerint a faktografikus infor
máció lehet elsődleges ( p l . amelyet a műszerek szolgál
tatnak) vagy másodlagos (amelyet az információs rend
szer közvetítésével lehet megszerezni.
Más osztályozási szempont szerint lehetséges a priori jellegű faktografikus i n f o r m á c i ó , amelyet az információs rendszer eleve tartalmaz ( p l . „faktografikus" tezaurusz formájában) még az ü z e m e l t e t é s megkezdése e l ő t t , vagy a posteriori jellegű, amely az információs rendszer m ű k ö d é s e k ö z b e n h a l m o z ó d i k fel.
A fenti osztályozási kategóriák a faktografikus infor
mációk tartalmával függenek össze, de lehetséges a forma szerinti osztályozás is ( p l . az i n f o r m á c i ó h o r d o z ó k típu
sai, az i n f o r m á c i ó h o r d o z ó nyelv stb. szerint).
Fontos gyakorlati szerepe van az erősen strukturált és a gyengén strukturált információkra t ö r t é n ő felosztás
nak. Az erősen s t r u k t u r á l t faktografikus i n f o r m á c i ó k h o z s o r o l h a t ó k m i n d e n e k e l ő t t az adott struktúrájú mennyi
ségi és minőségi jellegű ismeretek: p a r a m é t e r e k és érté
keik, megnevezések, címek stb. Ezek általában kérdőív, t á b l á z a t , vektor stb. formájában szervezhetők meg; az iiyen típusú információkat parametrikus információknak is nevezik.
Gyengén strukturált faktografikus információk azok az ismeretek, amelyek nem a d h a t ó k meg h a t á r o z o t t szóbeli k o n s t r u k c i ó k formájában. Ilyenek például a k o n c e p c i ó k és elméletek kifejtései természetes nyelven.
Az erősen s t r u k t u r á l t információk feldolgozását k ö n n y ű formalizálni, és ebből k ö v e t k e z ő e n a u t o m a t i z á l ni. Erihez a t í p u s h o z tartozik a termelést leíró adatok t ú l n y o m ó többsége. Ezzel m a g y a r á z h a t ó az a t é n y is, hogy ezen a t e r ü l e t e n t ö r t é n t e k először lépések fakto
grafikus információkereső rendszerek (FIR} létrehozásá
ra.
Talán meg lehet k o c k á z t a t n i azt az általánosítást, hogy a m ű k ö d ő FIR-ek erősen strukturált információkat dolgoznak fel. A gyengén strukturált információkat
feldolgozó FIR-ek létrehozása még távoli j ö v ő ; ez abból következik, hogy a természetes nyelvű szövegek formali
zálása m é g megoldatlan.
A faktografikus információk feloszthatók potenciális és tényleges információkra is. Potenciális információ az, amely eljutott a k o n k r é t felhasználóhoz. A potenciális információ akkor válik tényleges információvá, amikor az igénylő felhasználja. A tényleges információ fogalma relatív, mivel az információ értelmezése függ a felhasz
náló tezauruszától, valamint időszerű információszükség
l e t é t ő l , amelyet tezauruszára támaszkodva kérdés formá
j á b a n fogalmaz meg. A z információkeresés e r e d m é n y e k é n t válik el, hogy a potenciális információ ténylegesen megfelel-e az adott kérdésnek.
Összefoglalva a fentieket, a faktografikus információ
kereső rendszer olyan r e n d s z e r k é n t h a t á r o z h a t ó meg, amely faktografikus információkat gyűjt, tárol, feldol
goz, visszakeres; azokat az információkat nyújtja, amelyek a felhasználónak a rendszerhez intézett kérdését ténylegesen kielégítik a primer dokumentumok igénybe
vétele nélkül.
A faktografikus információkereső rendszerek osztályozása
A FIR-ek r e n d e l t e t é s ü k szerint problémára orientált vagy általános, információs bázisuk megoszlása szerint egy vagy t ö b b helyre elosztott, a felölelt információk típusa alapján kizárólag faktografikus információkat feldolgozó vagy faktografikus és szakirodalmi informá
ciókat egyaránt feldolgozó rendszerek lehetnek.
A fenti ismérvek alapján beszélhetünk „ t i s z t a " FIR- ekről és vegyes, szakirodalmi-faktografikus információs rendszerekről II. ábra).
A megoldandó feladatok alapján, az információkereső nyelvek felépítése, a szolgáltatott információk, valamint a tartalmazott információs elemek bonyolultsági foka alapján t ö r t é n ő osztályozást a 2. ábra szemlélteti.
A FIR-ek kifejlődése során ún. generációkat külön
b ö z t e t h e t ü n k meg.
Első generációs FIR-ek azok, amelyek az elemeket és az ő k e t leíró jellemzőket csak tárolják, k a r b a n t a r t j á k , egyetlen típusú kérdésekre végeznek keresést, s a kérdés
re az elem teljes információs s p e k t r u m á t adják válaszul.
A kért elemek egy osztályba tartoznak, rögzített sz>
tikai és formai jellemzők halmazával í r h a t ó k le.
A második generációs FIR-ek tárolják, karbantartják az elemek jellemzőit, rögzített kérdéstípusra adnak választ, de válaszukban válogatnak a jellemzők szerint, s képesek elvégezni az információszintézis m e g h a t á r o z o t t feladatait is. A b e n n ü k levő elemek k ü l ö n b ö z ő osztályo
kat alkothatnak, s minden e l e m t í p u s h o z r ö g z í t e t t jellem
z ő k tartoznak. Az i n p u t - o u t p u t , a keresés, a korrekció folyamatai a u t o m a t i z á l t a k .
4 7 0
TMT 30. évf. 1983/12
F A K T O G R A F I K U S INFORMÁCIÓKERESŐ R E N D S Z E R E K
Rendeltetésük sierint
Problémára orientált F I R a k ; Altalénoi célú FIR-*k
Információi bálisok helye sierint
Helyi FIR.«k;
Elöntött adaibéiiiú FIR-ek
A (elalélt informéciok típusa iiarlni
Faktografikus Inf ormac i ókat feldolgoiO rendszerek;
Faktogrfltikui él szakirodalmi Információkat feldolgozó rendszerek
Faktografikus - • •'.iciokeresű rendszerek
Slaklrodalml-laktografikus Információkereső rtnd szárak
Kombinált S Z F I R Integrált S Z F I R
1. ábra A faktografikus információkereső rendszerek felosztása
F A K T O G R A F I K U S INFORMÁCIÓKERESŐ R E N D S Z E R E K
A megoldandó feladatok alapién FIR-ek. amelyek ez elemek JellemiBIt tárolják, kor
rigálják, visszakeresik aio- kat a i elemekal. amelyek lellemtOl kielégítik B kar
diában adott kritériumo
kat, a kikeresett elemek lellamiSlt kiadjék;
FIR-ek amelyek Informe- clószlntéiiit vegeinek, aiez olyan ÚJ. szintetizált infor
mációkat illfianak alfi.
•melyeket eleve nem vittek be e rendszerbe
A kérdező nyelvek (elépítése
Biapjan
FIR-ak. amelyek csak egy
típusú kérdésekre ednek választ;
FIR-ak. amelyek külön- boiB kérdéaekre adnak va- laut;
FIR-«k. amelyek előre mag nam határozott kérdésekre adnak vélaszt
A szolgáltatott intormeciök
»la óján
FIR-ek. amelyek a kardévá válásiként a i elam bities lellemiöjét kiadják;
FIR-ak, amelyak a i ele
mekről uelektélt J ellemio- ket adnak kl
A leképezett Információiadetok bonyolultsági foka alapján
F I R e k . a m e l y e k rogiftnt szemantikai a> (orma! | * l . Iemi6kkel leirt elemeket tartalmainak;
FIR-ek. amelyek rögiltett szemantikai é« formai ]•#- lemidkkel lein elemeket, valamint a i egyet elemek köiötti egyszerű kapcsola
tokét térteiméinek;
FtR-ek. emelyek nem rög¬
i d e i t uementikel és for mai lellemiflkkel lalrt e l e mákat, valamim közöltük lavO bonyolult Ihálós. Mer-
•rchlkua, reláclúsl kapcso
latokét térteiméinek
Kovács A.—Nagy P.l A faktografikus információkereső rendszerek .
A harmadik generációs FIR-ek az elemek jellemzőit úgy t a r t a l m a z z á k , hogy képesek változtatásokat átvezet
ni az egész eiemsoron, s képesek előre meg nem h a t á r o z o t t kérdéstípusokra is keresést végezni, s ugyan
csak előre meg nem h a t á r o z o t t m ó d o n informáciöszinté- zist végrehajtani. A b e n n ü k levő elemek k ü l ö n b ö z ő o s z t á l y o k a t alkotnak, amelyeket nem rögzített formájú tulajdon sághalmaz ír le. A z i n p u t - o u t p u t , a keresés, a k o r r e k c i ó , az in formáció szintézis folyamatai automati
záltak, h a s o n l ó k é p p e n a felhasználóknak a rendszerrel való e g y ü t t m ű k ö d é s e is.
A szakirodalmi-faktografikus információkereső rend
szerek (SZFIR) k é t típusba s o r o l h a t ó k : 1. k o m b i n á l t SZFIR-ek, amelyekben
— a szakirodalmi és a faktografikus információk k ü l ö n b ö z ő típusokhoz tartoznak, de az elemtípu
sok k ö z ö t t a rendszer felhasználói számára lénye
ges logikai kapcsolat van;
— a faktografikus információk feldolgozása független a szakirodalmi i n f o r m á c i ó k t ó l ;
2. integrált szakíród almi-faktografikus információkere
ső rendszerek (ISZF1R), amelyekben
— a szakirodalmi és a faktografikus információk egyaránt vonatkoznak egy-egy elemre;
— a faktografikus információk feldolgozása nem vá
lasztható el a szakirodalmi dokumentumok feldol
gozásától;
— a faktografikus információk további lehetőségeket n y ú j t a n a k a szakirodalmi dokumentumok keresé
sénél.
Adatbázis, adatbank, a u t o m a t i z á l t F I R *
A FIR-ekkel kapcsolatban felvetődik az a kérdés is, hogy mit é r t ü n k „ a d a t b á z i s o n " , „ a d a t b a n k o n " , mivel ezeket a fogalmakat is eltérően értelmezik a szakembe
rek.
A számítástechnika kezdeti időszakában az adatokat szekvenciális fájlban tárolták a mágnesszalagokon, s a feldolgozó programok t a r t a l m a z t á k az adatleírásokat;
emiatt a programok és az adatok k ö z ö t t i kapcsolat erős volt: bármilyen változás az adatokban maga u t á n vonta a programok változását is. A z adatok módosítása a mágnesszalagok t ö b b s z ö r ö s másolását vonta maga u t á n . Egy"egy fájl egy-egy feladat megoldását szolgálta, s ezért ugyanazon a d a t o k b ó l k ü l ö n b ö z ő fájlokat kellett létre
hozni, más-más s t r u k t ú r á b a n , más-más feladat megoldá
sára. Mindez sok nehézséget o k o z o t t az adatfeldolgozás
ban, nem is szólva a tárolóeszközök gazdaságtalan kihasználásáról.
Az adatbank fogalmát eltérően értelmezik a szakirodalom
ban. Így pl. a szerzők itt közöli meghatározása nem azonos NOVAK T.-ROBOZ P. a TMT e számában közölt cikkében javasolt definícióval - A szerk.
Ebből a h e l y z e t b ő l csak egy kivezető út volt: el kellett különíteni az adatokat a felhasználói programok
t ó l , és ügy megszervezni az adatok és a k ö z t ü k levő kapcsolatok tárolását, hogy lehetővé váljék ugyanazon adatok többféle felhasználása. Ennek az elképzelésnek a realizálása e r e d m é n y e k é p p e n jelent meg az adatbázis fogalma. Ezen olyan, egymással összefüggő adatok halmazát értjük, amelyet minimális redundancia jelle
mez, s az adatokat fel lehet használni egy vagy t ö b b feladat megoldásához; az adatok tárolása független a feldolgozó p r o g r a m o k t ó l , s az új adatok bevitele, a régiek módosítása, valamint a visszakeresés általános adatkezelési rendszerrel t ö r t é n i k .
Az adatbázisokat általában feladatok vagy a felhasz
nálók típusai szerint h o z z á k létre. Az adatbázis struk
túrájából a felhasználónak szükséges s t r u k t ú r á b a t ö r t é n ő á t m e n e t e t automatikusan végzi el az adatbáziskezelő rendszer. Az adatbázisnak alkalmazkodnia kell a más
más felhasználó képében j e l e n t k e z ő v á l t o z á s o k h o z , s éppen ez a folyamatos változásra való képesség az adatbázisok legfontosabb jellemzője. A m ó d o s í t á s o k a t gyorsan végig kell vinni az adathalmazon, s lehetőleg úgy, hogy az alkalmazói programokat ne kelljen megvál
toztatni.
Az adatbázisoktól j u t u n k el az adatbank fogalmához, amelyen az adatbázisok halmazát és a felhasználásukhoz szükséges eszközöket értjük. A z adatbankok h á r o m alapvető összetevője a k ö v e t k e z ő :
a d a t b á z i s ( o k ) ;
az információknak az a d a t b á z i s | o k ) b a t ö r t é n ő bevite
lét, módosítását, visszakeresését, átalakítását biztosító programok összessége;
katalógusok, szótárak, amelyek az információs állo
m á n y leírását t a r t a l m a z z á k .
Az adatbank tehát az a u t o m a t i z á l t F1R szervezési módja, amely biztosítja az információs á l l o m á n y o k létrehozását, karbantartását és a kérdésekre t ö r t é n ő válaszok kialakítását.
Az a u t o m a t i z á l t FIR-ek az automatizált irányítási rendszerek szerves részei. A vezetés szempontjából a F I R tevékenysége önmagában nem zárt: az információszolgál
tatást döntéshozatal követi. Az a u t o m a t i z á l t irányítási rendszerekben l é t r e h o z o t t FIR-ek csak a vezetés infor
mációellátását biztosítják, ezért b e n n ü k elsődlegesen jól strukturált faktografikus információk feldolgozása folyik. B e m e n e t ü k e t olyan dokumentumok képezik, melyeknek tartalma és struktúrája előre m e g h a t á r o z o t t ( t á b l á z a t o k , kérdőívek stb.), s előre ismert kérdések megválaszolására kell felkészülniük.
Az a u t o m a t i z á l t irányítási rendszerekben bizonyos típusú FIR-ek információs állományai a feltett kérdések
től függően a m ű k ö d é s során állandóan változnak ( p l . helyfoglalás r e p ü l ő g é p e n ) . Az a u t o m a t i z á l t irányítási rendszerekben l é t r e h o z o t t FIR-ekie j e l l e m z ő még a folyamatos, tartalmi jellegű adatváltozás, amely az irá
n y í t o t t objektum jellemzőinek változásától függ.
4 7 2
V
TMT 30. évf. 1983/12.
A F I R - e k működésének egyes kérdései
Nyelvi—logikai alapok
A korszerű FIR-ek lingvisztikai alapjait az úgyneve
zett elem- és a t t r i b ú t u m (jellemző tulajdonság) tipusú i n f o r m á c i ó k e r e s ő nyelvek alkotják. A faktografikus in
f o r m á c i ó b a n általában (az erősen s t r u k t u r á l t a k esetében mindig) a t á r g y k ö r elemeit jellemzők ( a t t r i b ú t u m o k ) halmaza írja le, amelyek k ü l ö n b ö z ő é r t é k e k e t vehetnek fel az egyes elemekre v o n a t k o z ó a n . A faktografikus információ minimális egységét t r i á d a k é n t lehet meghatá
rozni: elem - a t t r i b ú t u m - az a t t r i b ú t u m é r t é k e . Az e l e m - a t t r i b u t u m t í p u s ú információkereső nyelvek egyszerű példájául szolgálhatnak a t á b l á z a t o k . A z erősen s t r u k t u r á l t ismeretek mindig á b r á z o l h a t ó k t á b l á z a t o k formájában, például a sorok az elemeket, az oszlopok az a t t r i b ú t u m o k megnevezéseit, találkozási pontjaik pedig az a t t r i b ú t u m értékeit t a r t a l m a z z á k az adott elemre v o n a t k o z ó a n .
Az e l e m - a t t r i b u t u m típusú nyelvek eléggé szegényes
nek bizonyultak, mivel nem teszik lehetővé minden szükséges információ visszatükrozését, például az ugyan
arra az elemre v o n a t k o z ó k ü l ö n b ö z ő a t t r i b ú t u m o k k ö zötti kapcsolatokat, illetve az a t t r i b ú t u m o k értéke k ö z ö t t i kapcsolatokat az elemre v o n a t k o z ó a n . T o v á b b á , az e l e m - a t t r i b u t u m típusú nyelvek alkalmatlanok azokban az esetekben, amikor a k ü l ö n b ö z ő elemeket leíró attribú
tumok halmaza nem esik egybe. Ezekben az esetekben célszerű olyan e l e m - a t t r i b u t u m típusú nyelveket hasz
nálni, amelyek lehetővé teszik változó hosszúságú leírá
sok (rekordok) létrehozását. A z ilyen típusú információ
kereső nyelvek szintakszisa jóval bonyolultabb, de alap
jául akkor is a minimális triáda szolgál: e l e m - a t t r i b u - t u m - a t t r i b u t u m é r t é k e . Ez megfelel a természetes nyelven megfogalmazott kijelentéseknek is: ,JC elem A a t t r i b ú t u m a a é r t é k e t vesz f e l " .
Az a k ö v e t e l m é n y , hogy az információkereső nyelv segítségével eléggé bonyolult faktografikus információ
kat lehessen leírni, szükségessé teszi az ilyen t í p u s ú információkereső nyelvek szemantikájának m é l y e b b k i dolgozását. Bármely információkereső nyelv l e x i k a i -
szemantikai gazdagságát annak a rendszernek a teza
urusza tükrözi, amely ezt a nyelvet használja.
Ha összehasonlítjuk a FIR-ek és a szakirodalmi információkereső rendszerek (SZÍR) nyelveit, akkor a k ö v e t k e z ő alapvető különbségeket látjuk: a SZIR-ekhez általában deszkriptor típusú nyelveket használnak, a FIR-ekhez pedig t ö b b n y i r e e l e m - a t t r i b u t u m tipusú nyelveket.
Az automatizált FIR tezaurusza
Egy a u t o m a t i z á l t F I R elképzelhetetlen tezaurusz, valamint egyéb terminológiai e s z k ö z ö k nélkül.
Az a u t o m a t i z á l t F I R tezaurusza struktúrája jóval bonyolultabb, mint egy SZIR-é; míg az u t ó b b i esetében a b e m e n ő dokumentumok feldolgozásakor a dokumen
t u m o k tartalmi t ö m ö r í t é s é r ő l van s z ó , azaz az alapvető fogalmi tartalom meghatározásáról, addig az előbbi esetében - mivel a felhasználó számára lényegesek lehet
nek a l e g a p r ó b b , a legrészletezettebb, a t á r g y h o z k é p e s t periférikusabb ismeretek, adatok is - az információ
tartalom l e h e t ő teljes feltárásáról.
A faktografikus tezaurusz jellegzetessége még az is, hogy információkereső nyelvének szemantikájában a lexikai egységeknek nem egy, hanem többféle l e x i k a i - szintaktikai osztálya t a l á l h a t ó . ( A deszkriptor t í p u s ú nyelvekben ezzel szemben csak egyféle lexikai osztály van: deszkriptorok; a nem-deszkriptorok nem képezik a nyelv lexikai egységeit.) Az e l e m - a t t r i b u t u m típusú nyelvekben legalább h á r o m típusú lexikai egység talál
h a t ó : az elemek megnevezései, az a t t r i b ú t u m o k megneve
zései és az a t t r i b ú t u m o k értékeinek megnevezései.
A F I R tezauruszának h á r m a s szerepe van:
1. Információkereső tezauruszként funkcionál. Álta
lában az információkereső tezaurusz rögzített kapcsola
tokkal r e n d e l k e z ő deszkriptorok — kulcsszavak — nor
matív szótára, amelynek rendeltetése a dokumentumok és az információs kérdések k o o r d i n á l t indexelése. A faktografikus információkereső rendszerekben nem hasz
nálják tiszta formájában a k o o r d i n á l t indexelést, ezért ilyen értelemben egy FIR-ben nem lehet beszélni az információkereső nyelv deszkriptorairól és kulcsszavai
ról. Ellenben, ha a deszkriptorok m e g h a t á r o z á s á t egysze
rűen úgy tekintjük, m i n t a lexika normalizálását és a szinonimák m e g s z ü n t e t é s é t , akkor az e l e m - a t t r i b u t u m tipusú nyelvek minden lexikai egysége deszkriptornak v e h e t ő . A faktografikus tezauruszban is kötelező a lexikai egységek k ö z ö t t i legfontosabb fogalmi relációk m e g t e r e m t é s e .
2. A felhalmozott tudáshalmaz, az ismeretek rendsze
rének leírását adja. A faktorgrafikus tezauruszt úgy is lehet tekinteni, mint az ismeretek azon h a l m a z á t , amellyel a F I R ,,rendelkezik".
3. A FIR értelmező szótára. Ahhoz, hogy az informá
ciókereső nyelv teljes és átfogó leírása legyen, szükséges az is. hogy tartalmazza nemcsak a nyelv n y e l v t a n á t , hanem az é r t e l m e z ő szótárát is.
A faktografikus információk indexelése
A FIR-ekben a dokumentumok indexelésén a fakto
grafikus információk kijelölését, az i n f o r m á c i ó k n a k az információkereső nyelvre való lefordítását és adatlapra t ö r t é n ő rögzítését értjük. Legcélszerűbb, ha az indexelést az adott szakterület ( t á r g y k ö r ) magasan k é p z e t t szak
emberei végzik.
Az indexelés függ a feldolgozandó dokumentumok típusától, m a g u k t ó l a feldolgozandó i n f o r m á c i ó k t ó l , valamint a felhasznált i n f o r m á c i ó k e r e s ő n y e l v t ő l .
_
Kovács Á . - N a g y P.: A f a k t o g r a f i k u s i n f o r m a c i ó k s r w O rendszerek .
A t t ó l függően, hogy milyen tipusú dokumentumok adják a F I R b e m e n e t é t , k ü l ö n b ö z ő nehézségű lehet a faktografikus információk indexelése. Az adatokat szer
vezett formában t a r t a l m a z ó d o k u m e n t u m o k b ó l ( p l . kérdőívekből) k ö n n y ű indexelni, mig szövegeket tartal
m a z ó publikációk (cikkek*, k ö n y v e k stb.) faktografikus információinak indexelése szükségessé teszi maguknak a szövegeknek a szemantikai elemzését is.
Az i n d e x e l e n d ő faktografikus információk fajtájától függően is k ü l ö n b ö z i k egymástól az indexelési folyamat.
Ha a feladat például a szövegben kifejezett mennyiségi jellegű parametrikus adatok, berendezések típusai, föld
rajzi elnevezések stb. feltárása, akkor ez esetben az indexelés elvileg nem k ü l ö n b ö z i k a SZIR-ekre j e l l e m z ő k o o r d i n á l t indexeléstől. Ha azonban az a feladat, hogy minden szükséges információt k i keil emelni a dokumen
t u m o k b ó l , akkor az indexelőnek a szöveg szemantikai elemzését is el kell végeznie, azaz meg kell állapítania minden információt h o r d o z ó elemet, azok tulajdonságait és az elemek k ö z ö t t i kapcsolatokat.
Az alkalmazott információkereső nyelvtől is függ az indexelés művelete. Ha deszkriptor típusú nyelvet hasz
n á l u n k - ami eleve m e g h a t á r o z o t t elemek indexelésénél a l k a l m a z h a t ó - akkor megfelelnek a k o o r d i n á l t indexe
lés módszerei. Gyakoribb az az eset, amikor elem-att
r i b u t u m típusú nyelvet használnak, ami az indexelőtol azt követeli meg, hogy maga állapítsa meg az elemeket, a t t r i b ú t u m a i k a t és azok értékeit. Ilyenkor szükség lehet az alkalmazott információkereső nyelvtől eltérő nyelven t ö r t é n ő szövegértelmezésre. Ezt a közbülső nyelvet k ö z v e t í t ő k é n t is alkalmazzák a felhasználó és az informá
ciókereső nyelv k ö z ö t t , ami lehetővé teszi a felhasz
n á l ó k n a k , hogy az információkereső nyelv ismerete nélkül is hozzáférhessenek a rendszerhez. Ilyen k ö z v e t í t ő nyelvként alkalmazzák például a szabványosított kifeje
zéseket,
A d o k u m e n t u m o k b ó l kigyűjtött információs elemek keresőképét az adott információkereső nyelven alkotják meg. Eltérően a dokumentumok keresőképétől
— amelyet egyszer s mindenkorra szerkesztettek meg, hiszen a dokumentum publikálása u t á n már nem válto
zik - az elemeket leíró faktografikus információk m ó d o sulhatnak a F I R m ű k ö d é s é n e k egész ideje alatt, mint
hogy az elemekre v o n a t k o z ó ismereteink egyre mélyül
hetnek, gazdagodhatnak, vagy idővel az elemek p a r a m é terei és jellemzői is megváltozhatnak.
A F I R ugyanazon elemét jellemző információk k ü l ö n b ö z ő forrásokból is s z á r m a z h a t n a k , ezért szükséges az
„információs szegmensek" összekapcsolása.
Gyakorlati s z e m p o n t b ó l , elsősorban a felhasználók igényeinek kielégítésére célszerű, hogy az elemek kereső
képében legyen utalás arra a dokumentumra, a m e l y b ő l az információk erednek.
Az információs kérdések feldolgozása a FIR bemenetén
Az információs szükségletek kielégítése érdekében arra kell t ö r e k e d n i , hogy a FIR-hez intézett kérdések - amennyire csak lehet - szabályozottak legyenek.
Ezért nagy a jelentősége a lehetséges kérdések előzetes osztályozásának (1. táblázat).
A rendszerben tárolt faktografikus információk kije
lentések (logikai ítéletek) h a l m a z á n a k t e k i n t h e t ő k ( p l . az a t t r i b ú t u m o k milyen értékei vagy az é r t é k e k milyen kombinációi jellemzőek az adott elemre). A FIR-ek esetében a kérdés feltevésekor nem e l h a n y a g o l h a t ó , hogy milyen egyedekről, mely a t t r i b ú t u m a i k n a k mely értékei
ről, milyen lexikai k o m b i n á c i ó b a n van s z ó . Hasonló a helyzet az indexeléskor is. Vagy fordítva: helyesen megérteni és leírni bizonyos ismereteket sokkal fonto- sabb, mint minél t ö b b ismeretet rögzíteni. Ugyanúgy a kérdésekre adott feleletek esetében is helytelen válasz helyett célszerűbb egyáltalán nem adni választ. Ezért is van nagy szerepe az interaktív rendszerek alkalmazásá
nak a FIR-ek esetében is.
I. táblázat A FIR-re jellemző információs kérdések főbb típusai
A kérdés
Logikai formája T a r t a l m a
A(E1-?
Aí?
>
? (EV
? ( E I - ?
Al?) = ?
? I?
B i z o n y o s a t t r i b ú t u m m i l y e n é r t é k e t vesz fel adott elemre v o n a t k o z ó a n
É — Mely elemek veszik fel az a t t r i b ú t u m adolt é r i é k e i t
É — Melyek a z o k az a t t r i b ú t u m o k , melyek az adott elemre v o n a t k o z ó a n a megadott érték- halmazt veszik fel
- A z adott elemet j e l l e m z ő összes a t t r i b ú t u m minden é r t é k e
- M i l y e n értékei vannak a z adott a t t r i b ú t u m nak m i n d e n e l e m r e v o n a t k o z ó a n
É — Melyek azok az a t t r i b ú t u m o k , m e l y e k adott elemre v o n a t k o z ó a n az adott é r t é k e t veszik fel
A keresési kritériumok
Az előbbiek alapján a faktografikus információállo
m á n y t úgy foghatjuk fel, mint adott elemek és az ő k e t jellemző ismeretek összességét. Minden elemet meghatá
rozott a t t r i b ú t u m o k é r t é k e i n e k halmaza jellemez, ami
4 7 4
TMT 30. évf. 1983/12.
semmi m á s , mint az elem k e r e s ő k é p e . A kérdést viszont az információkereső nyelven megfogalmazott k e r e s ő k é p jellemzi.
Az elemek keresőképét két m e z ő b ő l szerkeszthetjük meg; az első az e l e m m e z ő , amely tartalmazza az elem megnevezését; a második m e z ő az a t t r i b t i t u m m e z ő , amely k é t részből tevődik össze: az a t t r i b ú t u m megneve
zését és az a t t r i b ú t u m é r t é k é t ( é r t é k e i t ) t a r t a l m a z ó a l m e z ő k b ő l .
Az információs kérdés keresőképe hasonló szerke
z e t ű , de lényegéből k ö v e t k e z ő e n kétféle lehet:
adott elemekhez t a r t o z ó a t t r i b ú t u m o k é r t é k é t vagy értékeit kell m e g h a t á r o z n i ;
adott a t t r i b ú t u m o k h o z , illetve ezek értékeihez tarto
zó elemet (elemeket) kell megkeresni.
Az első esetben egyszerű a keresési k r i t é r i u m o k megadása: a l a p v e t ő , hogy az elem megnevezése az elem és a kérdés k e r e s ő k é p é b e n egybeessék.
Lényegesen bonyolultabb a keresési k r i t é r i u m o k meg
adása, ha az elemhalmazokban k e r e s ü n k . Az elemhalmaz keresőképei altípusokra b o n t h a t ó k :
a) mely elemeket jellemez az adott a t t r i b ú t u m n á l m a z ; b) melyek azok az elemek, rrielyeket m e g h a t á r o z o t t attributumhalmazok adott értékei jellemeznek. A kérdés k e r e s ő k é p é n e k altípusától függően a keresési kritérium egy- vagy t ö b b l é p c s ő s lehet.
Az automatizált FIR-ek működési elvei
Az a u t o m a t i z á l t F I R alapvető funkciója: a fakto
grafikus adatok gyűjtése, tárolása, információk szolgál
tatása a felhasználók kérdései alapján, valamint az információs állomány naprakészen tartása.
A rendszer funkcionális blokkjait a 3. ábra szemlél
teti.
A rendszer b e m e n e t é t dokumentumok adatai, infor
mációs kérdések és a felhasználóktól s z á r m a z ó vissza
csatolási információk képezik, k i m e n e t é r e pedig a fel
használók kérdéseire adott válaszok.
A bemenet alapjául szolgáló d o k u m e n t u m o k b ó l az adatokat indexelik, azaz lefordítják őket az információ
kereső nyelvre. Ezt k ö v e t ő e n az adatok a Rendszerirá
nyítás nevű blokkba k e r ü l n e k , ahol d ö n t e n e k afelől, növelik-e az újonnan indexelt adatok a meglevő állo
m á n y i n f o r m á c i ó t a r t a l m á t . Ha nem, akkor elutasítják az új adatok bevitelét a rendszerbe, ha pedig a szükséges informativitással rendelkeznek, akkor a megfelelő blokk
ba kerülnek (az adatok tárolását és visszakeresését, illetve kereső fájl korrekcióját végző blokkba). A korrek
ciót végző blokkban módosítják a már t á r o l t , az új információkkal kapcsolatosan m ó d o s í t a n d ó adatokat, amelyek aztán visszakerülnek a tárolási és visszakeresési blokkba.
Dokumentumok I nfor mác 16a o loá 11 • 111
Felheiznélok
Dokumentumok indexelése Adatok tárolása ás visszakeresd ia
Információs kérdések indakelése
Kérdések
A kiveri faji korrekciója
A kereiük&p korrekcióji
Rindiiof irányítás
'sFhBHnűlűktúl
3. ábra A z a u t o m a t i z á l t F I R - e k funkcionális sémája
Kováci Á.—Nagy P-: A faktografikui információkérőié* rendszerek .
Az információs keresőkérdések a kérdéseket i n d e x e l ő blokkba k e r ü l n e k , i t t alakul ki az indexelés e r e d m é n y e k é p p e n a kérdések keresőképe (keresőprofiija). A kereső
k é p a tárolási és visszakeresési blokkba kerül, ahol a keresés e r e d m é n y e k é p p e n megszületik a rendszer vá
lasza.
A felhasználónak a választ é r t é k e l ő reagálása (vissza
csatolása) az irányítási blokkba kerül, ahol d ö n t e n e k a keresést javító i n t é z k e d é s e k r ő l . Ha szükséges, akkor módosítják a k e r e s ő k é p e t , azaz új profilt szerkesztenek, amely valószínűleg j o b b keresési e r e d m é n y e k h e z vezet.
Ez az új, m ó d o s í t o t t keresőkép ismét a tárolási és visszakeresési blokkba k e r ü l .
A dokumentumok és a kérdések indexelését végző b l o k k o k jelenleg még nem a u t o m a t i z á l t a k : ezekben minden műveletet manuálisan végeznek, speciális m ó d szertani anyagok és tezauruszok segítségével.
A FIR-ek működésének értékelése
M i n d a faktografikus, mind a szakirodalmi informá
ciókereső rendszerek esetében keresőkérdésekkel és a rájuk adott válaszokkal van dolgunk, azonban a válaszok jellege k ü l ö n b ö z i k a két rendszerben.
A SZIR-től k é r d e z ő megtudja, hogy milyen dokumen
tumokat kell használni ahhoz, hogy választ kapjon az Őt é r d e k l ő k é r d é s e k r e , míg a FIR-ben közvetlenül az őt é r d e k l ő t é n y e k e t kapja meg. Ezért teljesen más jelentősé
ge van i t t és o t t a teljességnek és a p o n t o s s á g n a k . A SZIR-es esetében elfogadható a nem 100%-os pontosság, azaz ha olyan dokumentumokat is kap a felhasználó, amelyek számára nem relevánsak - ha ezáltal növekszik a keresés teljessége.
A nem megfelelő pontosság viszont a FIR-ek esetében helytelen adatok szolgáltatását jelenti. A felhasználó azonban azért fordul a rendszerhez, hogy bizonyos, számára ismeretlen t é n y e k r ő l ismereteket szerezzen;
ezért nem lehet feltételezni róla, hogy képes észrevenni, ha a kapott adatok k ö z ö t t hamisak is vannak. Követke
z é s k é p p e n a FIR-rel szemben abszolút követelmény a pontosság. A teljességet j e l l e m z ő m u t a t ó iránt, ami egy FIR esetében azt jelenti, hogy hány kérdésre tud válaszolni, e n g e d é k e n y e b b e k l e h e t ü n k .
A FIR-ekhez i n t é z e t t információs kérdést - betáplá
lása e l ő t t - tökéletesen meg kell érteni, mert h a n e m , pontatlan, azaz helytelen lesz a válasz, vagyis nem egyszerűen irreleváns, hanem téves, hamis, megtévesztő.
2. Avtomatiziiovannye faktograficeskie informacionno- poiskovye sistemy. (Osnovnye poloíeniá i trebovaniá).
Moszkva. Gosudarstvennyj komitet SSSR po nauke i tehnike, 1979. 21 p.
3. Faktogiaficeskij poisk. Voprosy informaciorinoj teorii i praktiki, 28. köt. l.sz. Moszkva, VIN1TI, 1976. 119 p.
4. Gosudaistvennaa avtomatizirovannaa sistema naucno- tehniceskoj mformacii: Katákig avtornatizirovaririyh sis- tem. Moszkva, VIN1T1, 1980. 224 p.
5. KRISTAL'NYJ, B. V.: Faktogiaficeskij poisk v avtoma- tizirovannyh sistcmah nauíno-tchni&skoj informacii.
(Metodifeskie posobiej. Moszkva, 1982. 44 p.
6. KRISTAL'NYJ, B. V. i dr.: 0 ponátii „faktografíceskoj informacii". Voprosy informacionnoj teorii i praktiki, 28.
köt. 1. sz. Moszkva, VINITI, 1976. p. 7-16.
7. KRISTAL'NYJ, B. V. i dr.: O proekte lipovoj avtoma- lizirovarinoj faktografíceskoj 1PS. Voprosy informa
cionnoj teorii i praktiki, 28. köt. 1. sz. Moszkva, VIN1TI, 1977. p. 80-83.
8. Lingvisticeskoe obcspecenie faktogiaficeskogo informa- cionnogo poiska. Voprosy informacionnoj teorii i prak
tiki, 42. sz. Moszkva, V1N1TI, 1979.1 16 p.
9. NAD', P. Analiz nekotoryh obsih voprosov sozdania avtomatizirovannyh faktografifcskih informacionno- poiskovyh sistem (AFIPS) i obobSenie opyta proektiro- vania mezdunarodnyh AFIPS v ramkah MSNTI. (Anali- ticeskij obzor). Moszkva, MCNTI, 1980. 219 p.
10. NAD', P.: Ispol'zovaníe vnesnih po otnoseniú k MSNTI masinocitaemyh faktograficeskih baz dannyh = Problemy MSNT1/MCNTI, 1981. 3. sz. p. 26-41.
11. NAD', P,: Kommunikativnyj formát predstavlenia dannyh d!á vycislitel'nyh sistem. (Informacia o proekte Standatta ISO - specifikaciá opisatel'nogo fajla dlS obmena infor
macii) = Problemy MSNTIfMCNTI, 1982. 3. sz. p. 68-82.
12. Problemy avtomatizirnvannoj obrabotki naucno-telini- ceskoj informacii. NTO SSSR. Moszkva, 1982. 243 p.
13. TERESENKO, S, S,: Proektirovanie sistem naucno-Iehni- ceskoj informacii: Analiticcskij obzor. ltogi nauki i tehniki, „Informatika" sor. 4. köt. Moszkva, VINITI, 1980. 263 p.
14. Tezisy dokladov 1-go Vscsoűznogo nauíno-tehniíeskogo símpoziuma „Dialogovye i faktografifeskie sistemy üifor- macionnogo obsluzivaniá". Moszkva. NTO SSSR, 1979.
254 p.
15. Tezisy dokladov 2-go Vsesouznogo naueno-tehniceskogo simpoziuma „Dialogovye i faktograficeskie sistemy infor- macionnogo obsluzivaniá". Moszkva, NTO SSSR, 1981.
254 p.
Felhasznált irodalom
1. ARTAMONOV, G. T.-CISTAKOV, V. M.: Cenbry analiza informacii. ltogi nauki i tehniki. „Informatika" sor. 6.
köt. Moszkva, VINIT1, 1981. p. 3-159.
4 7 6
TMT 30. évf. 1983/12.
KOVÁCS Árpád—NAG Y Péter: A faktografikus információkereső rendszerek néhány elméleti kérdése
A cikk a faktografikus információk, Ül. információ
kereső rendszerek elméletével foglalkozva ezek termi
nológiai, osztályozási, információkereső nyelvi és műkö
dési (információkeresési) kérdéseit tárgyalja.
* * *
KOBAM, A. — HAHb, I L :
HecKO^bKO T e o p e - THHecKiix BOnpocoB o c b a K T o r p a c p H- i e C K i- x MH-faop- MauHOHHo-noncKoBbix cnCTeMaxC j a T b í i 3aHHMaetCH T e o p e n i i e c K i i M H B o n p o c a M i i cpaKTorpa-pii--ecKHX HHrhopMauHH H HHubopr-iai-HOH- H O- n o H C K O B b i x cncreMi o ö c y H r / i a e T BOnpocbi, C B H - saHHbie c T e p M H H O ^ o r H e ö , K/ i a c c H r b i i K a u H e i í , H H - CpOpMaUHOHHO-nOHCKOBblMH H3blKaM~l H ttyHKUHO- HHpOBSHBCHi
* * *
KO VÁCS, Á.-NAGY, P.: Theoretical problems of numeric Information retrievai systems
The article deals with somé theoretical problems of numeric information and information retrievai systems, discussing problems concerning their terminology, classi- fication, indexing languages and operation.
KOVÁCS, Á.-NAGY, P.: Zu einigen theoretischen Fragen der faktografischen In formationsrecherchen-Systeme
Die Arbeit behandelt - im Laule der theoretischen Analyse von faktografischen Informationen bzw. Infor
mation srecherchen-Systemen - die Fragen der Termi- nologie, der Klassifizierung, sowie der Programmier- sprachen und der Funktionvon Informationsrecherchen.
Ú j szabványok
1983 végén megjeleni az MSZ 3410 Orszdgnevek Kódjai c.
szabvány 2. kiadása. E szabványt kell alkalmazni a belföldi és nemzetközi tudományos és műszaki információközlésben, illetve cserében, ha az országokat cs az egyes más földrajzi egységeket kódokkal jelölik meg.
A szabvány tartalmazza az országok nevének két-, illetve háromjegyű latin betűs, és két-, illetve háromjegyű cirill-betüs kódjait, továbbá számkódjait.
E 2. kiadás tartalmilag abban különbözik a szabvány 1. kiadásá
tól, hogy az ENSZ Statisztikai Hivatala által kidolgozott é s használt számkódokat is tartalmazza.
A szabvány használatának megkönnyítése céljából a függelék önálló táblázatos formában a kódok betűrendjében, illetve számsorrendjében is közli a kétjegyű latin- és cirillbetűs, a háromjegyű latin- és cirill betűs, valamint a számkódokat a kódolt ország nevének feltüntetésével.
*
1983 végén megjelent az MSZ 193/1 Mágnesszalagos biblio
gráfiai adatcsere formátuma. A rekordok szerkezete c. szabvány.
A szabványt az azonos című é s tárgyú ISO 2709-1981 nemzet
közi szabvány, valamint a hasonló tárgyú, rövidesen K G S T szabványként is megjelenő normatív-műszaki dokumentum alapján dolgozták ki.
A szabvány meghatározza a mágnesszalagos adatcserére szánt bibliográfiai információkat tartalmazó rekordok szerkezetét.
Nem határozza meg a rekordok hosszát és tartalmát, valamint a hívójelek, indikátorok és almezöazonosítók értékeit.
A szabvány szerinti rekordszerkezet csak a gépi adatfeldolgozást alkalmazó rendszerek közötti információcserét szabályozza (az adatcsere-, más néven kommunikációs formátum rekordszerke
zete), és nem terjed ki az egyes rendszerekben alkalmazott belső feldolgozói rekordszerkezetre. Ismerteti a bibliográfiai rekord általános és részletes szerkezetét (rekord-fej, a mutató és adatmezői, rekordhatár jel, illetve adatmezők, almezők, indikáto
rok használata stb.)