002.513.5
A DOKUMENTÁCIÓS RENDSZEREK KÍSÉRLETI ÖSSZEHASONLÍTÁSÁNAK MÓDSZEREI
Vásárhelyi Pál
A dokumentációval foglalkozó szakembereket világszerte f o g l a l k o z t a t j a az az alapvető fontosságú kérdés, hogy a számos dokumentá
ciós rendszer közül melyik a legjobb, i l l e t v e pontosabban, hogy adott helyzetben, adott f e l a d a t megoldására melyik r e n d s z e r t célszerű a l kalmazni. E l v i s i k o n számosan f o g l a l k o z t a k a dokumentációs rendsze
rek és azok fő tényezőinek összehasonlításával, de nem végeztek gya
k o r l a t i kísérleteket és nem vonták be a legilletékesebbeket, magukat a felhasználókat az eredmény elbírálásába. Úttörő munkát ezen a té
ren CLEVEBDOH kutatócsoportja és a c l e v e l a n d i /USA/ Western Eeserve 0 n i v e r s l t y /továbbiakban: WRU/ munkatársai végeznek A.GOLDWYN és A.REES vezetésével. C1EVEHD0N az úgynevezett A s l i b C r a n f i e l d kutatá
s i program keretében f o l y t a t j a vizsgálatait, mig a WRU-n r e n d s z e r - összehasonlitő laboratóriumot állítottak f e l , hogy a szakirodalom feldolgozásának és az információ visszakeresésének különböző módsze
r e i t s o r r a kipróbálják, összehasonlítsák és megállapítsák, hogy a módszerek végeredményben hogyan elégítik k i magának a felhasználónak az igényeit.
Ennek érdekében a z t a célt tűzték maguk elé, hogy:
- meghatározzák az infonnáció-visszakereBŐ rendszer lényeges összetevőit,
- megállapítsák, melyek azok a tényezők, amelyek elsősorban be
folyásolják a rendszer teljesítőképességét,
- kidolgozzanak o l y módszereket, melyek lehetővé t e s z i k a rend
s z e r teljesítőképességének mérését, és
- ellenőrizzék a kísérletek utján kapott eredményeket.
A kiinduló feltevés s z e r i n t , melyet kísérletileg bizonyítani kivannak, a rendszer teljesitőképeeségét elsősorban az alábbi ténye
zők befolyásolják:
1. A beszerzés. A beszerzés során követett p o l i t i k a , a b e s z e r z e t t dokumentumok fajtái, minősége etb. meghatározzák a do-
VÁSÁRHELYI F.: Dokumentációs rendszerek
kumentumgyüjtemény tartalmát és i g y döntően befolyásolják a rendszer teljesítőképességét.
2. Az input forrása. Az információk visszakeresése szempontjá
ból alapvető fontosságú, hogy a dokumentációs i r o d a miből i n dul k i a további feldolgozás során: elmeket, referátumokat, vagy t e l j e s szövegeket választ inputként az indexeléshez.
3. Az indexelés módja. Az indexelésre felhasznált fogalmak és szabályok összessége erősen befolyásolja egy rendszer műkö
dését.
4. A kódolás. Az információvisszakeresós szempontjából nagy j e lentőséggel b i r , hogy az indexelés során felhasznált fogalma
kat milyen szimbolikus formában ábrázolják.
5. A dokumentum gyűjtemény szervezésének módja. Kihatással van a végeredményre az i s , hogy milyen sorrendben, milyen rend
szerezési e l v s z e r i n t tárolják az információkat.
6. Kérdée-analizis. A nemdokumentációs szakember által f e l t e t t kérdést a dokumentációs rendszer nyelvére k e l l lefordítani, az indexelés során felhasznált fogalmakat és szabályokat k e l l a kérdés végleges megfogalmazásakor i s használni.
7. A visszakeresés stratégiája. Az információ visszakeresésére mirlen rendszerben más konkrét eljárást alkalmainak,ami ugyan
csak érezteti hatását az adott válaszban.
8. A válasz /output/ formája. A f e l t e t t kérdésre a választ a megfelelő dokumentumok átadására, referátumok vagy cimek szolgáltatásával l e h e t megadni.
A rendszerek működésének f e n t i tényezőit másképpen i s csoporto
síthatjuk és megkülönböztethetünk az információknak későből v i s s z a keresés céljából történő megjelölésével, és a megjelölt anyag v i s z - szakeresésével kapcsolatos tényezőket. Az első csoportba tartoznak:
a kódolás, az input forrása, az indexelés módja, az output forrnája- A második csoportba tartoznak: beszerzés, kérdós-analizis, a gyűjte
mény szervezésének módja és a keresés módja.
A rendszerek továbbá a s z e r i n t különböznek egymástól, hogy mely szakterületet akarnak kiszolgálni, a felhasználók mely c s o p o r t j a ré
szére dolgoznak és hogy mekkora a munkájuk alapját képező dokumen
tum-gyűjtemény .
A rendszerek értékelésénél abból indulnak k i , hogy egy rendszer teljesítőképessége hatékonyságának és hatásfokának függvénye.A rend
szer, hatékonyságának mutatószámával a z t mérik, hogy a rendszer meny
n y i r e képes annak a feladatnak ellátására, amire tervezték, mig a hatásfok mutatószáma ezen f e l a d a t megoldásának költség-kihatáBait méri.
A laboratóriumi vizsgálatok során egyelőre csupán a hatőkony-
TMT 1964.november-december Xl.évf. 9-10.szám
ság vizsgálatával foglalkoznak. A hatásfokra vonatkozólag mindössze annyit állapítottak meg, hogy az az időnek ás költségtényezőnek függ vénye.
Az ideális, maximáiis hatékonysággal dolgozó információ-vissza- kereső rendszer jellemzője, hogy mindazokat a dokumentumokat k i e m e l i a dokumentum-tárból, amelyek a f e l t e t t kérdésre h e l y e s , talált' vá
l a s z t adnak, de nem emel k i egyetlen o l y a t sem, amely téves, vagyis a kérdéshez nem kapcsolódó anyagot t a r t a l m a z . E z z e l kapcsolatban azonban egy lényeges szempontra k e l l felhívni a figyelmet. A szakem
ber, a k i a dokumentációs irodához f o r d u l , valamely problémára k e r e s i a megoldást. E z t a problémát szavakba önti és i g y a d j a a dokumentá- tor tudtára. A megfogalmazott kérdés azonban nem feltétlenül f e d i ma gát a problémát, annál i s inkább, mert a kérdező gyakran maga sem t u d j a pontosan, hogy ml i s a kívánsága. Következésképpen az adott vá l a s z i s kétféle l e h e t . Ha pontos és h e l y e s választ ad a f e l t e t t kér
désre, találónak nevezzük, ha pedig magát az e r e d e t i információs 1- gényt elégiti k i , a problémát o l d j a meg, akkor megfelelőnek mondjuk.
A találó válasz nem feltétlenül megfelelő, és f o r d i t v a , a megfelelő válasz sokszor nem találó. A találó és megfelelő válasz közti kapcso l a t vizsgálata nagyfontosságú és többek között az úgynevezett kérdés analízis módszerének kidolgozásához v e z e t e t t . A rendszer hatékonysá
gának elemzésekor kiindulhatunk mind a találó, mind pedig a megfele
lő dokumentumokból, bár az utóbbi meghatározása természetesen nehe
zebb.
Ezek után nézzük meg, hogyan mérhető és számitható egy informá
ció visszakereső-rendszer hatékonysága. A hatékonyság mérésére az érzékenység és a szelektivitás mutatószámát használják. Az érzékeny
ség annak feltételes valószínűsége, hogy a dokumentumtár egy tagját a rendszer k i e m e l i abban az esetben, ha az találó /megfelelő/.A s z e lektivitás e z z e l szemben annak feltételes valószínűsége, hogy a do
kumentumtár egy tagját a rendszer nem emeli k i abban az esetben, ha az nem találó /nem megfelelő/. A valószinüségszámltás szabályai s z e r i n t mind az érzékenység, mind a szelektivitás értéke 0 és 1 között l e h e t .
A hatékonyságot a f e n t i két tényező függvényében a következőkép pen határozták meg:
hatékonyság = érzékenység + szelektivitás - 1
A hatékonyság értéke ennek értelmében +1 és -1 között l e h e t . A maximális +1 értéket abban az esetben v e s z i f e l , ha mind az érzékeny ség, mind a szelektivitás értéke 1. E z akkor áll fenn, ha a rendszer k i e m e l i mindazokat a dokumentumokat, melyek találóak /megfelelőek/
és csak ezeket a dokumentumokat emeli k i . E z a lehető legjobb ered
mény. Másrészt a minimális, -1 értéket a hatékonyság akkor v e s z i f e l , ha mind az érzékenység, mind a szelektivitás 0. Ez abban az e¬
setben következik be, ha a rendszer k i e m e l i mindazokat a dokumentu
mokat, melyek nem találóak /nem megfelelőek/, de csak ezeket emeli k i . E z a lehető legrosszabb eredmény. A hatékonyság ű l e s z abban az esetben, ha annak valószínűsége, hogy egy találó dokumentumot k i emel a rendszer, egyenlő annak valószínűségével, hogy nem találó do-
VÁSÁRHELYI P.: Dokumentációs rendszerek
kumentumot emel k i . Ekkor tehát kivánatos és nem kívánatos anyagot egyenlő valószínűséggel kaphatunk, csakúgy mintha véletlen alapján választanánk k i a dokumentumokat a gyűjteményből. A hatékonyság po
zitív, ha a találó dokumentumok kiemelésének valószínűsége nagyobb, mint a nemtaláló dokumentumok kiemelésének valószínűsége, ellenkező esetben negativ.
A hatékonyság értékelésénél mindeddig egyenlő súllyal vettük f i gyelembe az érzékenységet és a szelektivitást. Reálisabb eredményt kapnánk, ha e két tényezőt különböző együtthatók segítségével súlyoz
nánk. Ezen együtthatókat azonban minden alkalommal az adott f e l a d a t tól és helyzettől függő más-más értékben k e l l e n e meghatározni, és az általános jellegű vizsgálatot nem z a v a r j a , ha a két együttható érté
két l-nek tekint.lük.
CLEVERDON a rendszer hatékonyságát befolyásoló tényezők közül csak az indexelés módjának hatását vizsgálja. Célja a z , hogy aegnp- tározza, melyek magának az indexelési folyamatnak fő lépései, ét zi azok kihatása az információ visszakeresés hatékonyságára. Az elsí f e l a d a t ezzel kapcsolatban az, hogy b i z t o s i t s a az egyéb tényezők ha
tásának kiszűrését és laboratóriumi vizsgálatokra alkalmas, pontosan körülhatárolt és ismert kisérleti dokumentumgyűjteményt állítson ösz- sze. A kisérleti dokumentum-gyűjteményt ezért kutatási jelentéseit alapján hozta létre a következő két alapfeltevésből k i i n d u l v e ;
Valamely kutatás eredményét közlő jelentés kiindulópontja min
dig egy kérdés, egy probléma, amire a kutató választ k e r e s e t t ée t a lált;
a jelentések irodalomjegyzékében szereplő müvek valami anyagot k e l l , hogy tartalmazzanak a kutatás kiindulópontjaként szolgáló kér
déssel kapcsolatban.
Ezen feltevések alapján kérdőivet küldtek k i mintegy 400 j e l e n tés szerzőjének, melyben felkérték, hogy a lehető legpontosabban ha
tározza meg, mi v o l t kiinduló problémája, és melyek v o l t a k s munkája során felmerült további kérdések, melyekre Jelentése ugyancsak vá
l a s z t ad. A kérdőiven feltüntették továbbá az illető szerző irodalmi hivatkozásainak jegyzékét és megkérték, hogy o s s z a be a cikkeket a következő csoportokba:
1. Olyan hivatkozás, mely t e l j e s választ ad egy kérdésre. N y i l vánvaló, hogy ez nem a kiinduló problémára, hanem a felme
rült kiegészítő kérdésekre vonatkozik.
2. Olyan hivatkozás, amely igen közel áll a kiindulási kérdés
hez, és melynek hiányában a kutatást vagy e l sem tudta v o l na végezni, vagy pedig igen sok többletmunkára l e t t volna szükség.
3. Olyan hivatkozás, mely jelentős v o l t , de csak mint általános háttér, vagy a munka bizonyos fázisa szempontjából.
TMT 1964.november-december U . é v f . 9-10,szám
4. Minimális értékű hivatkozás, mely p l . csak a történelmi v l s z - szapillantást szolgálta.
5. Értéktelen hivatkozás.
A kérdőiv alapján a kutató által feltüntetett kérdések és a h i vatkozásban szereplő dokumentumok képezik a vizsgálatok alapját, a kisérleti kérdés- és dokumentumgyűjteményt. Az e r e d e t i tanulmányokat a gyűjteményből kizárták, mert tulnagy a kérdések és a dokumentumok közötti korreláció. így 1500 dokumentumból és 400 kérdésből álló gyűjteményt hoztak létre és biztosították, hogy minden kérdés eseté
ben legyen 1-2 olyan dokumentum, mely a r r a többé-kevésbé pontos vá
l a s z t ad. Természetesen lehetséges, sőt valószinü, hogy a gyűjtemény
ben szereplő dokumentumok közül olyanok i s kapcsolódhatnak egy kér
déshez, melyeket a szerző nem e m i i t e t t hivatkozásai között. Ezért a t e l j e s gyűjteményt valamennyi kérdés szempontjából analizálni k e l l . E z t a munkát külső szakemberek bevonásával végezték e l . így végered
ményben mélyrehatóan ismert dokumentumgyűjteményt kaptak, melynek minden tagjáról pontosan tudják, hogy egy adott kérdéshez milyen mér
tékben kapcsolódik. Ha a továbbiakban mindig azonos kódolási és v i s z - szakeresési módszert alkalmaznak, a hatékonyság már csupán az indexe
lés módjától függ, és várható, hogy az indexelés módja és a hatékony
ság közötti k a p c s o l a t r a vonatkozólag értékes megállapításokat tudnak t e n n i .
A WBU rendszer-összehasonlitó laboratóriumában az Információ visszakeresés hatékonyságát befolyásoló tényezők közül már négyet vesznek alapos vizsgálat alá. Ezek: az input formája, az indexelés módja, a kódolás és a válasz formája.A többi tényezőket egyelőre f i gyelmen kivül hagyják, de szigorúan állandó formában tartják azokat, hogy a végeredményt, a vizsgált tényezők változtatása alapján vég
z e t t összehasonlítást ne befolyásolják. A kísérletek folyamán a kö
vetkező lehetőségeket analizálják:
1. Input formája: cim, referátum, t e l j e s szöveg.
2. Indexelés módja: t e l e g r a f i k u s referátum, gépi- és kéziuton meghatározott kulcsszavak, meta-nyelv, tárgyszavak.
3. Kódolás: természetes /angol/ n y e l v , szemantikus kód.
4. A válasz formája: cim, referátum, t e l j e s szöveg.
Egy-egy tényező változtatásának hatását az információ v i s s z a k e resés hatékonyságára ugy határozzák meg, hogy kiválasztanak t e l j e s dokumentumtárukból egy olyan csoportot, mely s t a t i s z t i k a i vizsgála
tok céljára már elég nagyszámú dokumentumot tartalmaz, de még elég k i c s i ahhoz, hogy a legkülönbözőbb módszerekkel ismételten f e l l e hessen dolgozni. E z a dokumentum csoport képviseli tehát az egysze
rűség kedvéért a t e l j e s dokumentumtárat. A kiválasztott összes do
kumentumot feldolgozzák olymódon, hogy ugyanazt az input-formát,kó
dolást és indexelési módot alkalmazzák mindegyiknél. Azután a doku
mentációs központnak f e l t e t t kérdések közül kiválasztanak néhányat, a reprezentatív dokumentumcsoportból információ-visszakeresést vé-
VÁSÁRHELYI P.: Dokumentációs rendszerek
géznek áe választ adnak ugyancsak egy meghatározott formában. A kér
désnek megfelelő szakterület legjobb ismerői közül kiválasztanak egy csoportot és azok ellenőrzik az összes /tehát nem csupán a v i s s z a k e r e s e t t / dokumentumokat. Az ellenőrzés alapján megállapítJák, hogy melyek a reprezentatív dokumentumcsoportból az adott kérdésre találó választ adó dokumentumok ég táblázatokat készítenek, melyben az aláb b i adatok szerepelnek:
a v i s s z a k e r e s e t t találó dokumentumok száma a v i s s z a k e r e s e t t nem-találő dokumentumok száma a v i s s z a nem k e r e s e t t találó dokumentumok száma a v i s s z a nem k e r e s e t t nem-találó dokumentumok száma.
A táblázat felhasználásával kiszámítják:
1. az alkalmazott rendszer érzékenységét, oly módon,hogy a v i s z s z a k e r e s e t t találó dokumentumok számát elosztják a v i s s z a k e r e s e t t összes dokumentumok számával, és
2. a szelektivitást, o l y módon, hogy a v i s s z a nem k e r e s e t t nem találó dokumentumok számát elosztják az összes nem találó dokumentumok számával;
3. a f e n t i két tényező alapján az alkalmazott rendszer hatékony aágát.
Ezután a vizsgált négy tényező közül hármat változatlanul hagy
va, de p i . az indexelési módok közül egy másikat választva újból e l végzik a t e l j e s kísérletsorozatot meghatározva végül ebben az e s e t ben i s a hatékonyságot. Mivel a kísérletek során i g y mindig csak e¬
gyetlen tényező változik, a hatékonyság számértékében mutatkozó e l térések elég jól mutatják az illető tényező befolyását.
A WRü kisérletsorozatát 600 dokumentummal végzi, melyeket vélet l e n alapján válogattak k i a ragályos betegségekkel foglalkozó gyüjte ményből. A kiválasztott dokumentumokat eddig három különböző indexe
lési módszerrel dolgozták f e l :
a/ telegraíikus referátumokat készítettek róluk, s ezeket mág
n e s s z a l a g r a rögzítették,
b/ a cimek alapján e l e k t r o n i k u s számitógéppel k u l c s s z a v a s /EWIC/ indexet készitettek, és
c/ tárgyszavas indexet hoztak létre a szakterület referálő- folyóirata tárgyszavai alapján.
A feldolgozást az emberi tényező befolyásának lehető k i s érték
re történő leszoritása céljából három olyan dofcumentátor végezte, akik azonos korúak, azonos képzettségűek, sőt a r r a i s ügyeltek,hogy társadalmi hátterük i s hasonló legyen. Munkájuk ritmusát ugyancsak azonos értéken tartották. - Eddig tehát az indexelés módját változ
tatták. A többi tényezőt változatlanul hagyva információ v i s s z a k e r e -
TMT I964•november-december XI.évi. 9-10.s z á m
Bést végeztek a z o r v o s i dokumentációs központnak f e l t e t t kérdések k ö zül véletlen alapján kiválasztott néhány kérdéssel k a p c s o l a t b a n . A do
kumentumokat azután s z a k e m b e r e k k e l ellenőriztették, a k i k megállapí
tották, hogy a z o k találóak, közelállóak, vagy egyáltalán nem találó
ak a kérdés szempontjából. A hatékonysági vizsgálatok első Bzámszerü eredményei a közeljövőben várhatók.
A későbbiek folyamán hasonlóképpen fogják vizsgálni, hogy:
a / hogyan befolyásolja a végeredményt, h a a z indexelést a t e l j e s szöveg, vagy csupán referátum figyelembevételével végzik e l ;
b/ hogyan d o l g o z z a f e l u g y a n a z t a dokumentumot más-más dckumen- tátor?Hány tárgyszóval J e l l e m z i és melyek a z o k a tárgyszavak, a m e l y e k e t legjellemzőbbeknek t a r t a n a k a különböző dokumentá- t o r o k ;
c / hogyan d o l g o z z a f e l u g y a n a z a dokumentátor u g y a n a z t a doku
mentumot különböző időpontokban /néhány hónapos időközeket vizsgálva/,
d/ mi a kihatása, h a a felhasználóknak a kérdésre csupán c i m e t , v a g y referátumot, illetőleg, h a t e l j e s szöveget adnak, s t b . Előreláthatólag még évekig e l f o g t a r t a n i , mig csupán a z előb
b i e k b e n e m i i t e t t négy fő tényezővel és a z o k részleteivel a z informá
ció-visszakeresés hatékonyságára g y a k o r o l t befolyását megállapítják.
Érdemes f e l f i g y e l n i a r r a , hogy a WRÜ rendszeröSBzehasonlitő l a boratóriumának munkája a l e g s z o r o s a b b k a p c s o l a t b a n v a n a z egyetemen folyó oktatással. A hallgatók sajátmaguk d o l g o z n a k f e l egy k i s doku
mentum-csoportot a legkülönbözőbb indexelési és kódolási módszerek felhasználásával, kézi lyukkártyák, v a l a m i n t a z egyetem e l e k t r o n i k u s számitógépei igénybevételével információ-viSBzakeresést végeznek konkrét kérdésekkel k a p c s o l a t b a n és kiértékelik a k a p o t t "eredménye
k e t . E z z e l egyrészt megfelelő g y a k o r l a t r a t e B z n e k s z e r t a dokumentá
ció különböző eszközeinek használatában, másrészt a laboratórium k u tatásait i s előbbreviszik, h i s z e n vizsgálataik g y a k r a n érdekes ösz- szefüggésekre, jelenségekre hívják f e l oktatóik figyelmét.
H M M H M M
VÁSÁRHELYI F.s Dokumentációs rendszerek
IRODALOM
CLEVERDON, C.W. - MILLS, J . : The Testing of Index Language Devices.
A s l i b Proceedings, XV. 1963.ápr. p.106-130.
REES, A.M.: Sematlc F a c t o r s , Role I n d i c a t o r s e t a l i a , E i g h t Year* ot Information R e t r i e v a l a t Western Reserve U n i v e r s i t y , A s l i t Pro- ceedings, XV. 1963.dec. p.350-363.
G0LDWYN, A.J.: The P l a c e of Indexing i n the Design of Information Systems T e s t s . Automation and S c i e n t i f i c CommunJcation. II.rész.
Washingon, American Documentation I n s t i t u t e , 1963. p.321-322.
GOPFMAN, W. - NEWILL, V.A.: Comparative Systems Laboratory, Techni- c a l Report No.2. Cleveland, Western Reserve U n i v e r s i t y 1 9 6 4 . j u l . GOFPMAN, W.: P i n a l Report on Theory of Documentation and Search
Strategy, Cleveland. Western Reserve U n i v e r s i t y , 1963.márc.
GOLDWYN, A.J.: The comparative systems laboratory i n the h e a l t h s c i e n c e s a t Western Reserve U n i v e r s i t y Congresso Rassegna I n - ternacionálé Documentazione S c i e n t i f i c o T e c n i c a . Roma, 1964.
február.
o?o
VÁSÁRHELYI. P.; Per V e r g l e i c h von Dokumentationssystemen Die Arbeit der Western Reserve U n i v e r s i t y am Gebiet des Ver- gleiehes von verschiedenen Dokumentationssystemen unter streng be- stimmten Umstáíiden wird an Hand e i n e r S t u d i e n r e i s e i n den V e r e i n i g - ten Staaten behandelt. Die, i n Zusammenhang mit dem A s l i b - C r a n f i e l d - Test von CLEVERDON ausgearbeiteten Versuchsmethoden werden erörtert.
Die Möglichkeit d i e Verschiedenheiten von Dokumentationssystemen ma- thematlsch z u e r f a s s e n wird beschrieben.
00T00