A rangsorolásos információkeresés hatékonysága különböző súlyozási eljárások esetén megtekintése

(1)

TMT 40. ovf. 1 9 9 3 . 4 - S. M .

műanyagok kémiájának mind mélyebb megértése ezt a veszélyt elhárították.

Elfogulatlanabb vélemények szerint a lemezek várható élettartama a minőségtől, a tárolás és a kezelés gondosaágétól függően t í z - harminc év.

Harminc év hosszú időnek tűnik, különösen, mivel ez a t e c h n i k a alig több mint egy évtizedes. Ha azon

ban megnézzük könyvtárunk m i k r o f i l m - és mikrofilm

lap-gyűjteményét, ott bőven találunk tíz évnél öregebb példányokat. Ha a mikrofilmes tárolást CD-ROM technikával kívánjuk felváltani, az élettar

tam lényeges kérdés.

Mit t e g y ü n k , hogy CD-ROM gyűjteményünk leg

alább saját nyugdíjba menetelünkig ép maradjon?

íme néhány teendő:

1. A kompaktlemezt mindig csak a szélénél fogjuk meg.

2. Ne hajlítsuk meg a lemezt, amikor kiemeljük a dobozából. A hajlítás mikrorepedéseket okoz a lemez felületén.

3. Használaton kívül mindig a dobozában tartsuk a lemezt. Nagyon egyszerű az adatbázisváltások során egyre növekvő oszlopot rakni a lemezekből, ettől azonban azok súlyosan karcolódhatnak. Kar

colást okozhat az is, ha durva felületre letesszük a lemezt.

Előnyös az olyan CD-ROM olvasó, amelybe a lemezt kazettában kell betenni. Ha minden lemeznek saját kazettát veszünk, akkor a lemezt kézbe vennünk csak kétszer kell: egyszer akkor, amikor áttesszük a kazettába, másodszor pedig akkor, amikor lecseréljük.

4 . Az olvasóba való minden behelyezés előtt e l lenőrizzük a lemez felületét, ha a lemezt nem kazettá

ban tartjuk. Tiaztitésára nagyon bevált a p a m u t p e l e n ka. Olcsó, hatékony, és még a beszélgetést Is holtbiz

tosán megindítja. Tisztítószert, oldószert soha ne használjunk! Tönkreteheti a lemez műanyag f e l ü l e tét*.

5. Soha ne írjunk, ne ragasszunk címkét a lemez felületére. A tinta vagy a ragasztó vegyi anyagai beha

tolhatnak a védőboritásba.

6. Időszakonként ellenőrizzük lemezeink felületét, hogy n i n c s - e rajtuk repedés, bemetszés vagy kar

colás. Jegyezzük fel a hibákat, hogy lássuk, mely lemezeken térnek azok vissza.

7. A sérült lemezeket azonnal cseréljük le. A legtöbb szállító nagylelkű cserepolitikát folytat. Hasz

náljuk ki ezt a nagylelkűséget, amíg tart.

/KING, A.: The care and feedlng of your CD-ROM dlsk. - Oatabase, 14. köt. 6 . « . 1 9 9 1 . p. 1 0 S - 107./

íVá/asGyörayJ

' M á s s z e r z ő k h a n g s ú l y o z z á k , h o g y a l e m e z t m i n d i g c s a k s u g á r i r á n y b a n s z a b a d t ö r ö l n i , s o h a n e m a z a d a t s á v v a l p á r  h u z a m o s a n . S u g á r i r á n y ú t ö r l é s k o r a z e s e t l e g k e l e t k e z ő k a r  c o l á s e g y - e g y a d a t b l o k k b a n c s a k n é h á n y bitet t e s z t ö n k r e , így a C D - R O M t e c h n i k a h a t é k o n y h i b a j a v í t ó m e c h a n i z m u s a m é g r e k o n s t r u á l h a t j a a z a d a t o k a t . A z a d a t s á v v a l p á r h u  z a m o s t ö r l é s e s e t l e g e s k a r c o l á s á b ó l h o s s z ú d a r a b e s h e t e g y a z o n a d a t b l o k k b a , így a h i b a h e l y r e h o z h a t a t l a n . A k o m  p a k t h a n g l e m e z e k h e z k é s z ü l t l e m e z l i s z t i t ó s z e r k e z e t e k k ö r k ö r ö s e n t ö r ö l n e k ( a h a n g l e m e z k e v é s b é k é n y e s a s é r ü l é s r e , n é h á n y bit h i b á t a z e n é b e n a l e g é l e s e b b f ü l ű h o z z á é r t ő s e m h a l l m e g l , e z é r t a h a s z n á l a t u k a d a t l e m e z e k  h e z t i l o s . - A r e ( .

A rangsorolásos információkeresés hatékonysága különböző súlyozási eljárások esetén

Bár közel harminc éve folynak kísérletek olyan ín- formációkeresési eljárások kidolgozáséra, amelyek nem teszik szükségessé, hogy a kereső Boole- algebrai kifejezéseket állítson össze, kevés ilyen t i p u s ú keresőrendszer működik, és egyikük sem ter

jedt el szélesebb k ö r b e n .

Az explicit Boole-algebrai összefüggéseket mellőző rangsorolásos keresőrendszerek közül a legegyszerűbb a Quorum match (a határozatké

pességhez szükséges legkisebb létszám egyez

tetése) módszer, amelyet a Cranfleld-2 indexelési nyelv kísérletei során dolgoztak kl [1], Ez a rendszer egyszerűen a keresőkérdés szavai és az adatrekord szavai közötti egyezések száma szerint értékeli az adatrekordokat, majd az ilyen egyezések c s ö k k e n ő száma szerinti sorrendbe rendezi őket. Már a Cranfield-2 program során felmerült az eljárás tökéle

tesítésének igénye ( 1 , 2 ) .

A javasolt tökéletesítési módok többsége az egyezések előfordulási gyakoriság szerinti súlyozá

sával operál (3). Az itt leírt összehasonlítási kísérletbe ezek közül két eljárást vontunk be. A tökéletesítési kísérletek másik része párokba rendezi a keresőkife¬

jezéseket, és a pár két tagjának a rekordon belüli egymás közötti távolsága szerint súlyozza a találato

kat [4). Az ilyen eljárások közül egyet vontunk be kísérletünkbe. Az így kapott három ö s s z e h a s o n l í tandó eljárás mellé negyediknek egy szubjektív súlyozásos módszert választottunk.

Egyszerű súlyozásos eljárások

Az eljárások összehasonlítása céljából végzett kísérlet során a Library and Information Science Ab- stracts 1982-es évfolyamának 6 0 0 4 a d a t r e k o r d j á b a n végeztünk 3 5 keresést. A keresőprofilok meglehető

sen hosszúak voltak, 7 - 2 6 keresőkifefezést t a r t a l -

(2)

Beszámolok, szemlék, referátumok mázlak. A keresés négy adatmezőben történt: a cím,

a kivonat, a fö tárgykör és a deszkriptor mezőkben, ezek rekordonkénti átlagos hossza 6 3 kereshető szót tett ki. Az eljárások hatékonyságát a "Quorum m a t c h "

eljáráséval hasonlítottuk össze, amely az egyezése

ket 1, a nem egyezéseket 0 faktorral súlyozza.

A négy vizsgált súlyozási eljárás közül az első az összesített gyakoriság módszere. Ez az eljárás annál nagyobb súlyt ad egy szónak, minél ritkábban fordul elő az összes adatrekordban együttesen {tehát minél karakterisztikusabb keresőszó), mégpedig az előfor

dulási szám logaritmusával fordított arányban osztja ki a súlyokat 15}. Ha például a "search services in polytechnics" kifejezéssel kerestünk a fenti mintában (az irt elöljáró nem kereshető szó), akkor a search szó 691-szer fordult elő, ezért 5.72 súlyt kapott, a ser- vice(s) szó 3 5 9 4 - s z e r fordult elő, 1,74 súlyt kapott, a polytechnic(s) szó 50-szer fordult elő, 7,91 súlyt kapott. A teljes kifejezés súlya a három súly összege, 15,37. Az összesített gyakoriság módszerét szinte valamennyi rangsorolásos keresőrendszer alkalmaz

za vagy önmagában, vagy más módszerrel k o m b i n á l va. Ez az eljárás azokat az adatrekordokat emeli ki, amelyekre az egyezés ritka, tehát karakterisztikus keresőszóval áll f e n n .

A másik vizsgált súlyozási módszer a rekor

donkénti gyakoriság módszere. Ez akkora súlyt ad az egyes szavaknak, ahányszor előfordulnak a találatre

kordban. Megint az előbbi példához visszatérve, a vizsgált minta 4 0 0 . adatrekordjában a search szó hat

szor fordul elő, a servíceísj szó kétszer, a polytech- nic(s) szó egyszer sem, így a rekordnak adott súly 6 + 2 + 0 = 8. Ez az eljárás azokat az a d a t r e k o r d o kat emeli ki, amelyekben a keresőszó sokszor ismét

lődik, ami azt jelzi, hogy a referált d o k u m e n t u m tárgya szempontjából ez a szó fontos. A rekor

donként! gyakoriság módszerét a rangsorolásos kere

sőrendszerek önmagában sohasem alkalmazzák, v i szont gyakran alkalmazzák más eljárással k o m b i n á l va.

A harmadik vizsgált súlyozási eljárás, a páronként!

távolság módszere megint csak az adatrekord tartal

mán alapszik. A pozicionális információt hasznosító számos módszer [4] közül azt választottuk, amely a keresőszavakból párokat képez, és minden ilyen párnak aszerint adja a súlyát, hogy a két szó egymás

tól milyen távolságban található az adatrekord egy- egy mondatán, adatmezőjén belül. 10-es súlyt kapnak a szomszédos párok, 9-est azok, amelyeket egy közbülső szó választ el, és igy tovább, 1 -es súlyt azok, amelyeket kilenc vagy több szó választ el. A páronkénti súlyok összegét 10-zel osztva kapjuk a rekord súlyát [5], Ez az eljárás azokat az adatrekordo

kat emeli ki, amelyekben a keresőszavak egymáshoz közel helyezkednek el, tehát egyazon kifejezés sza

vait képezik.

A negyedik vizsgált eljárásban a kereső szubjektív súlyokat ad az egyes keresőszavaknak, aszerint, hogy mekkora jelentőséget tulajdonit nekik. A súlyozás alapelvei a következők. A súlyok 1-től 6-ig

adhatók. A keresés szempontjából központi jelentőségű keresőszavak ezen a skálán belül nagy súlyt kapnak. Azok az alternatív kifejezések, a m e lyekről feltételezhető, hogy mindegyikük előfordul az adatrekordban, egyforma súlyt kapnak, mégpedig elég kicsit ahhoz, hogy együttesen se váljanak túlontúl dominánssá. Azok az alternatív kifejezések, amelyekről valószínűtlen, hogy egyazon a d a t r e k o r d ban előfordulnak, akkora súlyt kapnak, hogy b á r m e lyikük külön-külön is elegendő súlyt adjon a r e k o r d nak. Például a 3 2 . keresés tárgya a következő volt:

"online searches in polytechnics or uníversities". Itt az online szó 5-ös súlyt kapott, ugyanennyit kapott a kétszavas on line kifejezés is. A polytechnic(s) és a university/ies szavak súlya külön-külön 1 — 1 . Egy másik keresésben az SDI rövidítés súlya 4, a vele egyenértékű selective dissemination (of) information kifejezés szavainak súlya 2 - 1 - 1. Az egyes kereső

kifejezésekre képezett súlyokat a találatrekordra összegeztük. Ez az eljárás azokat az adatrekordokat emeli ki. amelyek a kérdésfeltevő által központinak ítélt szemponttal foglalkoznak. Nem ismerünk olyan rangsorolásos keresőrendszert, amely ezt az eljárást alkalmazná.

Kombinált súlyozási eljárások

Az egyes súlyozási eljárásokkal külön-külön végzett kísérletek után a négy eljárás minden lehetséges kombinációjával is elvégeztük a kísérle

tet: a 6 párral, 4 hármassal és az összessel együtt, vagyis végeredményben 15 kombinációval. A legké

zenfekvőbb a párok vizsgálata volt, mivel a legtöbb kísérleti vagy üzemszerű rangsorolásos keresőrend

szer két-két eljárás kombinációját alkalmazza. Csak egy olyan rendszert ismerünk, amely mind a négy módszert kombinálja.

Néhány kombináció logikusan indokolható. Az összesített gyakoriság és a rekordonként) gyakoriság módszerének kombinációja például azokat a rekordo

kat emeli ki, amelyekben kis összesített gyakoriság

gal rendelkező kifejezések sokszor fordulnak elő, amí nagy relevanciára ad reményt. Ugyanígy reményt keltő az összesített gyakoriság és a páronkénti távolság módszerének kombinációja, viszont a rekor

donkénti gyakoriság módszerének kombinálása a páronkénti távolság módszerével nem látszik indo

koltnak.

A különféle módszerekkel kapott súlyok egyesíté

sére nyilván számos algoritmus képzelhető el. Az egyik lehetőség például az, hogy az egyik módszert elsődleges módszerként kezeljük, a másikkal c s a k az így egyazon helyre rangsorolt rekordokat rendezzük tovább egymás kőzött.

Mi három összegzési algoritmussal kísérleteztünk:

aj összegeztük az egyes módszerekkel az egyes egyezésekre kapott súlyokat:

b) egy rekordon belül az egy-egy módszerrel kapott súlyokat összegeztük valamennyi egyezésre, majd az így módszerenként kapott összegeket ö s s z e szoroztuk;

(3)

T M T 4 0 . é v ( . 1 9 9 3 . 4 - 5. w .

c) egy rekordon belül az egy-egy módszerrel kapott súlyokat valamennyi egyezésre összeszoroztuk, majd az így módszerenként kapott szorzatokat összeadtuk.

A három algoritmus összehasonlítását csak néhány kiválasztott esetre végeztük el. Ezek a próbál

kozások azt mutatták, hogy az eredmény nem nagyon lügg a választott algoritmustól. Végül a b) algoritmus mellett kötöttünk k i , mert az egyes esetekben a leg

jobbnak bizonyult, emellett egyszerűbben alkalmaz

ható, m i n t a c)algoritmus.

A kapott (néha több százat elérő) súlyokat keresésenként normáltuk. a legjobb egyezést elért rekordok súlyát véve 100%-nak.

A kísérletek eredménye

A kísérletek eredményét az f. táblázat foglalja óssze Ebben három teljességi arány szerepel Összeszámoltuk, hogy az egyes keresési stratégiákra hány releváns találatot tartalmaz a teljes (6004

rekordból álló) minta. A rangsorolt rekordsort ott vágtuk e l , ahol a releváns találatok száma elérte az összes releváns találat 25 százalékát (kis teljesség), 5 0 százalékát (közepes teljesség), illetve 7 5 szá

zalékát (nagy teljesség), majd meghatároztuk a rang

sorolt rekordsor tetejéből ilyen vágással kapott halmaz pontosságát, végül az eredményt a 3 5 keresésre átlagoltuk. A pontosságra két mérőszámot képeztünk. A százalékos arány azt fejezi k i , hogy a vágással kapott részhalmaz rekordjai között milyen arányban vannak a relevánsak, a rangsorpozíció pedig azt, hogy hányadik rekord után történt a vágás.

A tizenöt kísérleti módszer mellett ö s s z e h a s o n lításként felvettük a táblázatba a Q u o r u m match módszerrel kapott eredményt, és a lehetséges leg

jobb eredményt is. Ez utóbbit úgy k a p t u k , hogy minden releváns rekordot k i k e r e s t ü n k , és ezeket a rangsor elejére tettük. Ekkor tehát csak releváns rekordok kerültek a vágás fölé, a pontosság 100%.

Átlagosan 8 releváns találat volt k e r e s é s e n k é n t ,

i t á b l á z a t

Kísérleti eredmények a L I S A a d a t b s z l t 6 0 0 4 adatrekordjából végzett 3 3 kereséssel

S o r s z á m S ú l y o z á s i K i s t e l | e s é g K ö z e p e s t e l j e s s é g N a g y t e l j e s s é g e l j á r á s K U s z ó b : 2 5 % K ü s z ö b : 5 0 % K ü s z ö b ; 7 5 %

P a R s . p P a . R s . p . P. a . R s . p .

0 h L e h Ij 1 0 0 % 2 1 0 0 % 4 1 0 0 % 6

Ö . h Q u o r u m 4 5 , 4 % 9 3 1 , 1 % 28 2 2 , 0 % 79

1 A S 2 , 4 % 4 5 1 , 3 % 1 4 3 4 , 5 % 4 4

2 B 5 6 . 8 % 5 4 2 , 5 % 2 5 2 9 , 8 % 5 3

3

c

^{4 9 . 1 %}

B

^{3 9 . 6 %} ^{2 2} ^{2 7 . 0 %} ^{5 4}

•i D 4 1 , 2 % • o 3 3 . 2 % 3 4 2 4 . 8 % 7 9

5 A B 7 0 . 6 % 4 6 A C 6 8 , 7 % 4 7 B D 6 5 , 3 % 5 8 A D 5 9 , 6 % 6 9 C D 5 8 , 8 % 7 1 0 B C 5 6 , 6 % 5

5 4 . 0 % 1 2 3 8 , 2 % 4 4 5 4 , 7 % 1 2 3 9 . 4 % 3 2 5 1 , 1 % 1 6 3 6 , 8 % 4 8 5 2 , 0 % 1 5 3 3 , 5 % 5 3 4 7 , 1 % 1 6 3 4 , 3 % 4 7 4 1 . 7 % 21 2 9 , 8 % 5 7

11 A B C 6 8 , 4 % 4 5 2 , 8 % 1 3 3 9 . 1 % 3A

1 ? A B D 6 8 . 4 % 5 5 7 , 4 % 11 3 7 . 9 % 4 4

1 3 A C D 6 8 . 4 % 4 5 3 , 3 % 12 3 7 . 0 % 4 0

14 B C D 6 6 . 9 % 5 5 0 , 9 % 15 3 6 . 9 % 5 0

1 5 A B C D 7 1 . 4 % 4 5 6 , 5 % 1 2 3 9 , 4 % 3 6

Súlyozási eljárások

L e h . Ij,: a z e l v i l e g l e h e t s é g e s l e g j o b b e l j á r á s Q u o r u m : Q u o r u m m a t c h e l j á r á s

A: a p á r o n k é n t i t á v o l s á g m ó d s z e r e B : a z ö s s z e s i t e t t g y a k o r i s á g m ó d s z e r e C : s z u b j e k t í v s ú l y o z á s

D: a r e k o r d o n k é n t ! g y a k o r i s á g m ó d s z e r e B e t ű k o m b i n á c i ó : k o m b i n á l t r e n d s z e r

Fejlécben:

P a : p o n t o s s á g i a r á n y

R s . p : r a n g s o r p o z i c i ó Ö . h. ö s s z e h a s o n l í t ó e l j á r á s

(4)

Beszámolók, szemlék, referátumok

tehát a három kiválasztott teljességi aránynak a 2, 4 és 6 rangsorpozício felel meg. A táblázatban az egy

szerű súlyozási eljárásoknak betűjelet adtunk:

A - a páronkénti távolság módszere, B - az összesitett gyakoriság módszere, C - a szubjektív súlyozás,

D - a rekordonkónti gyakoriság módszere.

A kombinált súlyozási módszereket betükombinációk jelzik.

Ha először a négy egyszerű súlyozási eljárást hasonlítjuk össze, ezek közül valamennyi teljességi szinten a páronkénti távolság módszere adja a leg

jobb eredményt, ezt az összesített gyakoriság mód

szere követi, majd a szubjektív súlyozás (kivéve közepes teljességen a rangsorpozíció értékét). A rekordonkénti gyakoriság módszere adja a leg

g y e n g é b b eredményt. A Quorum match módszernél ezek mindegyike ós minden kombinált módszer jobb eredményt a d , kivéve a rekordonkénti gyakoriság módszerét kis teljességnél.

Az ötödiktől a tizedikig a két módszerből kombinált eljárások találhatók. Ezek körében nagyon leszűkül a távolság a legjobb és a leggyengébb között.

A páronkénti távolság és az összesített gyakoriság módszerének kombinációja adja kis teljességen a legjobb eredményt, ezt szorosan követi a páronkénti távolság kombinálása a szubjektív súlyozással, sőt, közepes és nagy teljességen ez a legjobb. Szorosan követi az első kettőt a klasszikus k o m b i n á c i ó : az összesített gyakoriság és a rekordonkénti gyakoriság módszeréé. 5% körüli eltéréseket jelentett a p o n tossági arányban az, hogy a módszereket melyik a l goritmussal kombináltuk. Mint várható volt, a rekor

donkénti gyakoriság módszere nem javitja a páronkénti távolság módszerét, a 9. és 10. módszer pedig értelmetlen, mert ezeknél az egyszerű módsze

rek között is akad j o b b .

A hármas kombinációk körében már 3% alá c s ö k k e n a legjobb és a leggyengébb közötti különbség a pontossági arányban, A három objektiv módszer kombinációja különösen közepes tel

jességnél emelkedik ki, itt ez az összes verzió közül a legjobb.

Ha a három teljességi szintre átlagolunk, akkor a négyes k o m b i n á c i ó adja a legjobb eredményt.

Végezetül összehasonlítottuk a vizsgált módsze

reket a Boole-logika szerinti kereséssel. E hagyományos módszerrel egy kezdő kereső m i n d össze 25% teljességet és 20% pontosságot ért el, mig egy tapasztalt kereső 66% teljességig és 35% p o n tosságig jutott e l , de a keresés közbülső, k i s e b b tel

jességet elérő szakaszaiban sem haladta meg egy

szer sem az átlagosan 44% pontossági arányt. Ez az eredmény azt sugallja a szerzőnek, hogy a Boole- logika szerinti keresés eredményessége elérhető, sőt meghaladható a rangsorolásos kereséssel.

Rendszertechnikai és felhasználói értékelés Bár a hatékonyság döntő szempont, a rendszer megvalósíthatóságát és a felhasználói fogadtatást is

figyelembe kell venni az értékelésben. Figyelembe kell venni például olyan számítástechnikai tényező

ket, mint a válaszidő, a CPU-, lemezterület- és tárigény, a szükséges állományszerkezet és aktua

lizálás) megoldás s t b .

Az egyszerű súlyozási eljárások közül a szubjektív súlyozás és az összesitett gyakoriság módszere számitástechnikai igénye nem nagy, mert ezekhez használhatók az invertált állományok, és előre tárol

hatók az előfordulási gyakoriságok. A rekordonkénti gyakoriság módszere bonyolultabb állományszerke

zetet és több számítást igényel, a páronkénti távolság módszerének a számítástechnikai igénye még ennél is nagyobb. Ez utóbbihoz tárolni kell a helyzeti i n formációt is, de ez az igény a helyzeti operátorokat megengedő logikai keresőrendszerek esetén is f e n n áll.

Ami a felhasználói fogadtatást illeti, a legkisebb számítástechnikai igényt jelentő módszer, a szubjek

tív súlyozás igényli a legtöbb erőfeszítést a felhaszná

lótól, ezért elfogadhatósága kétséges. Bár a páronkénti távolság módszere mostani formájában automatikus eljárás, bizonyos felhasználói beavat

kozás a "jó" és a "rossz" párok szétválasztásában előnyös lehet. Legalább a szükséges kizárásokat meg kell határoznia a felhasználónak (a logikai ÉSNEM müvelet megfelelőjét). Van olyan meg

valósítás, amelyik arra is módot ad, hogy egyes párokat a felhasználó elengedhetetlenül szükséges

nek jelöljön ki. Ha a keresés végén megjelenik az egyezések táblázata, az segíti a felhasználót abban, hogy szükség esetén finomítsa a keresést.

A keresőrendszer használhatóságának és felhasz

nálóbarát voltának vannak olyan vonásai is. amelyek laboratóriumi körülmények között nem vizsgálhatók, szélesebb körű tesztet igényelnek.

Következtetések

A rangsorolásos keresőrendszerekben haszná

latos súlyozási eljárásoknak a szokásosnál széle

sebb körét vizsgáltuk. Úgy találtuk, hogy a páronkénti távolság módszere meglehetősen haté

kony, ezért megér további vizsgálatokat, és alkalmas

nak látszik az összesített gyakoriság és a rekor

donkénti gyakoriság módszerével kombinálva a r a n g sorolásos keresőrendszerekben történő felhaszná

lásra. A szubjektív súlyozásnak is megvan a maga haszna, de csak másodlagos eszközként. A kombinált módszerekről nehéz határozott következtetést levonni. Ezek hoznak némi javulást a haté

konyságban, de a számítástechnikai igényt Is megnö

velik. Tervbe vettük a vizsgálatok folytatását más t é m a k ö r ö k b e n , különböző t i p u s ú keresésekre.

Irodalom

(11 CLEVERDON. C - KEEN. M.: Factors determining the perlormance of indexing systems: Volume 2, Test re- sults = ASLIB Cranfleld Research Project. Crantield.

1966

(5)

TMT 40. évf. 1 9 9 3 . 4 - 5. «

12] C L E V E R D O N , C . : T h e C r a n f i e l d t e s t s o n i n d e x l a n - g u a g e d e v i c e s = A S L 1 B P r o c e e d i n g s , 1 9 . k ö t . 6 . s z . 19 6 7 p 1 7 3 - 1 9 2 .

13] W I L L E T T , P ( s z e r k . l : D o c u m e n t r e t r i e v a l s y s t e m s , T a y l o r G r a h a m = I n s t i t u t e o l I n f o r m a t i o n S c i e n t i s t s , L o n d o n , 1 9 8 8 .

[4] K E E N . E M.: T h e u s e ot t e r m p o s i l i o n d e v i c e s in r a n k e d o u t p u t e s p e r i m e n t s = J o u r n a l o l D o c u m e n t a - tion. 4 7 . k ö t . 1. s z . 1 9 9 1 . p. 1 - 2 2

Az ISBN rendszer alkalmazása számítógépes termékekre

Sok éve vannak piacon különböző számítógépes információs kiadványok, például adatbázisok. Kiadó

juk nemegyszer nyomtatott termékeket is kiad. M i n d ezek ellenére a számítógépes kiadványok mind bibli

ográfiai leírásuk szabályozottságában, mind szerzői jogvédelmük szintjében jócskán elmaradnak a nyom

tatott kiadványoktól.

Mind több az olyan kiadvány, amely kizárólag számítógépes formában jelenik meg, és ezek egyre többféle hordozóközegen látnak napvilágot, például online adatbázisként, CD-ROM formában, mágnes

lemezen. Ezért nyilvánvaló, hogy szükség van szab

ványos, egységes azonosításukra és számozásukra.

Új számozási rendszer kifejlesztése helyett célsze

rűbbnek látszik a meglévő szabványos nemzetközi rendszerek valamelyikének adaptálása.

A megoldandó problémák

A hagyományos adatbázisokkal kapcsolatban a következő azonosítási problémák merülnek fel:

• Megegyező adatbázisok eltérő neveken szerepel

hetnék.

• Eltérő adatbázisoknak azonos nevük lehet.

• Azonos nevü adatbázisok eltérő időszakot fedhet

nek le,

• Egyazon adatbázis több különböző hordozóköze

gen jelenhet meg.

Éppen a legnépszerűbb adatbázisok, a Chemical Abstracts, az ERIC, a MEDLINE, az AGRICOLA több különböző változatban léteznek, több különböző hor

dozóközegen, eltérő időbeli lefedéssel

A felhasználó k ö n n y e n tudomást szerezne arról, hogy két azonos nevű kiadvány között eltérés van, ha egységes számozási rendszerük lenne ezeknek a k i adványoknak, és az előállító az állomány eltérő válto

zatainak eltérő számokat adhatna. Emellett az egységes számozási rendszerben kiosztott számok a bibliográfiai leírásnak Is részét képezhetnék. így a fel

használó t ö b b problémáját megoldaná az egységes számozás.

Hasznos lenne az egységes számozás a kiadó számára is, mégpedig nemcsak azért, mert így meg-

[5] K E E N . E M.: T h e e f f e c t i v e n e s s of t e r m o o s i t i o n a n d I r e q u e n c y for o u t p u t r a n k i n g . = P r o c e e d i n g s of t h e B r i t i s h C o m p u t e r S o c l e l y I 3 t h R e s e a r c h C o l l o q u l u m o n I n f o r m a t i o n R e t r i e v a l , L a n c a s t e r , 1 9 9 1 . á p r i l i s .

/ K E E N , E . M.: Ouery term welghtlng s c h e m e s for effactlva ranked output retrieval. • Proceedings (ot) 1 S t h Interna

tional Online Information Meating, 1 0 - 1 2 December 1 9 9 1 , London, England; Learned Informatton, Oxford and New J e r s e y , 1 9 9 1 . p. 1 3 5 - 1 4 2 . /

(Válás György)

különböztetné egymástól a kiadvány különböző válto

zatait, de nem utolsósorban azért is, mert ez jelentős lépés lenne a szerzői jogvédelem megvalósítása felé.

Követelmények

A fenti problémák megoldhatóvá tétele megköveteli néhány követelmény kielégítését:

1 Nemzetközi legyen a számozási rendszer.

2. Szabványos legyen a számozási rendszer.

3. A számozási rendszert fogadják el az előállítók, és ők osszák ki a számokat.

4. A számok kiosztására álljon rendelkezésre nem

zetközi infrastruktúra.

Az első két követelmény kézenfekvő. Ha a szá

mozási rendszer nem nemzetközi vagy nem szabvá

nyos, akkor a haszna csekély

Ami a harmadik követelményt illeti, fontos, hogy az előállító "számkiosztás! egység" legyen. Egyrészt azért, mert az előállítók tartják valójában kézben a k i adványt, másrészt mert ők rendelkeznek a s z á m k i osztáshoz szükséges információval. Emellett később, ha megszületik a bibliográfiai leírás szabványa, és megvalósul a szerzői jogvédelem, ők lesznek legin

kább érdekeltek a számozási rendszerben.

Végül a számkiosztás nemzetközi infrastruktúrájá

ra azért van szükség, mert enélkül soha meg nem valósulhat a nemzetközi szabvány.

Sok fejlesztési munka megtakarítható, ha a meglévő számozási rendszerek valamelyikét adaptál

juk a számítógépes kiadványokra. A két meglévő szabványos nemzetközi rendszer közül az ISSN nem elégíti ki a harmadik követelményt, nem tartalmazza az előállító azonosítóját, ezért csak az ISBN-re gondolhatunk.

ISBN e számítógépes kiadványokra

Az ISBN rendszerben az azonosító számot az előállító vagy a kiadó osztja ki. Ez az adatbázisok esetében az a szervezet, amely az adatbázist előállítja és kiadja, nem pedig az, amely azt online elérhetővé teszi, szolgáltatja. Ez utóbbit i n k á b b a könyv terjesz

tőjéhez hasonlíthatjuk.