B e s z á m o l ó k , s z e m l é k , referátumok
okok lehetnek összetelt események, elemi okok Boole-algebrai kombinációi,
• rangsorolja a hipotéziseket a valószínűség mér
téke alapján é s attól függően, hogy milyen szabá
lyok szerint állították fel őket, illetve, hogy az egyes szabályok alkalmazása során mennyi volt a lépések és az adatok száma,
• megállapítja azokat az eseteket, amikor az ese
ménytulajdonság párokra vonatkozóan két "kon- kurrens" hipotézis azonos valószínűséggel ren
delkezik (adott esemény rendelkezik, i l l . nem rendelkezik A tulajdonsággal),
• kiszámítja a kapott e r e d m é n y t , és ennek alapján osztályozza az objektumokat.
A rendszerrel végzett eddigi kísérletek egytől- egyig kedvezőek. Az adatbázisban szereplenie kel!
mind az események (objektumok), mind az esemé
nyeket jellemző tulajdonságok halmazának. Az ese
mények é s tulajdonságok között létezniük kell em- éseknek. Emellett az adatbázisnak rejtve tartalmaznia kell bizonyos információt a tulajdonság- é s eseményhalmaz közli korreláció meglétének, i l l . hiányának okairól. Mindezeken a halmazokon meg kell adni azt a részlegesen (nem m i n d e n ü t t ) meghatározón kapcsolatot, amely az adatbázisban levő információ hiányos voltát tükrözi.
A kifejlesztett rendszer minden gyengén formali
zált diszciplínában jól alkalmazható, vagyis olyan tu
dományterületen, ahol hiányzik az elméleti állítá
sok, télelek szisztematikus axiomatizálása.
/GÍLAREVSKU, R.S.: O zna'cenii razrabofki éksperinyh informcaciorinyh sistem v informa- tike = A T / , 2.Ser. 1984. 'll.sz.p. \~4.l
(Környei Márta)
Az online é s a h a g y o m á n y o s
i r o d a l o m k e r e s é s ö s s z e v e t é s e : a k e r e s é s i s t r a t é g i á t é s a k e r e s é s h a t á s f o k á t v i z s g á l ó k í s é r l e t é r d e k e s e r e d m é n y e i
Tíz évvel ezelőtt, amikor az online információke
resés még újdonság volt, az informatikai szakiroda
lom kedvencei közé tartozott egy téma gépi és kézi keresése eredményeinek összehasonlítása. A gépi módszerek azóta sokat fejlődtek, kiépültek a nagy, nemzetközi elérésű adatbázisok, így újra é r d e m e s egy ilyen összehasonlítást elvégezni. Az összeha
sonlítás valós anyagon történt: Hollandia és Izrael közös vízhasznosítási programja keretében megje
lent egy cikk az Agriculntral Waier Management c.
folyóirat 1982. évi 5. számában, szerzői: Th. M.
Boers ésj. Ben-Asher, címe: A review of rainwater harvesting (Az esővízkitermelés áttekintése). A cikk 105 bibliográfiai hivatkozást tartalmaz, ezeket a szerzők hagyományos " k é z i " kereséssel találták.
Egy későbbi időpontban gépi keresést végeztek ugyanerre a témára, megállapítandó, hogy melyek azok az irodalmi források, amelyeket a kézi mód
szerrel nem találtak meg. A gépi keresést úgy végez
ték el, hogy az egyes felhasznált adatbázisok tar
talma és a keresés költségei összevethetöek, értékel
hetőek legyenek.
A vízsfiált adatbázisok
I logy a lehető legteljesebb eredményre jussanak, minden olyan adatbázist bevontak a keresésbe.
amelyről gyanítható volt, hogy releváns anyagot tar
talmaz, nevezetesen:
• WATER RESOURCES ABSTRACTS ( W R A )
• A G R I C O L A
• C O M M O N W E A L T H A G R I C U L T U R A L BU- R E A U X ABSTRACTS (CAB)
• AGRIS
• PASCAL (francia)
• A Q U A L I N E
• BIOS1S
• COMPENDEX
• G E O A R C H I V E
• GEOREF
• LIFE SCIENCE COLLECTION
• NTIS
• COMPREHENSIVE DISSERTATION I N D E X A felsorolt 13 adatbázisban szabad keresőszavak
ból álló, eltérő keresőprofilokkal haladtak végig, a keresőszavak é s kombinációik megválasztása az adatbázis tárgykörétől, a változtatás az első keresés eredményétől függött. A kísérlet logikáját a követ
kezőképpen alakították k i :
1. A keresőszavak I . halmaza a négy első egymással logikai V A G Y . ezek a két utolsóval ÉS kapcsolatban:
WATER (víz) R A I N W A T E R (esővíz) PRECIPITATION (csapadék)
538
T M T . 1 2 . é v f . 1985/11.
R U N O F F / R U N O F F (lefolyás, két írásmódja használatos)
COLLECT... (gyűjtés) HARVEST... (kitermelés) 2. A keresőszavak 2. halmaza, itt is az első négy V AGY-ban, ezek az utolsó néggyel ÉS-ben:
WATER R A I N W A T E R PRECIPITATION R U N O F F / R U N O F F
STORING... (tárolás) STORAG...
H A R V E S T C O L L E C T
3. halmaz, keresőszavak egymással V A G Y kapcsolatban:
D R I N K I N G (ivóvíz) W A T E R
W E L L WATER SOIL WATER U N D E R G R O U N D W A T E R
G R O U N D W A T E R (talajvíz) 4- halmaz ( V A G Y - b a n ) :
1RRIGAT... . SPRINKL...
5. halmaz (VAGY-ban):
DESERT STRIP F A R M I N G R U N O F F B A S E D PITCHER
W A T E R - P O N D I N G (belvízi elöntés)
E V A P O R A T I O N (párolgáscsökkentés) SUPPRESSION
A kezdő keresőprofil szerkezete (stratégia).
(1. V A G Y (2. ÉS 4.)) ÉS N E M 3. vagy 5.
Ezt a profilt futtatták végig az A G R I C O L A és a CAB teljes állományán. A keresés e r e d m é n y e k é n t a 2. halmaz keresőszavait csökkentették, így a m ó d o s í t ó i . . U. jelű halmaz (első szó ÉS-ben a második kettővel)
WATER STORAG...
COLLECT...
Az új keresőprofil pedig, amelyet a NTIS, BIOSIS, C O M P E N D E X és W R A adatbázisra alkalmaztak:
1. V A G Y ( I I . ÉS 4.) V A G Y 5.
A WRA-ban olyan sok a módosított profilnak meg
felelő választ találtak, hogy — utólagos megítélés szerint — jobb lett volna az eredeti keresőprofil alkalmazása.
További egyszerűsítések következtek, az 1. csoport a
W A T E R RUNOFF HARVEST
(kúlviz)
(talajnedvesség) (hévíz)
(öntözés)
(esöztétö Öntözés) (parlagos vetésforgó) (danaidás vízhozam
m é r ő )
keresőszavakra redukálódott (első ÉS-ben a két utóbbival), jele I lett.
Az A Q U A L I N E , LIFE SCIENCE C O L L E C T I O N , G E O A R C H I V E és GEOREF adatbázisokon a ke
resés stratégiája tovább egyszerűsödött:
I vagy ( I I é s 4 ) .
Az / . láblázat foglalja össze a kísérlet céljára külön
böző keresési stratégiákkal elért e r e d m é n y e k e t . A táblázat első oszlopa az első, a részletes stratégiával elért találatok számát mutatja, a második oszlopban csak az I . halmazzal végzett keresés találatszáma áll, a harmadik oszlop a két egyszerűsített kereső
profil (azért kettő, mert az adatbázisok két csoport
jához különbözőket kellett megállapítani), a negye
dik oszlop pedig az 5. halmaz keresési eredményeit mutatja.
/. táblázat Különböző keresési stratégiákkal
kapott találatszámok
A tkit ház is A rész
letes stratégia
. halmaz . V A G Y 5 (2. é s 4 )
. V A G Y Ö l é s 4)
halmaz
A G R I C O L A 215 185 217 5
C A B 180 161 187 8
NTIS 17 17 3
BIOSIS 40 37 40 •
C O M P E N D E X 14 17 17 3
W R A 258 254 258 9
Érdekes összehasonlításra ad lehetőséget a táblá
zat első két oszlopa: a gondosan kidolgozott, rész
letes keresőprofil és az 1. halmaz alkalmazása profil
ként olyan találatszámokat e r e d m é n y e z , melyek között a legnagyobb különbség az A G R I C O L A ese
tében van. Ha az I . halmaz keresőszavainak egysze
rűsített keresését végezték volna csak el, az ered
mény így is a kombinált keresés e r e d m é n y é n e k 86%-a lenne.
A használt adatbázisok összehasonlítása
Az online és a manuális irodalom keresés össze
hasonlítását elvégezték valamennyi adatbázisra, az eredményt a 2. táblázat foglalja össze.
T = az online kereséssel kapott összes télelek száma R = az online kereséssel kapott releváns tételek száma U = a más a dal bázisban nem tárolt (untkális) tételek száma B = a manuális módszerrel is megtalált télelek száma A = a szerző' neve szerint manuálisan talált tételek száma W H = azon lételek száma, melyeknek a dmcben szerepeli a
W A T E R H E A R T V E S T I N G (vizkitcrmelés) szakkifejezés.
539
2. táblázol A kézi és gépi iroda lomkeresés eredményei
(találatszámok)
\ < l ; i l t w i s r K U B A w n
W A T E R R E S O U R C E S 258 117 56 43 30 44
\ B S T R A C T S
A G R I C O L A 215 100 28 36 22 83
(1970-prescfit)
C A B ISO 122 72 29 35 57
A G R I S 71 35 8 10 7 29
BIOSIS 40 1? 3 6 5 13
P A S C A L 28 1(1 5 2 2 6
C i E O R E F 19 3 1 2 2
NTIS 17 11 S 4 6
C O M P E N D E X 14 in 1 3 1 6
D1SSER T A r i O N 8 6 3 1 2
I N D E X
A Q U A L I N E 7 4 2
- 1 2
GEOARCmVE 3 3 1 2 3'
LIFE SC. C O L L 3
3
-
1 3ö s s z e s e n : 863 441 184
A táblázat sorai a találatok csökkenő sorrend
jében vannak rendezve: az első négy adatbázis szol
gáltatta a találatok 83%-át. Érdekes e r e d m é n y azon
ban az, hogy míg a négy vezető adatbázis esetében a találatoknak — durván — a fele volt releváns, a szám szerinti utolsó adatbázisokban a találatok 8 0 - 100%-a.
Megjelenési idő, átfedés
A kísérlet kiterjedt még arra is, hogy a találatok hogyan oszlanak meg publikálásuk éve szerint;
1979 előtt vagy után jelent-e meg a talált forrás. A 2. táblázat első négy adatbázisának tételei közül meglepő m ó d o n 33, 3, 10 és 25% volt csak az 1979 után publikáltak aránya. Ez a nagy késedelem bizo
nyos fokig megbocsátható a W R A és a CAB eseté
ben, ezekben kivonattal látják el a tételeket, ami ter
mészetesen késést jelent.
Az egyes adatbázisok természetesen tartalmaz
nak azonos tételeket, az átfedést (a W R A 117 rele
váns tételét véve alapul) a 3. táblázat mutatja.
3. táblázat A WR A-val átfedésben előforduló, azonos
releváns találatok száma
Adatbázis W R A A G R I C O L A
C A B AGRIS Egyebek
W R A 43 24 12 26
A G R I C O L A 43 . 38 25 25
C A B 24 38 . IS 26
AGRIS 12 25 18
- 15
Egyebek 26 25 26 15 -
B e s z á m o l ó k , s z e m l é k , referátumok
A listavezető adatbázisokban van néhány olyan tétel, amely egyik más adatbázisban sem szerepel (unikális találatok), a lista végén állók tételei azon
ban mind megtalálhatók az előbbiekben. Elenyésző
en kevés a csak egy, de kis találatszámú adatbázis
ban megtalált szakirodalmi tételek száma.
Meglepőnek m o n d h a t ó meg az az eredmény is, amit a 2. táblázat utolsó oszlopából lehet kikövet
keztetni: nevezetesen, ha csak a WATER ÉS HAR
VEST... keresőszóval végezték volna a keresést, a legtöbb releváns tételt megkapták volna az A G R I COLA és az AGRIS esetében, viszont a W R A és a CAB találatainál a releváns tételek felét sem éri el ez szám.
A keresés költségeit részletesen kiszámították, így a teljes, egy találatra eső, egy releváns találatra eső, és az unikális tételekre eső költségeket. A lista élén álló adatbázisok keresési költsége az alacsonyabb.
A kézi keresés eredményei
A kiindulásként használt cikk 105 hivatkozásából 42 olyan, amelyet a gépi keresés nem talált meg. 39 tétel címe tartalmazta a WATER HARVESTING szakkifejezést, és 9 (tehát 8,6%) cikk jelent meg 1979 után. A 105 hivatkozásból a W R A 43-at, az A G R I C O L A 36-ot tartalmazott.
A kézi és gépi keresés együttesen 316 releváns tételt szolgáltatott.
A csak cím szerint kereső online módszer ennek 13%-át nem találta volna meg, a szerző szerint kereső pedig 10%-át.
Az online talált címek 43%-a tartalmazta a két ki
emelt keresőszót, a kézi módszerrel találtaknak pedig 39%-a: ez a különbség elhanyagolható.
Végső következtetés: a kereső stratégiát a lehető legegyszerűbben é r d e m e s kialakítani, nem kell minden lehetséges logikai kapcsolatot végigfuttatni a fontos keresőszavakkal. Költség szempontjából:
nem kell minden szóbajöhető adatbázist lekérdezni, é r d e m e s e b b a téma "nagy" adatbázisaira szorítkozni a kereséssel.
/NABER, G.: Online versus manial literature re- trieval: a test case shows interesting results in re- tríeval effectiveness and search strategy = Da¬
tabase, 8. köt. 1. sz. 1985. p. 20-24.1 . (Domokos Miklósné)
540