Manfréd Bonitz
Zentralinstitutfűr Kernforschung der Akademieder Wissenschaften der DDR
A Science Citation Index CD-ROM-on, avagy a világ legnagyobb szakértő rendszere?*
A szerző ismerteti a CD-ROM-on megjelent Science Citation Indexet (SCI), melyet kereskedelmi adatbázisban megvalósított bibliográfiai kapcsolatnak tekint. Tárgyalja az együttidézési kapcsolat és a bibliográfiai kapcsolat közötti különbséget. Mivel az SCI a publikációk irodalomjegyzékének felhasználásával készül, és ezek összeállítása jellegzetes szakértői feladatnak tekinthető, a CD- ROM-on megjelent SCI egy hatalmas szakértő rendszernek fogható fel.
Bevezetés
Aki ilyen címmel ír tanulmányi, annak fel kell készülnie az azonnali tiltakozásra. Mit jelentsen ez: a világ legnagyobb szakértő rendszere? A válasz: ez egy olyan szakértő rendszer, amelyben több ezer, sőt több százezer szakértő vesz részt. A tiltakozás: ez el
lentmondást jelent a szakértő rendszerek értelmezé
sével szemben, mivel "éppen a szakértők ritka volta miatt kell szakértő rendszereket létrehozni" [1].
Nem áll szándékomban a szakértő rendszerek definícióját forradalmasítani, lehet, hogy a cikk címe csak egy metafora, amely bizonyos hasonlóságot emel ki, de az is lehetséges, hogy e hasonlóság mögött több rejlik, ezért a szakértő rendszerek új szemlélete nem zárható ki.
A szakirodalmi informatika egyik vívmányára sze
retnénk utalni, mely azáltal jött létre, hogy a Science Citation Index (SCI) CD-ROM-on is hozzáférhető.
Megvalósították az ún. bibliográfiai kapcsolatot (bib- liographic coupling) egy kereskedelemben kapható adatbázisban. Ezzel összefüggésben bemutatjuk az együttidézési (co-citation) kapcsolat és a bibliográ
fiai kapcsolat közötti különbséget, majd egy példa segítségével tárgyaljuk a bibliográfiai kapcsolat hasz
nosítását az SCI adatbázisban. Végül megvizsgáljuk, hogy az egésznek van-e a szakértő rendszerekre jel
lemző vonása.
A bibliográfiai kapcsolat és az együttidézési kapcsolat
Két tudományos közlemény többféle módon hozható egymással kapcsolatba, pl. úgy, hogy össze
hasonlítjuk a szerzőket, az intézményeket, a tartalmat vagy az alkalmazott módszereket. Vizsgálatunk szem
pontjából két kapcsolatfajta jelentős, és mindkettő
nek köze van a szakirodalmi idézéshez.
"Az SCI aul CD-ROM oder des g'öBie Expertensystem der Weit? c. cikk (Informatik. 37. köt. 1. sz. 1990. p. 37-40.) rövidített forditása. (Az SCI CD-ROM szakirodalmi szolgál
tatásként hozzáférhető a MTA Könyvtárában.)
Két azonos korú közlemény hivatkozásainak ösz- szehasonlítása kimutathatja, hogy található-e ben
nük egy vagy több közös hivatkozás. A közlemények jelenkoriak, azaz most jelentek meg, ezzel szemben a hivatkozások a múlt munkáit képviselik. A hivatkozá
sok egyezése bizonyos rokonságot mutathat ki a két vizsgált közlemény között. Ennek alapján két publiká
ciót, ha ilyen bibliográfiai kapcsolatot mutat, "related papers"-nek, formailag rokon közleményeknek nevezünk. Könnyen belátható, hogy milyen hatalmas munkára van szükség ahhoz, hogy megállapíthassuk, mely közlemények állnak egymással bibliográfiai kapcsolatban. Ennek érdekében minden közleményt páronként kell hivatkozásaik alapján összehasonlí
tani. Ez csak számítógéppel lehetséges, előzőleg azonban fáradságos munkával minden hivatkozást be kell táplálni a számitógépbe. A "bibliográfiai kap
csolat" fogalma mintegy negyed évszázados [2].
A közlemények kapcsolatba állításának másik módja "idézettségük" (citation) vizsgálatán alapul, vagyis azon közlemények alapján, amelyek a szóban forgó cikkeket idézték. Két közlemény kapcsolata annál szorosabb, minél többször idézik őket együtt más közlemények (együttidézési. Az együttldézés a jelenben történik, 'az idézett közlemények viszont a múltban jelentek meg. Az együttidézési módszer al
kalmazásával [3, 41 - ha ezt olyan (lehetőleg gyakran idézett) közleményekből álló halmazra használjuk fel, amelyben a közleményekhez tartozó minden idézet (citation) megvan (Citation Index) - együttidézési klaszterek állíthatók elő, amelyek de facto a tudo
mány "feltérképezését" jelentik. Ezek a klaszterek a kutatási frontterületeket jelenítik meg az illető téma
terület sokat idézett, összetartozó publikációiból és azon közleményekből, amelyek a sokat idézett köz
leményeket idézik. A számítógép segítségével ez a kartográfiai folyamat automatizálható. A bibliográfiai kapcsolattal szemben .a számítógépes ráfordítás
"valamivel" kisebb, mert mint ismeretes, korántsem idéznek minden közleményt, és a gyakran idézett publikációk még ritkábbak. Ezért az együttidézési
520
TMT 37.óvf.1990.12.sz.
klaszterek ötletét már a 80-as évek elején megvaló
sították, míg a bibliográfiai kapcsolat módszerének kiaknázásához szükséges műszaki előfeltételek csak sokkal később álltak rendelkezésre. A "related papers" keresése ezért csak napjainkban valósulha
tott meg. Az 1. ábra a kél kapcsolattípus közötti különbséget mutatja be.
a) A és B co-cited paperek. melyekel C (+ D.E.F...) együtte
sen idéznek.
b) A és B related paperek, melyek együttesen idézik C (+ D.E.F...)-!.
1 ábra A két kapcsolattípus közötti különbség Egy információtömeg együttidézési elemzése fo
lyamán kristályosodnak ki a kutatási frontterületek.
Ehhez bizonyos időnek kel! eltelnie, amely alatt a kutatási frontterületeket képviselő közleményeket idézhetik, vagyis az idézeteknek össze kell gyűlniük.
Ez az elemzési módszer, amely tehát csak a sokat idézett publikációkat használja fel, témafigyelésre (current awareness) alkalmatlan, erőssége sokkal inkább a tudomány "forró" tématerületeinek automa
tikus felfedezésében és követésében van.
Más a helyzet a bibliográfiai kapcsolatelemzéssel.
Ez a témafigyelés hagyományos módszereit azokkal a lehetőségekkel gazdagítja, melyeket az "idézés nyelve" kínál, és egy nagyon is jelenkori információs tömegből választja ki mindazokat a rokon köz
leményeket, amelyek "párosával" a közös hivatkozás ismérvével rendelkeznek. Az 1, ábra azt mutatja, hogy két közlemény együttidézési kapcsolatánál a kapcsoló tag, az idéző harmadik közlemény, a jelen
ben, azonos időben a kapcsolt munkák után jelent meg, míg két publikáció bibliográfiai kapcsolata esetén a kapcsoló tag, az általuk idézett közlemény, a múltban, vagyis időben a kapcsolt publikációk előtt látott napvilágot.
Rokon közlemények az SCI CD • ROM -ban
Az SCI CD-ROM-ban lévő rokon közlemények (related papers) keresését a következőkben ismertet
jük. A példa, amely a "földrengés-előrejelzés"
témában megjelent közlemények keresését mutatja be, erre a célra nagyon le van egyszerűsítve (az ISI által kiadott demonstrációs lemezről* [5] vettük át).
Az SCI CD-ROM-ban számítógéppel leolvasható Per- muterm Subject Index, vagyis a közelmények cím
szavaibői összeállított tárgymutató is található. Ez a mutató (az egyes szavak gyakoriságának előzetes lekérdezése után) pl. lehetőséget ad arra, hogy a rendszernek a következő keresőkérdést tegyük fel:
(1) (EARTHQUAKE OR EARTHQUAKES) AND PRE- DICT.
E keresőkérdésre a válasz nyolc közlemény bibli
ográfiai adatait tartalmazza. Ezek közül kettőt megemlítünk (2 ábra). Itt az adalék különösen érdekes, hogy hány related records tartozik az egyes közleményekhez. A számitógópigényes bibliográfiai kapcsolatelemzés ezt az adatot járulékos információs elemként tartalmazza. (Ha az információ reprezentált ismeretet jelent [6], akkor a related papers számának megadása olyan új ismeretet képviselő információ, amelyet a bibliográfiai kapcsolat elemzése útján az idézetek szakértői ismeretéből nyertünk.)
flrr.arfl: 1 nt H (2)
S P E T Z I E B - H n t r u ' A " [ - H P U H I I L i r i l i t .'. I. ' í i i I N 1 0 C K S p f i E D T C T í r j ü E A H I H O U A K E S
A N D 1 1 5 I n P L I C n l ONS F o n
T E C T 0 N O P H Y 5 I C 5 V o l i IS N o l PB K W - l l í 11B1 ne 1 e x - t n c e s i 2 7 R e l j t a d Hí r c a r r t a ; b
(3)
M B U I Í F O R D - H O
O C C U P B E N C E ÜF A P B E O I C T E D E A I H H O U A K E DN ANOREAS F A U L T
1HE S A H -
I J A I U n e V o l No 6 1 3 7 p c I 2 3 - J 2 3 1 9 B 7 ü f l r r f n c n : 17 R * l * t * 4 j R v c o r d s i 7
2. ábra Példák a feleletekre és a keresőkérdésre A rendszer tehát lehetővé teszi, hogy minden egyes rokon közleménynek, minden related record- nak pl. a (3) közleményhez való kapcsolódáséi külön- külön megvizsgálhassuk.
A (4), (5) és (6) rokon közlemények adatbázisbeli megjelenésében az a figyelemre méltó (3. ábra), hogy related recordjuk száma mellett még "rokonsági fokuk", nevezetesen a közös hivatkozások, vagyis a kapcsolóelemek száma is szerepel. Feltűnő továbbá, hogy ezek közül a közlemények közül egyiket sem találtuk volna meg címszó szerinti keresés során (t).
Rokonságban álló közleményeknek nincs minden esetben közös címszavakból álló címük, ezek
"rokonsága" kizárólag a közös hivatkozásokon alapul. A related paper keresés tehát olyan köz
leményeket hoz napvilágra, melyek különben rejtve maradtak volna. Éppen ebben a pozitívumban van az új szakirodalmi keresési lehetőség jelentősége.
•Az MTA Könyvtára kérésre - beküldött hajlékonylemezre - átmásolja a demonstrációs lemezt.
521
Bonltz, M.: A Science Citation Index CD-ROM-on...
R e l a t g d R g c o r d i 1 o* 7 (4)
HABER11ANN-PE
H A B É R M A N N METHOD FOR O E T E C T I N G S E I S M I C I T Y R A T E C H A N G E S JOURNAL D F G E O P H Y S I C A L RE S E A R C I I - S O L I D E A R T H AND P L A N E T S V o l 12 Ha B9 p p 9 4 4 6 - 9 0 5 0 1 9 B 7
R e í e r p n c p i : 2 0 R v l a t e r i R e c o f i l s : 7 S l i a r e U
H g l a t g O R e r a r d ; . 2 ol 7 X H A T t R I - K N
(5)
G R E A T E A R T H Q U A K E S , S E I S M I C I T V G A P S OND P O T 6 N I I B L FOR EAP.THQUAKE D I S A S T E R ALONG THE H l M A L A Y A P L A T E BOUNDARY T E C T O N O P H Y S I C S V o l 1 3 8 N D I p p 7 9 - 9 2 1 9 9 7
H g f p r e n c g s ; 7 6 R e l a t e d R e e o r d s : 1 6 S l i a r e d
N p l n r p i n p ' - , i 3
R g l a t e d R p c o r d : 3 ol 1 Y U S HI0 A - A
(6)
PF1ECUP.SORY A C I I V H V I N S E I S MI C R E L T S C O N T AINI N G THE FDCOL H E G I O N Ü F F ORT HC0I11NG L B R G E 1 N T R A P L A T E E A R T I O U A K E S
1 E C T 0 N U P H Y S 1 C S V o l 1 1( 1 No 2 - 4 p p 1 3 1 - 1 4 3 1 9 9 ' I P Í P F e r n e i : 3 5 H e l d t e d P p i o r ű s : 6 S h a r v d
B p t t r f n c e * ; 2
3. ábra A rokon közlemények megadása
Ezt a lehetőséget pedig minden nehézség nélkül kihasználhatjuk, ha egy tetszőleges közelményből vagy related recordból kiindulva ennek refated recordjaiig jutunk el, és így mondhatni az egész
"rokoni szövedéket" felderítjük. Végezetül ezt egy példával illusztráljuk.
SPETZLER, H. és MIZUTANI, H. publikációjához (2) megtalálhatjuk a "leányközleményeket" (4. ábra) és az "unokaközleményeket" 15. ábra). Hangsúlyoz
zuk, hogy a "leánypublikációk" és az "unokapubliká
ciók" alatt nem időben egymás után következést értünk. A közlemények között a bibliográfiai kapcso
lódási útvonalakat a keresés közben mindkét irány
ban leírhatjuk.
A világ legnagyobb szakértő rendszere?
Térjünk most vissza vizsgálódásunk elejére, köz
leményünk címére, és tegyük fel újra a kérdést, vajon az SCI CD-ROM-változatának vannak-e a szakértő rendszerre jellemző vonásai.
Amikor a hallgatók az első durva áttekintést kapják azokról a különböző CASCO (COMPUTER AIDED SCIENTIFIC COMMUNICATION) rendsze
rekről, melyek szakirodalmi információt nyújtanak, akkor többnyire egy háromcsoportos beosztást is
mernek meg (6. ábra). A besorolási jellemzők egy
részt az intellektuális ráfordítás, amelyet az informá
ciók előkészítéséhez mindig be kell fektetni, más
részt a rendszer által kiszolgált felhasználók száma.
A középső csoportba tartoznak a nagy "klasszikus"
szakirodalmi információs rendszerek: a CAS, IN- SPEC, IN IS Stb., amelyeket az Információ közepes
P í l á t e d R g C L i r t i ; 1 o* 6 M A I W R - K D M A UP : - F J
(7)
5 E [ S f I J C WAVE H O T I O N F O R A NE U MG D E L OF H Y D P . A U L I C F B A C T U R E W I I H AN INDUCED L O N - V E L O C I T Y Í O N E
JOURNAL OF G E O P H Y S I C A L R E S E A R C H - S O L [ D E A R I H ONO l ' l. A N E T S V o l 9 7 No B 9 p p 9 2 9 1 - 9 3 0 9 1 9 B 7
" e l o r p n t . - . : 7 1 R e l a t e d r e c o r - O s ; 17 S h a r v d
4 ábra "Leányközlemény" a (2) közleményhez
Be U t a d R B C P F Q I 1 gt 17 F E H L E R - r t K A I E D A - H N 0 U 5 E - L
(8)
D E T E R H I N I N G P L Á N E 5 A L O N G U H I C H F. A n T H O U A K E S OCCUR - METHOD AND A P P L I C A T I O N TO E A R T H D U A K E 5 A C C O M P A N U N G H Y D H A U L 1 C P R A C T U R I N G
J O U R N A L OF G E O P H Y S I C A L R E S E A P C H - 5 0 L I D E A R T H AND P L A N E T S V o l 9 2 No B1 p p 9 4 0 7 - 9 4 1 4 1 9 8 7 R i f e r p n c p t : 1 2 R e l a t e d R r c u r d t l ~3 S l u r í t d
flpfprpriLP^i 1
5 ábra "Unokaközlemény" a (2) közleményhez
Intellektuális ráfordítás
n . .
Szakértő rendszerek
CAS MEDLARS
1NSPEC
IMS A felhasználók szama
6. ábra A szakirodalmi Információ felosztása
mérvű intellektuális előkészítése után (pl. referátu
mok készítése) széles felhasználói kör rendelkezé
sére bocsátanak.
A legdrágább, legtöbb ráfordítást igénylő rend
szerek a szakértő rendszerek, amelyek csak szűken határolt területeket és csak kevés felhasználót szolgálnak ki, és amelyeknél magas képesítésű, jártas "knowledge engineer"-ek, kognitológusok a szakértők, akiknek a tudását elő kell csalogatni [7j.
A legolcsóbb rendszer az SCI, itt az információt bizonyos fokig laikusok készítik elő, és felhasználói köréhez az egész világ tudományos közössége tarto
zik. Természetesen mellékesen megjegyezhetjük, hogy az ilyen beosztással semmiféle értékelést nem kapcsolunk össze. Mindezeknek a rendszereknek megvan a jól megérdemelt helyük a tudományos kom
munikáció összrendszerében, valamint társadalmi megbízatásuk és hálás használóik. Ha azonban az SCI egyrészről, és a szakértő rendszerek másrészről ezen a ráfordítás/felhasználói skálán egymástól
522
TMT 37. évf. 1990.12. sz.
ennyire távol esnek, akkor hogyan viselhetik egy szakértő rendszer vonásalt?
Senki sem tagadhatja egy olyan tapasztalt kutató szakértől rangját, aki szakmai eredményeit és ismere
teit publikációkban közli. A publikációiban szereplő hivatkozások szakértői ítéleteknek foghatók fel. A fenti értelmezés azonban nem szokványos, ugyanis manapság a hivatkozásokat legjobb esetben egy in
formációs nyelv elemeinek szokták tekinteni [8], Ha olyan problémák léteznek, amelyeknek megol
dási feltétele minden korabeli idézet Ismerete, és létezik egy olyan rendszer, amely ezeket a problémá
kat — az egyes szakértőktől függetlenül és elkülö
nítve - meg tudja oldani, akkor ez a rendszer talán megérdemli a szakértő rendszer elnevezést. Itt most három ilyen kérdést említünk meg:
1. Kik a legidézBttebb személyek a tudományban, vagy melyek a legidézettebb tudományos köz
lemények?
2. Melyek a kutatás frontterületei, és ezeken kik he
lyezkednek el?
3. Mely korabeli közlemények alkotják egy adott tu
dományterület Szövedékét"?
Anélkül, hogy részletekbe mennénk, világos, hogy a három kérdésfelvetés közül egyik sem oldható meg egyetlen olyan kutató közreműködésével, aki nem rendelkezik az idézetek adatbázisával és egy nagyméretű számítógéppel, éneikül még azt sem tudná megfelelő gyorsasággal és pontossággal tisz
tázni, hogy ki Idézi saját közleményeit.
Ha azonban ezek az előfeltételek - mint az ISI-né!
- fennállnak, akkor a követendő szabályok egysze
rűek. Az első kérdésnél: a hivatkozások hozzáren
delése az Idézett szerzőkhöz, megszámlálás, össze
hasonlítás. A második kérdésnél: minden sokat idézett szerző páronkénti összehasonlítása az együtt- idézés ismérve szerint, az együtt idézett szerzők klaszterezése. A harmadik kérdésnél: minden kora
beli publikáció páronkénti összehasonlítása a bibli
ográfiai kapcsolat ismérve szerint, a related papers nyilvántartása.
A szabályok egyszerűségét a szakértők rendkívül nagy számával kell ellensúlyozni. De létezik-e egyál
talán aranyszabály a szakértő rendszerek számára?
Az SCI esetében, a bemutatott elemzési és informá
ciós lehetőségek fényében indokoltnak látszik az a megállapítás, hogy egy kivételes szakértő rendszerrel van dolgunk.
Marad azonban még egy fenntartás, amely az egyes szakértők jelentőségót és ezzel a rendszernek mint szakértő rendszernek a jelentőségét látszólag
kisebbíteni kívánja. Eszerint elég csekély az a hozzá
járulás, amelyet az egyes "szakértő", vagyis a kutató az SCI óriási rendszerébe bevihet, azaz közleményei
nek irodalomjegyzéke. De: ahogyan egy tudományos publikáció elkészítése, a hozzá tartozó irodalom
jegyzéké is jellegzetesen szakértői teljesítmény, amelyet a kutató helyett sem egy automatizált rend
szer, de még egy knowledge engineer sem végezhet el. A kutató maga bocsátja további felhasználásra, azaz a szakértő rendszer rendelkezésére a szükséges ismereteket az oly sok tisztázatlant, megmérhetetlent hordozó idézéseken keresztül.
Alig hiszem, hogy egy ilyen szemlélet a "klasz- szikus" szakértő rendszerek dicsőségét vagy exkluzi
vitásának mítoszát csökkentené, sokkal inkább kiter
jeszti azon problémák szemléletét, amelyek csak több tízezer kutató - akik szakértői tudásukat viszik ebbe a tevékenységbe - közös és felelős működésé
nek eredményeképpen oldhatók meg. így értendő tehát ennek a közleménynek a szokatlan címe.
Irodalom
[t] ROTH, M.: Die intelligente Maschine. Leipzig, Jena, Berlin, Uránia Verlag. 1988.
[2] KESSLER, M. M.: An experimentál study of bibliogra- phic papers. - IEEE Transactions on Information Theory, 9, köt. 1. sz. 1963. p. 50- 51.
[3] MARSAKOVA, I. V.: Sistema svazej mezdu dokumen- tamí postroennafl na osnove ssylok: (po dannym SCI).
- Naucno-tehniCeskafl informaciá, Ser. 2. 6. sz.
1973, p. 3 - 8 .
[4] SMALL, H.: Co-oltatlon In the scientlflc llterature: a new measure of the relationshlp between Iwo docu- ments. ~ Journal of the American Soclety of Informa
tion Science, 24. köt. 1973. p. 256- 269.
[51 Science Citation Index. Compact Dlsc Edition. Instltute for Scientlflc Information, Philadelphia. 1988. (De- monstration dlsc)
[6] BON1TZ, M.; Information - Wissen - Informatik. = 16. Internationales Kolloqulm über Information und Dokumentatlon, 18- 21. Dezember, 1989. Vortrag.
I7l MIRIMANOVA, M. S.: Ekspertnye slstemy: Izlecenle ekspertnyh znanij. = Teória i praktika obScestvenno- nauCnoj Informacli, 1. köt. 1989. p. 138- 151.
[8] GARF1ELD, E.: Citation indexing, its theory and appli¬
cation in science, technology and humanitles. ISI Press, Philadelphia, 1979.
Fordította: Zsindely Sándor Beérkezeti: 1990. V. 23-én.
523