TMT 49. évf. 2002. 5. sz.
Csubák Antoaneta
BME OM1KK
Minőségmenedzsment a könyvtárakban
A minőség fontosságáról és növekvő gazdasági szerepéről sok tanulmány látott napvilá
got hazánkban, különösen az elmúlt 10 esztendőben, amióta a piaci versenyképesség nö
velése szükségessé vált. A minőség-ellenőrzés, minőségbiztosítás és minőségirányítás fogalmak tisztázására, értelmezésére és alkalmazására az iparban széles körű szakiroda
lom áll rendelkezésre. Más a helyzet a szolgáltatások területén. Ez egy heterogén ágazat, ezért bizonyos szolgáltatásoknál - kereskedelem, bank, informatika stb. - a minőségbizto
sítás már jól ismert és bevezetett rendszerként működik. Vannak azonban olyan területek - például a könyvtárak - ahol a minőségirányítással való megismerkedés és alkalmazása a gyakorlatban úttörő munkának számít. Skaliczki Judit és Zalainé Kovács Éva „Minőség
menedzsment a könyvtárban" című, 2001-ben megjelent könyve a könyvtárszakmában a könyvtári minőségirányítás ábécéjeként használható.
Minőségmenedzsment a könyvtárban / Skaliczki Judit, Zalainé Kovács Éva ; az „Esettanulmány"
című (9.) fejezetet Ramháb Mária írta. - Veszprém : Veszprémi Egyetemi K., Budapest : Informatikai és Könyvtári Szövetség, 2001. -193 p.; 24 cm
ISBN 963 9220 70 1
Tart.j. és előszó angol nyelven is. Bibliogr.: 189-193.
A minőségügy tág értelemben a társadalom élet
minőségének ügye, a társadalom minőségkultúrá
jának szintje. Szűkebb értelemben a minőségügy a termékek, a szolgáltatások minőségével foglalko
zik, vagyis a nemzetgazdaság versenyképességét és a nemzeti kultúrát meghatározó stratégiai kér
dés. A fejlett országokban a minőségügyet már évtizedek óta kulcsfontosságú kérdésnek tartják. A minőség ellenőrzésére, biztosítására és irányításá
ra különböző modelleket alakítottak ki és alkal
maznak (pl. Japánban - TQC = Totál Quality Control, az USA-ban - TQM = Totál Quality Management, Európában - a TQM eszközökkel támogatott ISO 9000-es szabványon alapuló mi
nőségirányítási rendszer).
Az elmúlt években Magyarországon is körvonala
zódott a minőségügy szabályozási rendszere. Lét
rejöttek a minőségügy alapvető jogszabályi, intéz
ményi és ösztönzési feltételei (a szabványosítási és akkreditálási törvény, a vizsgáló és tanúsító intézmények hatósági és szolgáltató tevékenysé
gének, feladatainak szétválasztása, a Nemzeti Minőségi Díj alapítása, a minőségbiztosítási rend
szerek széles körű bevezetésének állami támoga
tása, EU-jogszabályok átvétele stb.). Megfogalma
zódott a Nemzeti Minőségösztönző Politika és a Nemzeti Minőségfejlesztési Program. Az utóbbiban részt vesz a kormány, a minisztériumok, az oktatá
si intézmények és a közszféra minden területe.
Összefoglalva, Magyarországon a minőségirányí
tás kiemelt szerepet kap a közélet minden szekto
rában, beleértve a könyvtárakat is.
Csubák A.: Minőségmenedzsment a könyvtárakban A Minőségmenedzsment a könyvtárban című
könyv szerzői merész feladatra vállalkoztak: 190 oldai terjedelemben ismertetni a minőségügy alapfogalmait, valamint a könyvtári minőségirá
nyítási rendszer lényegét és bevezetésének lépé
seit, felvázolni a hazai könyvtárügy stratégiai ter
vének elkészítési módját, bemutatni a TQM mód
szereket és a minőségügyi dokumentációs rend
szer felépítését, sőt az EFQM Kiválóság Modell sem maradt ki.
A szerzők arra törekedtek, hogy a „száraz definíci
ók'' egyszerű példákkal „fűszerezve", a könyvtár nyelvére lefordítva közérthetővé váljanak. A Kato
na József Könyvtárban megvalósított projektről szóló esettanulmány is hozzájárult ahhoz, hogy a könyv ne csak elméleti ismereteket nyújtson, ha
nem gyakorlati oldalról is alátámassza a minőség
irányítás működőképességét a könyvtárakban.
A hallgatók számára ez tipikus tankönyv: tömören, lényegretöröen, felsorolásszerűen és szinte teljes- körüen ismerteti a minőségirányítás fogalmait, módszereit, modelljeit, a hazai és a külföldi trende
ket (kivéve az ISO 9000-es minőségirányítási rendszert).
A gyakorló könyvtárosok számára újszerű gondol
kodásmódot és munkamódszert mutat be, amely
nek elsajátításával és alkalmazásával a nemzetkö
zi követelményeknek is megfelelő modern könyvtá
rat lehet kialakítani és működtetni.
Végül, a laikus (nem könyvtáros) számára is hasznos olvasmány, logikus felépítése és az érté
kes, nagy munka árán összegyűjtött információ
tartalom miatt.
A mű legnagyobb érdeme - az, hogy olvasmányo
san, világos gondolatmenettel, jól áttekinthetően, a témába csak most bekapcsolódni szándékozók számára is közérthetően, gyakorlati példákkal gazdagon illusztrálva mutatja be a könyvtári minő
ségirányítás lényegét - a szerzők (könyvtári és minőségügyi) szakmai felkészültségének, tapasz
taltságénak, profizmusának köszönhető.
A „Minőségmenedzsment a könyvtárban" c. könyv alapján összeállítást készítettünk a minőségirá
nyítás célkitűzéseiről, a rendszer felépítésének lépéseiről, a megvalósítás lehetséges módszerei
ről és az elért eredmények értékelésének metodi
kájáról.
Milyen a j ó k ö n y v t á r a h a s z n á l ó s z e m é v e l n é z v e ?
Klasszikus értelemben, a 19. századbeli könyvtár
kép alapján az olvasó a mai napig is elvárja, hogy a könyvtárban
• esztétikus, rendezett, tiszta környezet fogadja;
• a könyvtárosok legyenek udvariasak, készsége
sek, a keresés legyen eredményes;
• kényelmes helyet kapjon az irodalomkutatáshoz;
• a szakirodalom legfrissebb kiadásai, és széles választéka álljon rendelkezésére.
Az évtizedek során ezek az igények tovább bő
vültek. A könyvtáros - aki a minőségirányítás kö
zéppontjában áll - feladata az ügyfelek, használók folyamatosan növekedő, változó igényeit figyelni, és ennek megfelelően intézkedni. Ide kapcsolódik a szerzők által is ismertetett minőség kérdése, miszerint a minőség piackutatással, felmérésekkel kezdődik. Nemcsak a meghatározott igényeket (pl.
helyben használat, kölcsönzés, tájékoztatás) szük
séges megismerni, hanem célszerű a látens igé
nyek (amelyeknek az ügyfél nincs tudatában) fel
méréséhez meghatározott kutatásokat a fejlesztés, tervezés fázisában is végezni. A használók igé
nyeinek felméréséhez jól bevált módszer a meg
felelően összeállított kérdőíven történő kérdezés, és ami még lényegesebb - a kapott válaszok elemzése, értékelése és közzététele. Nem marad
hatnak el a javító intézkedések, sőt a jól megterve
zett megelőző intézkedésekkel megakadályozható, hogy ugyanaz a probléma újra előfordulhasson. Jó megoldás a szerzők által javasolt „minden egyes szolgáltatási pontnál elhelyezni az olvasói javas
latok könyvét, és minden névvel és címmel ellátott javaslatra, válaszolni". Más szóval, törődni kell az olvasóval.
Az utóbbi években jelentősen megváltoztak az olvasói szokások: a könyvtárhasználók létszáma megnövekedett, ugyanakkor más jellegű könyvtári szolgáltatásokra (elektronikus) is igény van. Ennek megvalósítására pedig a kommunikációs és infor
mációs technológiákkal a technika fejlődése tág teret nyitott arra, hogy „az éppen adott könyvtár szolgáltatásain kívül a használók egy virtuális könyvtárban barangolhassanak a világ legjelentő
sebb könyvtári állományai és információi között".
A küisö körülmények (globaíizáció, információs társadalom kialakulása, jogi szabályozások, szab
ványok, irányelvek egységesedése stb.) változása, a technika fejlődése adta lehetőségek (virtuális könyvtár) és a használók megváltozott igényei a
TMT 49. évf. 2002. 5. sz.
könyvtárakat új szerepkörhöz juttatták, a könyvtár stratégiai intézménnyé változott, amely a kor
mányprogramokban is helyet kapott.
Visszatérve a kiinduló kérdéshez - Milyen a jó könyvtár7 - , a válasz: a mai könyvtárhasználó a korszerű virtuális könyvtárat tartja megfelelőnek, ahol egy helyen gyorsan és pontosan hozzájuthat a keresett információhoz, és mindez kellemes kör
nyezetben és udvarias könyvtárosi segítséggel történik.
Ennek az alapgondolatnak kell alávetni az egész könyvtári tevékenységet, a jövőkép kialakítását, a küldetésnyilatkozat megfogalmazását, a stratégiai terv készítését, a minőségirányítási rendszer be
vezetését.
A k ö n y v t á r i m i n ő s é g i r á n y í t á s i r e n d s z e r f e l é p í t é s é n e k l é p é s e i
1. A könyvtár minden dolgozója (a vezetőséggel az élen) ismerkedjen meg a minőségirányítás alapfogalmaival, és azonosuljon a minőség
szemlélettel. (A könyvtáros higgyen benne, hogy a minőségirányítási rendszerben való működés a könyvtár színvonalát emeli.) Ezt megfelelő oktatással lehet elérni.
2. Minőségirányítási munkacsoport létrehozása.
Ajánlott létszám: 5-10 fő.
3. Meg kell fogalmazni és közzé kell tenni a könyvtár jövőképét, küldetésnyilatkozatát és minőségpolitikáját. Ezek tartalmára vonatko
zóan segítséget ad a „Minőségmenedzsment a könyvtárban" c. könyv.
4. Kiinduló helyzetfelmérést kell végezni, amely kiterjed a minőségirányítási rendszer minden elemére: vezetés (szemléleti kérdés), minő
ségügyi stratégiai terv, humán és tárgyi erőfor
rások biztosítása, a szolgáltatási folyamatok áttekintése - ellenőrzési metodikák, teljesít
ménymérés és -értékelés, teljesítménymutatók alkalmazása, használói elégedettség felméré
se, értékelése, javitó intézkedések, a dolgozók elégedettségének mérése, statisztikák készí
tése, értékelése, szervezeti kultúra, a könyvtár társadalmi hatásának vizsgálata.
5. A feltárt „gyenge pontok" elemzése. Intézke
dési terv készítése az ún. SWOT-analízis al
kalmazásával.
6. Minőségügyi stratégiai terv összeállítása.
7. A szolgáltatások fejlesztésével kapcsolatos feladatok megfogalmazása a „PDCA ciklus- modell" alapján. Célszerű minden egyes szol
gáltatást külön elemezni: milyen munkafázi
sokból áll, hogyan kapcsolódnak egymáshoz a különböző munkafázisok, hol vannak az ellen
őrzési pontok, hogyan regisztráljuk a nem- megfelelöségeket (hibákat), milyen módon történik a hibák kiküszöbölése. Megvizsgálni, mi okozta a hibát. A hibaokok feltárására, ki
küszöbölésére és megelőzésére alkalmaz
hatjuk a TQM módszerek közül bármelyiket, pl. a Pareto-elemzést, a halszálkadiagramot vagy a hisztogramot.
8. A minőségfejlesztési feladatok végrehajtása.
9. Teljesítménymérés és értékelés:
• statisztikák készítése - mennyiségi megkö
zelítés (pl. kötetek száma, beiratkozott olva
sók száma);
• értékelés a különböző teljesítménymutatók alkalmazásával - minőségi megközelítés az MSZ ISO 11 620:1998 sz. szabvány alapján.
10. A dolgozók elégedettségének mérésére meg
felelő kérdőívek összeállítása, kitöltetése, ja
vaslatok elemzése, intézkedések,
11. A használók elégedettségének mérésére al
kalmas módszerek kiválasztása és alkalmazá
sa (kérdőív, interjú, panaszláda stb.).
12. A minőségügyi rendszer dokumentációjának aktualizálása (pl. Olvasói tájékoztató, űrlapok, Ügyrend, Belső szabályzatok).
13. A minöségírányitásí rendszer hatékonyságá
nak értékelésére szolgáló ún. „Vezetőségi fe
lülvizsgálat", évente legalább egyszer.
A fenti 13 lépésből álló folyamat nem egy köbe vésett eljárás, csak egy lehetőség. Szabad a fela
datok sorrendjét felcserélni, az egyes lépéseket leegyszerűsíteni vagy kibővíteni, ez mindig a konk
rét környezettől függ.
A Katona József Könyvtár minőségbiztosítási pro
jektet bemutató Esettanulmányából például látha
tó, hogy a megvalósítást külső angol és magyar szakemberek által tartott tréningekhez kötötték, ami azzal magyarázható, hogy az egész munka egy pályázat keretén belül zajlott. Ez a megvaló
sítási forma mintaszerűnek bizonyult, és módszere modellként szolgálhat más könyvtáraknak.
A TQM szemlélet megvalósítására szolgáló mo
dellt rugalmasan lehet építeni. Többféle út vezet az új könyvtárkép kialakításához. A „Minőségme
nedzsment a könyvtárban" c. könyvben például kevés szó esett az ISO 9000-es szabvány szerint felépített minőségirányítási rendszerekről, amelyek szintén a minőségbiztosítás, minőségfejlesztés témakörébe tartoznak.
Csubák A.; Minőségmenedzsment a könyvtárakban A z I S O 9 0 0 0 - e s s z a b v á n y k ö v e t e l m é n y e i
s z e r i n t f e l á l l í t o t t r e n d s z e r j e l l e m z ő i
2000 decemberében megjelent az ISO 9000-es szabványsorozat új verziója az alábbiak szerint:
A szabvány száma A szabvány megnevezése ISO 9000: 2000 Minőségirányítási rendszerek
Alapok és szakszótár ISO 9001:2000 Minőségirányitási rendszerek
Követelmények
ISO 9004: 2000 Minőségirányítási rendszerek Irányelvek a teljesítőképesség továbbfejlesztéséhez
A nyolc alapelv
1. Foiyamatszemiéietű megközelítés: a kívánt eredményt hatékonyabban lehet elérni, ha a te
vékenységeket és a velük kapcsolatos erőfor
rásokat folyamatként kezelik.
2. Rendszerszemlélet az irányításban: az egy
mással összefüggő folyamatok rendszerként való azonosítása, megértése és irányítása hoz
zájárul ahhoz, hogy a szervezet eredményesen és hatékonyan valósítsa meg céljait.
3. Tényeken alapuló döntéshozatal: az eredmé
nyes döntések az adatok és egyéb információ elemzésén alapulnak.
4. Vezetés: a vezetők megteremtik a céloknak és a szervezet vezetésének egységét A vezetők felelőssége létrehozni és fenntartani olyan bel
ső környezetet, amelyben a munkatársak teljes mértékig részt vehetnek a szervezet céljainak elérésében.
5. Vevő(használó)-kűzpontúság: a szervezetek vevőiktől függenek, ezért fontos, hogy megért
sék a jelenlegi és a jövőbeli vevői szükséglete
ket, teljesítsék a vevők követelményeit, söt igyekezzenek felülmúlni a vevők elvárásait.
6. Folyamatos fejlesztés: a szervezet teljes műkö
désének folyamatos fejlesztése legyen a szer
vezet állandó célja.
7. A munkatársak bevonása: a szervezet lényegét minden szinten a munkatársak jelentik, és teljes bevonásuk teszi lehetővé képességeik kihasz
nálását a szervezet javára.
8. Kölcsönösen előnyös kapcsolatok a beszállí
tókkal: a szervezet és beszállítói kölcsönösen függnek egymástól, és kölcsönösen előnyös kapcsolatuk fokozza mindkettőjük értékteremtő képességét.
Az új szabvány a vevői igényeket helyezi a közép
pontba, és a szervezet felső vezetésének feladat
körébe sorolja a gondoskodást arról, hogy a vevői igényeket követelményekké alakítsa át, és teljesít
se ezeket a követelményeket a vevő elégedett
ségnek elérése érdekében. Ezáltal a szabvány az eddigi minőségbiztosítási rendszer helyett a minő
ségirányítási rendszer követelményeit, a korszerű minőségügyi filozófiát (TQM) foglalja magában.
Nincs merev határ a TQM és az új verziójú ISO minőségirányítási rendszermodellek között. Az alapelvek lényegében azonosak, a minőségfej
lesztési eszközök, módszerek is azonosak. A kü
lönbség csak a rendszer szerkezetében és a do
kumentálási formákban van.
Bármelyik rendszert vezetik be egy könyvtárban, azonos a cél - minden intézkedés a könyvtárhasz
náló elégedettségének növelése érdekében törté
nik.
K i h í v á s a k ö n y v t á r a k s z á m á r a
A könyvtári menedzsment területén is az európai normákhoz kell igazodni. Az új minöségszemléletü kultúrát be kell vezetni a könyvtárakban is, ez a jövő útja. A felzárkózás elkerülhetetlen, minden könyvtár érdeke időben hozzáfogni a munkához, gondoljunk a Katona József Könyvtárra, ahol a felkészülési folyamat három évet vett igénybe. De megérte! Csak a kezdet nehéz: meghozni a dön
tést a minőségirányítási rendszer építésére. A folytatáshoz szemléletváltozásra, új gondolkodás
módra és a minőségügy iránti elkötelezettségre van szükség.
Beérkezett: 2002. II. 21-én.
TMT49. évf. 2002. 5. sz.
Tóth Erzsébet
Nyíregyházi Főiskola Matematika és Informatika Intézet
Az automatikus osztályozással k a p c s o l a t o s kísérleti kutatások eredményei
A digitális dokumentumok rugalmas és rendszerezett formában történő elérése a világhá
lón alapvető elvárás a felhasználók részéről. A kérdés megoldásában nagy feladat hárul a könyvtárosokra is, mert ott van lehetőség a korábbi felhalmozott tudásanyag megosztásá
ra, és szorosabb együttműködés kialakítására a fejlesztőkkel. Ez az írás áttekinti azokat a nemzetközi kutatási programokat, amelyek a HTML dokumentumok automatikus indexelé
sét és osztályozását oldják meg.
A k í s é r l e t i k u t a t á s o k j e l e n l e g i h e l y z e t e Az automatikus osztályozás lehetőségeit vizsgáló kísérleti kezdeményezések kiemelt kutatási tevé
kenységnek tekinthetők a könyvtári osztályozás területén. Korábban az automatikus osztályozás klaszterálási és statisztikai módszerekre épült, azonban ezeknek a módszereknek a konkrét meg
valósításait akadályozta a számítógépesítés hiá
nya és a korlátozott tárkapacitás. Napjainkban viszont egyre több olyan kutatási programot indíta
nak, ahol a korábbi indexelési technikákat alkal
mazzák, és a különböző klaszterálási módszerek hatékonyságát vizsgálják.
Jelenleg nincs tudomásunk olyan gyakorlati meg
valósításról, ahol a hagyományos osztályozási rendszerek szerepét teljes mértékben átvennék az automatikus módszerek, habár fokozott érdeklődés mutatkozik ilyen jellegű rendszerek fejlesztése iránt. A kísérleti kutatásokat többnyire multinacio
nális cégek támogatják. Ez egyrészt azzal az igénnyel magyarázható, hogy szükség van olyan gyakorlati megoldásra, amely biztosítja a digitális dokumentumok rugalmas elérhetőségét rendsze
rezett formában a hálózaton. Másrészt ez a törek
vés annak is tulajdonítható, hogy az internetes keresők egyszerű indexelési technikái nem nyújta
nak kielégítő találatokat a felhasználóknak.
A tematikus weboldalakra alkalmazott osztályozási rendszerek egy általános böngésző struktúrát nyújtanak a HTML dokumentumok számára [1J. Az önállóan kialakított osztályozási rendszerek legna
gyobb hátránya az, hogy nem zárják ki a követke
zetlenségeket struktúrájukból, és ezáltal könnyen ellentmondásokhoz vezethetnek. A kísérleti kuta
tásokban ezért a hagyományos könyvtári osztályo
zási rendszereket próbálták ki különböző módsze
rekkel.
Az ETO-t általában hasznos rendszerező eszköz
nek tekintik a weblapoknál, hiszen géppel értel
mezhető formátuma nagymértékben elterjedt a fejlesztők körében. Az ETO-t használó internetes szolgáltatásoknál megfigyelhető a dokumentum témájának kötöttebb meghatározása, ami ellenté
tes a Dewey Tizedes Osztályozást és a Kongresz- szusi Könyvtár osztályozását alkalmazó rendsze
rek gyakorlatával. Az utóbbi két osztályozásnál sokkal egyszerűbb jelölési rendszert alkalmaznak, és a tartalmi részletezés is hiányzik (ÍJ.
A s k a n d i n á v W A I S World W i d e W e b p r o g r a m
1993 nyarán kezdődött el a lundi egyetemi könyv
tár és a dán műszaki könyvtár együttműködésével, amely egy évig tartott. 660 WAIS adatbázis auto
matikus osztályozását valósította meg, kizárólag az ETO 51-es osztályára épült. Az ETO géppel olvasható formátumát teljes mértékben kiaknázta, ahol az osztályozási kategóriák és a jelzetek között automatikus megfeleltetés van [ 1 , 2]. Technikájára jellemző, hogy minden egyes WAIS adatbázis
számára kulcsszavas listákat állítottak elő, ahol a kifejezéseket az adatbázis-leírások kulcsszavas, tárgyszavas és szabadszöveges mezőjéből vették.
Ezután az adatbázis-leírásokból nyert kulcsszavas kifejezéseket megfeleltették az ETO osztályozási kategóriáinak. A két kifejezés pontos megegyezé
sénél különböző osztályozási jelzeteket kaptak eredményül. A jelzeteket egy algoritmus segítsé-
Tóth E.: Az automatikus osztályozással kapcsolatos kísérleti.
gével súlyozták a hozzájuk rendelt kulcsszavas kifejezések származási helye szerint. Az osztályo
zási jelzetek súlyozása révén nyert eredményeket végül összehasonlították, és a legmegfelelőbb jelzeteket kiválasztották [3, 2],
A D E S I R E p r o g r a m m á s o d i k r é s z e
Az Európai Unió DESIRE (Development of a European Service for Information on Research and Education) nevü programjának általános célkitűzé
se az európai kutatást támogató információs szol
gáltatások fejlesztése volt. A program második része 1998 júliusában kezdődött el tiz partnerin
tézmény közreműködésével, amely két évig tartott [4J. Vizsgálták annak lehetőségét, hogy hogyan lehet összekapcsolni egy szakértők által kiváloga
tott szakterületi hivatkozásgyüjteményt egy robot
program által generált tárgyi indexszel. A vizsgá
latokat a lundi egyetem EELS (Engineehng Electronic Library System) nevü szakterületi
„gateway" szolgáltatására és az „AH Engineering"
nevü tárgyi indexre alapozták. A tárgyi index bön- gészöfelületét egy korábban használatos, szakte
rületre szabott Ei (Engineering Information Inc.) osztályozási rendszer segítségével alakították ki.
ségével valósítottak meg. Gyűjtési stratégiájukban kétféle módszert alkalmaztak és teszteltek. Az első módszernéí néhány manuálisan szerkesztett szakterületi hivatkozási gyűjteményből indultak ki, és azoknak a további hivatkozásait a főoldaltól számított harmadik szintig, míg a második mód
szernél a második szintig követték, ily módon pár
huzamosan az összes idézett weboldalt begyűj
tötték az indexadatbázisba. Minimális átfedést találtak az idézett források között, hiszen többsé
gük csak egy szolgáltatásban fordult elö. Egy fej
lettebb megoldásnál már tezauruszt használtak a számításba vehető weblapok tartalmi szűrésére, ahol a weboldalak szövegét összehasonlították a tezauruszban használatos fogalmakkal. A kapott eredményeket súlyozták, ami alapján eldőlt, hogy egy weblap bekerült-e az indexadatbázisba avagy sem.
A weblapok automatikus osztályozását az El teza
urusz segítségévei végezték el, aminek nyomtatott változata tartalmazza a benne használatos fogal
mak és az El osztályozási jelzetek közötti össze
függéseket. Ennek a két információnak az össze
kapcsolása rendkívül fontos az automatikus osz
tályozás szempontjából. Az El tezaurusz 17 458 fogalmat tartalmaz, ezek közül 8273 fogalom pre-
; A k e r e s ő s z o l g á l t a t á s o k i l e k é r d e z é s e i
/ H T T P
T e z a u r u s z
S t o p l i s t a
H T T P U R L - e k
K é z i a d a t b e v i t e l C o m b i n e t o b o t p r o g r a m
W e b o l d a l a k
T e z a u r u s z - k i f e j e z é s e k n e k
t ö r t é n ő m e g f e l e l t e t é s
B e v i t e l R o b o t p r o g r a m á l t a l g e n e r á l t
t á r g y i i n d e x
H i v a t k o z á s o k
U R L - e k
C o m b i n e t o b o t p r o g r a m
T e z a u r u s z - k i f e j e z é s e k n e k
t ö r t é n ő m e g f e l e l t e t é s
R o b o t p r o g r a m á l t a l g e n e r á l t
t á r g y i i n d e x
H T T P
KIzí írás
R o b o t p r o g r a m á l t a l g e n e r á l t
t á r g y i i n d e x
1. ábra A robotprogrammal működő tárgyi Index begyűjtési stratégiája Az 1. ábrán a Combine nevü robotprogram be
gyűjtési módszere látható, amely egy tezauruszt integrál működésébe a weblapok tartalmi szűrésé
re. Először is meg kellett oldaniuk azt a problémát, hogy minél relevánsabb dokumentumok kerüljenek be az indexadatbázisba, amelyet a Combine segít-
ferált kifejezésként jelenik meg. A belső tezaurusz formátumba való betöltés után az El tezaurusz 3000 egyszavas fogalmat és körülbelül 18 000 összetett fogalmat tartalmazott. Az utóbbi kategó
riába tartoznak a Boole logikai operátorokat tartal
mazó kifejezések és a többszavas kifejezések.
TMT 49. évf. 2002. 5. sz.
U R L
H T T P
W e b o l d a l a k l e t ö l t é s e
H T M L
C o m b i n e r e k o r d - f o r m á t u m
S z ö v e g e s a d a t o k k i v o n á s a
T e l j e s s z ö v e g
M e t a a d a t o k
C í m , f e j l é c El t e z a u r u s z
R o b o t p r o g r a m á l t a l g e n e r á l t t á r g y i i n d e x o s z t á l y o z á s i j e l z e t e k k e l
í ' E g y s z a v a s k i f e j e z é s e k
• T ö b b s z a v a s k i f e j e z é s e k ' B o o l e l o g i k a i o p e r á t o r o k a t
t a r t a l m a z ó k i f e j e z é s e k
A s ú l y o z o t t o s z t á l y o z á s i j e l z e t e k l i s t á j a
M e g f e l e l t e t ő a l g o r i t m u s
Az osztályozási rendszer sajátosságai
H e u r i s z t i k á k é s f a m ú v e l e t e k
S t o p l i s t a
A j a v a s o l t é s s ú l y o z o t t o s z t á l y o z á s i
j e l z e t e k l i s t á j a
V é g e r e d m é n y e k
e l ő á l l í t á s a
R D F
H T M L
C o m b i n e a d a t b á z i s r e k o r d
2. ábra Az automatikus osztályozás folyamata A 2. ábra részletezi a DESIRE programban alkal
mazott automatikus osztályozás kúlönböző lépé
seit. Az első lépésben metaadatok kerülnek az indexadatbázisba, amelyeket a HTML dokumen
tum metaadatokat tartalmazó TAG-jébol, fejlécéből és törzséből vesznek. Ezután a létrehozott index
kifejezéseket megfeleltetik az El tezaurusz fogal
mainak, ahol a stopszavakat is figyelembe veszik.
Ha a két kifejezés pontosan megegyezik egymás
sal, akkor egy osztályozási jelzetekből álló lista generálódik a dokumentumhoz. Az eredményül kapott indexkifejezés és osztályozási jelzet hozzá
rendeléseit súlyozzák egy algoritmus segítségével.
Erre a súlyozásra azért van szükség, hogy meg
különböztessék az indexkifejezések relevanciáját egymástól, hiszen egy Boole logikai operátorokat tartalmazó kifejezés és egy többszavas kifejezés pontosabban behatárolja a dokumentum témáját, mint az egyszavas kifejezés. Sokszor az egysza
vas kifejezések hamis találatokat eredményeznek a téma meghatározásánál, ilyenek például a ho
monimák. Az indexkifejezések súlyozásánál több
féle szempontot vesznek figyelembe a végső sú
lyozási érték meghatározásához:
• az indexkifejezés típusát (egyszavas, többsza
vas vagy Boole logikai operátorokat tartalmazó kifejezésről van-e szó),
• a metaadatok származási helyét rangsorolják,
• az indexkifejezés előfordulási gyakoriságát is megvizsgálják az eredeti dokumentum szövegé
ben.
Minden dokumentumhoz egy osztályozási jelze
tekből álló listát rendelnek, ahol a jelzetek súlyozá
si értékek szerint csökkenő sorrendben jelennek meg. Általános osztályozási gyakorlatnak tekint
hető, hogy a dokumentumhoz mindig a legspecifi
kusabb osztályozási jelzetet kapcsolják. A javasolt jelzetek számát csonkolással csökkentik, azaz minden jelzet végleges súlyozási értékét egy kü
szöbértékhez hasonlítják. Tehát a küszöbérték alatti súlyozási értékeket figyelmen kívül hagyják.
A küszöbértéket egy heurisztika segítségével álla
pítják meg. Az eredményül kapott jelzetek kétféle
képpen jelennek meg a böngésző szolgáltatásban HTML vagy RDF formátumban.
A kísérlet eredményei a következők voltak: 86 468 dokumentumot osztályoztak automatikusan, egy weblaphoz átlagosan 6 osztályozási jelzetet ren
deltek. 923 weboldalt mintaként megvizsgáltak, és megállapították, hogy az automatikusan generált osztályozási jelzetek 57 és 66% között feleltek meg az intellektuális osztályozással nyert jelzetek
nek (5J.
A G E R H A R D p r o g r a m
Német nyelvű weboldalak automatikus indexelését és osztályozását oldja meg. Kifejlesztett szolgál
tatása együttesen kínálja fel a keresés és a bön
gészés lehetőségét a felhasználók számára. Az ETO-nak egy háromnyelvű kiadását - az ETH-
Tóth E.: Az automatikus osztályozással kapcsolatos kísérleti.
Zürich szerinti változatát - használják, amit UDCZ- nek neveznek. Ez a rendszer 60 000 osztályozási kategóriából áll, amelyek között 15 különböző relá
ció lehetséges. Minden egyes osztályozási kategó
riája tartalmaz egy UDCZ jelzetet, egy szöveges leírást és a lehetséges szinonimákat németül, an
golul és franciául. Ha szükséges, az osztályozási kategóriánál egyértelműen hivatkoznak a korábban használt és a kapcsolódó jelzetekre.
szövegfeldolgozásra fordított minimális időnek a biztosítása. E célok elérése érdekében különböző nyelvészeti és statisztikai módszereket alkalmaz
tak. Alapvető elképzelésük az volt, hogy az UDCZ osztályozási rendszert konvertálják egy olyan lexi
kon formátumba, amely tartalmazza az osztályo
zási kategóriák és az UDCZ jelzetek közötti meg
feleltetéseket. Ezután a dokumentum szabadszö- vegéböl vett kifejezéseket megfeleltették a lexi-
B e g y ű j t é s
JIVDtsmrr^JJOS^BRTXK O s z t á l y o z á s
OFF I S
A d a t b á z i s é s g r a f i k u s f e l ü l e t
E l e m z é s
B e g y ű j t é s
U D C Z l e x i k o n
I
N y e l v é s z e t i é s s t a t i s z t i k a i f e l d o l g o z á s
U D C Z j e l z e t e k / S O I F f o r m á t u m o k
A d a t b á z i s f r i s s í t é s
S O I F f o r m á t u m o k e l ő á l l í t á s a
W e b s z e r v e r ( n y i l v á n o s )
W e b s z e r v e r ( a d m i n i s z t r a t í v )
3
K o n f i g u r á c i ó
3. á b r a Rendszerarchitektúra A 3. ábrán egy összetett rendszerarchitektúra lát
ható, amely a következő elemeket tartalmazza: a weboldalak begyűjtését és szöveges elemzését, a SOIF (Summary Object Interchange Formát) for
mátumok előállítását, a nyelvészeti és a statisztikai feldolgozást, amely az UDCZ lexikon segítségével történik. Ennek a folyamatnak a végén az UDCZ jelzetek és a SOIF formátumok egy Oracle relációs adatbázisba kerülnek. A GERHARD robotprog
ramja a tudományos szintű és releváns dokumen
tumokat keresi és gyűjti az indexadatbázisba kü
lönböző szűrési szabályok segítségével. A rele
váns weboldalak helyének a meghatározásához az összes konfigurációs adatot egy relációs adatbá
zisban tárolják. Ezek a konfigurációs adatok elér
hetők és módosíthatók a weben keresztül. Be
gyűjtés után a HTML dokumentumok szövegét alaposan kielemzik, és felkészítik a további feldol
gozásra. A dokumentum lényeges tartalma egy strukturált SOIF formátumba kerül át egy másik szoftver segítségével.
Két szükséglet befolyásolta nagymértékben az automatikus osztályozás megvalósítását: az osz
tályozási jelzetek maximális pontosságának és a
konban használatos osztályozási kategóriáknak.
Ha a két fogalom pontosan megegyezett egymás
sal, akkor a dokumentumhoz osztályozási jelzetek generálódtak, amelyeket a pontosság érdekében súlyoztak.
A 4. ábra alapján megállapítható, hogy a nyelvé
szeti alapú osztályozási rendszer három fő alkotó
elemből áll: az UDCZ osztályozási rendszer kon
verziójából és az UDCZ lexikon létrehozásából; a dokumentum szövegének a konverziójából és an
nak elemzéséből; az UDCZ jelzetek vizsgálatából és a megfelelő jelzetek kiválasztásából. Az ábrán megfigyelhető, hogy a szővegkonverzió és az elemzés bemenetét alkotják az ASCII szöveges dokumentumok, a megfelelő jelzetekkel ellátott dokumentumok pedig végeredményként jelennek meg.
Az osztályozási rendszer konverziójának elsődle
ges célja az, hogy az UDCZ ömlesztett szövegéből kiválogassák azokat a természetes nyelvű kifeje
zéseket, amelyek az osztályozási kategóriákat írják le. Az UDCZ konverziót három lépésben haj
tották végre:
TMT 49. évf. 2002. 5. sz.
U D C Z
U D C Z k o n v e r z i ó é s U D C Z l e x i k o n l é t r e h o z á s a
G E R O ( G E R H A R D O s n a b r ü c k )
J e l z e t e k e l e m z é s e é s k i v á l a s z t á s a
A S C I I s z ö v e g e k
S z ö v e g k o n v e r z i ó
é s e l e m z é s ( J e l z e t e k h a l m a z a ) i O
O s z t á l y o z o t t s z ö v e g e k
4. ábra Nyelvészeti alapú osztályozás a GERHARD-ban 1. Az osztályozási kategóriákban előforduló sza
vakat morfológiai szempontból a szótövükig elemezték, és megállapították, hogy milyen szófajba tartoznak. Erre a célra nyelvészeti szoftvereket használtak.
2. Különböző szabályokat alkalmaztak arra vonat
kozóan, hogy hogyan lehetséges a természetes nyelvű kifejezéseket azonnal felismerni, és ki
válogatni az elemzett szövegekből.
3. Törölték a rövidítéseket, stopszavakat és az annotációkat az osztályozási kategóriák leírá
sából.
Az UDCZ strukturálatlan szövegében minden tétel tartalmaz egy osztályozási jelzetet, és a hozzáren
delt osztályozási kategória természetes nyelvű leírását három nyelven (lásd 1. táblázat}- A 2. fáö- lázat első három sorában az elemzett kifejezések szótövei és szófajai láthatók. Ugyanennek a táblá
zatnak az utolsó három sorában az eredményül kapott természetes nyelvű kifejezések fedezhetők fel.
1. táblázat
Példa az UDCZ-ben található strukturálatlan szöveges adatokra
001Z-03
002DDUEBERSETZUNGEN/TECHNISCHE U.
NATURWISSENSCHAFTLICHE
003DETRANSLATIONS/TECHNICAL AND SCIENTIFIC 004DFTRADUCTION/SCIENTIFIQUE ET TECHNIQUE
2. táblázat
Az UDCZ rendszer konverziójának eredményei transIation-N/technical-Adj and-Conj scientific-Adj uebersetzung~N/technisch~Adj u.-Conj
naturwissenschaftlich-Adj
technical translation; scientific translatíon technisch uebersetzung; naturwissenschaftlich uebersetzung
A 3. táblázatban az osztályozási kategóriák és a hozzájuk rendelt UDCZ osztályozási jelzetek je
lennek meg.
3.táblázat
Az eredményül kapott UDCZ lexikon egyik tétele technical translation:— :-03
gene:xxx s:575.1 13 1
Az osztályozásra szánt dokumentum szövegét az UDCZ lexikon formális elvárásaihoz igazítják (stop
szavak és umlaut törlése a szövegből). A lexikon
ból egy olyan felismerő eszközt hoznak létre, amely képes megfeleltetni az UDCZ lexikonban lé
vő osztályozási kategóriákat a dokumentum szöve
gében előforduló természetes nyelvű kifejezések
nek. Az alkalmazott módszer lényege a következő:
a szoftver a szótövekhez különböző csonkolási variációkat told hozzá, hogy elősegítse a szótő illeszkedését a speciális szóalakokkal, például:
techniscbe uebersetzungen, technischer ueber-
Tóth E.: Az automatikus osztályozással kapcsolatos kísérleti..
setzungsvorschriften. Ezek a csonkolási változatok általában hasznosak, mert a szóalakokat rugal
masan feleltetik meg. Rövid szavak esetében azonban gyakran hamis találatokhoz vezetnek, például: a gene kifejezés illeszkedik a generál és a generic szóalakokkal, ezért a szavak összes lehet
séges morfológiai végződését kilistázzák a meg
különböztetés érdekében. A 3. táblázatban látunk erre egy példát, ahol a - jel jelzi a tetszőleges szó
végződéseket, és az xxx jelöli azt, hogy a szótő megegyezik a szóalakkal.
A két összehasonlítandó kifejezés pontos meg
egyezésénél egy osztályozási jelzetekből álló lista generálódik a dokumentumhoz. A releváns jelzetek kiválasztása két fö lépésben történik:
• Felhasználják a jelzetek által kifejezett informá
ciót, és vizsgálják előfordulási gyakoriságukat. A jelzetek relatív fontosságát abszolút gyakorisá
guk alapján határozzák meg. A jelzet szöveges megfeleltetése alapján keresik meg azt a jelzet- klasztert, amelyhez tartozik.
• A kapott jelzeteket statisztikai módszerekkel sú
lyozzák, és számukat csökkentik. Megfelelő al
goritmus alkalmazásával szűrik ki a releváns osztályozási jelzeteket. A nyelvészeti alapú osz
tályozás minden dokumentumhoz átlagosan 14 jelzetet rendel. Ezt a számot 6-8 jelzetre csök
kentik.
Súlyozásnál figyelembe veszik a jelzetek közötti hierarchikus relációkat, azaz a jobb oldali csonko
lás elvével mindig a fölérendelt osztály jelzetét kapják meg. Az automatikusan generált jelzeteket egy karakterekből álló fastruktúrába rendezik, ahol minden egyes pont a fában implicit információt közöl a jelzet prefixumáról. így érvényesül az az alapelv is, hogy minél hosszabb egy jelzet, annál speciálisabb osztályozási kategóriát jelöl a fa
struktúrán belül.
A rendszerben történő navigációt tulajdonképpen egy irányított gráf segíti elő, amely külön tartal
mazza az osztályozási kategóriákat és a közöttük lévő relációkat. A gráf több ciklusból áll, ahol a csomópontokban (NODES) találhatók az osztályo
zási kategóriák, a gráf szélein (EDGES) pedig az implicit relációk jelennek meg. A gráfban külön csoportokban tárolhatók: az ismétlődő rekordok, kereszthivatkozások a korábbi jelzetekre, a navigá
lással el nem érhető új kategóriák, és a böngészés kezdőoldalai. Ez a tulajdonság rugalmas adatke
zelést biztosít. A statisztikai feldolgozás után a dokumentumok strukturált SOIF formátumai és az osztályozási jelzetek az Oracle relációs adatbázis tábláiban tárolódnak [6]. A rugalmas böngészés lehetőségeit az 5. és a 6 ábra szemlélteti.
' 3 GERHARD • Gerrran Haríest Autoiruled Relrieval and Diredory- Miciosoft IrtemelExpIcrer
G E R H A R D
N U M E R I C A L M A T H E M A T I C S A N D C O M P U T E R A P P L I C A T I O N S IN M ATH F M ATIC S I U M J C I C O M P U T E R S C I E N C E
2 3 9 2 2 3 6 3 2 2 O
O R A C L E :
EDBDDBD
C O M P U T F R APPI IC ATIONS IN / S T A N O A R O S ™ C O M P 1 I T F R APP1 ICATIONS IN / ROROTICS.,,,
C O M P U T F R A P P I ICATIONS I N I Hl IMANmFS A N D S O C I A I S C I F N C F S ™ COMPl I T F R APPI ICATIONS IN 1Ml ISF1 IMS™
4 0 9 •£>
C O M P U T E R A P P L I C A T I O N S I N / S Q C I A L S Q I E N C E & w
C O M P l (TFR APPI ICATIONS IN I F I IRTHFR F D I I C A T I O N AND R F T R A N I N G m
4 0 9 •£>
C O M P t ITFR APPI ICATIONS IN Í F N A N O F A N D R A N K I N í V x i Í O
C O M P l ITFR A P P I ICATIONS IN 11 A W « «
D A T A P R O T F C T I O N - R A F F G l I A R D I N f í O F D A T A ™ , 3Ű1^
C O M P l ITFR APPI ICATIONS IN / CRIMINOI Ó f i V ™ D A T A P R O C F R S I N f i 1 A W ™
C O M P l ÍTFR A P P I ICATIONS IN 1 P l IRI IC A DMIN1STR ATIONna C O M P l ITFR A P P I ICATIONS IN 1INSI JRANOFrm
C O M P l I T F P A P P I ICATIONS IN 1FOIICATION™, C O M P U T F R A P P I ICATIONS I N I T O I IRISMrm C O M P ! ITFR A P P I ICATIONS IN 1 MF.TROI OGYm
INF0RMAT1CS A NO C O M P l ITFR APPI ICATIONS IN F N V I R O N M F N T A I P R O T F C T I O N A N D R F S F A R C H m
C O M P l ITFR APPI ICATIONS I N / M A T H F M A T 1 C A I S T A T I S T I C S r m
STAT1STIOAI S O F T W A R F í i t f j i 2 2 4 0 O
• K K U I . r n i i i N W M i n M - I > m
S1MIII ATION / A P P I ICATION TO C O M P l ITFR S C I F N C F r o i
4 5. ábra Böngészés az UDCZ osztályozási kategóriák között
TMT 49. évf. 2002. 5. sz.
3 GERHARD - Germán Haivest Automated Rebieaal and Diredory- Micmsait Internet Explorer Art.'-:
GERHARD
©
n a v i m l i a m nFle ÍM Ven Favates JpQB HSp
reiiim to navioatiori
C O M P U T E R A P P L I C A T I O N S I N / L A W ( 1 0 0 )
cantniuetosubcrdirigt? :erm:-;
CD
a t t r i b u t e d d o c u m e n t s 1 o n t o 2 5
Q lehrveranstaHunaeri von orot. dr. detterbeck
h t t p : / / w v . u r i i-marburg.de/iur2/oeffr/detterbeckfinfo/letire.html D forsrtiunosstelle fuer rechtsiriformatik
http //twiw.uni -marburg.de/jura/5trafr/meiJrer/rBchtsirformati kfwe Ico me html D f k m e a e r • hyperiuris - 314 rectitsinformatik
http://yiwt-i.fask.uni- mai nz de/us er/km eg er/di sswe b/d i ss- 3 M . iitm I G institut fuer rechtsiriformatik
O R A C L E hnp//vA%w.tt.urii-hannover.de/fűrkaüŰ147.htm 0 forschunossteile fuer rechtsinformatik
hEtp7/www.un i-rnarburg.de/jura/fs/rechtsi n/we le o m e . html Q l e t v a n o e b o t von dr. e d n a r w e i l s r
0 zuffliffe s o m m e r s e m a s t e r 1 9 9 7
0 m i p r b a i t e r v o n n r r i f dr n e o r q i o s qourialakis
• Q prof, dr. ralph backhaus 0 prof, dr steoiian Pucfiholz
• jniergktiver s p a z i s r a a n a durch d a s iuristische s e m i n a r Q prof, dr. w i n f r i s d mummenhoff
Q w w w - s e r v i c e
0 jjiiBstartimn ries pc-saals
EDSBDEO
6. ábra Egy adott osztályozási kategóriába tartozó dokumentumok megtekintése
A S C O R P I O N p r o g r a m
Az OCLC (Online Computer Library Center) 1998- ban indította el a SCORPION kutatási programot, amely az automatikus osztályozás különböző
módszereit vizsgálja. A program összekapcsolja az indexelést a katalogizálással. A GERHARD prog
ramhoz hasonlóan nyelvészeti és statisztikai mód
szereket használ [6]. A SCORPION szoftver a Dewey Tizedes Osztályozás adatállományaiból létrehozott kereshető adatbázisra épül, ahol a Dewey-jelzetekhez a megfelelő osztályozási kate
góriák vannak hozzárendelve [7], Itt tehát a doku
mentum egy olyan keresőkérdésnek tekinthető, amellyel az adatbázisban keresést hajtanak végre, végeredményül pedig a dokumentum Dewey- jelzeteit rangsorolva kapják meg [3], Szövegfeldol
gozásnál a dokumentum szövegéből kiválogatják azokat a kulcsszavas kifejezéseket, amelyeket a jelzetek visszakeresésénél és rangsorolásánál fi
gyelembe vesznek. Jelenleg is keresik azokat a ki
finomult automatikus módszereket, amelyek révén a dokumentum szövegében előforduló kulcsszavas kifejezések azonnal felismerhetők [7]. A jelzetek súlyozásánál vizsgálják a kulcsszavas kifejezések előfordulási gyakoriságát az adatbázisrekordok
ban. Koszinusznormalizáléssal mérik a különbsé
get az adatbázisrekord és az osztályozandó do
kumentum vektoros reprezentációja között [8].
Az OCLC másik kutatási programja a CORC (Cooperative Online Resource Catalog) a web
lapok metaadataihoz biztosít ellenőrzött hozzáfé
rést egy rugalmas navigációs eszköz segítségével.
Ez a szolgáltatás sikeresen integrálja működésé
hez a SCORPION szoftvert Dewey-jelzetek előál
lításánál [7],
K l a s z t e r á l á s i l e h e t ő s é g e k é s a S C O R P I O N p r o g r a m k a p c s o l a t a
A SCORPION program keretében vtzsgálják a klaszterálási módszerek felhasználását az ered
ményül kapott Dewey-jelzetek szűrésében. A SCORPION előre definiált klasztereket hoz létre az adatbázisrekordokból, amelyeket a Dewey-jelzetek finomítására használ. A jelzetekből képezett klasz
tereket súlyozzák, és az alacsony súlyozási érté- küeket törlik a találati halmazból. Az adatbázisre
kordok előzetes klaszterálása olyan mátrix hasz
nálatát igényli, amely tartalmazza a rekordpárok
Tóth E.: Az automatikus osztályozással kapcsolatos kísérleti.
közötti előre megszabott távolságértékeket. Tulaj
donképpen ez a táblázat sorolja be az adatbázis
rekordokat a legközelebbi klaszterekbe. Egy új rekord abba a klaszterbe kerül, amelynek a legkö
zelebbi klaszterhez mért távolsága alacsonyabb a megállapított küszöbértéknél [9].
összehasonlították a hagyományos klaszterálás és a SCORPION klaszterálási teljesítményét egy
mással, ahol a klaszterálást mindkét esetben ugyanazon a dokumentumhalmazon végezték el.
Új, objektív mérőszámokat kellett bevezetniük a hatékony összehasonlítás céljából. Egy adott klaszter hasonlóságának az értékét úgy határozták meg, hogy a benne lévő jelzetpárok közötti átlagos távolságot vették figyelembe. Ezt követően több klaszter hasonlóságának az átlagát vették, és megkapták a klaszterek közötti hasonlóság átlag
értékét. Jó minőségű klaszterek esetében ez az érték magas, mivel a nagyon hasonló jelzetek ke
rülnek egy adott klaszterbe. Két tetszőleges klaszter maximális hasonlóságának az értékét úgy állapították meg, hogy a bennük található, egy
máshoz nagyon közel álló jelzetpárok távolságát vették alapul. Ezután az összes klaszterpár maxi
mális hasonlóságának az átlagát vették, és meg
kapták a klaszterek közötti maximális hasonlóság átlagértékét. Jó minőségű klaszterek esetében ez az érték alacsony, mivel a klaszterek jól elkülönül
nek egymástól.
A SCORPION szoftverrel előállított klaszterekben a dokumentumoknak csak az első jelzetét vették figyelembe, hogy nagyságrendi eltérések ne le
gyenek a vizsgált klaszterek között. A vizsgálat eredményei a következők voltak: a dokumentumok jelzeteit 485 SCORPION klaszterbe és 386 ha
gyományos klaszterbe sorolták be. Hagyományos klaszterálásnál azonos méretű klaszterek jöttek létre. Ezzel szemben a SCORPION program né
hány nagyobb klasztert és sok egy jelzetből álló klasztert állított elő. A klaszterek minőségi vizsgá
latánál kiderült, hogy a SCORPION-nal létrehozott és a hagyományos klaszterek minősége között nincs különbség. A SCORPION klaszterek hason
lóságának átlagértéke magasabb volt, mint a ha
gyományosaké. Maximális hasonlóságuk átlagér
téke pedig alacsonyabb volt, mint a hagyományos klasztereké. A SCORPION szoftver algoritmusa gyorsabban lefutott, és kevésbé volt erőforrás- igényes. Tehát a kísérleti eredmények rámutatnak arra, hogy a SCORPION szoftver hatékony és eredményes klaszterálási eszköznek minősül [9j.
* * *
A jövőben alternatív fejlesztési megoldásokat kell keresni a különböző internetes szolgáltatások számára, azonban eredményeik összehasonlítása nélkülözhetetlen feladat, A hagyományos osztá
lyozási rendszereket át kell alakítani, hogy megfe
lelő böngészőrendszerként funkcionáljanak ezek
nél a szolgáltatásoknál. Testre szabott vizuális és navigációs technikák kifejlesztése egyaránt szük
séges a rugalmas böngészéshez. Ezeknél a fej
lesztéseknél valószínűleg a tartalomelemzésre, a használatra és a hivatkozásra épülő módszerek, valamint a klaszterálási lehetőségek kerülnek majd előtérbe. A neurális hálózati vagy más egyéb mes¬
terségesintelligencia-technikák alkalmazása ígé
retesnek tűnik ezen a téren annak ellenére, hogy korábban más területeken alkalmazták őket [5].
Irodalom
[1] NEWTON, Róbert: Information technology and new directions = Marcella, R.-Maftby, A.: The future of classification. Aldershot Brookfield, Vt., Gower, 2000.
p. 43-57. ISBN 0-566-07992-5
[2] ARDÖ, Anders-FALCOZ, Franck-KOCH, Traugott et a!.: Improving resource discovery and retrieval on the Internet: the Nordic WAISA/Vorld Wide Web Project - Summary Report. = Nordinfo-NYTT, 17. köt. 4. sz.
1994. p.13-28.
13] MACLENNAN, Alan: Classification and the Internet.
= Marcella. R -Maltby, A.: The future of classifica
tion. Aldershot Brookfield, Vt., Gower, 2000. p. 59¬
68. ISBN 0-566-07992-5
[4] DESIRE (Development of a European Service for Information on Research and Education). EU Project, 1999. http://www lub.lu se/desire
[5] ARDÖ. Anders-KOCH, Traugott: Automatic classifi
cation applied to full-text Internet documents in a ro- bot-generated subject index. = Online Information 1999: the proceedings of the 23'° International Online Information Meeting. London, 7-9 December 1999.
p. 239-246. http://www.lub.iu.se/~anders/online99 [6] MŰLLER, Gerhard-CARSTENSEN, Kai-Uwe-
DIEKMANN, Bernd et al.: Automatic classification of the World Wide Web using Universal Decimai Classi
fication. = Online Information 1999: the proceedings of the 23™ International Online Information Meeting.
London, 7-9 December 1999. p. 231-237.
[7] HICKEY, Thomas B.-VI2INE-GOETZ, Diane: The role of classification in CORC. = Online Information 1999: the proceedings of the 23™ International Online Information Meeting. London, 7-9 December 1999.
p. 247-250.
[8] SHAFER, Keith-THOMPSON, Roger: Scorpion:
SMART Weighting Schemes. 1997. http://orc.rsch.
oclc. org:6109/smart_weight.html
[9] SUBRAMANIAN, Shvidhya-SHAFER, Keith: Cluster- ing. 1998. http://orc.rsch.ocic.org:6109/clustenng.html Beérkezett: 2002. III. 12-én.