• Nem Talált Eredményt

Minőségmenedzsment a könyvtárakban megtekintése

N/A
N/A
Protected

Academic year: 2022

Ossza meg "Minőségmenedzsment a könyvtárakban megtekintése"

Copied!
12
0
0

Teljes szövegt

(1)

TMT 49. évf. 2002. 5. sz.

Csubák Antoaneta

BME OM1KK

Minőségmenedzsment a könyvtárakban

A minőség fontosságáról és növekvő gazdasági szerepéről sok tanulmány látott napvilá­

got hazánkban, különösen az elmúlt 10 esztendőben, amióta a piaci versenyképesség nö­

velése szükségessé vált. A minőség-ellenőrzés, minőségbiztosítás és minőségirányítás fogalmak tisztázására, értelmezésére és alkalmazására az iparban széles körű szakiroda­

lom áll rendelkezésre. Más a helyzet a szolgáltatások területén. Ez egy heterogén ágazat, ezért bizonyos szolgáltatásoknál - kereskedelem, bank, informatika stb. - a minőségbizto­

sítás már jól ismert és bevezetett rendszerként működik. Vannak azonban olyan területek - például a könyvtárak - ahol a minőségirányítással való megismerkedés és alkalmazása a gyakorlatban úttörő munkának számít. Skaliczki Judit és Zalainé Kovács Éva „Minőség­

menedzsment a könyvtárban" című, 2001-ben megjelent könyve a könyvtárszakmában a könyvtári minőségirányítás ábécéjeként használható.

Minőségmenedzsment a könyvtárban / Skaliczki Judit, Zalainé Kovács Éva ; az „Esettanulmány"

című (9.) fejezetet Ramháb Mária írta. - Veszprém : Veszprémi Egyetemi K., Budapest : Informatikai és Könyvtári Szövetség, 2001. -193 p.; 24 cm

ISBN 963 9220 70 1

Tart.j. és előszó angol nyelven is. Bibliogr.: 189-193.

A minőségügy tág értelemben a társadalom élet­

minőségének ügye, a társadalom minőségkultúrá­

jának szintje. Szűkebb értelemben a minőségügy a termékek, a szolgáltatások minőségével foglalko­

zik, vagyis a nemzetgazdaság versenyképességét és a nemzeti kultúrát meghatározó stratégiai kér­

dés. A fejlett országokban a minőségügyet már évtizedek óta kulcsfontosságú kérdésnek tartják. A minőség ellenőrzésére, biztosítására és irányításá­

ra különböző modelleket alakítottak ki és alkal­

maznak (pl. Japánban - TQC = Totál Quality Control, az USA-ban - TQM = Totál Quality Management, Európában - a TQM eszközökkel támogatott ISO 9000-es szabványon alapuló mi­

nőségirányítási rendszer).

Az elmúlt években Magyarországon is körvonala­

zódott a minőségügy szabályozási rendszere. Lét­

rejöttek a minőségügy alapvető jogszabályi, intéz­

ményi és ösztönzési feltételei (a szabványosítási és akkreditálási törvény, a vizsgáló és tanúsító intézmények hatósági és szolgáltató tevékenysé­

gének, feladatainak szétválasztása, a Nemzeti Minőségi Díj alapítása, a minőségbiztosítási rend­

szerek széles körű bevezetésének állami támoga­

tása, EU-jogszabályok átvétele stb.). Megfogalma­

zódott a Nemzeti Minőségösztönző Politika és a Nemzeti Minőségfejlesztési Program. Az utóbbiban részt vesz a kormány, a minisztériumok, az oktatá­

si intézmények és a közszféra minden területe.

Összefoglalva, Magyarországon a minőségirányí­

tás kiemelt szerepet kap a közélet minden szekto­

rában, beleértve a könyvtárakat is.

(2)

Csubák A.: Minőségmenedzsment a könyvtárakban A Minőségmenedzsment a könyvtárban című

könyv szerzői merész feladatra vállalkoztak: 190 oldai terjedelemben ismertetni a minőségügy alapfogalmait, valamint a könyvtári minőségirá­

nyítási rendszer lényegét és bevezetésének lépé­

seit, felvázolni a hazai könyvtárügy stratégiai ter­

vének elkészítési módját, bemutatni a TQM mód­

szereket és a minőségügyi dokumentációs rend­

szer felépítését, sőt az EFQM Kiválóság Modell sem maradt ki.

A szerzők arra törekedtek, hogy a „száraz definíci­

ók'' egyszerű példákkal „fűszerezve", a könyvtár nyelvére lefordítva közérthetővé váljanak. A Kato­

na József Könyvtárban megvalósított projektről szóló esettanulmány is hozzájárult ahhoz, hogy a könyv ne csak elméleti ismereteket nyújtson, ha­

nem gyakorlati oldalról is alátámassza a minőség­

irányítás működőképességét a könyvtárakban.

A hallgatók számára ez tipikus tankönyv: tömören, lényegretöröen, felsorolásszerűen és szinte teljes- körüen ismerteti a minőségirányítás fogalmait, módszereit, modelljeit, a hazai és a külföldi trende­

ket (kivéve az ISO 9000-es minőségirányítási rendszert).

A gyakorló könyvtárosok számára újszerű gondol­

kodásmódot és munkamódszert mutat be, amely­

nek elsajátításával és alkalmazásával a nemzetkö­

zi követelményeknek is megfelelő modern könyvtá­

rat lehet kialakítani és működtetni.

Végül, a laikus (nem könyvtáros) számára is hasznos olvasmány, logikus felépítése és az érté­

kes, nagy munka árán összegyűjtött információ­

tartalom miatt.

A mű legnagyobb érdeme - az, hogy olvasmányo­

san, világos gondolatmenettel, jól áttekinthetően, a témába csak most bekapcsolódni szándékozók számára is közérthetően, gyakorlati példákkal gazdagon illusztrálva mutatja be a könyvtári minő­

ségirányítás lényegét - a szerzők (könyvtári és minőségügyi) szakmai felkészültségének, tapasz­

taltságénak, profizmusának köszönhető.

A „Minőségmenedzsment a könyvtárban" c. könyv alapján összeállítást készítettünk a minőségirá­

nyítás célkitűzéseiről, a rendszer felépítésének lépéseiről, a megvalósítás lehetséges módszerei­

ről és az elért eredmények értékelésének metodi­

kájáról.

Milyen a j ó k ö n y v t á r a h a s z n á l ó s z e m é v e l n é z v e ?

Klasszikus értelemben, a 19. századbeli könyvtár­

kép alapján az olvasó a mai napig is elvárja, hogy a könyvtárban

• esztétikus, rendezett, tiszta környezet fogadja;

• a könyvtárosok legyenek udvariasak, készsége­

sek, a keresés legyen eredményes;

• kényelmes helyet kapjon az irodalomkutatáshoz;

• a szakirodalom legfrissebb kiadásai, és széles választéka álljon rendelkezésére.

Az évtizedek során ezek az igények tovább bő­

vültek. A könyvtáros - aki a minőségirányítás kö­

zéppontjában áll - feladata az ügyfelek, használók folyamatosan növekedő, változó igényeit figyelni, és ennek megfelelően intézkedni. Ide kapcsolódik a szerzők által is ismertetett minőség kérdése, miszerint a minőség piackutatással, felmérésekkel kezdődik. Nemcsak a meghatározott igényeket (pl.

helyben használat, kölcsönzés, tájékoztatás) szük­

séges megismerni, hanem célszerű a látens igé­

nyek (amelyeknek az ügyfél nincs tudatában) fel­

méréséhez meghatározott kutatásokat a fejlesztés, tervezés fázisában is végezni. A használók igé­

nyeinek felméréséhez jól bevált módszer a meg­

felelően összeállított kérdőíven történő kérdezés, és ami még lényegesebb - a kapott válaszok elemzése, értékelése és közzététele. Nem marad­

hatnak el a javító intézkedések, sőt a jól megterve­

zett megelőző intézkedésekkel megakadályozható, hogy ugyanaz a probléma újra előfordulhasson. Jó megoldás a szerzők által javasolt „minden egyes szolgáltatási pontnál elhelyezni az olvasói javas­

latok könyvét, és minden névvel és címmel ellátott javaslatra, válaszolni". Más szóval, törődni kell az olvasóval.

Az utóbbi években jelentősen megváltoztak az olvasói szokások: a könyvtárhasználók létszáma megnövekedett, ugyanakkor más jellegű könyvtári szolgáltatásokra (elektronikus) is igény van. Ennek megvalósítására pedig a kommunikációs és infor­

mációs technológiákkal a technika fejlődése tág teret nyitott arra, hogy „az éppen adott könyvtár szolgáltatásain kívül a használók egy virtuális könyvtárban barangolhassanak a világ legjelentő­

sebb könyvtári állományai és információi között".

A küisö körülmények (globaíizáció, információs társadalom kialakulása, jogi szabályozások, szab­

ványok, irányelvek egységesedése stb.) változása, a technika fejlődése adta lehetőségek (virtuális könyvtár) és a használók megváltozott igényei a

(3)

TMT 49. évf. 2002. 5. sz.

könyvtárakat új szerepkörhöz juttatták, a könyvtár stratégiai intézménnyé változott, amely a kor­

mányprogramokban is helyet kapott.

Visszatérve a kiinduló kérdéshez - Milyen a jó könyvtár7 - , a válasz: a mai könyvtárhasználó a korszerű virtuális könyvtárat tartja megfelelőnek, ahol egy helyen gyorsan és pontosan hozzájuthat a keresett információhoz, és mindez kellemes kör­

nyezetben és udvarias könyvtárosi segítséggel történik.

Ennek az alapgondolatnak kell alávetni az egész könyvtári tevékenységet, a jövőkép kialakítását, a küldetésnyilatkozat megfogalmazását, a stratégiai terv készítését, a minőségirányítási rendszer be­

vezetését.

A k ö n y v t á r i m i n ő s é g i r á n y í t á s i r e n d s z e r f e l é p í t é s é n e k l é p é s e i

1. A könyvtár minden dolgozója (a vezetőséggel az élen) ismerkedjen meg a minőségirányítás alapfogalmaival, és azonosuljon a minőség­

szemlélettel. (A könyvtáros higgyen benne, hogy a minőségirányítási rendszerben való működés a könyvtár színvonalát emeli.) Ezt megfelelő oktatással lehet elérni.

2. Minőségirányítási munkacsoport létrehozása.

Ajánlott létszám: 5-10 fő.

3. Meg kell fogalmazni és közzé kell tenni a könyvtár jövőképét, küldetésnyilatkozatát és minőségpolitikáját. Ezek tartalmára vonatko­

zóan segítséget ad a „Minőségmenedzsment a könyvtárban" c. könyv.

4. Kiinduló helyzetfelmérést kell végezni, amely kiterjed a minőségirányítási rendszer minden elemére: vezetés (szemléleti kérdés), minő­

ségügyi stratégiai terv, humán és tárgyi erőfor­

rások biztosítása, a szolgáltatási folyamatok áttekintése - ellenőrzési metodikák, teljesít­

ménymérés és -értékelés, teljesítménymutatók alkalmazása, használói elégedettség felméré­

se, értékelése, javitó intézkedések, a dolgozók elégedettségének mérése, statisztikák készí­

tése, értékelése, szervezeti kultúra, a könyvtár társadalmi hatásának vizsgálata.

5. A feltárt „gyenge pontok" elemzése. Intézke­

dési terv készítése az ún. SWOT-analízis al­

kalmazásával.

6. Minőségügyi stratégiai terv összeállítása.

7. A szolgáltatások fejlesztésével kapcsolatos feladatok megfogalmazása a „PDCA ciklus- modell" alapján. Célszerű minden egyes szol­

gáltatást külön elemezni: milyen munkafázi­

sokból áll, hogyan kapcsolódnak egymáshoz a különböző munkafázisok, hol vannak az ellen­

őrzési pontok, hogyan regisztráljuk a nem- megfelelöségeket (hibákat), milyen módon történik a hibák kiküszöbölése. Megvizsgálni, mi okozta a hibát. A hibaokok feltárására, ki­

küszöbölésére és megelőzésére alkalmaz­

hatjuk a TQM módszerek közül bármelyiket, pl. a Pareto-elemzést, a halszálkadiagramot vagy a hisztogramot.

8. A minőségfejlesztési feladatok végrehajtása.

9. Teljesítménymérés és értékelés:

• statisztikák készítése - mennyiségi megkö­

zelítés (pl. kötetek száma, beiratkozott olva­

sók száma);

• értékelés a különböző teljesítménymutatók alkalmazásával - minőségi megközelítés az MSZ ISO 11 620:1998 sz. szabvány alapján.

10. A dolgozók elégedettségének mérésére meg­

felelő kérdőívek összeállítása, kitöltetése, ja­

vaslatok elemzése, intézkedések,

11. A használók elégedettségének mérésére al­

kalmas módszerek kiválasztása és alkalmazá­

sa (kérdőív, interjú, panaszláda stb.).

12. A minőségügyi rendszer dokumentációjának aktualizálása (pl. Olvasói tájékoztató, űrlapok, Ügyrend, Belső szabályzatok).

13. A minöségírányitásí rendszer hatékonyságá­

nak értékelésére szolgáló ún. „Vezetőségi fe­

lülvizsgálat", évente legalább egyszer.

A fenti 13 lépésből álló folyamat nem egy köbe vésett eljárás, csak egy lehetőség. Szabad a fela­

datok sorrendjét felcserélni, az egyes lépéseket leegyszerűsíteni vagy kibővíteni, ez mindig a konk­

rét környezettől függ.

A Katona József Könyvtár minőségbiztosítási pro­

jektet bemutató Esettanulmányából például látha­

tó, hogy a megvalósítást külső angol és magyar szakemberek által tartott tréningekhez kötötték, ami azzal magyarázható, hogy az egész munka egy pályázat keretén belül zajlott. Ez a megvaló­

sítási forma mintaszerűnek bizonyult, és módszere modellként szolgálhat más könyvtáraknak.

A TQM szemlélet megvalósítására szolgáló mo­

dellt rugalmasan lehet építeni. Többféle út vezet az új könyvtárkép kialakításához. A „Minőségme­

nedzsment a könyvtárban" c. könyvben például kevés szó esett az ISO 9000-es szabvány szerint felépített minőségirányítási rendszerekről, amelyek szintén a minőségbiztosítás, minőségfejlesztés témakörébe tartoznak.

(4)

Csubák A.; Minőségmenedzsment a könyvtárakban A z I S O 9 0 0 0 - e s s z a b v á n y k ö v e t e l m é n y e i

s z e r i n t f e l á l l í t o t t r e n d s z e r j e l l e m z ő i

2000 decemberében megjelent az ISO 9000-es szabványsorozat új verziója az alábbiak szerint:

A szabvány száma A szabvány megnevezése ISO 9000: 2000 Minőségirányítási rendszerek

Alapok és szakszótár ISO 9001:2000 Minőségirányitási rendszerek

Követelmények

ISO 9004: 2000 Minőségirányítási rendszerek Irányelvek a teljesítőképesség továbbfejlesztéséhez

A nyolc alapelv

1. Foiyamatszemiéietű megközelítés: a kívánt eredményt hatékonyabban lehet elérni, ha a te­

vékenységeket és a velük kapcsolatos erőfor­

rásokat folyamatként kezelik.

2. Rendszerszemlélet az irányításban: az egy­

mással összefüggő folyamatok rendszerként való azonosítása, megértése és irányítása hoz­

zájárul ahhoz, hogy a szervezet eredményesen és hatékonyan valósítsa meg céljait.

3. Tényeken alapuló döntéshozatal: az eredmé­

nyes döntések az adatok és egyéb információ elemzésén alapulnak.

4. Vezetés: a vezetők megteremtik a céloknak és a szervezet vezetésének egységét A vezetők felelőssége létrehozni és fenntartani olyan bel­

ső környezetet, amelyben a munkatársak teljes mértékig részt vehetnek a szervezet céljainak elérésében.

5. Vevő(használó)-kűzpontúság: a szervezetek vevőiktől függenek, ezért fontos, hogy megért­

sék a jelenlegi és a jövőbeli vevői szükséglete­

ket, teljesítsék a vevők követelményeit, söt igyekezzenek felülmúlni a vevők elvárásait.

6. Folyamatos fejlesztés: a szervezet teljes műkö­

désének folyamatos fejlesztése legyen a szer­

vezet állandó célja.

7. A munkatársak bevonása: a szervezet lényegét minden szinten a munkatársak jelentik, és teljes bevonásuk teszi lehetővé képességeik kihasz­

nálását a szervezet javára.

8. Kölcsönösen előnyös kapcsolatok a beszállí­

tókkal: a szervezet és beszállítói kölcsönösen függnek egymástól, és kölcsönösen előnyös kapcsolatuk fokozza mindkettőjük értékteremtő képességét.

Az új szabvány a vevői igényeket helyezi a közép­

pontba, és a szervezet felső vezetésének feladat­

körébe sorolja a gondoskodást arról, hogy a vevői igényeket követelményekké alakítsa át, és teljesít­

se ezeket a követelményeket a vevő elégedett­

ségnek elérése érdekében. Ezáltal a szabvány az eddigi minőségbiztosítási rendszer helyett a minő­

ségirányítási rendszer követelményeit, a korszerű minőségügyi filozófiát (TQM) foglalja magában.

Nincs merev határ a TQM és az új verziójú ISO minőségirányítási rendszermodellek között. Az alapelvek lényegében azonosak, a minőségfej­

lesztési eszközök, módszerek is azonosak. A kü­

lönbség csak a rendszer szerkezetében és a do­

kumentálási formákban van.

Bármelyik rendszert vezetik be egy könyvtárban, azonos a cél - minden intézkedés a könyvtárhasz­

náló elégedettségének növelése érdekében törté­

nik.

K i h í v á s a k ö n y v t á r a k s z á m á r a

A könyvtári menedzsment területén is az európai normákhoz kell igazodni. Az új minöségszemléletü kultúrát be kell vezetni a könyvtárakban is, ez a jövő útja. A felzárkózás elkerülhetetlen, minden könyvtár érdeke időben hozzáfogni a munkához, gondoljunk a Katona József Könyvtárra, ahol a felkészülési folyamat három évet vett igénybe. De megérte! Csak a kezdet nehéz: meghozni a dön­

tést a minőségirányítási rendszer építésére. A folytatáshoz szemléletváltozásra, új gondolkodás­

módra és a minőségügy iránti elkötelezettségre van szükség.

Beérkezett: 2002. II. 21-én.

(5)

TMT49. évf. 2002. 5. sz.

Tóth Erzsébet

Nyíregyházi Főiskola Matematika és Informatika Intézet

Az automatikus osztályozással k a p c s o l a t o s kísérleti kutatások eredményei

A digitális dokumentumok rugalmas és rendszerezett formában történő elérése a világhá­

lón alapvető elvárás a felhasználók részéről. A kérdés megoldásában nagy feladat hárul a könyvtárosokra is, mert ott van lehetőség a korábbi felhalmozott tudásanyag megosztásá­

ra, és szorosabb együttműködés kialakítására a fejlesztőkkel. Ez az írás áttekinti azokat a nemzetközi kutatási programokat, amelyek a HTML dokumentumok automatikus indexelé­

sét és osztályozását oldják meg.

A k í s é r l e t i k u t a t á s o k j e l e n l e g i h e l y z e t e Az automatikus osztályozás lehetőségeit vizsgáló kísérleti kezdeményezések kiemelt kutatási tevé­

kenységnek tekinthetők a könyvtári osztályozás területén. Korábban az automatikus osztályozás klaszterálási és statisztikai módszerekre épült, azonban ezeknek a módszereknek a konkrét meg­

valósításait akadályozta a számítógépesítés hiá­

nya és a korlátozott tárkapacitás. Napjainkban viszont egyre több olyan kutatási programot indíta­

nak, ahol a korábbi indexelési technikákat alkal­

mazzák, és a különböző klaszterálási módszerek hatékonyságát vizsgálják.

Jelenleg nincs tudomásunk olyan gyakorlati meg­

valósításról, ahol a hagyományos osztályozási rendszerek szerepét teljes mértékben átvennék az automatikus módszerek, habár fokozott érdeklődés mutatkozik ilyen jellegű rendszerek fejlesztése iránt. A kísérleti kutatásokat többnyire multinacio­

nális cégek támogatják. Ez egyrészt azzal az igénnyel magyarázható, hogy szükség van olyan gyakorlati megoldásra, amely biztosítja a digitális dokumentumok rugalmas elérhetőségét rendsze­

rezett formában a hálózaton. Másrészt ez a törek­

vés annak is tulajdonítható, hogy az internetes keresők egyszerű indexelési technikái nem nyújta­

nak kielégítő találatokat a felhasználóknak.

A tematikus weboldalakra alkalmazott osztályozási rendszerek egy általános böngésző struktúrát nyújtanak a HTML dokumentumok számára [1J. Az önállóan kialakított osztályozási rendszerek legna­

gyobb hátránya az, hogy nem zárják ki a követke­

zetlenségeket struktúrájukból, és ezáltal könnyen ellentmondásokhoz vezethetnek. A kísérleti kuta­

tásokban ezért a hagyományos könyvtári osztályo­

zási rendszereket próbálták ki különböző módsze­

rekkel.

Az ETO-t általában hasznos rendszerező eszköz­

nek tekintik a weblapoknál, hiszen géppel értel­

mezhető formátuma nagymértékben elterjedt a fejlesztők körében. Az ETO-t használó internetes szolgáltatásoknál megfigyelhető a dokumentum témájának kötöttebb meghatározása, ami ellenté­

tes a Dewey Tizedes Osztályozást és a Kongresz- szusi Könyvtár osztályozását alkalmazó rendsze­

rek gyakorlatával. Az utóbbi két osztályozásnál sokkal egyszerűbb jelölési rendszert alkalmaznak, és a tartalmi részletezés is hiányzik (ÍJ.

A s k a n d i n á v W A I S World W i d e W e b p r o g r a m

1993 nyarán kezdődött el a lundi egyetemi könyv­

tár és a dán műszaki könyvtár együttműködésével, amely egy évig tartott. 660 WAIS adatbázis auto­

matikus osztályozását valósította meg, kizárólag az ETO 51-es osztályára épült. Az ETO géppel olvasható formátumát teljes mértékben kiaknázta, ahol az osztályozási kategóriák és a jelzetek között automatikus megfeleltetés van [ 1 , 2]. Technikájára jellemző, hogy minden egyes WAIS adatbázis

számára kulcsszavas listákat állítottak elő, ahol a kifejezéseket az adatbázis-leírások kulcsszavas, tárgyszavas és szabadszöveges mezőjéből vették.

Ezután az adatbázis-leírásokból nyert kulcsszavas kifejezéseket megfeleltették az ETO osztályozási kategóriáinak. A két kifejezés pontos megegyezé­

sénél különböző osztályozási jelzeteket kaptak eredményül. A jelzeteket egy algoritmus segítsé-

(6)

Tóth E.: Az automatikus osztályozással kapcsolatos kísérleti.

gével súlyozták a hozzájuk rendelt kulcsszavas kifejezések származási helye szerint. Az osztályo­

zási jelzetek súlyozása révén nyert eredményeket végül összehasonlították, és a legmegfelelőbb jelzeteket kiválasztották [3, 2],

A D E S I R E p r o g r a m m á s o d i k r é s z e

Az Európai Unió DESIRE (Development of a European Service for Information on Research and Education) nevü programjának általános célkitűzé­

se az európai kutatást támogató információs szol­

gáltatások fejlesztése volt. A program második része 1998 júliusában kezdődött el tiz partnerin­

tézmény közreműködésével, amely két évig tartott [4J. Vizsgálták annak lehetőségét, hogy hogyan lehet összekapcsolni egy szakértők által kiváloga­

tott szakterületi hivatkozásgyüjteményt egy robot­

program által generált tárgyi indexszel. A vizsgá­

latokat a lundi egyetem EELS (Engineehng Electronic Library System) nevü szakterületi

„gateway" szolgáltatására és az „AH Engineering"

nevü tárgyi indexre alapozták. A tárgyi index bön- gészöfelületét egy korábban használatos, szakte­

rületre szabott Ei (Engineering Information Inc.) osztályozási rendszer segítségével alakították ki.

ségével valósítottak meg. Gyűjtési stratégiájukban kétféle módszert alkalmaztak és teszteltek. Az első módszernéí néhány manuálisan szerkesztett szakterületi hivatkozási gyűjteményből indultak ki, és azoknak a további hivatkozásait a főoldaltól számított harmadik szintig, míg a második mód­

szernél a második szintig követték, ily módon pár­

huzamosan az összes idézett weboldalt begyűj­

tötték az indexadatbázisba. Minimális átfedést találtak az idézett források között, hiszen többsé­

gük csak egy szolgáltatásban fordult elö. Egy fej­

lettebb megoldásnál már tezauruszt használtak a számításba vehető weblapok tartalmi szűrésére, ahol a weboldalak szövegét összehasonlították a tezauruszban használatos fogalmakkal. A kapott eredményeket súlyozták, ami alapján eldőlt, hogy egy weblap bekerült-e az indexadatbázisba avagy sem.

A weblapok automatikus osztályozását az El teza­

urusz segítségévei végezték el, aminek nyomtatott változata tartalmazza a benne használatos fogal­

mak és az El osztályozási jelzetek közötti össze­

függéseket. Ennek a két információnak az össze­

kapcsolása rendkívül fontos az automatikus osz­

tályozás szempontjából. Az El tezaurusz 17 458 fogalmat tartalmaz, ezek közül 8273 fogalom pre-

; A k e r e s ő s z o l g á l t a t á s o k i l e k é r d e z é s e i

/ H T T P

T e z a u r u s z

S t o p l i s t a

H T T P U R L - e k

K é z i a d a t b e v i t e l C o m b i n e t o b o t p r o g r a m

W e b o l d a l a k

T e z a u r u s z - k i f e j e z é s e k n e k

t ö r t é n ő m e g f e l e l t e t é s

B e v i t e l R o b o t p r o g r a m á l t a l g e n e r á l t

t á r g y i i n d e x

H i v a t k o z á s o k

U R L - e k

C o m b i n e t o b o t p r o g r a m

T e z a u r u s z - k i f e j e z é s e k n e k

t ö r t é n ő m e g f e l e l t e t é s

R o b o t p r o g r a m á l t a l g e n e r á l t

t á r g y i i n d e x

H T T P

KIzí írás

R o b o t p r o g r a m á l t a l g e n e r á l t

t á r g y i i n d e x

1. ábra A robotprogrammal működő tárgyi Index begyűjtési stratégiája Az 1. ábrán a Combine nevü robotprogram be­

gyűjtési módszere látható, amely egy tezauruszt integrál működésébe a weblapok tartalmi szűrésé­

re. Először is meg kellett oldaniuk azt a problémát, hogy minél relevánsabb dokumentumok kerüljenek be az indexadatbázisba, amelyet a Combine segít-

ferált kifejezésként jelenik meg. A belső tezaurusz formátumba való betöltés után az El tezaurusz 3000 egyszavas fogalmat és körülbelül 18 000 összetett fogalmat tartalmazott. Az utóbbi kategó­

riába tartoznak a Boole logikai operátorokat tartal­

mazó kifejezések és a többszavas kifejezések.

(7)

TMT 49. évf. 2002. 5. sz.

U R L

H T T P

W e b o l d a l a k l e t ö l t é s e

H T M L

C o m b i n e r e k o r d - f o r m á t u m

S z ö v e g e s a d a t o k k i v o n á s a

T e l j e s s z ö v e g

M e t a a d a t o k

C í m , f e j l é c El t e z a u r u s z

R o b o t p r o g r a m á l t a l g e n e r á l t t á r g y i i n d e x o s z t á l y o z á s i j e l z e t e k k e l

í ' E g y s z a v a s k i f e j e z é s e k

• T ö b b s z a v a s k i f e j e z é s e k ' B o o l e l o g i k a i o p e r á t o r o k a t

t a r t a l m a z ó k i f e j e z é s e k

A s ú l y o z o t t o s z t á l y o z á s i j e l z e t e k l i s t á j a

M e g f e l e l t e t ő a l g o r i t m u s

Az osztályozási rendszer sajátosságai

H e u r i s z t i k á k é s f a m ú v e l e t e k

S t o p l i s t a

A j a v a s o l t é s s ú l y o z o t t o s z t á l y o z á s i

j e l z e t e k l i s t á j a

V é g ­ e r e d m é n y e k

e l ő á l l í t á s a

R D F

H T M L

C o m b i n e a d a t b á z i s ­ r e k o r d

2. ábra Az automatikus osztályozás folyamata A 2. ábra részletezi a DESIRE programban alkal­

mazott automatikus osztályozás kúlönböző lépé­

seit. Az első lépésben metaadatok kerülnek az indexadatbázisba, amelyeket a HTML dokumen­

tum metaadatokat tartalmazó TAG-jébol, fejlécéből és törzséből vesznek. Ezután a létrehozott index­

kifejezéseket megfeleltetik az El tezaurusz fogal­

mainak, ahol a stopszavakat is figyelembe veszik.

Ha a két kifejezés pontosan megegyezik egymás­

sal, akkor egy osztályozási jelzetekből álló lista generálódik a dokumentumhoz. Az eredményül kapott indexkifejezés és osztályozási jelzet hozzá­

rendeléseit súlyozzák egy algoritmus segítségével.

Erre a súlyozásra azért van szükség, hogy meg­

különböztessék az indexkifejezések relevanciáját egymástól, hiszen egy Boole logikai operátorokat tartalmazó kifejezés és egy többszavas kifejezés pontosabban behatárolja a dokumentum témáját, mint az egyszavas kifejezés. Sokszor az egysza­

vas kifejezések hamis találatokat eredményeznek a téma meghatározásánál, ilyenek például a ho­

monimák. Az indexkifejezések súlyozásánál több­

féle szempontot vesznek figyelembe a végső sú­

lyozási érték meghatározásához:

• az indexkifejezés típusát (egyszavas, többsza­

vas vagy Boole logikai operátorokat tartalmazó kifejezésről van-e szó),

• a metaadatok származási helyét rangsorolják,

• az indexkifejezés előfordulási gyakoriságát is megvizsgálják az eredeti dokumentum szövegé­

ben.

Minden dokumentumhoz egy osztályozási jelze­

tekből álló listát rendelnek, ahol a jelzetek súlyozá­

si értékek szerint csökkenő sorrendben jelennek meg. Általános osztályozási gyakorlatnak tekint­

hető, hogy a dokumentumhoz mindig a legspecifi­

kusabb osztályozási jelzetet kapcsolják. A javasolt jelzetek számát csonkolással csökkentik, azaz minden jelzet végleges súlyozási értékét egy kü­

szöbértékhez hasonlítják. Tehát a küszöbérték alatti súlyozási értékeket figyelmen kívül hagyják.

A küszöbértéket egy heurisztika segítségével álla­

pítják meg. Az eredményül kapott jelzetek kétféle­

képpen jelennek meg a böngésző szolgáltatásban HTML vagy RDF formátumban.

A kísérlet eredményei a következők voltak: 86 468 dokumentumot osztályoztak automatikusan, egy weblaphoz átlagosan 6 osztályozási jelzetet ren­

deltek. 923 weboldalt mintaként megvizsgáltak, és megállapították, hogy az automatikusan generált osztályozási jelzetek 57 és 66% között feleltek meg az intellektuális osztályozással nyert jelzetek­

nek (5J.

A G E R H A R D p r o g r a m

Német nyelvű weboldalak automatikus indexelését és osztályozását oldja meg. Kifejlesztett szolgál­

tatása együttesen kínálja fel a keresés és a bön­

gészés lehetőségét a felhasználók számára. Az ETO-nak egy háromnyelvű kiadását - az ETH-

(8)

Tóth E.: Az automatikus osztályozással kapcsolatos kísérleti.

Zürich szerinti változatát - használják, amit UDCZ- nek neveznek. Ez a rendszer 60 000 osztályozási kategóriából áll, amelyek között 15 különböző relá­

ció lehetséges. Minden egyes osztályozási kategó­

riája tartalmaz egy UDCZ jelzetet, egy szöveges leírást és a lehetséges szinonimákat németül, an­

golul és franciául. Ha szükséges, az osztályozási kategóriánál egyértelműen hivatkoznak a korábban használt és a kapcsolódó jelzetekre.

szövegfeldolgozásra fordított minimális időnek a biztosítása. E célok elérése érdekében különböző nyelvészeti és statisztikai módszereket alkalmaz­

tak. Alapvető elképzelésük az volt, hogy az UDCZ osztályozási rendszert konvertálják egy olyan lexi­

kon formátumba, amely tartalmazza az osztályo­

zási kategóriák és az UDCZ jelzetek közötti meg­

feleltetéseket. Ezután a dokumentum szabadszö- vegéböl vett kifejezéseket megfeleltették a lexi-

B e g y ű j t é s

JIVDtsmrr^JJOS^BRTXK O s z t á l y o z á s

OFF I S

A d a t b á z i s é s g r a f i k u s f e l ü l e t

E l e m z é s

B e g y ű j t é s

U D C Z l e x i k o n

I

N y e l v é s z e t i é s s t a t i s z t i k a i f e l d o l g o z á s

U D C Z j e l z e t e k / S O I F f o r m á t u m o k

A d a t b á z i s f r i s s í t é s

S O I F f o r m á t u m o k e l ő á l l í t á s a

W e b s z e r v e r ( n y i l v á n o s )

W e b s z e r v e r ( a d m i n i s z t r a t í v )

3

K o n f i g u r á c i ó

3. á b r a Rendszerarchitektúra A 3. ábrán egy összetett rendszerarchitektúra lát­

ható, amely a következő elemeket tartalmazza: a weboldalak begyűjtését és szöveges elemzését, a SOIF (Summary Object Interchange Formát) for­

mátumok előállítását, a nyelvészeti és a statisztikai feldolgozást, amely az UDCZ lexikon segítségével történik. Ennek a folyamatnak a végén az UDCZ jelzetek és a SOIF formátumok egy Oracle relációs adatbázisba kerülnek. A GERHARD robotprog­

ramja a tudományos szintű és releváns dokumen­

tumokat keresi és gyűjti az indexadatbázisba kü­

lönböző szűrési szabályok segítségével. A rele­

váns weboldalak helyének a meghatározásához az összes konfigurációs adatot egy relációs adatbá­

zisban tárolják. Ezek a konfigurációs adatok elér­

hetők és módosíthatók a weben keresztül. Be­

gyűjtés után a HTML dokumentumok szövegét alaposan kielemzik, és felkészítik a további feldol­

gozásra. A dokumentum lényeges tartalma egy strukturált SOIF formátumba kerül át egy másik szoftver segítségével.

Két szükséglet befolyásolta nagymértékben az automatikus osztályozás megvalósítását: az osz­

tályozási jelzetek maximális pontosságának és a

konban használatos osztályozási kategóriáknak.

Ha a két fogalom pontosan megegyezett egymás­

sal, akkor a dokumentumhoz osztályozási jelzetek generálódtak, amelyeket a pontosság érdekében súlyoztak.

A 4. ábra alapján megállapítható, hogy a nyelvé­

szeti alapú osztályozási rendszer három fő alkotó­

elemből áll: az UDCZ osztályozási rendszer kon­

verziójából és az UDCZ lexikon létrehozásából; a dokumentum szövegének a konverziójából és an­

nak elemzéséből; az UDCZ jelzetek vizsgálatából és a megfelelő jelzetek kiválasztásából. Az ábrán megfigyelhető, hogy a szővegkonverzió és az elemzés bemenetét alkotják az ASCII szöveges dokumentumok, a megfelelő jelzetekkel ellátott dokumentumok pedig végeredményként jelennek meg.

Az osztályozási rendszer konverziójának elsődle­

ges célja az, hogy az UDCZ ömlesztett szövegéből kiválogassák azokat a természetes nyelvű kifeje­

zéseket, amelyek az osztályozási kategóriákat írják le. Az UDCZ konverziót három lépésben haj­

tották végre:

(9)

TMT 49. évf. 2002. 5. sz.

U D C Z

U D C Z k o n v e r z i ó é s U D C Z l e x i k o n l é t r e h o z á s a

G E R O ( G E R H A R D O s n a b r ü c k )

J e l z e t e k e l e m z é s e é s k i v á l a s z t á s a

A S C I I s z ö v e g e k

S z ö v e g k o n v e r z i ó

é s e l e m z é s ( J e l z e t e k h a l m a z a ) i O

O s z t á l y o z o t t s z ö v e g e k

4. ábra Nyelvészeti alapú osztályozás a GERHARD-ban 1. Az osztályozási kategóriákban előforduló sza­

vakat morfológiai szempontból a szótövükig elemezték, és megállapították, hogy milyen szófajba tartoznak. Erre a célra nyelvészeti szoftvereket használtak.

2. Különböző szabályokat alkalmaztak arra vonat­

kozóan, hogy hogyan lehetséges a természetes nyelvű kifejezéseket azonnal felismerni, és ki­

válogatni az elemzett szövegekből.

3. Törölték a rövidítéseket, stopszavakat és az annotációkat az osztályozási kategóriák leírá­

sából.

Az UDCZ strukturálatlan szövegében minden tétel tartalmaz egy osztályozási jelzetet, és a hozzáren­

delt osztályozási kategória természetes nyelvű leírását három nyelven (lásd 1. táblázat}- A 2. fáö- lázat első három sorában az elemzett kifejezések szótövei és szófajai láthatók. Ugyanennek a táblá­

zatnak az utolsó három sorában az eredményül kapott természetes nyelvű kifejezések fedezhetők fel.

1. táblázat

Példa az UDCZ-ben található strukturálatlan szöveges adatokra

001Z-03

002DDUEBERSETZUNGEN/TECHNISCHE U.

NATURWISSENSCHAFTLICHE

003DETRANSLATIONS/TECHNICAL AND SCIENTIFIC 004DFTRADUCTION/SCIENTIFIQUE ET TECHNIQUE

2. táblázat

Az UDCZ rendszer konverziójának eredményei transIation-N/technical-Adj and-Conj scientific-Adj uebersetzung~N/technisch~Adj u.-Conj

naturwissenschaftlich-Adj

technical translation; scientific translatíon technisch uebersetzung; naturwissenschaftlich uebersetzung

A 3. táblázatban az osztályozási kategóriák és a hozzájuk rendelt UDCZ osztályozási jelzetek je­

lennek meg.

3.táblázat

Az eredményül kapott UDCZ lexikon egyik tétele technical translation:— :-03

gene:xxx s:575.1 13 1

Az osztályozásra szánt dokumentum szövegét az UDCZ lexikon formális elvárásaihoz igazítják (stop­

szavak és umlaut törlése a szövegből). A lexikon­

ból egy olyan felismerő eszközt hoznak létre, amely képes megfeleltetni az UDCZ lexikonban lé­

vő osztályozási kategóriákat a dokumentum szöve­

gében előforduló természetes nyelvű kifejezések­

nek. Az alkalmazott módszer lényege a következő:

a szoftver a szótövekhez különböző csonkolási variációkat told hozzá, hogy elősegítse a szótő illeszkedését a speciális szóalakokkal, például:

techniscbe uebersetzungen, technischer ueber-

(10)

Tóth E.: Az automatikus osztályozással kapcsolatos kísérleti..

setzungsvorschriften. Ezek a csonkolási változatok általában hasznosak, mert a szóalakokat rugal­

masan feleltetik meg. Rövid szavak esetében azonban gyakran hamis találatokhoz vezetnek, például: a gene kifejezés illeszkedik a generál és a generic szóalakokkal, ezért a szavak összes lehet­

séges morfológiai végződését kilistázzák a meg­

különböztetés érdekében. A 3. táblázatban látunk erre egy példát, ahol a - jel jelzi a tetszőleges szó­

végződéseket, és az xxx jelöli azt, hogy a szótő megegyezik a szóalakkal.

A két összehasonlítandó kifejezés pontos meg­

egyezésénél egy osztályozási jelzetekből álló lista generálódik a dokumentumhoz. A releváns jelzetek kiválasztása két fö lépésben történik:

• Felhasználják a jelzetek által kifejezett informá­

ciót, és vizsgálják előfordulási gyakoriságukat. A jelzetek relatív fontosságát abszolút gyakorisá­

guk alapján határozzák meg. A jelzet szöveges megfeleltetése alapján keresik meg azt a jelzet- klasztert, amelyhez tartozik.

• A kapott jelzeteket statisztikai módszerekkel sú­

lyozzák, és számukat csökkentik. Megfelelő al­

goritmus alkalmazásával szűrik ki a releváns osztályozási jelzeteket. A nyelvészeti alapú osz­

tályozás minden dokumentumhoz átlagosan 14 jelzetet rendel. Ezt a számot 6-8 jelzetre csök­

kentik.

Súlyozásnál figyelembe veszik a jelzetek közötti hierarchikus relációkat, azaz a jobb oldali csonko­

lás elvével mindig a fölérendelt osztály jelzetét kapják meg. Az automatikusan generált jelzeteket egy karakterekből álló fastruktúrába rendezik, ahol minden egyes pont a fában implicit információt közöl a jelzet prefixumáról. így érvényesül az az alapelv is, hogy minél hosszabb egy jelzet, annál speciálisabb osztályozási kategóriát jelöl a fa­

struktúrán belül.

A rendszerben történő navigációt tulajdonképpen egy irányított gráf segíti elő, amely külön tartal­

mazza az osztályozási kategóriákat és a közöttük lévő relációkat. A gráf több ciklusból áll, ahol a csomópontokban (NODES) találhatók az osztályo­

zási kategóriák, a gráf szélein (EDGES) pedig az implicit relációk jelennek meg. A gráfban külön csoportokban tárolhatók: az ismétlődő rekordok, kereszthivatkozások a korábbi jelzetekre, a navigá­

lással el nem érhető új kategóriák, és a böngészés kezdőoldalai. Ez a tulajdonság rugalmas adatke­

zelést biztosít. A statisztikai feldolgozás után a dokumentumok strukturált SOIF formátumai és az osztályozási jelzetek az Oracle relációs adatbázis tábláiban tárolódnak [6]. A rugalmas böngészés lehetőségeit az 5. és a 6 ábra szemlélteti.

' 3 GERHARD • Gerrran Haríest Autoiruled Relrieval and Diredory- Miciosoft IrtemelExpIcrer

G E R H A R D

N U M E R I C A L M A T H E M A T I C S A N D C O M P U T E R A P P L I C A T I O N S IN M ATH F M ATIC S I U M J C I C O M P U T E R S C I E N C E

2 3 9 2 2 3 6 3 2 2 O

O R A C L E :

EDBDDBD

C O M P U T F R APPI IC ATIONS IN / S T A N O A R O S ™ C O M P 1 I T F R APP1 ICATIONS IN / ROROTICS.,,,

C O M P U T F R A P P I ICATIONS I N I Hl IMANmFS A N D S O C I A I S C I F N C F S ™ COMPl I T F R APPI ICATIONS IN 1Ml ISF1 IMS™

4 0 9 •£>

C O M P U T E R A P P L I C A T I O N S I N / S Q C I A L S Q I E N C E & w

C O M P l (TFR APPI ICATIONS IN I F I IRTHFR F D I I C A T I O N AND R F T R A N I N G m

4 0 9 •£>

C O M P t ITFR APPI ICATIONS IN Í F N A N O F A N D R A N K I N í V x i Í O

C O M P l ITFR A P P I ICATIONS IN 11 A W « «

D A T A P R O T F C T I O N - R A F F G l I A R D I N f í O F D A T A ™ , 3Ű1^

C O M P l ITFR APPI ICATIONS IN / CRIMINOI Ó f i V ™ D A T A P R O C F R S I N f i 1 A W ™

C O M P l ÍTFR A P P I ICATIONS IN 1 P l IRI IC A DMIN1STR ATIONna C O M P l ITFR A P P I ICATIONS IN 1INSI JRANOFrm

C O M P l I T F P A P P I ICATIONS IN 1FOIICATION™, C O M P U T F R A P P I ICATIONS I N I T O I IRISMrm C O M P ! ITFR A P P I ICATIONS IN 1 MF.TROI OGYm

INF0RMAT1CS A NO C O M P l ITFR APPI ICATIONS IN F N V I R O N M F N T A I P R O T F C T I O N A N D R F S F A R C H m

C O M P l ITFR APPI ICATIONS I N / M A T H F M A T 1 C A I S T A T I S T I C S r m

STAT1STIOAI S O F T W A R F í i t f j i 2 2 4 0 O

• K K U I . r n i i i N W M i n M - I > m

S1MIII ATION / A P P I ICATION TO C O M P l ITFR S C I F N C F r o i

4 5. ábra Böngészés az UDCZ osztályozási kategóriák között

(11)

TMT 49. évf. 2002. 5. sz.

3 GERHARD - Germán Haivest Automated Rebieaal and Diredory- Micmsait Internet Explorer Art.'-:

GERHARD

©

n a v i m l i a m n

Fle ÍM Ven Favates JpQB HSp

reiiim to navioatiori

C O M P U T E R A P P L I C A T I O N S I N / L A W ( 1 0 0 )

cantniuetosubcrdirigt? :erm:-;

CD

a t t r i b u t e d d o c u m e n t s 1 o n t o 2 5

Q lehrveranstaHunaeri von orot. dr. detterbeck

h t t p : / / w v . u r i i-marburg.de/iur2/oeffr/detterbeckfinfo/letire.html D forsrtiunosstelle fuer rechtsiriformatik

http //twiw.uni -marburg.de/jura/5trafr/meiJrer/rBchtsirformati kfwe Ico me html D f k m e a e r • hyperiuris - 314 rectitsinformatik

http://yiwt-i.fask.uni- mai nz de/us er/km eg er/di sswe b/d i ss- 3 M . iitm I G institut fuer rechtsiriformatik

O R A C L E hnp//vA%w.tt.urii-hannover.de/fűrkaüŰ147.htm 0 forschunossteile fuer rechtsinformatik

hEtp7/www.un i-rnarburg.de/jura/fs/rechtsi n/we le o m e . html Q l e t v a n o e b o t von dr. e d n a r w e i l s r

0 zuffliffe s o m m e r s e m a s t e r 1 9 9 7

0 m i p r b a i t e r v o n n r r i f dr n e o r q i o s qourialakis

• Q prof, dr. ralph backhaus 0 prof, dr steoiian Pucfiholz

• jniergktiver s p a z i s r a a n a durch d a s iuristische s e m i n a r Q prof, dr. w i n f r i s d mummenhoff

Q w w w - s e r v i c e

0 jjiiBstartimn ries pc-saals

EDSBDEO

6. ábra Egy adott osztályozási kategóriába tartozó dokumentumok megtekintése

A S C O R P I O N p r o g r a m

Az OCLC (Online Computer Library Center) 1998- ban indította el a SCORPION kutatási programot, amely az automatikus osztályozás különböző

módszereit vizsgálja. A program összekapcsolja az indexelést a katalogizálással. A GERHARD prog­

ramhoz hasonlóan nyelvészeti és statisztikai mód­

szereket használ [6]. A SCORPION szoftver a Dewey Tizedes Osztályozás adatállományaiból létrehozott kereshető adatbázisra épül, ahol a Dewey-jelzetekhez a megfelelő osztályozási kate­

góriák vannak hozzárendelve [7], Itt tehát a doku­

mentum egy olyan keresőkérdésnek tekinthető, amellyel az adatbázisban keresést hajtanak végre, végeredményül pedig a dokumentum Dewey- jelzeteit rangsorolva kapják meg [3], Szövegfeldol­

gozásnál a dokumentum szövegéből kiválogatják azokat a kulcsszavas kifejezéseket, amelyeket a jelzetek visszakeresésénél és rangsorolásánál fi­

gyelembe vesznek. Jelenleg is keresik azokat a ki­

finomult automatikus módszereket, amelyek révén a dokumentum szövegében előforduló kulcsszavas kifejezések azonnal felismerhetők [7]. A jelzetek súlyozásánál vizsgálják a kulcsszavas kifejezések előfordulási gyakoriságát az adatbázisrekordok­

ban. Koszinusznormalizáléssal mérik a különbsé­

get az adatbázisrekord és az osztályozandó do­

kumentum vektoros reprezentációja között [8].

Az OCLC másik kutatási programja a CORC (Cooperative Online Resource Catalog) a web­

lapok metaadataihoz biztosít ellenőrzött hozzáfé­

rést egy rugalmas navigációs eszköz segítségével.

Ez a szolgáltatás sikeresen integrálja működésé­

hez a SCORPION szoftvert Dewey-jelzetek előál­

lításánál [7],

K l a s z t e r á l á s i l e h e t ő s é g e k é s a S C O R P I O N p r o g r a m k a p c s o l a t a

A SCORPION program keretében vtzsgálják a klaszterálási módszerek felhasználását az ered­

ményül kapott Dewey-jelzetek szűrésében. A SCORPION előre definiált klasztereket hoz létre az adatbázisrekordokból, amelyeket a Dewey-jelzetek finomítására használ. A jelzetekből képezett klasz­

tereket súlyozzák, és az alacsony súlyozási érté- küeket törlik a találati halmazból. Az adatbázisre­

kordok előzetes klaszterálása olyan mátrix hasz­

nálatát igényli, amely tartalmazza a rekordpárok

(12)

Tóth E.: Az automatikus osztályozással kapcsolatos kísérleti.

közötti előre megszabott távolságértékeket. Tulaj­

donképpen ez a táblázat sorolja be az adatbázis­

rekordokat a legközelebbi klaszterekbe. Egy új rekord abba a klaszterbe kerül, amelynek a legkö­

zelebbi klaszterhez mért távolsága alacsonyabb a megállapított küszöbértéknél [9].

összehasonlították a hagyományos klaszterálás és a SCORPION klaszterálási teljesítményét egy­

mással, ahol a klaszterálást mindkét esetben ugyanazon a dokumentumhalmazon végezték el.

Új, objektív mérőszámokat kellett bevezetniük a hatékony összehasonlítás céljából. Egy adott klaszter hasonlóságának az értékét úgy határozták meg, hogy a benne lévő jelzetpárok közötti átlagos távolságot vették figyelembe. Ezt követően több klaszter hasonlóságának az átlagát vették, és megkapták a klaszterek közötti hasonlóság átlag­

értékét. Jó minőségű klaszterek esetében ez az érték magas, mivel a nagyon hasonló jelzetek ke­

rülnek egy adott klaszterbe. Két tetszőleges klaszter maximális hasonlóságának az értékét úgy állapították meg, hogy a bennük található, egy­

máshoz nagyon közel álló jelzetpárok távolságát vették alapul. Ezután az összes klaszterpár maxi­

mális hasonlóságának az átlagát vették, és meg­

kapták a klaszterek közötti maximális hasonlóság átlagértékét. Jó minőségű klaszterek esetében ez az érték alacsony, mivel a klaszterek jól elkülönül­

nek egymástól.

A SCORPION szoftverrel előállított klaszterekben a dokumentumoknak csak az első jelzetét vették figyelembe, hogy nagyságrendi eltérések ne le­

gyenek a vizsgált klaszterek között. A vizsgálat eredményei a következők voltak: a dokumentumok jelzeteit 485 SCORPION klaszterbe és 386 ha­

gyományos klaszterbe sorolták be. Hagyományos klaszterálásnál azonos méretű klaszterek jöttek létre. Ezzel szemben a SCORPION program né­

hány nagyobb klasztert és sok egy jelzetből álló klasztert állított elő. A klaszterek minőségi vizsgá­

latánál kiderült, hogy a SCORPION-nal létrehozott és a hagyományos klaszterek minősége között nincs különbség. A SCORPION klaszterek hason­

lóságának átlagértéke magasabb volt, mint a ha­

gyományosaké. Maximális hasonlóságuk átlagér­

téke pedig alacsonyabb volt, mint a hagyományos klasztereké. A SCORPION szoftver algoritmusa gyorsabban lefutott, és kevésbé volt erőforrás- igényes. Tehát a kísérleti eredmények rámutatnak arra, hogy a SCORPION szoftver hatékony és eredményes klaszterálási eszköznek minősül [9j.

* * *

A jövőben alternatív fejlesztési megoldásokat kell keresni a különböző internetes szolgáltatások számára, azonban eredményeik összehasonlítása nélkülözhetetlen feladat, A hagyományos osztá­

lyozási rendszereket át kell alakítani, hogy megfe­

lelő böngészőrendszerként funkcionáljanak ezek­

nél a szolgáltatásoknál. Testre szabott vizuális és navigációs technikák kifejlesztése egyaránt szük­

séges a rugalmas böngészéshez. Ezeknél a fej­

lesztéseknél valószínűleg a tartalomelemzésre, a használatra és a hivatkozásra épülő módszerek, valamint a klaszterálási lehetőségek kerülnek majd előtérbe. A neurális hálózati vagy más egyéb mes¬

terségesintelligencia-technikák alkalmazása ígé­

retesnek tűnik ezen a téren annak ellenére, hogy korábban más területeken alkalmazták őket [5].

Irodalom

[1] NEWTON, Róbert: Information technology and new directions = Marcella, R.-Maftby, A.: The future of classification. Aldershot Brookfield, Vt., Gower, 2000.

p. 43-57. ISBN 0-566-07992-5

[2] ARDÖ, Anders-FALCOZ, Franck-KOCH, Traugott et a!.: Improving resource discovery and retrieval on the Internet: the Nordic WAISA/Vorld Wide Web Project - Summary Report. = Nordinfo-NYTT, 17. köt. 4. sz.

1994. p.13-28.

13] MACLENNAN, Alan: Classification and the Internet.

= Marcella. R -Maltby, A.: The future of classifica­

tion. Aldershot Brookfield, Vt., Gower, 2000. p. 59¬

68. ISBN 0-566-07992-5

[4] DESIRE (Development of a European Service for Information on Research and Education). EU Project, 1999. http://www lub.lu se/desire

[5] ARDÖ. Anders-KOCH, Traugott: Automatic classifi­

cation applied to full-text Internet documents in a ro- bot-generated subject index. = Online Information 1999: the proceedings of the 23'° International Online Information Meeting. London, 7-9 December 1999.

p. 239-246. http://www.lub.iu.se/~anders/online99 [6] MŰLLER, Gerhard-CARSTENSEN, Kai-Uwe-

DIEKMANN, Bernd et al.: Automatic classification of the World Wide Web using Universal Decimai Classi­

fication. = Online Information 1999: the proceedings of the 23™ International Online Information Meeting.

London, 7-9 December 1999. p. 231-237.

[7] HICKEY, Thomas B.-VI2INE-GOETZ, Diane: The role of classification in CORC. = Online Information 1999: the proceedings of the 23™ International Online Information Meeting. London, 7-9 December 1999.

p. 247-250.

[8] SHAFER, Keith-THOMPSON, Roger: Scorpion:

SMART Weighting Schemes. 1997. http://orc.rsch.

oclc. org:6109/smart_weight.html

[9] SUBRAMANIAN, Shvidhya-SHAFER, Keith: Cluster- ing. 1998. http://orc.rsch.ocic.org:6109/clustenng.html Beérkezett: 2002. III. 12-én.

Hivatkozások

KAPCSOLÓDÓ DOKUMENTUMOK

Az amerikai és angol könyvtári, informatikai szakirodalom tanulmányozása arról győz meg, hogy az Internet által lehetővé tett információs és hálózati szolgáltatások és

januári számában Nancy Garman, az Online és a Database szerkesztőié bejelentette [1], hogy mindkét folyóirat új rovatot indít erről a témáról On the Nets címmel.

Az eljárás logikája nyilván az, hogy a tevékenység az egységben fo- lyik.4 A környezetvédelem egészével foglalkozó egység azonban nincs, ugyanis nem volt4. 2A mai

A párhuzam a csabai szlovákság és az erdélyi magyarság között nem feltét- lenül jogos, mert a szlovákság itt harmadfélszáz éve él, a Magyar Alföldön a felvidéki

A szakasz hossza vagyis a hiba sosem lesz nulla, de a felezést tetszés szerinti mértékig folytathatjuk vagyis a hibát egy általunk megadott határ érték

lai vagy szakkönyvtárak nem úgy fogalmazzák meg, hogy kirekesszék a közvetlenül érdekelleken lúl azokat, akik esetleg még élni kívánnának a könyvtá­..

[r]

Adalék, a kohászatban érc vagy fém olvasztásakor a fém kiválasz tása és a salakképződés előmozdítása végett hozzá adott mész vagy ko vatartalmu segédanyag.. Elegy,