• Nem Talált Eredményt

Automatikus eljárás tudományos és műszaki szakirodalmi dokumentumok szignifikáns szókapcsolatainak kiemelésére megtekintése

N/A
N/A
Protected

Academic year: 2022

Ossza meg "Automatikus eljárás tudományos és műszaki szakirodalmi dokumentumok szignifikáns szókapcsolatainak kiemelésére megtekintése"

Copied!
5
0
0

Teljes szövegt

(1)

5. CIIURCHMAN, C. W.: The naturc of inquiry systems.

New York, Wilcy, 1969.

6. ROTHENBURG, D. H.: An efficiency model and a performance funclion for an infofmalion reltieval syslcm

• Information Storage and Retricval, 5. köt. 3. sz. 1969, p. 109-122.

7. SCHUTZ. A.: Reflections on the problcms of relevanee.

New llavcn, Yale University Press, 1970.

8. SARACEVIC, T.: Relevanee: A revievv of and a frame- woik for thinking on the nolion in information science = Journal of the American Society for Information Science, 26. keit. 6. sz, 1975. p. 321-343.

9. SARACEVIC, T.: id. mű.

10. CUADRA, C. A.-KATTER, K V.: Opening the black box o í „relevanee" - Journal of Documentation, 23. köt, 4. sz. 1967. p. 291-303.

11. RATH, C. J.-RESNICK. A.-SAVAGE, T. R.: Compa- rison of four types of lexical indicators = American Documentation, 12. köt. 2. sz, 1961, p. 126-130.

12. O'CONNOR, J.: Relevanee disagreements and uncleai requcst forms = American Documentation, 18. köt. 3. sz.

1967. p. 165-177.

13. CUADRA, C. A.-KATTER, R. V.: id. mű.

14. REES, A. M.: Semantic factors, rolc indicators et alia:

Eight years of information retrieral at Western Reserve University = Aslib Proceedings, 15. köt. 12. sz. 1963.

p, 350-363.

15. CUADRA, C : On the utility of the relevanee concept.

Santu Monica, CA. Systems Deveiopment Corporation, 1964.

16. REES. A. M.-SARACEVIC. I V The measurabilíty of relevanee. Proceedings of the American Documentation Institutc. 3. köt. Washington, D. C . ADI, 1961.

p. 254-334.

17. RESNICK. A.: Relative effectivencss of document titles and abstracl for delermining relevanee of documents : Science, 134. köt. 3484. sz. 1961. p. 1004-1006.

18. FOSKETT, D. J,: A note on the concept of relevanee >

Information Storage and Retrieval, 8. köt. 2. sz. 1972.

p. 77-78.

19. COOPER. W, S.: Utility-theoric versus relevanee-theoric meaiurcs of effectiveness. Information Politics, Pro­

ceedings of the ASIS Annual Meeting. 13. köt. Washing­

ton, D.C. ASIS, 1976. p.44.

20. SOERGEL. D.: Is user satisraction a hobgoblin? • Journal of the American Society for Information Science, 27, köt.

4. sz. 1976. p. 256-259.

/REGAZZI, J, J.: Evaluating indexing systems: a reviewafter Oanfield = The Indexer, 12. köt. 1. sz.

1980. p. 14-21./

(Nóvák István)

Automatikus eljárás tudományos és műszaki szakirodalmi dokumentumok szignifikáns szókapcsolatainak kiemelésére

1. Bevezetés

Az információkereső rendszerek egyik alapvető prob­

lémája az indexelés, a dokumentum eredeti információ­

t a r t a l m á n a k igen t ö m ö r reprezentációja.

Ez a kísérleti rendszer a dokumentumok kivonatainak alapján igyekszik megoldani a feladatot. A kivonatok elemzése mellett szól, hogy reprezentálják a dokumentu­

mok t a r t a l m á n a k elemeit, kiemelik a kutatási célokat, a módszereket, az e r e d m é n y e k e t , a l e v o n h a t ó következte­

téseket stb., t ö b b n y i r e a dokumentumok szerzőitől származnak, a címbeli információval némely esetben kölcsönösen kiegészítik egymást, nem túl hosszúak, igen jellegzetes leíró stílusú mondatokat tartalmaznak és végül: összefüggő szövegek, amelyek stiláris jellemzői kulcsot jelentenek a szavak és mondatok funkciója és ezáltal a kivonat tartalmának megértéséhez.

Egy-egy s z ó , kifejezés vagy szókapcsolat szignifikáns voltának magából a szövegből kell m e g h a t á r o z h a t ó n a k lennie; ezért ez a megközelítés az eddigi módszereknél b e h a t ó b b a n vizsgálja a kivonat szemantikai struktúráját.

A szignifikáns szókapcsolatok kiemelésének módszere két előfeltevésen alapul, nevezetesen, hogy a fontos fogalmakat nominalizált (főneves alakra h o z o t t ) kifejezé­

sek jelölik, és hogy a szignifikáns szókapcsolatok és alkotóelemeik különböző területeken más-más jelenté­

sűek lehetnek.

2 A f ő n é v i s z ó k a p c s o l a t o k kiemelése

A programrendszer öt m o d u l b ó l áll, ezek a követ­

kezők.

2 1 Az input modul

Egy dokumentum input adatai (1. ábra) a követke­

zők;

egy a z o n o s í t ó s z á m és a cím, a szerzö(k),

a megjelenés helye és ideje - a folyóirat, a k ö t e t , a szám és az év,

a kivonat szövege és a kulcsszavak - ha vannak.

Az input modul a címet és a kivonat mondatait összekapcsolja és egyetlen k a r a k t e r l á n c k é n t továbbítja a k ö v e t k e z ő modulhoz, a kulcsszavakat pedig úgy tárolja, hogy k é s ő b b majd összehasonlíthatók legyenek a rend­

szer által kiemelt szókapcsolatokkal. A t ö b b i adat változtatás nélkül, k á r t y a k é p f o r m á t u m b a n egyenesen az output modulhoz k e r ü l .

(2)

TMT 28. évf. 1981/11.

első oszlop

( 1 ) T 3 2 J SYSTEM O R f i í N l i i l l O i J S F O B S P E E C H U N D E B 5 T A N O I N G = 1 - P L 1 C A T I O N S OF H E T M M H I AND

I

" U L T I P K O C e S S O B C O ^ C U T E " A R C H I T E C T U R E 5 F O B f A I ( 2 ) L• 0• E R M A N . - i D . F t N N t L L i V , B . L E S S E B A N D D > " • REDDY ( 3 ) • J J C A I O - 1 9 7 J

( 4 ) ( 0 0 1 ) T H I S PAPER C 0 N S I D E R 5 V A R I O U S F A C T O R S A F F E C T I N Ű SYSTEM O R G A M Z A T I O N FOR S P E E C M U N D E R S T * N O I N G W E S E A R C H .

( 0 0 2 ) T H E S T R U C T U H F . O F T H É M T AHS » Y S Y S T E M B ASE D O N * S E T O F C N O P E R M I N G . I N D E P E N O E N T PRQCESSES U S I N G T H E H Y P O T H E S t l E - A N D - T E S T P A R A D I G M I S

" R E S E N T E D .

( 0 0 3 ) D E S I G N C O N S I 0 E R A T 1 O N S FQR T H E E F F E C T I v E USE OF M U L T 1 P B O C E S 5 0 R AND N E T n O B K A R C H I T E C - U J R E S I N S P E E C H U N D E R S T A N O I N G S Y S T E H S A R E p B E S t N T E O ; C O N T R O L O F P R O C E S S E S i I W T É B C H O C E S S C O H H U N I C A T I O N ANO D A T A S H A H l N d i RESQURCE A L L O C A T 1 0 N - A N D O E B u G G I N G A B E D 1 S C U S S E O .

( 3 1 / * S P E E C H B E C O G N I T I O N . S P E E C H U N O E B S TAN D | N G . S Y S T E " O B G * N I Z * T I O N , N E T « O R I S « / • W U L T I P R O C E S S O B S ' P A B A L L E L P B O C E S S J N G * B E A L_T | B E S Y S T E M S - H A R D H A B E F O B A l ' / • S 0 F T * A R £ FOB A l •

1. ábra Egy dokumentum inputja

2.2 A szövegelemek kiválasztása

A címből és a kivonat m o d a t a i b ó l kiválasztott, j e l e n t ő s é r t e l m ű kifejezéseket határolójelek választják külön. A nem-alfanumerikus jelek és a szóközök mind határolójelnek számítanak, de az idézőjel, a kötőjel, a pont és a per-jel esetén a soron k ö v e t k e z ő s z i m b ó l u m o t is vizsgálni kell: ha alfanumerikus karakter követi ő k e t , nem k e z e l e n d ő k határolódéiként, azaz a k a r a k t e r l á n c az illető ponton nem lesz elvágva.

A k é p l e t e k e t , képletszerű kifejezéseket és a tulajdon­

neveket ú n . diszkriminatív szimbólumok beszúrásával ez a modul kizárja a további feldolgozásból. A z így előállí­

t o t t , kiemelt jelentéssel bíró szakkifejezéseket szignifi­

káns elemeknek tekinti a rendszer, és továbbítja a k ö v e t k e z ő modulhoz.

2.3 A szakkifejezések ellenőrzése

Az ellenőrző modul a kiemelt szavakat sorra meg­

keresi a rendszer s z ó t á r á b a n .

A s z ó t á r n a k az a célja, hogy az adott szakterület fogalmainak ismerete és n é m i lexikális ismeret alapján lehetővé tegye a fontos szakkifejezések kiemelését. Nem lehet túl nagy (legfeljebb p l . 10 ezer s z ó ) , és biztosítani kell, hogy új szavakat is j e l e n t ő s e l e m k é n t lehessen kezelni. A s z ó t á r elemei a k ö v e t k e z ő h á r o m kategória valamelyikébe tartoznak:

feltétel nélkül törlendő szavak, p l . stop-lista szavak, igék, h a t á r o z ó s z ó k stb.;

feltételesen törlendő szavak, p l . olyan melléknevek és főnevek, amelyek önállóan (izoláltan) nem szerepelhet­

nek szignifikáns e l e m k é n t , ezek az ú n . gyönge főnevek;

nem-törölhető, minden m ó d o s í t á s t ó l is védett szavak.

A szótár jelenleg 2300 szót tartalmaz, kb. 49% az első kategóriába tartozik, és mindössze 1,2% a harmadikba.

Minden szótári elem mellett jelezve van a kategóriája.

Az a z o n o s í t o t t szavakat kategóriájuk szerint kezeli az ellenőrző modul. A védett szavakhoz nem n y ú l , velük

csak a k ö v e t k e z ő modul fog t o v á b b dolgozni. Ha egy elemet nem sikerült illeszteni egy s z ó h o z , a végződést kell ellenőrizni. Ha a végződés alapján sem sikerül az azonosítás, akkor az elem ú n . erős főnévnek minősül, tehát olyannak, amely ö n m a g á b a n állva is szignifikáns elem lehet.

24 Szókapcsolatok generálása

Amikor ez a modul sorra veszi a b e é r k e z ő szavakat, a fentiek értelmében m á r mindegyik be van sorolva négy kategóriá valamelyikébe; törlendő szó - D, melléknévi jellegű szó - A, gyönge főnévi szó - W vagy erős főnévi szó - N. A bejövő elemeket tehát sorra h e l y e t t e s í t e n i lehet a fenti kategória-szimbólumok egyikével. Például:

"SEARCH STRATEGIES FOR THE TASK OF ORGANIC

<N) <W> (D) (D) (W) (D) (A) CHEMICAL SYNTHES1S"

(Al |N)

A t ö r l e n d ő szavak, a melléknévi jellegű szavak és az izolált gyönge főnevek mintegy h a t á r o l ó j e l e k k é n t funk­

cionálnak a szókapcsolatok kiemeléséhez. A fenti példa­

j e l s o r o z a t b ó l kiemelésre k e r ü l ő főnévi s z ó k a p c s o l a t o k :

"SEARCH STRATEGY" és "ORGANIC CHEMICAL SYNTHESIS (N W) IA A N]

2.5 Az output modul

A rendszemek kétféle outputja van. A z egyes doku­

mentumok önálló feldolgozásának e r e d m é n y é t a 2. ábra illusztrálja. A dokumentumok egy-egy csoportjának fel­

dolgozása u t á n kerül sor az e r e d m é n y ü l kapott kifejezé­

sek és szavak elemzéseire, erre példa a 3. ábra.

(3)

( 1 ) 7 3 2 3 SYSTEM O R G A N I Z A T I O N S F O R S P E E C H UNDERSTAND1NG! 1 M P L K A T 1 0 N S OF N E T w O R í AND M U L T I P R O C E 5 S O R COMPUIEO A R C H I T E C T U R E S FOR * A I

J S Y S T E " O R G A N I Z A T I O N 2 SPEECH U N D E R S T A N D I N G

3 N E T M M K A H U L T I P R O C É S S O R COMPUTER A R C H I T E C T U R E 5 A I - »

AUTHOR : L . 0 , E U H A N i R . 3 . F E N N E I L - V . R . LESSER A N D 0 . « • REDDY ( 3 ) 0 0 1 1 SYSTEM O R G A N I Z A T I O N

0 0 2 3 HEARSAY SYSTEM

< WORD PROJECT ION >

1 1 : SYSTEM

7 SPEECH UNOERSTANDING A H Y P 0 T H E S I I E - A N D - T E 5 T P Á R A D 1 GM

0 0 3 J H U L T I P R O C É S S O R t NETWORt A R C H I T E C T U R E 7 SPEECH UNOERSTANDING S Y S T E H • D A T A S H A R I N Ű 9 RESOURCE A L L O C A T I O N 1 0 DEBUGG1NG

< W O R D P R O J E C T I O N >

1 1 : SPEECH 1 : UNOERSTANDING 1 I SYSTEH 2 1 I S Y S T E M

I ( 3 ) ' E Y - P H R A S E 5ET BY AUTHOR :

1 SPEECH R E C o G N I T I O N 2 SPEECH U N O E H S T A N D ' N G 3 SYSTEM O R G A N I Z A T I O N

* NETWORKS ) M U L T I P R O C E S S O S S 6 P A R A L L E L P R O C E S S I N G T R E A L - T 1 H E SYSTEMS

• HARDWARE FOR A l 9 SOFTWARE F O R A l ( * ) ABSTRACT P " K A S E SET :

1 1 DATA SHA01NG 2 1 DEBUGG1NG 3 1 HEARSAY SYSTEH

* 1 H Y P O T H E S I Z E - A N D - T E S T P A R A O I G M 5 1 H U L T I P R O C É S S O R

6 1 NETWORK ARCH1TECTURE 7 1 RESOURCE A | _ L O C A T I 0 N J 1 SPEECH U N O E R S T A N D I N G 9 1 SPEECH U N D E R S T A N D I N G S Y S T E H 10 1 SYSTEM O R G A N 1 Z A T I O N ( S ) P R O J E C T I O N WOHO SET !

1 1 SPEECH 2 3 SYSTEH 3 1 U N D E R S T A N D I N G

2. ábra Az 1. ábra adataihoz t a r t o z ó e r e d m é n y e k

H E Y - I - H H A S E S S F T : U C A i - 7 3 : P.Y P R O J . WORD. - í f "

N O P H R A S E

1 A H D U C M V f H E A S 0 N I N 6 1-ROCESS 2 A H S T U A C 1 I O N S^ACE

3 A H S T R A C T I O N &HACE H l t f t A K C H Y

* A C O U S T I C A N A L Y S I i . 5 A C O U S T I C D A T A b A C T O H - f

7 A U l p j t v E - C O N T K O L H H U C t D U K t ) A L G O R I l ' I H

9 A N A L Y ' J C í L " E A S Q M N Ű 10 Í N [ ) / n n G R A P H

11 AND/IJR T R t E 12 A R C H I T E C T U R E 13 A K I T H M E T I C 1 » ° H T I F I C I * L H A r í D l í n r | i I C I AL I N I C L L I G t N C E 16 ASSEMBLY M A N D U L Á M O N 1 7 A S S E X T I O N A L I ' « P U T S E M E N C K

! í A U T O M A T I C P R O G l í A M M I N G SYSTEM 19 A U T Ó M A T IC PHOTOCW. S Y S T E M Z O A U T O M A T I C 3 E C U G N I T I 0 N

3. ábra Példa a 3. dokumemumcsoport k i e m e l t s z ó k a p c s o l a t a i r a

(4)

TMT 28. évf. 1981/11.

3. A s z i g n i f i k á n s s z ó k a p c s o l a t o k kiválasztása

3.1 A kivonat szövegének szerkezete

— mondatközi kapcsolatok

A szövegbeli információ j e l e n t ő s részének m e g h a t á r o ­ zására - k o r á b b i egyéb megközelítésekkel szemben - m i a szövegelemzés során a főnévi kifejezésekre koncent­

r á l u n k , ezeket tekintjük az i n f o r m á c i ó t a r t a l o m fő sze­

mantikai h o r d o z ó i n a k .

Elemezni kell a mondatok k ö z ö t t i kapcsolatokat, minden egyes mondat szerepét a kivonat felépítésében és minden egyes főnévi szókapcsolat funkcióit a fentie­

ken belül. A z elemzés a főnévi szókapcsolatok közötti szemantikai összefüggések által n y ú j t o t t i n f o r m á c i ó t , valamint a mondatokban található szintaktikai és stilisz­

tikai információkat használja fel. A szemantikai és a szintaktikai feldolgozásnak szüksége van mind nyelvé­

szeti ismeretekre, mind bizonyos pragmatikus t u d á s ­ anyagra az.adott szakterületen.

A m o n d a t k ö z i kapcsolatok n y o m á r a vezető kulcsok­

nak t ö b b fajtája van, ilyenek p l . a lexikai elemek különböző sémák szerinti párhuzamosságai, vagy ismét­

lődései, a kötőszavak, a mutatószavak. MÍ az ismétlődést alkalmazzuk. Elsősorban a mondatokban levő azonos elemek teljes ismétlődését vesszük tekintetbe, megenged­

ve azonban n é h á n y melléknév, de egy elem egy kompo­

nensének ismétlődését is, ha ez az i s m é t l ő d ő komponens egy j e l e n t ő s s z ó t ő . Ezeket a megismételt lexikai eleme­

ket projektált ( v e t í t e t t ) elemeknek nevezzük. Ha a mondatbeli főnévi szókapcsolatok egymásutánját tekint­

j ü k , ennek a felsorolásnak az első felében valahol van az

„ é r v é n y e s " ismétlődések - a projektált elemek - helye, t e h á t nem tekintjük a mondat kezdetet és a közvetlen k ö r n y e z e t e t . ( A bonyolult vagy összetett mondatokat egyszerű m o n d a t o k k á kellene és lehetne bontani, de a manuális beavatkozást igyekeztünk lehetőség szerint elkerülni, és csak eredeti mondatokat dolgoztunk fel.)

A szemantikai i n f o r m á c i ó áramlásáról a k ö v e t k e z ő feltevésünk van: az első kivételével a kivonat minden egyes mondata elfogadja a „már adott" információt (témát} a megelőző mondatokból, mégpedig a mondat­

beli főnévi s z ó k a p c s o l a t o k felsorolásának első felében. A főnévi s z ó k a p c s o l a t o k felsorolásának második felében fűzi hozzá a mondat a korábbiakhoz az „úf informá­

ciót. A z utolsó kivételével a kivonat minden mondata átadja az információkat a k ö v e t k e z ő mondatoknak.

3.2 A kísérletek eredményei

A fentiek é r t e l m é b e n a keresett szignifikáns szókap­

csolatok k i e m e l h e t ő k a főnévi szókapcsolatok halmazá­

b ó l . Azokat a szavakat, amelyek a fenti é r t e l e m b e n nem projektált elemek ugyan, de mind a cimben, mind a kivonatban e l ő f o r d u l n a k , j á r u l é k o s projektált elemek­

k é n t vesszük számba.

ö t dokumentumcsoport kísérleti feldolgozását végez­

t ü k el; ezek s z á m í t ó g é p t u d o m á n y i k ö z l e m é n y e k voltak, főként a mesterséges intelligencia k u t a t á s a k ö r é b ő l . A z összesen 346 dokumentumot tekintve a kivonatok átla­

gosan 5 m o n d a t b ó l álltak, a címek átlag 8, a kivonatok pedig átlag 107,8 szót tartalmaztak. A kivonatok szöveg­

hossza alkalmas a gépi feldolgozásra. A dokumentum­

csoportokra kapott e r e d m é n y e k e t foglalja össze az 1. táblázat.

1. táblázat A szókapcsolatok/szavak átlagos száma

Dok. csoportok Elemek ^ * " - » » ^ ^

1. 7. 3. 4. s . Össze­

sen

1. Címek 1,9 2,0 2,0 2,1 1-9 2,0

4. Kivonatok 11,4 9,8 9,1 10,1 9,6 10,0

7. Szignifikáns szó­

kapcsolatok 6,2 .4,7 4,8 5,5 5.8 5,3 3. Szerzői kulcsszavak 6,2 5,9 6,5 4,0 5,4 6,0 8. Főnévi szókapcso­

latok 7,4 5,1 4,7 5,7 5.9 5,5 5. Projektált szavak 3,3 2,3 2,2 2,7 2,8 2,6

A / . táblázatban szereplő sorszámok megfelelnek a 2. ábrában található sorszámoknak. A 2. ábra az 1.

ábrán bemutatott input feldolgozásnak az e r e d m é n y é t közli. Jól összehasonlíthatók a szerző által megadott kulcsszavak ( 3 ) , a címbeli főnévi szókapcsolatok ( 1 ) stb.

A 3. ábra az egyik kísérleti dokumentumcsoport első h ú s z kiemelt szókapcsolatának az alfabetikus listája.

4 . K ö v e t k e z t e t é s e k és m e g j e g y z é s e k

A módszer számítógépes kísérletének e r e d m é n y e i alapján a k ö v e t k e z ő megállapításokra j u t u n k .

(1) A szignifikáns szókapcsolatokat sikerült kiemelni a k i v o n a t b ó l . A c i k k e n k é n t átlag kapott 5,3 szókap­

csolat j ó l egyezik a szerzői kulcsszavak számával, de a k é t csoport k ö z ö t t mégis a d ó d t a k eltérések, p l . az általánosság/specifikusságszempontjából.

(2) A k i v o n a t b ó l kiemelt főnévi szókapcsolatok száma átlagosan 10, mintegy 1,5-ször annyi, mint a szignifi­

káns s z ó k a p c s o l a t o k , 31. a szerzői kulcsszavak száma.

(3) A címek ö n m a g u k b a n nem alkalmasak a dokumentu­

mok szemantikai tartalmi elemzésére, figyelembe­

vételük viszont indokolt, ezt bizonyítják a belőlük nyert járulékos szókapcsolatok. A címek átlagos szignifikáns szókapcsolataínak száma 2.

(4) A p r o j e k t á l t elemek (átlagosan 2,6) valóban kulcs- jellegűek, a szemantikai tartalom és a mondatok

összekapcsolása t e k i n t e t é b e n .

(5)

(5) Kvalitatív szempontból, a kivonatok szerzői stílus­

sajátosságai folytán, az eredmények nem mindig egyértelműek. Egyre nő a kivonatok tartalmi és formai egységesítésének fontossága és szükségessége!

A fenti megközelítéssel olyan információábrázolásra törekednek, amely végső soron mondatfunkció — szigni­

fikáns szókapcsolat-párok formájában valósulna meg. A kulcsszavazást az ilyen információábrázolás speciális esetének lehetne tekinteni, amikor csak a „téma" van megadva. Ami egy ilyen alapú információkereső rendszer felépítését illeti, további kutatásokat igényel (a) a dokumentumok asszociatív tartalmi feltárása - tehát nem egyszerűen a rokon tartalmú dokumentumokból való információfeltárás, hanem egyes dokumentumok­

ban levő tartalmi asszociációt reprezentáló mondatok egymásnak megfeleltetésével, (b) az automatikus tezau­

ruszépítés és (c) az automatikus kivonatolás kidolgozása.

fMAEDA, T. - MOMOUCHI, Y. - SAWAMURA, H.:

An automatic method for extracting significant phrases in scientific or technical documents, = Information Processing and Management, 16. köt.

3. sz. 1980. p. 119-127./

(Szöllősy Éva)

OOO.

Fogalmi kapcsolatok szemléltetése tezauruszokban

Az AIDOS-OS/ES programrendszer, valamint a meg­

felelő normatív dokumentumok és irányelvek alapján, továbbá a már meglévő tezauruszok alkalmazása során nyert tapasztalatok felhasználásával állították össze az NDK-ban „Kisfeszültségű megszakitástechnika" tezauru­

szát. A szerkesztési eljárásokat és módszereket részlete­

sen leírták és szabályokban rögzítették. A tezaurusz szisztematikus részénél olyan megoldást alkalmaztak, amely lehetővé teszi valamennyi — az indexelés és visszakeresés szempontjából lényeges - fogalmi kapcso­

lat megkülönböztetését és áttekinthető ábrázolását.

1 . E l m é l e t i alapok

Elöljáróban a következő alapelveket szögezték le:

A deszkriptorok és nem-deszkriptorok — szavak és szócsoportok alakjában - fogalmakat fejeznek ki.

Ugyanez vonatkozik a deszkriptorok és a több szóból álló kifejezések közötti kapcsolatokra is. (Ez utóbbiak nemcsak mondatok, hanem egyéb értelmes szerkezetek is lehetnek.)

A fogalmak (szemantikai megközelítésben) szavakat és szócsoportokat jelentenek, és (az ismeretelmélet tükrözési szabályainak megfelelően) az osztályok, az egyének gondolati visszatükröződései.

A fogalmi kapcsolatok így, egyrészt a szavak és szócsoportok jelentései közötti kapcsolatok; másrészt (ismeretelméleti szempontból) az osztályok gondolati visszatükröződései közötti kapcsolatok. A tezauruszban ez az egyes deszkriptorok közötti és az egyes nem- deszkriptorok közötti, valamint a deszkriptorok és nem- deszkriptorok közötti kapcsolatokban jut kifejezésre.

Az eddigi tezauruszoknál alkalmazott eljárásmódok­

kal ellentétben, az új tezaurusznál kizárólag az úgyneve­

zett egyértelmű ekvivalencia elve érvényesül. Ennek előfeltétele azonban, hogy az AIDOS-OS/ES program­

rendszer inverz adatai, a deszkriptorok hivatkozási száma mellett, a nem-deszkriptorokat is tartalmazzák. A pre- kombinált, csoportosított megnevezések mellé pedig fel­

vették a tezauruszba mindazokat a szerkezeteket is, amelyek - megadott kritériumok szerint - a deszkripto­

rok és nem-deszkriptorok kiválasztásához és meghatáro­

zásához szükségesek. Ezáltal, egyrészt a kifejezhetőség vált pontosabbá: a tezauruszban nem szereplő fogalma­

kat deszkriptor-kapcsolásokkal (posztkombinált meg­

nevezésekkel) lehet kifejezni; más részről így biztosítot­

ták, hogy a tezaurusz a referátumok — későbbre terve­

zett — gépi indexelésénél is alkalmazható legyen.

2. A f o g a l m i kapcsolatok szemléltetése és a gépi a d a t f e l d o l g o z á s

A tezaurusz szerkesztése közben arra törekedtek, hogy a fogalmi kapcsolatokat és, ha ezek anyagi jelensé­

geket tükröznek, akkor a fizikai jelenségek, a gyártmá­

nyok, a gyártási eljárások stb. közötti kapcsolatokat, a tezaurusz felépítése áttekinthetően szemléltesse.

A kapcsolatok ábrázolásának gépi adatfeldolgozással történő megvalósítása esetén három lehetőség kínál­

kozik:

utaló jelzetek használata;

a deszkriptoroknak és nem-deszkriptoroknak cikkek­

be vagy szakcsoportokba való rendezése;

a deszkriptorok és nem-deszkriptorok — különböző részekre tagolt — hierarchikus beosztása és jobbra történő elcsúsztatása.

A betűrendes tezauruszok esetében kizárólag az első­

ként említett megoldást alkalmazzák. Ebből következik, hogy a betűrendes tezauruszban nem valósitható meg optimális hatásfokkal valamennyi fogalmi kapcsolat át­

fogó kifejezése; különösen akkor nem, ha sok hierarchi­

kus kapcsolatból tevődnek össze.

A cél olyan tezaurusz-forma létrehozása volt, amely lehetővé teszi valamennyi leírandó fogalmi kapcsolat jól áttekinthető ábrázolását viszonylag kevés leírási elem

Hivatkozások

KAPCSOLÓDÓ DOKUMENTUMOK

Ennek eredményeképpen a tudományos-műszaki tervbe belekerült egy javaslat az Országos Tudományos és Műszaki Információs Rendszer (National Information System for Science

1251 SMALL, H.: Co-citation in the scientific literature: a new measure of the relationship between two documents = Journal of the American Society for Information Science, 24.

INFORM ATION SCIENCE &amp; LIBRARY SCIENCE 1993 Journal of the American Society for Information Science... 1,066 Annual Review of Irrformation Science and Technology---

Mathematics, Chemistry and Biology Education and Higher College for Information Science), higher professional education, post-university training. Therefore the success of the model

This study attempts to present the information on organizational and management science found in the professional databases of the world's academic journals (UlrichsWeb, Web

The Formal Methods and Tools (FM&amp;&amp;T) group of the Institute for Information Science and Technologies (ISTI) of the Italian National Research Council (CNR) has a

Acknowledgements: This work was supported by the Science Research Foundation of Nanjing Univer- sity of Information Science and Technology and the Natural Science Foundation of

ural Science with separate financial basis of supporting science, he organized The Széchenyi István Society for the private sponsors, he classified the badly- financed Science