A statisztikai információkutatás néhány aktuális kérdése

(1)

A STATISZTIKAI INFORMÁCIÓKUTATÁS NÉHÁNY AKTUÁLIS KERDÉSE'

DR. DIENES GEDEONNÉ

Századunk elmúlt két évtizedét az információ forradalma jellemzi. A társa- dalmi, gazdasági és tudományos élet komplexitása óriási méreteket öI'cött, és ennek megfelelően ugrásszerűen megnőtt az Információk tömege, valamint az az igény, hogy a szükséges és pontos információkhoz rövid időn belül mindenkor hozzá le—

hessen jutni.

Mindez természetesen a statisztikai információkra is vonatkozik. Hatalmasra nőtt a statisztikai információk mennyisége. A Központi Statisztikai Hivatalnak pél-

dául 1967-ben 52 statisztikai kiadványa került könyvárusi forgalomba, 1970-ben

pedig már 78. Ezenkívül az egyes minisztériumok, irányító szervek, vállalatok szintén szép számmal adnak ki statisztikai összeállításokat. Ez a statisztikai adattömeg nyil—

vánvaIóan azt az információigényt hivatott kielégíteni, amely az elő—rejelzéseiknél, helyzetfelméréseknél, tervezésnél, döntések hozatalánál és általában a vezetésnél jelentkezik.

Ezeknek az igényeknek a kielégítésére meg kell találni azokat a módszereket és eszközöket. amelyek segítségével a rendelkezésre álló hatalmas információ—

mennyiség megfelelően rendszerezhető, tárolható, visszakereshető és többszörösen ' újrafelhasználható. Ez a követelmény egy új ismeretág, az informatika kialakulásá- hoz vezetett, mely az információkutatással, az információk kezelésével és feldolgo- zásával kapcsolatos ismereteket összegezi elméleti és alkalmazási szinten egyaránt.

Az információkutatás —— mint az informatika része —- az információk tartalmi fel—

tárásával, azonosításával, szerkesztésével, az információk közötti kapcsolat leírásá—

val foglalkozik. Feladata többek között

— az adott szakterület fogalmainak összegyűjtése;

—— a fogalmak egységesítése, tartalmi és formai egyöntetűségük biztositása;

-—— a fogalmak közötti összefüggések, kapcsolatok feltárása, világos és egyértelmű le—

irasa:

— olyan tárolási, rendszerezési modellek készítése. amelyek révén a kívánt információk gyorsan és rugalmasan előállíthatók.

A STATISZTIKAI INFORMÁCIÓKUTATÁS NÉHÁNY SAJÁTOSSÁGA

Statisztika vonatkozásában a felsorolt kérdésekkel és feladatokkal a statisztikai információkutatás foglalkozik, de speciális sajátosságokkal, jellemzőkkel és prob- lémákkal kell szembenéznie. Felvetődik tehát a kérdés, hogy melyek ezek a saját- tos problémák.

(2)

DR. DIENESNÉ: A STATISZTIKAI INFORMÁCIÓKUTATAS 745

Ahhoz, hogy erre a kérdésre válaszolni tudjunk, vizsgáljuk meg, mi is tulajdon—

képpen a statisztikai információ alapmegjelenési formája. Ez nyilvánvalóan vala—

milyen adat, vagyis valamilyen jelenség kvantifikált leirása. Vegyük például a kö—

vetkező számot:

10 021 000.

Ez a szám önmagában statisztikai szempontból nem nyújt semmiféle informá- ciót. Ha viszont a fenti számhoz hozzákapcsoljuk a következő részletes értékelő

meghatározást:

10 021 000 fő, Magyarország lakossága 1960-ban,

akkor már a statisztikus vagy bármely földrajzi és történelmi érdeklődésű személy számára hasznos információt adtunk. Azt mondhatjuk tehát, hogy a statisztikai információ megjelenési formája olyan adat (szám, mennyiség), amely tartalmilag és mértékegységben, térben és időben meghatározott. illetve körülhatárolt. Más szóval egy számadatból akkor lesz statisztikai információ. ha azt

—- tartalmilag (lakossag),

—— mértékegységben (fő),

— térben (Magyarország), -— időben (1960)

körülhatároljuk, tehát értelmezhető jelentést rendelünk hozzá. A statisztikai infor—

mációtárolásnalk és -visszakeresésnek tehát a fenti jellemzőkkel kell számolnia.

A példánkban szereplő szám - 10 021 000 — a fenti jellemzők megadásával statisztikailag egy tényt, eseményt fejez ki. A statisztikai információ tárgya azonban nemcsak egy tény lehet, hanem tények sorából álló folyamat, illetve tények össze- hasonlítása is.

Ha például Magyarország lakosságának XX. századi alakulását tekintjük végig, akkor több számadatunk van, amelyek együttesen idősort, folyamatot fejeznek ki.

Ez a folyamat több időpontból kialakuló időtartamhoz — a XX. század elmúlt évei—

hez, mondjuk az 1900 és 1960 közötti évekhez -— kapcsolódik. Elmondhatjuk tehát.

hogy a fent említett négy jellemző közül ebben az esetben a statisztikai információ időjellemzőjét bővítettük ki.

Vegyünk másik példát: egy táblázat címe a következő:

Magyarország, Ausztria, Csehszlovákia ipari termelésének összehasonlító adatai 1950—1965 között

Az időjellemző bizonyos bővítése mellett ebben a táblázatban a térjellemző bővítésével jutottunk el összehasonlitáshoz, viszonyításhoz.

Ami a mértékegységet mint adatjellemzőt illeti, nyilvánvaló, hogy az idő- és térjellemzővel szemben minden összehasonlításnál az adatokat azonos mérték—

egységben kell megadni.

Eddig a statisztikai információk mértékbeli, térbeli és időbeli körülhatárolá- sának egyes vonatkozásaival foglalkoztunk, de még nem érintettük a tartalmi meg- határozás problémáit, pedig nyilvánvalóan a tartalmi jellemzők adják a statisztikai információ lényegét. ezekből tudjuk meg, hogy egy számadat miről, milyen vonat—

kozásban ad tájékoztatást.

A statisztikai információk tartalmi meghatározása történhet elemi informá—

ciókkal, vagyis olyanokkal, amelyek további részekre nem bonthatók, mint például

,,földterület", .,munkások".

(3)

746 DR. DiENES GEDEONNE

E két fogalom — ,.földterület". "munkások" — valamely statisztikai információ—

ban a következőképpen szerepelhet:

E _ Mértékbeli [ Térbeli [ Időbeli

leml

információ jellemzők

Földterület ... nagysága Magyarországon 1960—ban (hektár)

Munkások ... szóma (fő) Budapesten 1965—ben

I

Az információk tartalmi meghatározása történhet összetett informáCió alkal—

mazásával is, amelynél két vagy több elemi információból egy újabb, értelmileg is különböző információ áll össze és adja meg a tartalmat, mint például ,.ipari mun- kások", ,,ipari munkások munkabére".

E két összetett információ alkalmazása például lehet a következő:

Összetett Mértékbeii l Térbeli l időbeli ,

informácó jellemzők

lpari

munkások száma (fő) Budapesten 1965-ben ipari munkások

munkabére forintban Budapesten 1965-ben

A tartalmi, mértékbeli. térbeli és időbeli jellemzőket a statisztikai információ-

kutatásban, -feldolgozásban. illetve -visszalkeresésben mindig figyelembe kell venni.

mert ezek révén lehet egy—egy adatot azonosítani. A feladat tehát az, hogy ezeknek a jellemzőknek egységes leírására, tárolására és visszakeresésére megtaláljuk a helyes és gazdaságos megoldásokat.

A STATISZTIKAI FOGALMl STRUKTÚRÁK, A STATlSZTlKAl FOGALMAK RENDSZEREZÉSE

A modern ínformációtárolás és -visszakeresés szempontjából rendkívül fontos a lehetséges tartalmi kapcsolatok feltárása'és rendszerezése, hiszen a modern

információtórolás eszközei —— a számítógépek — csak így képesek a rendszerezett

információkkal logikai műveletek elvégzésére. elemi információk automatikus össze- vonására, új, származtatott információk képzésére stb.

Ha az információk között nyilvánvalóan egy rejtetten meglevő kapcsolatokat felismerjük, akkor a gyakorlatban különböző vertikális és horizontális struktúrákat alakíthatunk ki.

Vertikális struktúra például az ún. .,fastruktúra", amelyben az információk közötti alá- és fölérendeltség elve érvényesül. Elemei hierarchikusan kapcsolódnak

úgy, hogy a fölérendelt fogalomnak (a genusnak) legalább egy sajátossága benne

van az alárendelt fogalomban (a speciesben) és megfordítva: az alárendelt fogalom legalább egy jellemzőben eltér a fölérendelt fogalomtól (illetve a többi mellérendelttől). Ilyen szelnkezetet lehet alkalmazni például az egyes népgazdasági ágak álta—lános felosztásánál.

(4)

A STATISZTIKAI lNFORMÁCIÓKUTATÁS 747

A fastruktúra az ipar egy kiragadott részénél a következő:

IPTR

, , . l l. ,l .

Banyaszot Vrllamos— Kohaszat Gepipar Epítőanyag- Vegyipar

energia— —ipar

-ipar

? %

Vaskohászat Aiumi'nium- Egyéb színesfém- kohászat kohászat

A fastruktúrának két alapvető tipusa ismeretes. Egyiknél adott részinformáció csak egy hierarchia része lehet, a másiknál valamely részinformáció több hierar—

chiához is tartozhat. Utóbbira idézhetjük például az ,,állami gazdaságok" fogal- mát: ez mind az állami szektor intézménytípusai között, mind pedig a gazdaság—

típusok között is szerepelhet.

ALLAMI SZEKTOR

Állami vállalatok Államilgazdaságok Költségvetési intézmények és

MEZÖGAZDASÁGI TERMELÖEGYSÉGEK

!

§ i

l

Állami gazdaságok Termelőszövetkezetek Egyéni gazdaságok

A fastruktúrák információs szintekre bonthatók aszerint, hogy hány lépéssel megyünk lejjebb vagy feljebb. A hierarchiaszintek a vertikális (fa-) struktúrát hori—

zontálisan tagolják: az azonos hierarchiaszinten szereplő fogalmak egyforma mély-

ségig, szintig bontják a felettes fogalmat. ,

A statisztikai fogalmaik körében gyakran alakíthatók ki fastruktúrák mind gene-

rikus. mind logikai összefüggések alapján. Az utóbbiak alapján — a kiválasztott szempont szerint — egy fogalomhoz többféle tagolás, többféle struktúra is rendel- hető. Vegyük például a következő fogalmat: ..munkás". Ez bontható népgazdasági ágak szerint: ipari, mezőgazdasági stb. munkás. Az ipari munkások ismét tovább bonthatók iparágak szerint: vasipari, építőipari, textilipari stb. munkás. A ..munkás"

fogalma azonban például képzettség szerint is bontható: segédmunkás, betanított munkás. szakmunkás.

Nézzük meg e 'két utóbbi bontás strukturális rajzát:

iPARI MUNKÁS

l i l

Vc :ipari Gépipari Építőipari Textilipari stb.

(5)

258

DR. DIENES GEDEONNE

MUNKAS l

Segéd— Betanitott Szak-

munkás munkás munkás

E két struktúra össze is kapcsolható:

lPARlMUNKÁS

..__, l

")

: § l l *

Vasipari Gépipari Építőipari Textilipari stb.

Segéd— Betanított Szak— ' ,

munkas munkas munkós l ;

; ., l"§ ,MW

; !

Segéd- Betanított Szak- munkás munkas munkás

___M _m_;__—,M _, hl Segéd; Betanitott Szak- munkás munkas munkas

l l :

Segéd— Beta nított Szak—

munkás munkas

H Wl ' !

munkás

Ha a második és a harmadik hierarchiaszintet felcseréljük, ismét más szempont érvényesül a csoportosításban. Hogy mikor, milyen szempontok szerint cso—

portosítunk, azt mindig a feldolgozott részterület jellege és a visszakeresés szem- pontjai határ rozzó k meg.

A másik alapvető struktúratipus az ún. lineáris struktúra. amely a horizontális típusok közé tartozik. A lineáris struktúrák tulajdonképpen nem mutatnak hierar—

chiát, hanem csak valamilyen szempontból a fogalmak egymósmellettiségét. mellé—

rendeltségét jelzik. llyen kapcsolatok igen gyakoriak a statisztikában. főleg a tár- saclalmi és gazdasági jelenségekhez fűződő ún. általános statisztikai alapfogalmak esetében, mint például az ..ar" fogalma esetében, amely lehet: termelői ár, fo—

gyasztói ór, nagykereskedelmi ór. külkereskedelmi ár stb.

Végül meg kell emliteni az ún. hólóstruktúrát. Például:

fyyi/z/ űnme/p'kzóifg/rfzef

fal/afa?

JY/aW/Wzáasáy^/

fián/zi

(6)

A STATISZTIKAI INFORMÁCIÓKUTATÁS 749

A hálóstruktúra a statisztika területén oly gyakran található bonyolult, több- szintű és többdimenziós összefüggések szemléltető módon történő rögzítésére al—

kalmas. Ha például a földterület megoszlását művelési áganként, tulajdonformák szerint (állami gazdaság, termelőszövetkezet, egyéni gazdaság) és megyénként ki—

vánjuk kimutatni, akkor az összefüggéseket plasztikusan szemlélteti az előbbi háló—

struktúra.

Bonyolult összefüggések ábrázolására az információs rendszerek gyakran hasz—

nálják az Euler-féle köröket is.

Ezeknek a struktúráknak a kialakítása nem öncélú, hanem a statisztikai fogalmak rendszerezésének fontos eszköze és —— mint ilyen — nélkülözhetetlen az in- formációtárolás és -visszakeresés számára. A tárolásnál és visszakeresésnél nyil—

vánvaló, hogy a fogalmakat valamilyen rendszerben ,,helyükre" kell tenni. Amikor a statisztikai fogalmakat összegyűjtjük, rendszerezzük és megfelelő struktúrát ala—

kitunk ki a fogalmak elrendezésére, akkor ezzel tulajdonképpen a fogalmak logikai kapcsolatának lehetőségét és könnyű megtalálásukat biztosítottuk. Hogy mikor, melyik struktúra alkalmazása a helyes, illetve kívánatos, azt az adott terület sajá—

tosságainak és az információvisszakeresés szempontjainak figyelembevételével kell eldönteni, mint ahogy azt a ,,munkások" fogalmának példáján is láttuk.

A STATISZTIKAI INFORMÁCIÓK ÉS FOGALMAK CSOPORTOSITÁSA

A statisztikai információk megfogalmazására javasolt vagy alkalmazott fogal—

makat csoportosithatjuk jellegük szerint is, nevezetesen aszerint. hogy a társadalmi——

gazdasági élet egyedi vagy általános jelenségeinek fogalmaival állunk szemben, amelyek együttesen alkotják az információ tartalmi oldalát.

A társadalmi—gazdasági élet egyedi jelenségeit azok a fogalmak jelölik, amelyek egy—egy népgazdasági ágra, ágazatra, nyersanyagra, egy-egy konkrét termékre vonatkoznak, mint például ,,mezőgazdaság", ,,ipar", ,.vasipar", ,.állattenyésztés", ,,nehézfémek", ,,vas", ,,búza" stb. A fogalmi rendszerben játszott szerepük alapján nevezzük ezeket egyedi fogalmaknak.

A társadalmi—gazdasági élet általános jelenségeit azok a fogalmak jelölik, amelyek megmutatják, hogy az egyedi jelenségek milyen folyamatoknak lehetnek részei, milyen környezetben játszódhatnak le, milyen gazdasági aspektusban for- dulhatnak elő. llyen fogalmak például: ,,termelés", ,,ár", ,,forga'lom", ,,értékesités", ,,fogyasztás" stb. A fogalmi rendszerben elfoglalt helyükből kifolyólag nevezzük ezeket általános fogalmaknak.

Az egyedi fogalmak hierarchiába illeszthetők, és vertikálisan bonthatók. Pél- dául:

KÉMIAI ELEMEK

,,I ,_

i

Gázok Fémek stb.

. l

Könhyű- Nehéz-

fe'mek fémek

; i

———— ——————— — e — — v— — —— —— —.)

l

Alumínium Magnézium stb. Vds Nikkel stb.

(7)

750 DR. DIENES GEDEONNE

Az általános fogalmak vizsgálata azt mutatja. hogy ezek többnyire alhierarchika-

sak, nemigen alkalmasak vertikális struktúrákban való szereplésre, önmagukban

tovább nem bonthatók. és külső szempontok alapján való bontásuk is csak ún.

lineáris csoportokat nyújt. mint például ,,fogyasztás". amely lehet: egyéni fogyasz—

tás, közületi fogyasztás. társadalmi fogyasztás.

Az egyedi és az általános fogalmak összekapcsolása adja meg a statisztikai információ tartalmi meghatározását, amelyről cikkünk elején már szó volt. Például:

Egyedi [ Általános

fogalmak

Belkereskedelem forgalma

Búza termelése

Vas ára

Tej fogyasztása

A statisztikában az ilyen egyszerű kettős fogalomkapcsolatok mellett termé- szetesen többszörös fogalmi 'kapcsolódások is előfordulnak (mint például "ócskavas felhasználása vasöntödékben" vagy a ,,búza exportára").

Összefoglalásul tehát megállapíthatjuk, hogy jelleg szerinti csopOrtositást

— a jelenségek pontos meghatározásánál,

— a fogalmak gyűjtésénél. egységesítésénél és csoportosításánál. valamint

— a visszakeresési rendszer kialakításánál célszerű alkalmazni.

A STATISZTlKAl lNFORMÁClÓK LEIRÁSA ÉS FELTÁRÁSA

Az információfeldolgozás és —visszakeresés szempontjából fontos feladat az

információk leírása, ami azt jelenti. hogy részben formailag. részben tartalmilag érthetővé és kezelhetővé kell tenni őket.

Vegyünk például egy statisztikai kérdőívet. Ennek adhatunk ún. formai jellem- zőket: elrendelési számot, szakmai számot, sorszámot, dátumot stb. Ezek azt mutat- ják meg, hogy az adatgyűjtés melyik gyűjtési rendszerbe tartozik, melyik időszakra érvényes stb. Ezek a jellemzők tehát alkalmasak annak megállapítására, hogy valamely adatgyűjtés minek a keretében, mikor történt stb. Arra azonban már nem adnak választ, hogy az adatgyűjtés részleteiben, lényegében mit tartalmaz. Ezt a tartalmi jellemzőknek kell megmondaniuk. A tartalmi jellemzők tehát arról tájékoz- tatnak, hogy a kérdőíven milyen jellegű adatok találhatók, például mezőgazdasági vagy ipari. ezen belül például a termelőszövetkezetek vagy az állami gazdaságok adatai, ezen belül például az állattenyésztési vagy növénytermesztési adatok stb.

Tartalmi kódolás *

Az információk tárolásánál és visszakeresésénél — célszerűségi okoknál fogva -— szükség van a formai és tartalmi jellemzők olyan kifejezésére, amely könnyen kezelhető, és biztositja az információ azonosítását. Erre a célra -— bizonyos kor- látok között — jól felhasználhatók a megfelelően kialakított kódrendszerek.

A kódrendszerek kialakitásának szabályaival a kódoláselmélet foglalkozik, de bizonyos alapvető elvek röviden összefoglalhatók. Aszerint, hogy a kód az infar-

(8)

A STATISZTIKAI INFORMÁCIÓKUTATÁS 751

máció tartalmának egy vagy több ismérvét fejezi ki. beszélhetünk egyszerű és összetett kódrendszerről.

Az egyszerű kódrendszerek az információ egyetlen, általában a legfontosabb tartalmi ismérvének kifejezésére szolgálnak. Ilyen rendszer például az ,,lpari Ter-

mékek Jegyzéke" (ITJ). amelyben például a közlekedési eszközök kódolása:

41 Közlekedési eszközök

41—1 Vasúti vontató és önhajtású jármű 41—11 Gőzmozdony

stb.

Az egyszerű kódrendszerek nemcsak számokból, hanem betűkombinációkból is állhatnak. Ilyen kódrendszert használ például a FAO Technical Assistance Re—

ports lndex az országok jelölésére:

ADE Aden

AFG Afganisztán

Bot Bolívia

stb.

Az összetett kódrendszereknél a kód meghatározott jelei (pozíciói) a tartalom különböző aspektusaira utalnak. Ilyen rendszert alkalmaz például az említett FAO- index a dokumentumok jellemzésére. Például

20345—65—IND Fischer, V.

India. Food and Nutrition Extension Program. : FAO.1965.11 p.

ahol 20345 a dokumentum sorszámát, 65 a kiadás évét (1965), IND az érintett országot (India) jelenti.

A kódrendszereket csoportosíthatjuk továbbá a kódolásnál alkalmazott mód—

szerek alapján is. lgy megkülönböztetünk folyamatos, tömb—, csoportképző és ti—

zedes kódrendszert. '

A folyamatos kódrendszereknél az egyes jelenségekről rögzített információk folyamatos sorszámot kapnak a felmerülés sorrendjében. Ilyen sorszámot kapnak például a népszámláláskor az egyes személyekről kitöltött kérdőívek. Az ilyen kód—

rendszerek tartalmi utalásra és csoportosításra nem használhatók, és új tételek be—

sorolására is csak a sorszámok végén van lehetőség.

A tömbkódrendszerek hasonlóak az előbbihez azzal a különbséggel, hogy a kódolandó információkat előbb adott szempontok szerint tömbökbe (csoportokba) kell rendezni, és a sorszámozás csak azután történhet. Ez a rendszer is zárt, bár tömbönként bizonyos tartalék-számtartomány üresen hagyható. és így korlátozott

bővítésre van lehetőség.

A csoportképző kódrendszereknél minden egyes számjegy azonos fogalomcso—

portot jelent. Ilyen például az ENSZ nemzetközi *kódrendszere, az lSlC (lnternation—

al Standard Industrial Classitication), amely a következőképpen épül fel:

1 Mezőgazdaság, vadászat, erdészet. halászat 11 Mezőgazdaság és vadászat

1110 Mezőgazdasági termelés és állattenyésztés 1120 Mezőgazdasági szolgáltatások

1130 Vadászat. vadfogás, vadtenyésztés 12 Erdészet

stb.

(9)

A tizedes kódrendszer elvi felépítése azonos a csoportképző kódrendszerével azzal a különbséggel, hogy az egyes főcsoportokat jelölő kódokat a tizedes hely- érték növelésével tovább lehet bővíteni. Ilyen például a KGST Népgazdasági Ága—

zati Osztályozása:

Ol lpar

01.01 Villamos energia és hőenergia termelése 01.02 Tüzelőanyag—ipar

O1.02.01 Szénbányászat Ol.02.02 Kőolajbányászat stb.

A kódrendszerek mindegyikének megvan az előnye és a hátránya is. Általában

előnyösen használhatók egyirányú logikai összefüggések jelölésére és egyszerűbb

logikai azonosításra. Hiányosságuk viszont általában az, hogy az információk kö—

zötti bonyolultabb összefüggéseket a logikai kapcsolatok nem tudják kifejezni, to- vábbá, hogy legtöbbjük valamilyen szempontból zárt rendszer, és így új informá- ciók beilles7tése nehézkes.

A kódrendszerek hiányosságait természetesen különböző módszerekkel át le-

het hidalni, például azzal, hogy egy információ jelölésére több kódot alkalmazunk.

vagy egy kódba több jellemzési szempontot építünk be. Bizonyos korlátok azonban így is megmaradnak, nevezetesen: nem lehet hosszú és bonyolult kódokat alkal—

mazni, mert veszélyeztetik az érthetősuéget és áttekinwthetőséget, valamint a feldolgo- zósnc'il sok helyet vesznek igénybe, és növelik a hibalehetőségeket.

Az ilyen kódrendszerek tehát csak bizonyos korlátok között alkalmazhatók az információk tartalmi feldolgozására. A modern információvisszakeresés pontossága

viszont megköveteli az információk tartalmi feltárását.

Tárgyszavak és tórgyszórendszerek

A modern információvisszakeresésben a tartalom megjelölésére mind gyak- robban használnak tárgyszavakat, deszkriptorokat. Deszkriptoron a valóság valamely területének egységesített fogalmait, szakkifejezéseit értjük, amelyeket adott információ—rendszerben meghatározott tartalommal kötelezően használnak.

Valamely információ—rendszerben a tárgyszavak kiválasztására, rendszerezé- sére és használatára megfelelő szabályokat kell kidolgozni, mert csak így hozható létre olyan egységes formai rendszer. amely információfeldolgozás és -visszakeresés alapjául szolgálhat. Ennek érdekében össze kell gyűjteni a szakterület fogalmait, és ki kell alakítani a fogalmi rendszer struktúráját.

A statisztikai szakterület fogalmainak begyűjtése történhet szakkönyvekből, adattárakból, alapbizonylatokból, statisztikai táblákból, korábbi szógyűjtemények anyagának továbbfejlesztéséből.

A statisztikai fogalmi rendszer szerkezetének kialakításánál támaszkodni lehet a már meglevő fogalmi rendszerekre, de ki lehet alakítani egy-egy szakterület megfelelő új fogalmi rendszerét is. Ez mindenkor megfelelő statisztikai szakisme—

retet is igényel.

A szakterület fogalmainak begyűjtése után elengedhetetlen azok egységesí—

tése, vagyis az egységes deszkriptor-rendszer kialakítása. Annak ellenére, hogy a deszkriptorok, mint fentebb említettük, egységesített fogalmak, az információ- rendszeren belül mégis beszélünk szinonímákról, vagyis azonos értelmű szavakról (például indexszám—viszonyszóm), homonímókról, vagyis azonos alakú, de eltérő értelmű szavakról (például hét mint számnév -— hét mint időtartam), valamint

(10)

A STATISZTIKAI INFORMÁCIÓKUTATÁS 753

kváziszinonímákról, vagyis olyan szavakról. amelyek értelmileg részben eltérők, de közös tartalmi vonásuk is van (például vizi energia — villamos energia —- hőenergia).

A deszkriptorok összeállításánál számos nyelvi probléma is felmerül. Meg kell például állapodni abban, hogy

—- milyen szófajokat használunk a rendszerben (általában a főnévi forma használatos, az igei formákat ajánlatos kerülni),

— milyen írásmódot használunk (például sulphur vagy szulfur),

- mikor használunk egyes, mikor többes számot (például munkás vagy munkások),

— mikor használunk melléknévi jelzőt (például építőpari munkás, termelési érték).

-- mikor és milyen rövidítéseket használunk (például KGST, KGM).

Az így kialakított deszkriptorokat valamilyen rendszerbe, ún. szótárba kell fog- lalni. A deszkriptorok strukturált szótárát nevezik az informatikában tezaurusznak.

A tezaurusz tehát valamely szakma. tudomány vagy ismeretág (például statisztika) lehetséges deszkriptorainafk —— esetleg nem deszkriptoraínak is —- rendszeres fel- sorolása.

A terjedelmi korlátok miatt nem térhetünk ki a tezauruszok összeállításának módszertani kérdéseire, ezekkel amugyis meglehetősen bő szakirodalom foglalkozik. Annyit azonban érdemes megemlíteni, hogy szerkezetüket tekintve lehetnek:

— betűrendes tezauruszok, amelyek a deszkriptorokat és esetleg a nem deszkriptorokat (szinonímák, homonímák, tiltott szavak stb.) betűrendben sorolják fel,

- szisztematikus tezauruszok, amelyek a deszkriptorokat valamilyen osztályozási rendszerben vagy strukturában összesítik.

Vannak tezauruszok, amelyek külön szótárban, illetve szótárrészben adják a deszkriptorokat és külön a nem deszkriptorokat.

Bármilyen legyen is a tezaurusz felépítése, lényeges eleme, hogy a logikai kapcsolatokat. összefüggéseket feltüntesse. Komplikált összefüggések kifejezésére itt is gyakran használják a szemléltető ábrázolást, a gráfelmélet nyújtotta lehető—

ségeket, az Euler-féle köröket és így tovább.

A mondottae'k illusztrálására röviden bemutatjuk az Euratom tezauruszát, amely a következő részekből áll:

1. az indexelő szavak (deszkriptorok) betűrendes jegyzéke;

2. a tárgyszavak (deszkriptorok és nem deszkriptorok) betűrendes jegyzéke a megfelelő hierarchikus relációk jelölésével;

3. a gráf-diagramokkal ábrázolt témaköri. hierarchikus relációkat is kifejező index;

4. a szinoníma-relációkat kifejező ún. ,,invertált szótár".

Bonyolult rendszerek esetében kívánatOS egyes részterületekre vonatkozó ún.

résztezauruszok összeállítása. amelyeknek anyaga természetesen nem hiányozhat az átfogó ún. alaptezi—auruszból sem. Tekintettel a statisztika sokrétűségére. nyil—

vánvalóan ez a szempont a hazai feldolgozásban is érvényesítendő lenne. Külön résztezauruszokat lehetne összeállítani például az iparstatisztika, a mezőgazdasági statisztika, a demográfia stb. vonatkozásában.

Az információ-rendszerek tartalmi vonatkozásának korszerű megszervezéséhez hozzátartozik még a rendszerben használt fogalmak tartalmi meghatározását nyújtó ún. definíció-szótár felállítása. Végül elengedhetetlen a rendszer kialakí- tásában és működtetésében az ún. módszertani dokumentáció, amely az egyön- tetűség kedvéért a gyűjtésnél. rendszerezésnél és feldolgozásnál alkalmazandó

módszereket, eljárásokat tartalmazza.

A vázolt feltételek hiánya bonyolultabb információs rendszerek esetében mű—

ködési nehézségeket okoz még megfelelő technikai feltételek mellett is. Ezért. mint

4 Statisztikai Szemle

(11)

ahogy az Euratom példáján láttuk, a nagyobb rendszerek valóban figyelembe veszik

az ismertetett módszertani meggondolásokat és alkalmazzák a szükséges segéd-

eszközöket.

KEZDEMÉNYEZÉSEK AZ lNFORMÁClÓKUTATÁSl MÓDSZEREK STATISZTIKAI ALKALMAZÁSÁRA

A statisztikai információk egységes kezelésével kapcsolatos igények és szűk- ségletek felismerése nem mai keletű hazánkban. Ilyen irányú törekvések termékei például a Központi Statisztikai Hivatal által kiadott különböző statisztikai fogo- lommagyarázatok és termékjegyzékek.1 Ezek első jelentős állomásai a fogalmak egységesítésére irányuló törekvéseknek. Összeállítóizk általában lényeges gyakor- lati szempontokat tartottak szem előtt: a statisztikailag vagy tartalmilag nem vilá—

gos, illetve kevésbé ismert fogalmak magyarázatát adták. Nem volt feladatuk sem a fogalmak közötti összefüggések megvilágítása, sem a hierarchikus kapcsolatok feltüntetése (ez alól kivétel az ,,lpari termékek jegyzéke"). Általában nem egyszintű fogalmakat sorolnak fel, és nemcsak fogalmi magyarázatokat adnak, hanem oly—

kor számítási módszereket is ismertetnek. Ezek a kiadványok olyan hasznos és nélkülözhetetlen eszközök, amilyenekre a statisztikai informatifkának a jövőben is szüksége lesz.

Míg a Központi Statisztikai Hivatal említett kiadványai a fogalmak egységesí- tésére törekedtek. addig a KSH Könwtárában más irányból igyekeztek meg—közeli?

teni az információkutatás kérdéseit. nevezetesen a visszakeresés oldaláról. Ezek a kezdeményezések akét kiadványban nyertek formát.

Az egyik a ,,Munkabér — kereset, 1960—1968" című kiadvány,2 amelya Központi

Statisztikai Hivatal lCT 1904—es számítógépén készült, és amelynél nem az adat-

tároló, hanem a cimtároló információbázis kialakítása lehetőségeinek vizsgálata volt a cél. A címtároló információbázisok nem az adatokat. hanem azok lelőhelyeit adják meg. A Könyvtár sajátos feladataiból következik, hogy az ilyen irányú gépi megoldások közül kell megtalálni a speciálisan statisztikai szempontoknak leg—

jobban megfelelő módszereket.

KWlC—(Keyword ln Context) rendszerű feldolgozáson a szakirodalomban olyan deszkriptoros visszakereső rendszert értenek. amelynél a deszkriptorok egymással összefüggenek, mondatot alkotnak. A mondatokban szereplő, relevánsnak mi—

nősített tárgyszavakat (deszkriptorokat) a számítógép permutálja, és a kereső osz—

lop megfelelő betűrendjébe sorolja. A munka során relevánsnak minősítettek az összeállítók minden olyan szót, amely — feltételezésük szerint -— a keresés vezér- szava lehet (például munkás, alkalmazott, foglalkoztatott, munkabér, kereset, ipar.

mezőgazdaság stb.). Szükségessé vált a nyilvánvalóan szinoním fogalmak (például ipari tanuló —- szakmunkástanuló) kettős használatának kiküszöbölése is, vagyis a szóhasználat egységesítésére kellett törekedni. Nem volt azonban feladat a sta—

tisztikai fogalmaik tartalmi azonosítása, illetve egységesítése. így például nem for—

dítottak figyelmet arra, hogy a ,,foglalkoztatottak" fogalmába mikor mi tartozik,

de erre egy adattároló információbázisnak'— az adatok összehasonlíthatóságának biztosítása céljából —— nyilvánvalóan ügyelnie kell.

1 Lásd például: Fontosabb fogalmak magyarázata (a Statisztikai Évkönyv. a Magyar Statisztikai Zseb- könyv és a Statisztikai Havi Közlemények-ben leggyakrabban használt fogalmak magyarázata). Budapest.

1963. 222 old. és 1967. 172 old.: Mezőgazdasági statisztikai fogalmak magyarázata. Budapest. 1970. 62 old.;

Ipari termékek jegyzéke tartalmi meghatározásai 1—2. köt. Budapest. 1967.; lpari termékek jegyzéke és me—

zőgazdasági termékek kereskedelmi jegyzéke. Budapest. 1972. 449 old.

? Munkabér—kereset. 1960—1968. Magyar statisztikai források. KWIC-index. Központi Statisztikai Hivatal Nyilvános Könyvtára. Budapest. 1969. 284 old.

(12)

A STATISZTIKAI iNFORMACIÓKUTATÁS 755

A táblák tartalmát meghatározó deszkriptorok a következő forrásokból szár- maznak: a tábla címéből, fej- és oldalrovataiban szereplő szövegből. a lábjegyze—

tekből, esetleg a kiadvány előszavából vagy módszertani megjegyzéseiből. A feldolgozott táblákból így 1950 ún. gépi alapsor kialakítására került sor. Mivel egy

alapsor hossza technikai okokból nem haladhatta meg a 130 pozíciót, ki kellett

alakitani -— mindig a tábla szerkezetének megfelelően —- azt a hierarchiaszintet, amelyen —— lerövidítve, összevonva, de pontosan —— visszaadható a tábla tartalma.

(Például. ha a tábla felsorolta a műszaki alkalmazottakat 15-65 bontásban, az index egy szövegsorában csak az összefoglaló .,műszaki alkalmazottak" deszk—

riptor volt használható, de kereszt jelzi, hogy a fogalom részletes bontásban ta-

Iálható.

A könyvtár másik hasonló kiadványa az ,,Árak—árindexek" szintén címvissza- kereső index, de már nem permutált, hanem strukturált.3 Ebben 29 nemzetközi és nemzetközi áradatokat közlő statisztikai folyóiratnak árakra, árindexekre vonat-

kozó tábláit dolgozták fel. A feldolgozás módszere az előző kötethez hasonló, de

változott a táblákról készített sorok formai összeállítása és csoportosítása. A sorok nincsenek .,mondatszerűen" kialakítva, de a tartalmi egyértelműség természete—

sen megmaradt. A sorok ebben a kiadványban az ISIC nemzetközi kódrendszer főbb szakcsoportjai szerint vannak csoportosítva, ezeken belül a termékek betű- rendben szerepelnek. Ehhez a munkához már egy ,,munka-tezauruszt" is össze kellett állítani a különböző nyelvekből magyarra fordított fogalmak egységessé—

gének biztosítása céljából.

A STATISZTIKAI INFORMÁCIÓKUTATÁS AKTUÁLIS FELADATAI

Az említett kezdeti próbálkozások hasznosak voltak. kétségtelen azonban.

hogy a modern információigényeket csak egységes, integrált információ-rendszer képes kielégíteni. Ilyen rendszerben a különböző formájú (irat, tábla, kiadvány

stb.) és különböző (például kézi, számítógépes) módszerekkel feldolgozott infor—

mációk egységes, összefüggő rendszert alkotnak, de helyileg, a tárolók formáját te—

kintve, valamint szervezeti hovatartozásuk és hozzáférhetőségük szempontjából kü—

lönböző megoldások koordinácmiat igénylik, tekintettel arra, hogy a statisztikai információkat különböző szinteken és helyeken, például:

—- egyes főhatóságoknál, központi szerveknél, ágazati intézményeknél és vállalatoknál.

— a Központi Statisztikai Hivatalban,

—— a Központi Statisztikai Hivatal számítógépes adatbázisában,

—- a Központi Statisztikai Hivatal irattárában,

- a Központi Statisztikai Hivatal Könyvtár és Dokumentációs Szolgálatnál (a hazai és külföldi publikációkban)

dolgozzák fel és tárolják.

Ahhoz, hogy egy ilyen sokrétű információbázis a modern követelményeknek megfelelően működjék, még közismerten sok feladat vár megoldásra. Ezek közül kívánok néhányat befejezésképpen megemlíteni.

1. Ami az egyeséges fogalmi rendszer (kialakítását illeti, ehhez a Központi Statisztikai Hivatal elnökének vonatkozó utasítása/* biztos alapot nyújt. Ezek a mun—

kálatok nemcsak a párhuzamosságok elkerülése miatt fontosak, hanem biztosítják

3 Árak — árindexek. Statisztikai dokumentáció. Központi Statisztikai Hivatal Könyvtár és Dokumentációs Szolgálat. Budapest. 1972. 82 old.

4 A Központi Statisztikai Hivatal elnökének 1/1970. (VII. 4.) KSH számú rendelkezése az állami statisztikai adatgyűjtési rendszer fejlesztéséről. Magyar Közlöny. 1970. július 4-i 56. sz., Illetve Statisztikai

Szemle. 1970. évi 8—9. sz. 970—973. old. * v *

4.

(13)

756 DR. DiENES GEDEONNE

a tartalmi homogeneitást is, és így az információ—rendszer számára is nélkülöz- hetetlenek.

2. A meglevő többféle nyilvántartás mellett szükség van olyan dokumentációs rendszerre, amely nemcsak a Központi Statisztikai Hivatal adatgyűjtéseiről nyújt tájékoztatást, hanem bekapcsolja a főhatóságoknál folyó ilyen irányú tevékeny- séget is. Az ilyen nyilvántartási rendszer akkor töltené be feladatát. ha olyan előre , meghatározott tárgyi karakterisztikákat is magában foglalna, amelyek az inform—á- ciók bizonyos formai és tartalmi jellemzőire is felvilágosítást nyújtanak. A jelen- legi ún. .,elrendelési szám" ezeket a követelményeket általában csak kismértékben elégíti ki.

3. Olyan visszakeresési rendszert kell kialakítani vagy adaptálni, amellyel a

különböző szinteken és tárolókban tárolt információk visszakereshetők. Ezen fel- adatkörön belül elengedhetetlen

— a statisztikai fogalmak összegyűjtése.

— a fogalmak közötti összefüggések feltárása, vagyis a magyarországi statisztikai tezau—

rusz elkészítése, *

— a tezaurusz összekapcsolása a visszakeresési rendszerrel és

k 'jbaz így kialakított rendszer modells'zerű kipróbálása a statisztika valamennyi vona*- ozasa an.

*

A fentiekben vázlatos képet kívántunk adni a statisztikai információkutatás egyes módszereiről és feladatairól, amelyek nyilvánvalóan további bővítésre és elem—

zésre szorulnak. Reméljük. hogy sikerült néhány gondolattal hozzájárulni az infor—

mációs problémák megoldásához.

lRODALOM

Becker, J.—Hayes, R. M.: information storage and retrieval: tools, elements. theories. Wiley. New York — London. 1963. 448 old.

Dr. Dörnyeí József—DI. Ormai László: Bevezetés a statisztikai informatikába l. Központi Statisztikai Hivatal. Budapest. 1971. 132 old.

Dr. Horváth Gyula: A statisztikai információkezelés modern megszervezésének problémái. Statisztikai Szemle. 1970. évi 6. sz. 659—676. old.

Varga Dénes: Információs tezauruszok készítésének módszertana. Országos Műszaki Könyvtár és Dokumentációs Központ. Budapest. 1969. 156 old.

Vickery, B. C.: On retrieval system theory. Butterworths. London. 1968. XII, 191 old.

Thesaurusrichtlinien. Nachrichten für Dokumeniah'on. 1970. évi 12. sz. 20—22. old.

PEBIOME

AMI xpaneuun " BbXSOBa orpomuoü maccm nmpopmagrm cyxgec'mye-r HCOÖXOJIHMOCTb n paapaőo'me cooraercmyloxgnx CpeACTB u rue-rogton. Crona OTHOCHTCX CHCTemaTusagnn u yr—m- rpmcagnx manna-m? nauuoii cnegnanfnoi'l OTpaCAH, a 'raKme pacprrme H ormcamre cyxgecuw Byrolgen memay m-uvm Beaumocanaeu.

Katrecme nepnoro mara nya—mo onpeaeAm'b Kommecmo anpopmagnu, Kompoe co cTa- Tnc'muecxoü TO'IKH eper-um momuo cin/nam, onpeaeAeHHoffr no coaepmauum, B ennnngax Ha- Mepeunn, B IlpOC'l'paHCTBe n Bpemenn. STo'r Bonpoc momno perm—nb TOAbKO B TOM mytxae, cum Mb! Bbmcrmm noHnTHe eAeMeHTapt—xofi a cnomnoü umpopmagmr.

npn nccxxezxoaamm csnseffl mer—Kay no'roxcamu nmpopmagnn Moxmo paaAuua'rb Bep'mmmb- Hble n ropusoHTaAmee eprK'rypr B CAygae nepablx ocylgeCTBAse'rcn npungnn cyőxoop—

annagmr pr ynpaBAem—m, a B cnyuae nocnem-mx — npnngm'x Amieífmoü Koopannagnn. Haka- neg, moga omocx'rcn T. H. ceTeBbIE e'rpym—ypbr, KOTOpre HAAIOCTpprmT MHoromepnme Baan- mocanau.

B CAyuae rpynnuponku c'ra-mcrmrecxnx nommrü no nx xapaKTepy Mb! paswaaeM mum- BnayaAbubre n oőlgue nounTnn.I/Ix ysnaka aae'r onpeaeAeHue coaepmauun cTa'mcrnuecxoí—i uamopmagmr.

(14)

A STATISZTIKAI INFORMÁClÓKUTATAS 757

C "mmm sperma OÖpaÖO'I'KH 14 BbIBOBa nmpopmagnn aamnoü saaalreífr nemre-ren onucanne umpopmaguü, two moxmo OCYIgCCTBAHTb c nomoigmo Kom—rponannn no conepmanmo mm npn—

meneunx CHCTCM npeztme'mbrx cnos. HocAenHee Aytune yszAeTaopne-r nymaaM oöpaömkn unmopmagnu.

sakmov—mrenbnoü ltacrn cBoero oeepxa aB'rop OCTaHaBAHBaeTCH Ha npoaommoü B BeHrepCKOM LiempaAm—x—om C'ra'mc-rntrecxom ynpaener—mu paÖOTe, geAbro Roropoü mum—

BTC)! ynmpmtagnn CTaTHCTl/HECKHX nomrrniír.

SUMMARY

Storing and retrieving mass of information reauires developing appropriate means and methods. The collection and unification of concepts of the special field in auestion, as well as the exploration and description of connections and relations existing among these concepts belong also here.

As a first step the auantity of information must be determined. From the point of view of statistics it can be treated as a figure limited in content, in unit of measurement. and i".

space and time. its content can be defined if only the concepts of elementary and complex informations are explained.

lnvestigating the relations among pieces of information vertical and horizontal structures can be marked out. The principles of subordination and superordination are operative in the former but that of linear co-ordination is valid in the latter ones. Lastly the so-called net- structures are attached to here which demonstrate multi-dimensional correlation.

Grouping statistical concepts by their characteristics individual and general ones may be distinguished. The content definition of statistical information is given by their combi- nation.

From the point of view of processing and retrieving information an important task is their description which can be done by coding their content or using a system of subject index.

The latter meets better the demand of processing information.

ln the concluding part of the study the author discusses the work of the Hungarian Central Statistical Office aimed at the unification of statistical concepts.