A statisztikai hivatalokban alkalmazott adatbázis-rendszerek és fejlesztésük

(1)

A STATISZTIKAI HIVATALOKBAN ALKALMAZOTT ADATBAZlS-RENDSZEREK ÉS FEJLESZTESUW

Általánosan elfogadott megállapítás. hogy a statisztikai hivatalok szempontjá- ból előnyös, azaz munkájuk hatékonyságát nagymértékben növelheti az integrált információs rendszerek kialakitása, amennyiben azok célja:

— az adatszolgáltatókra háruló munka csökkentése:

— a rendszeres adatfelvételek és az ad hoc igények azonnali és megbízható feldol-

gozása, Illetve kiegészítése; *

—- új alkalmazások és előre nem tervezett vagy kevésbé egyértelműen definiált elem- zések — jelentéktelen késedelemmel való - végrehajtására lehetőséget nyújtó környezet ki—

alakítása és biztosítása;

—— az adatok minőségének javítása.

E célkitűzések egyértelműen azonosak az adatbázis—rendszerekkel és az adat—

bázis—kezelő rendszerekkel kapcsolatos célkitűzésekkel.

Ahhoz, hogy felmérjük és megvitassuk az adatbázisoknak és az adatbázis-ke—

zelő rendszereknek a statisztikai hivatalok munkájában játszott szerepét és arra gya—

korolt hatásait, továbbá ahhoz, hogy meghatározzuk az adatbázis-rendszerekkel kapcsolatos jelenlegi és jövőbeni követelményeket, elengedhetetlenül szükséges, hogy hiánytalanul és pontosan definiáljuk az adatbázis—rendszerekkel kapcsolatos alapfogalmakat.

A szakirodalomban többször megkísérelték már pontosan definiálni az adat—

bázis fogalmát. de ezek a meghatározások meglehetősen eltérők. így található kö—

zöttük az elfogadhatótól kezdve teljesen használhatatlan definíció. A Rapportőr Csoport megkísérelte a rendelkezésre álló nagyszámú definícióból kiválasztani azt a meghatározást, amely a legpontosabban definiálja az adatbázis és az adatbá- zis-kezelő rendszer fogalmát: ,,Az adatbázis olyan adathalmaz, amelyben a sajá- tos elrendezésű. illetve struktúrájú adatok logikailag összefüggnek, és az adatok közösen leírhatók, illetve egységesen definiálhatók. Az adatbázis egyben a valós világ modelljét reprezentálja, így felhasználási, illetve alkalmazási köre rendkívül sokrétű."

Az ..adatbázis-kezelő rendszer" kifejezést olyan software—rendszer megjelölésére használják, amelynek egyes összetevői — az adatbázis-kezelés általános probléma- körén belül —— egymástól függetlenül is felhasználhatók bizonyos speciális funk- ciók ellátására. Egy adatbázis-kezelő rendszer tehát a következőképpen definiál-

* Az anyagnak, melyet rövidítve közlünk, eredeti címe: Report on the use and future need for data base management in national statistical services (CES/WP. 9/157). A Jelentés az Európai Gazdasági Bizott- ság Európai Statisztikusok Ertekezletének Elektronikus Adatfeldolgozási Munkacsoportja részére készült. A je- lentés elkészítésében Csehszlovákia, az Egyesült Államok. az Egyesült Királyság, Franciaország. Kanada.

Magyarország, a Német Demokratikus Köztársaság, Románia. Svájc és Svédország statisztikai hivatalainak szakértői vettek részt.

(2)

744 AZ ADATBAZIS-RÉNDSZEREK

ható: olyan rendszer, amely .,kezel", illetve ,,vezérel" olyan műveleteket. mint adat—

tárolás. adatvisszakeresés. aktualizálás, és összekötő szerepet tölt be az adatbázis

és az alkalmazói programok között. Az adatbázis-kezelő rendszer feladata továbbá az adatbázisban tárolt adatok integritásának és védelmének biztosítása, és az adat-

kezeléssel és vezérléssel kapcsolatos számos más művelet irányítása.

A statisztikai és a ,.nem statisztikai" információs rendszerek, következésképpen a statisztikai és az általános adatbázis—kezelő rendszerek közötti különbség nem alapvető, hanem fokozatbeli.

A statisztikai rendszerek speciális jellemzői az alábbiakban összegezhetők:

-— a statisztikai adatbázis-kezelő rendszerek által tárolandó és feldolgozandó adatsorok.

adattömbök gyakran rendkívül nagyok és többdimenziósak;

— a speciális adatstruktúrák — más adatbázisokhoz viszonyítva — másfajta elérési mecha- nizmusokat és ezért másfajta adatbázis—kezelő software-t igényelnek;

-— a statisztikai adatok speciális jellemzője. hogy az idő függvényében folyamatosan akkumulálódnak, és ezek a felhalmozott adatok biztosítják az alapot a statisztikai idősorok összeállításához és a mutatók kiszámításához (bár mindig a legfrissebb adatokat használják leggyakrabban, a korábbi adatfelvételekből származó adatokat is meg kell őrizni, és ezek—

hez a régebbi adatokhoz is biztosítani kell a hozzáférést);

-- szükség van nagy mennyiségű számított (aggregált) adat tárolására és karbantartá- sára, mivel ezek ismételt előállítása jelentős költségekkel jár; a statisztikai adatbázist mun—

kájuk során különböző szakemberek. így szakstatisztikusok és számítástechnikai szakértők is felhasználják, mindezeknek a szakembereknek egyaránt ismerniök kell az adatbázis struk—

túráját és tartalmát.

lgy tehát a statisztikai adatbázis—kezelő rendszernek széles körű lehetőségeket kell biztosítania mind a struktúra mind a tartalom definiálásához azért, hogy a szakemberek mind egymással. mind magával az adatbázissal megfelelően kapcsolatot teremthessenek. Ebből következik, hogy az adatbázisnak szükségszerűen tartalmaznia kell egy .,metabázist". azaz adatszótárakat és —katalógusokat.

A metaadatok a statisztikai adatbázisnak szerves részét alkotják különösen ak—

kor. ha a felhasználók kihelyezett terminál-berendezések útján közvetlenül használ- iák az adatbázist.

AZ ADATBÁZlS-KEZELÖ RENDSZEREK lRÁNTl lGÉNY

A statisztikai hivatalok adatbázis-kezelő rendszerek iránti igényét vizsgálva az alábbi három kérdéssel kell foglalkozni:

—— döntő jelentőséggel bírnak-e az adatbázis-kezelő rendszer speciális tulajdonságai, illetve jellemzői a statisztikai adatfeldolgozás vonatkozásában:

— elősegíti-e az adatbázis-rendszerek bevezetése és alkalmazása a statisztikai művelet- végzések tökéletesítését, a teljesítőképesség fokozását és a statisztikai számítások hatékony—

ságának növelését;

— a felmerülő költségek döntő szerepet játszanak annak eldöntésénél, hogy célszerű-e a statisztikai hivatalokban adatbázisok felállítása és adatbázis-kezelő rendszerek alkalma- zasa.

Az adatbázis-kezelő rendszer alkalmazhatóságának kérdése

Az adatbázis-kezelő rendszer előnyei az alábbiakban összegezhetők:

a kívánt adatokhoz való gyors és egyszerű hozzáférés.

centralizált adatkezelés, konzisztens adatok.

az adatok integrálása,

a redundáns adatok kiszűrése.

(3)

AZ ADATBÁZlS-RENDSZEREK 745

Mivel egy adatbázis-kezelő rendszer biztosítja a felsorolt előnyöket. mind álta- lánosabbá válik az adatbázis-kezelő rendszerek tervezése, fejlesztése és alkalma- zása. és már több tucat általános adatbázis-kezelő rendszert fejlesztettek ki.

Az adatbázis—kezelő rendszerek statisztikai célú alkalmazásának vizsgálatánál figyelembe kell venni, hogy mennyire lényegesek ezek a sajátosságok.

Azáltal, hogy mind elterjedtebben alkalmaznak számítógépeket elemzési és ökonometriai célokra. egyre nyilvánvalóbbá válik, hogy a különböző feldolgozások végeredményei egymással szoros összefüggésben állnak. Például a makroökonómia területén az elemző statisztikusnak ahhoz, hogy egy felmerülő. különböző kompo—

nensű igényt kielégíthessen. sok esetben olyan információkat kell együttesen fel- használnia, amelyek egymástól független adatgyűjtések és adatfeldolgozási műve—

letsorozatok eredményei.

Egyre fokozódó mértékben érvényes ugyanez a külgazdasági kapcsolatok vonatkozásában is. ahol az elemzők az eredeti információforrásra való tekintet nél- kül egymással összefüggő olyan mutatókra vonatkozóan, mint például a termelés, a foglalkoztatottság, az import és az export, idősoradatokat kívánnak egymással

összehasonlitani.

A szükséges adatok azonban rendszerint különböző számítógépes adatállo- mányokban találhatók, gyakran más-más helyen és eltérő formában tárolva. Ritkán fordul elő, hogy a kívánt adatok idősorok formájában közvetlenül állnak rendel—

kezésre. lgy többnyire szükségessé válik először a kívánt adatok visszakeresése és ezt követően a visszakeresett adatok újrafeldolgozása.

Az informácid—visszakereséssel kapcsolatban felvetődik számos további prob—

léma is, bár megoldást jelenthet — abban az esetben, amikor nagyszámú felhasz—

náló részére kell az adatokhoz azonnali hozzáférést és hatékony feldolgozást bizto—

sítani — egy adatbáziSArendszer kialakítása és egy adatbázis-kezelő rendszer be- vezetése. Az elemző szempontjából alapvető fontosságú. hogy a rendelkezésre álló adatok pontosak és megbízhatóak legyenek, ugyanakkor biztosítani kell az adatok védelmét, továbbá a meglehetősen gyakori aktualizálásokat és módosításokat is.

Ezért célszerűnek látszik az adatbázis-megközelítés és az adatbázis-kezelés alkalmazása a statisztikai számítások területén.

A statisztikai adatokat hagyományosan két fő kategóriába sorolták:

mikroadatok. azaz egyedi felvételek tárgyára vonatkozó elsődleges (alap-) adatok.

makroadatok, azaz aggregált adatok.

A mikro- és a makroadatok elhatárolása viszonylagos jellegű, de ennek a meg—

különböztetésnek a statisztikai adatok feldolgozási módja szempontjából fontos gyakorlati következményei vannak.

A statisztikai adatok túlnyomó többségét reprezentáló mikroadatokat minde- nekelőtt az igen nagy volumen jellemzi. Ennek következtében a mikroadatokat rendszerint mágnesszalagokon tárolják, ez a tárolóeszköz azonban nemigen felel meg a jelenleg alkalmazott és rendelkezésre álló adatbázis-kezelő rendszertechnikáknak.

Ugyanakkor a mikroadatokna'l alkalmazott eljárások — hibaellenőrzés, hibajavítás, szerkesztés, aggregálás stb. — nem követelik meg feltétlenül a bonyolult és fejlett adatbázis-kezelő módszerek és adatstruktúrák alkalmazását; az adatok szekvenciá—

lis feldolgozása általában kielégítőnek bizonyul. Ezen túlmenően, a mikroszinten különösen nagy jelentőséggel bíró adatvédelem biztosítása és a bizalmas adat—

kezelés iránti igények kielégítése az adatbázis-technika alkalmazása nélkül is meg- oldható. Ugyanakkor viszont a adatbázis—technika alkalmazása a mikroadatok fel- dolgozásánái kétségtelenül elősegíti az adatok egyszerűbb és gyorsabb elérését,

(4)

746 AZ ADATBÁZlS-RENDSZEREK

valamint az adatok -— eredetileg nem tervezett - különböző célú ismételt felhasz—

nálását. Ugyancsak az adatbázis-rendszerek alkalmazása mellett szól. hogy a mik- roadat—feldolgozások során nagymértékben csökkenthető a redundáns adatok meny—

nyisége, továbbá megszüntethetők az adatállományon belüli és az adatállományok közötti párhuzamos adattárolások.

Néhány statisztikai hivatalban, nevezetesen Kanadában. a Német Demokratikus

Köztársaságban, Magyarországon és Svédországban megfelelő adatbázis-technika alkalmazása révén tökéletesítették a mikroadatok felhasználását, és így csökken-

tek az ilyen jellegű adatfeldolgozások költségei is.

Az idősoroknak — függetlenül attól, hogy mikro- vagy makroadatokbál állnak

—— megvannak a sajátos jellemzőik, és ezeket a sajátosságokat figyelembe kell ven—

ni az adatbázis megszervezésénél.

Az integrált statisztikai adatokkal és statisztikai adatfeldolgozással kapcsolatos kezdeti naív elképzelésekkel szemben az elmúlt néhány év során fokozatosan reá—

lisabb meggondolások alakultak ki. A statisztikai szolgálat még a viszonylag ki-

sebb országokban is rendkívül nagyméretű rendszert reprezentál. Egy ilyen nagy rendszernek a kezelése és irányítása elképzelhetetlen a rendszer kisebb alrendsze—

rekre történő felosztása nélkül. Ugyanez érvényes az adatbázisok vonatkozásában is. Nem lenne reális elvárás, hogy valamennyi statisztikai adat egyetlen hatalmas méretű adatbázis részét képezze, mivel egy ilyen hatalmas rendszer minden valá—

színűség szerint rendkívül rossz hatásfokkal működne, és kezelhetetlen lenne.

Sokkal inkább elfogadhatónak és célravezetőbbnek látszik több olyan adatbá- zis alkalmazása. amelyek közül egyesek speciális témaorientált adatokat tartalmaz—

nak, mások pedig például a csaknem valamennyi szakstatisztikai osztály által alkalmazott nyilvántartásokat stb. Az integrációt a statisztikai hivatal valamennyi adat—

bázisánál alkalmazott, így minden adatbázisra jellemző közös általános fogalmak biztosítanák, azaz a hangsúly inkább az adatok logikai és nem a fizikai integrá- lására helyeződik. amikor is a felhasználók tudják, hogy milyen információk állnak rendelkezésre, továbbá azt. hogy hol találhatók ezek az információk.

Az adatbázis-kezelés és az adatkoordináció új funkciói jelentős mértékben elő—

segíthetik mind a speciális szakstatisztikai, mind pedig a közös hivatali adatbázisok hatékonyabb kihasználását.

A statisztikai szolgálat kiszélesítése és hatékonyságának növelése

A kialakult hagyományoknak megfelelően sok statisztikai hivatalban a statisz—

tikai információk előállítását. illetve a statisztikai műveletek végrehajtását külön — egymástól többé—kevésbé független .. ágazatok szerint szervezik, és minden egyes ágazatnak megvannak a saját ..termelési folyamatai", azaz a statisztika készítésére irányuló műveletsorozatai: adatgyűjtés, adatfeldolgozás és végül az eredmények közlése (tájékoztatás). Természetesen az egyes ágazatok között megfigyelhető bizonyos me'rtékü koordináció. például több ágazatban azonos osztályozási szabványo- kat. fogalmakat alkalmazhatnak stb.

Az elsődleges adatok azonban többnyire archívumokba kerültek, s ezáltal erő- sen korlátozódott az adatok elérhetősége, és ritkán került sor az eredetileg tervezett céloktól eltérő adatfelhasználásokra. Ennek következtében szükségtelenül kis mértékű volt az adatállományok kialakításával kapcsolatos beruházások megtérü-

lése. Éppen ezért az Európai Statisztikusok Értekezlete az l9óO-as évek elején a sta-

tisztikai információk hatékony feldolgozásával kapcsolatban értekezletet kezdemé- nyezett. Az értekezlet alapdokumentumául a Norvég Központi Statisztikai Hivatal

(5)

AZ ADATBAZlS-RENDSZEREK 747

munkatársának, Svein Nordbottennek -— ma már klasszikusnak számító — .,Statisz- tikai adatrendszer" című tanulmánya szolgált. Az ebben kifejtett elgondolás rend-

kívül egyszerű: lehetővé kell tenni a statisztikai hivatalokban felhalmozott adatál-

lományokkal kapcsolatos ráfordítások fokozott megtérülését oly módon. hogy az eredetileg tervezett elemzési célok megvalósításán túlmenően biztositva legyen az

adatok különböző célú ismételt felhasználása.

Ennek az elgondolásnak a továbbfejlesztésére ösztönzően hatott a számítógé—

pek rohamos fejlődése. s mind nyilvánvalóbbá vált, hogy várhatóan rövid időn belül technikailag is megvalósíthatóvá és gazdaságossá válik a hatalmas satisztikai adat- volumenek könnyen hozzáférhető adatrendszerekben vagy más szóhasználattal éi-

ve, ,.adatbázisokban" történő tárolása. '

Ráfordítások — megtérülések

Elismert tény, hogy egy adatbázis létrehozása jelentős szervezési munkát és erőforrás-felhasználást igényel.

Általánosságban megállapítható. hogy az adatbázis—technika alkalmazása az alábbiakban felsorolt kiegészítő költségekkel jár:

— a különböző adatbázis-kezelő rendszerek vizsgálatával kapcsolatos költségek:

— az adatbázis-kezelő rendszer vételára;

— a szükséges hardware-kiegészítésekkel járó költségek, figyelembe véve a központi tároló esetleges bővítését, a teijesítőképesség növelésének követelményét, valamint a közvet—

len elérésű tárolók és az esetleges terminál— és kommunikációs berendezések iránti igénye- ket;

— az adatbázis létrehozásának költségei, azaz a meglevő file-ok átalakítása a kiválasz—

tott adatbázis-kezelő rendszer által támasztott követelményeknek megfelelően;

— a személyzeti állománnyal kapcsolatban felmerülő költségek, beleértve a kiképzésre fordított kiadásokat és az adatbázis-kezelő és az adatkoordinátor tevékenységét;

— az adatok integritásának és védelmének biztosításával járó költségek,

A felsorolt költségekből azonban le kelllvonni az alábbi megtérüléseket:

— csökken a programkarbantartás költsége;

— redukálható a programfejlesztési költség és az új alkalmazások kifejlesztésének és bevezetésének időtartama, ezáltal programozói kapacitás szabadul fel a fontosabb. sürgős feladatok végrehajtásához;

— a számitógép bővítésének, illetve teljesítőképessége növelésének eredményeként nö- vekszik a számítóközpont teljesítménye, és ezáltal rugalmasabban és hatékonyabban kielégít-

hetők a statisztikusok igényei.

A lELENLEGl ALKALMAZÁSOK ÉS FEJLESZTÉSEK FELMÉRÉSE

A Rapportőr Csoport tagjai által képviselt statisztikai hivatalokban részben ke- reskedelmi úton beszerezhető, részben pedig saját fejlesztésű adatbázis-kezelő rendszereket alkalmaznak.

'l. A kereskedelemben vásárolható rendszerek alkalmazása

Az Egyesült Államok Népszámlálási Hivatala ügyviteli, igazgatási (nem sta—

tisztikai) célokra — például bérszámfejtés. személyzeti nyilvántartások stb. —- a TO- TAL elnevezésű adatbázis-kezelő rendszert használja. A Kanadai Statisztikai Hivatal is megvásárolta a TOTAL-rendszert abból a célból, hogy szakemberei megismer- kedjenek az adatbázis-technikával, és gyakorlati tapasztalatokat szerezzenek az adatbázis alkalmazásával kapcsolatban. Erre a célra azért választották a TOTAL-

(6)

745 AZ ADATBÁZlS-RENDSZEREK

rendszert. mert a rendszerben megvalósított koncepciók nem bonyolultak. továbbá a tervezés viszonylag egyszerű. emellett a rendszer kompatibilis a Kanadai Statisz—

tikai Hivatalban alkalmazott nyelvekkel, és egyike a kereskedelemben beszerez- hető legáltalánosabban használt adatbázis-kezelő rendszereknek. Jelentős problé—

mát okoz a TOTAL—rendszernél. hogy a rendszerrel használható adatmodellek kissé nehézkesek (hálóstruktúra), és ez gyakran problémákat okoz a felhasználó szaksta—

tisztikusok számára.

A Kanadai Statisztikai Hivatalban bizonyos változtatásokat eszközöltek, illetve

bővítették a TOTAL-rendszert. és ezáltal megfelelőbbé tették statisztikai alkalmazá—

sok céljára mindenekelőtt azzal, hogy bevezették a korábban kipróbált transzponált állományszervezést. Ezáltal a TOTAL—rendszert alkalmassá tették ,.tartalom, illetve tartalmi összefüggések visszakeresésére", vagyis az invertált listastruktúrát alkal-*

mazó rendszerekhez hasonló tulajdonsággal bővítették, elkerülve az invertált struk—

túrákkal kapcsolatos karbantartási problémákat. Ezen túlmenően a Kanadai Sta—

tisztikai Hivatal tervezi az ADABAS-rendszer beszerzését is kereskedelemstatisztikai alkalmazások céljából.

Franciaországban az Állami Statisztikai és Gazdaságkutató Intézet (INSEE) két

kereskedelemben forgalmazott adatbázis—kezelő rendszert (IMS és SOCRATE) szer—

zett be, kizárólag nem statisztikai igények kielégítésére.

A magyar Központi Statisztikai Hivatalban a MARK IV rendszert választották.

A rendszer az lnformatics cég által kifejlesztett software-termék. A MARK lV füg—

getlen programozási rendszer, mely saját nem eljárásorientált nyelvvel rendelke—

zik. A rendszer a rekordokon belül maximum kilenc logikai szintű ,,fa-struktúra"

kezelésére képes, de a különböző file-okon belül közvetlen kapcsolatot nem tud létrehozni. Hasonlóképpen nincs lehetőség rekordok közötti kapcsolatok kialakí- tására másodlagos kulcsok szerint. A MARK lV előnye viszont, hogy a file-ok létre- hozása és karbantartása rendkívül egyszerű, továbbá a rendszer rugalmas. köny- nyen kezelhető táblakészítési eszközökkel rendelkezik. A MARK lV—et használják az lparstatisztikai Adatbázis-rendszernél (l—STAR) és a Külkereskedelmi Statisztikai Adatbázis—rendszernél (K—STAR), de tervezik további hasonló alkalmazásoknál való felhasználását is.

Csehszlovákiában a statisztikai intézmények a Control! Data Corporation cég MARS lll adatbázis-kezelő rendszerét vizsgálják, elsősorban kutatási célból. A rend—

szer lehetőséget nyújt egyszerű struktúrájú különböző file-formátumok használa- tára; de nem alkalmas több file egyidejű közvetlen kezelésére. A rendszer további jellemzői: teljes körű adatvédelem. valamint kódoló—dekódoló táblák használata.

A norvég Központi Statisztikai Hivatalban az elmúlt két év során az általános adatbázis-kezelő rendszereket tanulmányozták. Legutóbb a vállalatokra és telepek—

re vonatkozó központi nyilvántartást tartalmazó, adatbázis megszervezésénél került

sor adatbázis-kezelő rendszer felhasználására. Ez a nyilvántartás elsősorban a sta—

tisztikai adatgyűjtésekhez biztosít alapot, és megközelítőleg 280000 telepre és kb.

220000 vállalatra vonatkozóan tartalmaz információkat. Ennek a nyilvántartási adatbázisnak a felállításához a Honeywell-Bull cég lntegrált Adattároló Rendszerét (lDS) alkalmazták az ISP elnevezésű kiegészítéssel együtt. Az adatvisszakeresés és

—aktualizálás on-line végezhető képernyős terminálokon keresztül. Az on-line rendszert a Honeywell-Bull tranzakció vezérlésű TDS-rendszer segítségével programoz—

ták. Ugyanezt a TDS-rendszert Oslóban különböző állami intézmények párhuzamo—

san használják ugyanazzal a számítógéppel; minden egyes intézet önálló, saját adatbázissal rendelkezik. de valamennyi ugyanazt a TDS—vezérlőprogramot hasz- nálja.

(7)

AZ ADATBÁZlS-RENDSZER EK 749

A svájci Szövetségi Statisztikai Hivatalban 1976 óta az ADABAS adatbázis-ke- zelő rendszert alkalmazzák. Ez a választás a kereskedelemben kapható rendszerek 1971-ben megkezdett mélyreható tanulmányozásának eredménye. A vizsgálat két adatbázis-kezelő rendszer. az IMS és az ADABAS összehasonlítására irányuló rész—

letes elemzéssel zárult. Jobb koncepciója és teljesítőképessége alapján végül az ADABAS—rendszert választották. Az ADABAS rendkívül egyszerű és rugalmas rendszer. Teljesítőképessége különösen előnyös, figyelembe véve a rendszer központi- tároló—igényét, az adatbázis tárolásához szükséges lemezkapacitást és a másodla- gos indexek segítségével történő feldolgozást. Az eddigi alkalmazások, illetve fel- dolgozások többsége inkább igazgatási, mint statisztikai jellegű, bár a legjelen—

tősebb alkalmazás több mint másfél millió statisztikai egységet tartalmazó nyil—

vántartás, melyet nyolc különböző kritérium (8 másodlagos index) szerint lehet le—

kérdezni. illetve feldolgozni. Az ADABAS igen jól megfelel az ilyen jellegű alkalma-

zásoknak különösen (on—line) interaktív üzemmódban.

Az Egyesült Királyság Központi Statisztikai Hivatalában 1973-ban döntés szü- letett makroökonómiai adatbázis felállításáról. Miután a hivatalban egy — UNlVAC 1100—as — korábban más megfontolások alapján választott számítógép működik, úgy döntöttek, hogy a UNlVAC DMS HDD—as adatbázis—kezelő rendszert alkalmaz- zák, mivel ez nem jelentett külön kiadást. azonnal rendelkezésre állt, és a gyártó cég erőteljes támogatási kötelezettséget vállalt. A DMS széles körű adatszerkesztési lehetőségeket és többszörös hozzáférést biztosító rendszer, amely gondoskodik a felhasználók közötti, valamint a rendszer esetleges meghibásodása esetén szüksé- ges adatvédelemről is. A másik érv. mely ugyancsak döntő szerepet játszott abban.

hogy a DMS-re esett a választás: a felállítandó adatbázis viszonylag kis méretű

— 100M karakternél kisebb adatvolumenű — volt, ennek következtében a felhasz- nálhatóság és a rugalmasság fontosabbnak minősült. mint a hatékonyság.

Rendkívül egyszerű adatstruktúra alkalmazása mellett döntöttek, mivel a több—

szörös adatelérést biztosító adatbázis-alkalmazások területén nem rendelkeztek még kellő tapasztalatokkal. Minden egyes projekthez hozzárendeltek egy adat- bázis file—t, és az egyes file-okon belül meghatározták az adatok hierarchikus szint- jét, illetve elrendezését. Az első nagyszabású s egyben a legtöbb problémát felvető projekt a fogyasztói kiadásokkal kapcsolatos adatbázis előállítása volt. Jelenleg valamennyi összesítést és szezonális kiigazítást interaktív üzemmódban hajtanak végre. Ez a megoldás azzal az előnnyel jár, hogy a módosítások az összes adat- szinten rendkívül gyorsan elvégezhetők, és valamennyi közzétett adat a publikálás után azonnal felhasználható más elemzésekhez is. Ez elősegíti, illetve jelentősen megkönnyíti az elemzéseket, ami rendkívül fontos, mivel az elemző tevékenység mind nagyobb szerepet játszik az angol Központi Statisztikai Hivatal munkájában.

A statisztikusok az elemzésekhez, a modellkészítéshez és a pillanatnyi gazda- sági helyzet értékelésére egyaránt felhasználhatják ezt az adatbázis-rendszert. Eze- ket a felhasználásokat jól kiegészíti egy hatékony interaktív grafikonrajzoló rendszer. amely közvetlenül kapcsolódik az adatbázis-rendszerhez.

2. A statisztikai hivatalokban kifejlesztett rendszerek

Az osztrák Központi Statisztikai Hivatalnak a statisztikai adatbank fejlesztésé—

nek első fázisában. 1972—ben kellett először szembenéznie az adatbázisok felállí- tásával kapcsolatos problémákkal. A hivatalban létrehozott .,makroadatbank" el—

sősorban a végfelhasználók és a hivatal statisztikusai által történő an-line felhasz- nálás céljára kifejlesztett rendszer.

(8)

750 AZ ADATBÁZlS—RENDSZEREK

Az adatbázis-kezelő rendszernek rendkívül nagyszámú, különböző méretű, több- dimenziós matrixot kell kezelnie. 1974-ben hozzákezdtek a GEKOS (Általános Ve—

zérlő Rendszer) fejlesztéséhez. Ez az adatbázis-rendszer struktúráját tekintve ha-

sonló a kereskedelemben beszerezhető adatbázis—kezelő rendszerekhez. A rendszer célja: a meglevő adatbázis metaadatainak kezelése és tárolása, a statisztikai nyil- vántartások tárolása és on-line feldolgozása, illetve kezelése és az általános vezetés területén történő felhasználás.

A rendszer első gyakorlati alkalmazására a vállalati nyilvántartásokkal kap—

csolatban került sor. További funkcionális részelemek fejlesztése folyamatban van.

Az 1968 és 1970 közötti időszakban a Kanadai Statisztikai Hivatal két Speciati- zált rendszert fejlesztett ki, a CANSle és a STATPAK elnevezésű rendszert. Mind-, két rendszert sikeresen bevezették. és azóta is eredményesen üzemeltetik. A STAT—

PAK az adatkezelés vonatkozásában két jelentős új megoldást eredményezett. Egyik a transzponált file koncepcióként ismertté vált speciális adatbázis—struktúra. A má—

sik újdonság az integrált adatszótár.

Az 1974—1975. években a Kanadai Statisztikai Hivatalban az általános adat-

bázis-kezelő rendszerek kérdésének megközelítésében változás következett be. A

statisztika számára igen kedvező relációs adatmodell elfogadását követően jelen—

leg arra irányulnak az erőfeszítések, hogy software—jüket módosítsák. azaz jobba—n összehangolják saját fejlesztéseiket ezzel a koncepcióval. A TOTAL-rendszertől való függetlenséget a Hivatalban kifejlesztett adatelérési módszerrel biztosítják. Ezen túlmenően - egy valóban integrált rendszer kialakítása érdekében — az adatbázis—

kezelő rendszerbe beépítik az adatszótár funkcióit. A fejlesztés két fázisban törté- nik; az első szakaszban, mely már befejeződött. kidolgozták a RAMP-ot, amely egy- szerű relációs adatelérési módszer. a második szakaszban kerül sor a RAPiD fej—

lesztésére. amely relációs adatelérési processzor integrált adatbázisokhoz.

A francia Állami Statisztikai és Gazdaságkutató Intézet (INSEE) legjelentősebb

fejlesztési projektje az AGROS-C. melynek elkészülését 1976 végére tervezték. Ez

a rendszer fogja ellátni a nemzeti számlák és az idősoradatok kezelését. A software-rendszer alapvető elemei: egy adatbázist létrehozó rendszer, továbbá egy adatlekérdező és számítási műveleteket kezelő rendszer. Az adatbázis—struktúra egy táblagyűjteményre épül, és a felhasználók részére terminálokon keresztül bizto- sítják az adatbázisokhoz való hozzáférést.

A Német Demokratikus Köztársaság Állami Központi Statisztikai Hivatalában a ,.Statisztikai adattár" (DSS) elnevezésű adatbázis-kezelő software-rendszert fejlesztettek ki. A DSS nagyszámú —- egymástól teljesen függetlenül is használható

—— alrendszerből áll. Az alrendszerek közötti kapcsolatot lényegében a számítógép operációs rendszerével biztosítják. Lényeges vonása a DSS—nek, hogy az adatbázis elérését új, statisztikaorientált funkciókat tartalmazó, adatlekérdező modulok se—

gítségével oldja meg.

A svéd Központi Statisztikai Hivatalban számos adatbázis software-termék ke- rült kifejlesztésre és felhasználásra. többek között az alábbi rendszerek:

a) ARKDABA — mikroadotokra épülő. interaktív adatbázis-kezelő rendszer statisztikai adatfeldolgozás céljára;

b) TSD — makroodatok elemzésére és visszakeresésére szolgáló. nem interaktív adat- bázis—kezelő rendszer (a rendszer megközelítően azonos a kanadai CANSIM és a MASSAGER rendszerekkel) ;

c) RSDB — statisztikai adatfeldolgozás és mikro—, valamint makroadatok felhasználá- sára alapozott, regionális tervezéshez alkalmazható interaktív adatbázis-kezelő rendszer;

d) GEMlC - aggrególósok és tőblázások interaktív specifikálósára kifejlesztett kisérleti

rendszer; .

(9)

AZ ADATBAZIS—RENDSZER EK 751

e) VARKAT — két különböző aspektusból történő információk leírására tervezett rend—

szer, amely mind felhasználóorientált, mind rendszerorientált adatleírások kezelésére alkalmas (a VARKAT display terminálról vagy a szokásos batch feldolgozási technika felhasználá—

sával egyaránt alkalmazható).

Az Egyesült Államok Népszámlálási Hivatala software—követelményeinek speciá—

lis sajátosságait egyrészt a több billió karaktert tartalmazó óriási adatvolumen, másrészt a hardware-adottságok magyarázzák. Az adatfeldolgozással kapcsolatos koncepciójuk a következő: a munkák végrehajtására négy központi számitógép, to- vábbi összesen 28,8 milliárd karakter kapacitású lemeztárolóval felszerelt, kifeje- zetten adatbázis—kezelés céljára kijelölt 4 számítógép és 4 automatizált mágnes- szalag—könyvtár alkalmazását tervezik.

Az adatbázis-kezelő rendszer fejlesztésénél céljuk olyan állománymegosztásos rendszer kialakítása, amely több központi számítógép és több felhasználó számára nyújt lehetőséget az adatállományok elérésére. A kifejlesztett adatbázis—kezelő rendszernél az alapelgondolás olyan logikai adatbázismodell. amely lehetővé teszi, hogy a felhasználó saját maga definiálja azoknak az állományoknak a logikai ösz- szefüggéseit, illetve képét. melyekkel műveleteket kíván végrehajtani. A felhaszná—

lók és az adatállományok közötti kölcsönhatást olyan adatvezérlő nyelv segitségé-

vel kell biztositani, amelynek tervezéséhez, illetve kidolgozásához ilyen logikai mo-

dell szolgáltatja az alapot. Döntés született arra vonatkozólag. hogy a teljes projekt

megvalósítását lépésenként kell végrehajtani.

A STATISZTIKAl CÉLÚ ADATBÁZlS—KEZELÖ RENDSZEREK JELLEGZETESSÉGEI

Ahhoz, hogy egy statisztikai célú. specializált adatbázis—kezelő rendszer tulaj- donságait, illetve jellegzetességeit meghatározzuk, célszerű összefoglalni a statisz—

tikai adatkezelés speciális jellemzőit.

a) A statisztikai adatbázisok az esetek túlnyomó többségében rendkívül nagy adatvolumeneket tartalmaznak. Az egyes tárgykörökre vonatkozóan gyűjtött eredeti mikroadatokat minden esetben tárolják, és sokszor szükség van az aggregált vagy mokroadatok tárolására is. abból a célból, hogy a leggyakrabban jelentkező igé- nyeket, illetve adatkéréseket egyszerűbben kielégíthessék.

Mivel a statisztikai adatokat gyakrabban használják különböző fejlődési fo- lyamatok elemzésére, mint egyes jelenségek pillanatnyi állapotának vizsgálatára, ezért a statisztikai adatbázist úgy kell szervezni, hogy alkalmazásával könnyen ki- elégíthetők legyenek az idősoradatok iránti igények. Valójában, amikor egy fel- használó információkat keres vissza az adatbázisból, a szóban forgó adatok rendszerint nem csupán egyes megfigyelések tárgyára, hanem több tárgykörre vonatkoz—

nak.

b) A jelenlegi statisztikai információs rendszerek adatstruktúrái nem különö- sebben bonyolultak. Ez nem jelenti szükségszerűen azt, hogy nincs szükség bonyo—

lultabb és összetettebb adatszerkezetekre. A statisztikai adatbázisnak gondoskod—

nia kell a váratlan adatkérések kielégítéséről is. és ezek az igények szükségessé tehetik file-elemek előre nem látható és viszonylag nagy részhalmazainak jó ha-

tásfokú feldolgozását.

c) Nem valószínű, hogy sikerült olyan adatbázis-kezelő rendszereket kifejlesz—

teni. amelyek valamennyi statisztikai adathoz egyaránt alkalmazhatók. Csupán funk-

ció és struktúra szerint megkülönböztethetünk legalább háromféle adatfile-típust, igy vannak: rendkívül nagy méretű, viszonylag egyszerű struktúrájú file-ok (például

a népszámlálási adatfile—ok), komplex file-struktúrák (például a leszármaztatott adat-

(10)

752 AZ ADATBAZIS-RENDSZEREK

file-ok) és regiszterek. Ezért a különböző jellegű statisztikai tevékenységekhez kü-

lönböző típusú adatbázis-kezelő software alkalmazható.

d) A tárolt statisztikai adatok jelentős része kvalitatív vagy kódolt adat. és fan- tos, hogy az adatbázis-kezelő rendszer a jellemző logikai értéket hozzá tudja ren delni az adatbázisban tárolt fizikai kódhoz (például férfi — 1. nő — 2). ' e) Szükség van metainformációs rendszerre, azaz az adatok pontos dokumen—

tálására, ellenkező esetben az adatok rövid idő alatt értéküket vesztik. Kívánatos, hogy az említett adatdokumentáció a szakemberek és a' számítógép által egyaránt

olvasható. azaz értelmezhető legyen.

ADATADMlNlSZTRÁClÓ ÉS KOORDlNÁClÓ

Az adatbázis-kezelő rendszer egyik legfontosabb jellemzője az adatok integ—

rálása és megosztott felhasználása, és éppen ezen sajátosság indokolja az adat- bázis-koncepció térhódítását a statisztikai hivatalokban.

Egy statisztikai adatbázis-kezelő rendszernek több fontos feltételt kell kielé- gitenie.

a) Biztosítania kell egy adatleírásra alkalmas nyelvet. Ezt a nyelvet kell majd

alkalmazni a rendszer részét képező valamennyi adat leírására, és rendelkeznie kell olyan tulajdonságokkal. amelyek lehetővé teszik —— a rendelkezésre álló tároló—

eszközöktől függően —- különböző adatelérési és -tárolási módszerek alkalmazását.

A nyelvnek megfelelően összeállított szótárral együtt egyben az adatszótár-, adat-

katalógus-rendszer követelményeit is ki kell elégítenie.

b) Biztosítania kell az integrált adatszervezést, azaz lehetővé kell tenni az ada—

tok közötti összefüggések. illetve kapcsolatok kialakítását és kezelését. Alapvető szükségletemegfelelő—különböző adattípusokat figyelembe vevő adatszervezés ki—

alakítása.

c) Biztosítani kell a megfelelő adatkezelő funkciókat a következőkre tekintettel:

—- a statisztikai adatfeldolgozásoknál rendszeresen nagy mennyiségű új adatot kell be- építeni a már meglevő adatállományokbo; gondoskodni kell ennek az ismétlődő műveletnek az egyszerű hatékony végrehajtásáról;

—- a különböző állománytípusokhoz —— például statisztikai nyilvántartások, makroökonó- miai adatbázisok stb. —— a rendszernek rendelkeznie kell a szokásos *a'ktaavli'rzálási funkciók—

kal; V

—- az adott országokban érvényes jogi szabályozásokkal összhangban biztosítani kell az adatok biztonságát és védelmét;

—— mivel a statisztikában az adat-visszakeresés tipikusan tartalmi összefüggések vissza—

keresése a kulcs szerinti visszakereséssel ellentétben. így ennek megfelelően kell kialakítani az adat-visszakereső mechanizmust (a tartalom-visszakeresés az alábiakkal jellemezhető: a tárolt ismérvek bármelyike alkalmas a visszakeresendő rekordok azonosítására. több adat,

illetve rekord visszakeresésére kerül sor).

ADATSZÓTÁRAK ÉS KATALÓGUSOK (METAADATBÁZIS)

Az adatszótár az adatok integrálásához alkalmazható alapvető segédeszköz.

Az adatszótárnak az alábbiakat kell tartalmaznia:

a) a statisztikai file—ok főbb jellemzőire, például a file típusára, tulajdonosára, létre—

hozásának dátumára. az aktualizálásra, adatvédelemre és megbízhatóságra vonatkozó infor-

mációk;

b) az adatok logikai struktúrájával és szemantikájával kapcsolatos információk;

c) a tárolóberendezéseken megvalósított fizikai adatábrázolás módjára vonatkozó in—

formációk;

(11)

AZ ADATBAZiS-RENDSZEREK 753

d) a szabványos eljárások vagy programok katalógusa;

e) az adatbázis és az adatbázis-kezelő rendszer működésére vonatkozó belső statisztikai információk.

A FELHASZNÁLÓKKAL VALÓ KAPCSOLAT

A statisztikai számításokhoz és eredményközlésekhez különböző nyelvekre van szükség. Ezeket a nyelveket a felhasználók alábbi három csoportja részére kell ki- fejleszteni:

a) a végső felhasználók (statisztikusok) részére abból a célból. hogy lehetővé tegyék számukra a spontán adatkérdések közlését anélkül, hogy a statisztikusok alkalmazási programok írására kényszerüljenek;

b) az adatbázis-adminisztrátorok részére a célból. hogy e nyelvek segítségével az ad- minisztrátorok a terminálokon keresztül kapcsolatba léphessenek az adatbázissal;

c) az alkalmazásprogramozók számára olyan speciális makroutasítások és nyelvek kí- dolgozása, amelyek felhasználásával lehetőleg minimálisra redukálható a programírásra for-

dított idő. *

AZ ADATBÁZlS—KEZELÖ RENDSZEREKKEL SZEMBENl JÖVÖBENI IGÉNYEK

Várhatóan az on-line adatbevitel és adatszerkesztés lehetővé teszi a hibás adatok kiszűrésének és —javításának gyorsabb végrehajtását. s ezzel egyidejűleg javítható az adatok minősége és fokozható megbízhatóságuk. Célszerű lenne az egész korrekciós műveletsorozatot katalógusok és számítógépes nyilvántartások segítségével ellenőrizni és ily módon biztosítani az adatbevitel teljességét, azaz hiánytalanságát. Ez azzal az előnnyel járna. hogy olyan adatbázist kapnánk ered- ményként, melynek pontossága többé-kevésbé biztos. Ez rendkívül hasznosnak bi- zonyulna mind az előre tervezett publikációk előállítása, mind pedig a tájékoztatás

iránti spontán igények kielégítése szempontjából.

A jelenlegi adatbázis-kezelő rendszerek biztosítják az adatoknak az alkalma- zói programoktól való kisebb vagy nagyobb fokú függetlenségét. Ez azt jelenti. hogy ezeket a programokat nem vagy legalábbis nem teljes mértékben befolyásolják az adatok szervezésében bekövetkező változások. lgy az adatadminisztrátor beépíthet bizonyos paramétereket az adatstruktúrákba a kritikus vagy leggyakrabban fel—

használt alkalmazási programok követelményeinek megfelelően. Mindazonáltal, ha sor kerül az adatbázis-technika széles körű alkalmazására a statisztikai hivatalok—

ban. az adatszervezés ilyen jellegű módosítása várhatóan már nem fog megfelelni a követelményeknek, és így előreláthatólag szükségessé válik a rendszer struktúra- módosító funkciójának automatizálása.

Általánosan elismert, hogy az adatbázis—kezelő rendszerek nagymértékben elő—

segítik az adatok integrálását, és ezért számos statisztikai hivatalban bevezették már. vagy tervezik egy új funkció. nevezetesen az adatadminisztrátori funkció be- vezetését, és mindinkább felismerik az adatadminisztrátor számára szükséges meg- felelő software kifejlesztésének szükségességét. Annak. hogy az adatadminisztrátor jól funkcionálhasson, elsődleges feltétele az. hogy az adatbázis—kezelő rendszere—

ket a közeljövőben adatkatológus-rendszerrel egészítsék ki. tekintettel arra, hogy a közeljövőben a statisztikai információs rendszerek integrálását elősegítő eszkö- zök iránti igények tovább fokozódnak.

A katalógusok — kiegészítő információként — tartalmazni fognak az informá- ciós rendszer eljárási elemeire és az adatszolgáltatókra vonatkozó adatokat is. Az

adatbázis-kezelő rendszerek feladata lesz majd ezeknek a katalógusoknak a fenn—

tartásához és kezeléséhez — továbbá a katalógusok tartalmi elemzéséhez — szük—

6 Statisztikai Szemle

(12)

754 AZ ADATBAZlS—RENDSZÉREK

séges eszközöknek a biztosítása abból a célból, hogy kielégíthessék a rendszer-

elemzők és a statisztikusok által támasztott különböző követelményeket.

A számítástechnika, a távközlés és az adatátviteli módszerek fejlődése elő fogja segíteni az adatgyűjtések és -félhasználósok földrajzi megoszlása szerinti. terü- leti adatbázisokban történő statisztikai. valamint adminisztratív adatok tárolását.

Előreláthatólag már a közeljövőben felmerül az az igény. hogy az adatbázis-kezelő rendszereknek számítógépes hálózatban kell kezelniök, illetve megvalósítaniok az adathozzáférést. és gondoskodniok kell az ilyen adatok központi vezérléséről a

rendszerben.

Az adatok bizalmas kezelésére és a felfedések elleni védelemre vonatkozó elő-

irások értelmében szükség van — és ez az igény egyre fokozottabban jelentkezik

-— jobb és hatékonyabb adatvédelmet biztositó olyan módszerekre és megoldásokra.

amelyekkel megakadályozható az adatbázisban tárolt adatokhoz való illetéktelen hozzáférés. illetve az adatokkal való visszaélés. '

A jelenlegi adatbázis-kezelő rendszereknél ebben a vonatkozásban még sok hiányosság tapasztalható. Általánosan elfogadott azonban az a vélemény, hogy

az adatvédelmet nem lehet kizárólag az adatbázis—kezelő rendszer szintjén bizto—

sítani. Ez rendkívül súlyos problémát jelent a statisztikai hivatalok számára, mivel az adatokat a felhasználók széles köre számára kell biztosítani, s e felhasználói körön belül bizonyos felhasználók részére korlátozni kell az adathozzáférést. Más információs rendszereknél a felhasználói kör általában ismert, s így könnyebben ellenőrizhető.

PE3iOME

Omer noArotoaner—r Ann Paőoueü rpynnu no aneu'rponHoü oőpaőome ABHHHX Komme- peuunn Esponei—icmx Game-rumos E3K. B* cocraanenun orue'ra npanManu yuacrne crie—

uuanucrm cramctmecnnx ynpasnean—i 10 crpaH, a TGM wcne u Benrpma.

SUMMARY

The report has been prepared for the Working Group on Electronic Data Processing of the ECE Conference of European Statisticians. Experts of the statistical Offices of 10 countries.

among them of Hungary. have participated in the preparation of the report.