• Nem Talált Eredményt

Az iparstatisztikai információk szerkezetének általánosítása az adatbázis-tervezésnél

N/A
N/A
Protected

Academic year: 2022

Ossza meg "Az iparstatisztikai információk szerkezetének általánosítása az adatbázis-tervezésnél"

Copied!
15
0
0

Teljes szövegt

(1)

AZ lPARSTATISZTlKAl INFORMÁCIÓK SZERKEZETÉNEK ÁLTALÁNOSlTÁSA AZ ADATBÁZlS—TERVEZÉSNÉU

GYÖRKI ILDIKÓ

Az iparstatisztikai információ elemekre bontásának szükségességét az iparsta—

tisztikai adatbázis szervezésének előkészítése váltotta ki. Az adatbázisban nagy- tömegű adatot tárolunk és kezelünk oly módon, hogy lehetővé váljon az adatok között tetszőleges kapcsolat létesítését igénylő információk gyors szolgáltatása. A különböző információigények ugyanis az adatok más-más körét vonják be egy adatfeldolgozási feladatba. igy az adatfeldolgozási munkák során

-—— a mutatók különböző csoportjaival végeznek számításokat,

— a különböző ismérvek szerint szelektálják az adatszolgáltatókat,

- különböző ismérvek szerint különböző aggregáltsági szinteket képeznek,

— mutatók, adatszolgáltatók évek közötti kapcsolatát igénylik stb.

Ezeknek a kapcsolatoknak a létrehozása, a fizikailag külön tárolt adatokból különböző logikai adatcsoportok képzése jelentős szervezési és programozási idő—

ráfordítással jár a szelektáló, rendező, összeválogató programok írása miatt. Ha viszont a leggyakrabban előforduló adatkapcsolatokat beépítjük az adatbázisba.

akkor

— egyrészt csökken a kívánt odatcsoportok előkeresési ideje;

—— másrészt csökken a programozásra fordított idő, mert a létesített adatkapcsolato- kat az adatbáziskezelő rendszerek automatikusan kezelik.

Ahhoz azonban, hogy kiválasszuk azokat az adatkapcsolatokat. amelyek haté- kony feldolgozást tesznek lehetővé és gyakorlatilag minden információigény tel- jesítésére módot adnak, alaposan vizsgálnunk kell az információ-rendszerben áramló információkat és kapcsolataikat, az információstruktúrát. Egy nagy infor—

máció-rendszerben — így az iparstatisztikaí információ—rendszerben is — több ezer adat áramlik, melyek között egyenként a kapcsolatok összes variációja rendkívül összetett, bonyolult rendszert eredményezne. Ugyanakkor az adatbázis nem egye—

denként kezeli az adatokat. hanem a közös tulajdonságokkal rendelkező adatok- k"al (adatcsoporttal) azonos módon bánik. Ezért az információ—rendszerben is ho—

mogén csoportok kapcsolatát kell kifejezni. Ilyen csoportok viszont nem alakit- h'ató'k ki az egyedi információk szintjén, hanem csak az információn belül az in—

formációelemek szintjén.

* Ez a tanulmány az iparstatisztikai adatbázis-fejlesztéssel kapcsolatos kutatásokon alapszik. és a Statisztikai Szemle 1974. évi 10. számában megjelent .,Az iparstatisztikai adatbázis—rendszer kialakításának tapasztalatai" c. tanuimányhoz kapcsolódik.

(2)

874 ovaRKi lLDlKÓ

Ehhez hasonló problémát vet fel az adatbázis—szervezés során készülő kata- lógusrendszer is. A katalógusoknak tájékoztatni kell a felhasználót az adatbázis- ban tárolt adatok tartalmáról. lehetőleg minél tömörebb, ugyanakkor valamennyi megkülönböztető jellemzőre kiterjedő formában. Ez veti fel a kérdést, hogy mi- lyen mélységig szabad összefoglalnunk a mutatókat egy sorba. Amikor definiál- nunk kell a mutatók megkülönböztetésének szempontjait, a mutató szöveges meg- nevezésének olyan részeire kellene hivatkoznunk, amelyre nincs kialakult termi- nológia. Ez a probléma ismételten felveti a statisztikai információelemek megha—

tározásának igényét.

Az információelemek információn belüli szerepének nyomon követéséhez vi- szont nemcsak fogalmilag különítjük el őket, hanem formális jelölést is alkalma- zunk ábrázolásukra.

Az információ szerkezeti elemei

Amint az előzőkben említettük. az adatbázis—struktúra megállapításának alapja az információstruktúra feltárása.

Az információstruktúra a rendszerben áramló (be- és kilépő) információk szer- kezetének összefüggéseit mutatja meg. A felhasználó által igényelt valamennyi tipikus kapcsolatra fel kell hívnia a figyelmet, rámutatva a rendszer alapinformá-

cióiból való származására is.

Általánosságban az információnak a következő szerkezeti elemeit különböz- tethetjük meg:

— az információ tárgya, amelyre az információ vonatkozik, amelyről közlünk valamit;

jelölje O' a tárgytípust, és O']. annak egy konkrét esetét:

— az ismérv, amellyel a tárgyat jellemezzük, és amelynek értékét tulajdonságnak hiv- juk; legyen az ismérv jele !, és a tulajdonságé I;- ;

— a reláció, amely a tárgyak rendezett halmazán áll fenn, a tárgyak viszonyát, kap- csolatát jelzi; jele: R;

— az idő, amelyre az információ érvényes; jele: t.

Például ,,Kovács János havi átlagkeresete 1974—ben 2500 forint volt"; ebbEn az esetben az információ tárgya a Kovács János nevű személy (Ofá ), és őt az át- lagkeresetéve'l jellemezzük (l';500 ), 1974 az információ időtényezője (tm). azaz az in—' formáció formája:

(OÉJ,I:500 ' t74)

Egy másik típusú információ, ahol a tárgyakat valamilyen összefüggés kap—

csolja össze, például a ,,tulajdonosa valaminek", ,,apja valakinek" stb. viszony.

Például ,,x beruházás kivitelezője y vállalat" esetén x beruházás (Ox) és y vállalat

(Oy) az információ tárgyai és a ,,kivitelezője valaminek" (R) relációt értelmezzük a beruházások és vállalatok halmazából képzett rendezett párok halmazán. Az

információ képe:

(Ox R ay)

Az információelemek információn belüli szerepe azonban korántsem állandó.

Ugyanaz az információelem hol ismérv, hol tárgy, hol pedig reláció szerepét töl- ti be.

(3)

AbATBAZIS-TERVEZES

875 Például a ,,Kovács János a Ganz-MÁVAG főmérnöke" információ három for—

mában értelmezhető:

a) Kovács János nevű személy az információ tárgya (Off/), munkahelye és

— ' - - ' h f .

foglalkozasa pedig egy—egy ismerv (lgM, liőm).

x% így; '%me

b) Ganz—MÁVAG mint vállalat képezi a megfigyelés tárgyát (ogM) és ismérv-

nelk tekintjük a .,főmérnököt", amelynek konkrét értéke ,,Kovács János" (líám):

(OEM, 43")

c) és végül mind a Ganz-MÁVAG mint vállalat, mind Kovács János mint sze—

mély az adott információ-rendszer tárgya, és köztük a kapcsolat irányától függően

a .,munkahelye" (Rmh) vagy ,,főmérnöke" (Rfőm) reláció teremt kapcsolatot:

(OÉZJRmh OEM) vagy (ogM RM 055)

lgy az információstruktúra felállításakor nagyon fontos feladat annak meg- határozása. hogy az ínformácóelemek a konkrét információ-rendszer szempontjá—

ból melyik kategóriába tartoznak. Adott információ-rendszeren belül is változik az információelemek szerepe az információban. Az adatfeldolgozási feladatokban az információelemek szerepváltozása teszi szükségessé a rendezések, adatállo—

mányból válogatások nagy részét.

Az informácíóelemekből összetett információelemek és komplex információfor—

mák építhetők fel. Az ínformácíóelemek szerepének pontosabb meghatározására a relációnak három típusát különböztetjük meg:

a) a .,birtokos—birtok" tipusú relációt, amely különböző típusú tárgyak közti alárendelt viszonyt fejez ki, jelöljük RB -vel;

b) a csoportositó típust. amely azonos típusú tárgyak közt közös tulajdonság alapján áll fenn. jele RC (ennél a kapcsolatnál az adott típusú tárgyak alkotják egy halmaz elemeit, és az elemeknek a halmaz adott ismérvérték szerinti részhal- mazához tartozása képezi a relációt);

c) a részekre bontó típust. amely valamilyen ismérv értékei szerint egy tár- gyon belül képez csoportokat. jele: RR (az előzővel ellentétben itt egy tárgynak feleltetjük meg a halmazt, a tárgyat alkotó, adott ismérv szerint képzett részhalma—

zok és a halmaz között teremtünk relációt; a halmaz elemei az adott információ vagy az egész információ—rendszer szempontjából nem képezik a megfigyelés tár—

gyát).

A statisztikai információ négy fő része

A gazdaságstatisztika tárgyát a gazdasági jelenségek és tevékenységek meg—

figyelése jelenti. llyen tevékenység a termelés, az értékesítés. az anyagfelhaszná- lás, a munkaerő—foglalkoztatás stb., jelenségnek tekinthetjük viszont például az

álllóeszköz—állományt.1

A gazdaságstatisztika a megfigyelt tevékenységet azonban nem tekinti önma- gában. hanem a gazdaság valamely részével összefüggésben. Ez lehet az egész

népgazdaság, az ipar. egy népgazdasági ág. egy vállalat vagy egy területi egy-

1 Továbbiakban önkényesen a jelenségekre és tevékenységekre mint .,tevékenységre" hivatkozunk.

(4)

876 GvoRKi iLDiKÓ

ség. Tehát a statisztikai megfigyelés adott gazdasági egységben (egységekben)

folyó tevékenységre vonatkozik. Az előzőkben tárgyalt intormációelemekkel kite- jezve ilyenkor két különböző tárgytípus közötti relációról van szó (a gazdasági egységek és a tevékenységek halmazán értelmezett reláció).

Az információnak ez az első két eleme együtt alkotja a statisztikai információ tárgyát. Ha a tevékenységet Or-vel, a gazdasági egységet Og—vel jelöljük, ak—

kor a tárgy formája:

(% RB ÖT )'

A statisztika nem tükrözheti ezeket a tevékenységeket közvetlenül. nem adhat—

ja vissza a valóságot. hanem a tevékenységeket a rájuk legjellemzőbb vonások, ismérvek megfigyelésével közelíti. Például a munkaerő—foglal'koztatást az átlagos állományi létszámmal, a teljesített munkaórák számával, az összes keresettel stb.

Ez alkotja az információ harmadik elemét.

Végül a statisztikai megfigyelés szempontjából az ismérvek közül kiemelkedő, megkülönböztető szerepe van az időtényezőnek, amely az információ negyedik része.

Általánosságban tehát a gazdaságstatisztikai információ képlete:

(OG RB- Orff? /1/

Ez azonban az információnak csak leegyszerűsített képe. Amint a következők- ben kitűnik. bármely eleme összetett elem is lehet.

A rendszer alapinformócíója

Az alapfogalmakból kiindulva kíséreljük meg meghatározni például az éves iparstatisztika információstruktúrájc'it. A rendszer alapinformációiból, az éves ipar- statisztikai kérdőív tóbláiból és a vállalati számjelből indulunk ki. A kérdőívben közölt információk alapvetően négy típushoz tartoznak.

Az 1. típus követi a statisztikai információ általános formáját. Ebben az eset—

ben a tevékenységeket a vállalatokra vonatkozóan figyeljük meg. és a kijelölt tevé- kenységekre mint egészre gyűjtünk információt. Például ,,a vállalat termelési ér—

téke forgalmi adó nélkül folyó áron adott évben" típusú információnál a vállalat

a gazdasági egység (023 ). a termelés a tevékenység (0; ), a termelési érték for—

galmi adó nélkül folyó áron az ismérv (I) és az év az idő (t).

A 2. típus esetén gyakran nem egy tevékenység egészét, hanem annak vala—

milyen ismérv értékei által meghatározott részeit figyeljük meg. A tevékenység- részeket ugyanazon ismérvekkel jellemezzük, mint magát a teljes tevékenységet.

Ebben az információtípusban összetett az információ 2. része, mivel itt termino—

lógiánk szerint a tevékenység hialmazón egy RR típusú kapcsolatot képezünk az IC ismérv szerint, tehát az információ képe:

(Ob kB, (IfCRRTDT) ifj /2/

Mivel a tevékenységnek nemcsak egy, hanem több ismérv által meghatározott

részét is számba vehetjük, ezért az ismétlés jeleként ferde zárójelek közé tettük a csoportosító ismérvet és relációt. Például: ,.a vállalat termékenkénti termelési ér- téke" esetén a termékfajta, ..a vállalat népgazdasági ágankénti (ipari. építőipari, mezőgazdasági stb.) termelési értéke" esetén pedig a népgazdasági ág jelenti azt az ismérvet, amely szerint a termelés részhalmazait képezzük.

(5)

ADATBÁZlS-TERVEZÉS

877

A 3. típus esetén nem az adatszolgáltató vállalat az információ tárgya. ha—

nem az alá tartozó telep. Ha a telepet önállóan tekintjük. akkor a telepi infor- mációk az 1. és a 2. típusú információk közé sorolhatók, ha viszont a vállalathoz tartozó egységnek tekintjük. akkor az információ tárgyában ezt érvényre kell jut- tatnunk. A telep és a vállalat között birtokos—birtok típusú kapcsolat áll fenn. így

az információ első részét módosítva az információ képe a következő:

átv; Ravasz??? A /3/

A 4. típus esetén nem a gazdasági egység tevékenységét jellemezzük. hanem magát a gazdasági egységet mint szervezetet. Például azt vizsgáljuk, hogy milyen szektorba. szakágazatba, területi egységhez tartozik egy vállalat. Ekkor az infor—

máció második része felesleges és

(Og If) /4l

az információ formája.

Output ínformációtípusok és az alapinformációk kapcsolata

A rendszerből kiáramló információk egy részének szerkezete megegyezik a rendszer alapinformációinak szerkezetével, más információkban egyes részek ösz- szetetté válnak. Akár az egyik, akár a másik típusról van szó, az output infor- mációik szolgáltatásához, kiválogxatásáh'oz, új ismérvek értékének kiszámításához az alapinformációk közt kapcsolatot kell teremtenünk. Nézzünk meg ezzel kapcso—

latban néhány példát.

1. Az output információ szerkezete nem változik meg, de

—— össze kell kapcsolnunk a 2. típusú információknál /2/ egy adott tevékenység (07) tevékenységrészeit (ICRROT) jellemző információkat a csoportképző ismérv (IC) alapján. pél—

dául a létszám állománycsoportonkénti megoszlásának kiszámításához az állománycsoporton- kénti létszámadatokat;

— máskor az adott tevékenységet jellemző ismérvek között kell kapcsolatot létesítenünk a tevékenységet jellemző harmadik ismérv kiszámításához (például létszám- és béradatok között az átlagbér kiszámításához);

—— vagy különböző tevékenységeket jellemző ismérvek között létesítünk kapcsolatot egy harmadik tevékenységet jellemző ismérv kiszámításához (például a termelési tevékenységet jellemző termelés és a munkás foglalkoztatási tevékenységet jellemző létszámadatok között a munkatermelékenységet jellemző .,egy munkásra jutó termelés" ismérv értékének kiszámítá- sához).

2. A következő output információk esetében viszont megváltozik az informá- ció tárgya.

a) Gyakran előfordul, hogy egy meghatározott ismérvértéknek eleget tevő vál—

lalatok gazdasági egységekre vonatkozó információjára van szükségünk. tehát az adatszolgáltatók halmazából egy ismérv szerinti részhalmazt választunk ki. Ilyenkor az információ tárgyának első része az adott ismérvérték által meghatározott hal- mazba tartozás jelzésével bővül. Mivel a halmazkiválasztás itt is több ismérv kom—

binációja (logikai kapcsolata) alapján történhet, így a tárgy első része

gjl'lRG/O'G /5/

típusú lesz, tehát az ismérv a tárgy részévé válik. A csoportosító ismérvek két tí—

pusát különböztetjük meg:

— az első csoportba tartoznak a vállalatot mint szervezetet jellemző állandó csopor- tosító ismérvek: szakágazat, szektor, terület, főhatóság;

(6)

878 orom ILDIKÓ

— a második csoportba tartoznak a vállalat tevékenységét jellemző esetenkénti cso- portosító ismérvek. például nagyságcsoport (munkáslétszám, termelési értékhatár, adott ter- mék termelése) szerinti válogatások; jelölésük:

/(07_ r) RC/IOG /6/

_; ( (IC RR op!) Rc/ %: /7/

b) Az output információ tárgya szerint új információtípust jelentenek az agg- regátumok. Az aggregátumképzés első művelete szelektálás az adatszolgáltatók közt valamilyen ismérv szerint. igy az alapinformációk kapcsolata szempontjából

az információ képe megegyezik az előzőével /5/, /6/, /7/. az output információt te—

kintve az összegezés után az eddig ismérvként kezelt elemek tárggyá minősülnek át.

Az információ valamely ismérv vagy ismérvek által meghatározott gazdasági egy- ségek halmazát nem egyedenként jellemzi. hanem a halmaz egészét együtt. Abban az esetben, ha a halmazt egyetlen ismérv alapján választjuk ki, akkor az output

információ képe megegyezik az 1., illetve a 2. tipusú információval azzal a különb- séggel, hogy a gazdasági egység nem a vállalat, hanem valamilyen magasabb

szint, például szakágazat vagy területi egység. Ha több ismérv szerinti kiválasz- tásról van szó, akkor pedig a 3. típusú információval azonosítjuk az aggregátumot.

Az információ első része a két ismérv által meghatározott halmazon relációt fejez

ki. például a szektoron (Ok) belül szakágazatra (Of) összesítés vagy szakága-

zaton belül gyártási ágra összesítés a telepi adatoknál. lgy a kapcsolatot és az output információt kifejező torma:

Of; GZ "RC 010 típusú 1. részből,

k .4 . K ," , ,

() RB O' az [IRC] RC OG formabol.

3. Sajátos szerepük van az idősorok képzéséhez szükséges időismérv alapján képzett kapcsolatoknak. Az előzőkben ismertetett valamennyi információtípusra idősort is kell szolgáltatnunk. Az idősorok képzése a tárgyak és a relációk időbeli megteleltetését, egymáshoz rendelését jelenti. Nehézsége'ket okoznak azok a

kérdések, hogy mikor tekinthető egy gazdasági egység azonosnak az előző évben

szereplő gazdasági egységgel. hogyan hatnak a szervezeti változások a tevékeny- ségek folytonosságára, s ezáltal mi a kritériuma a tárgyak és ismérvek időbeni összehasonlításának. Ha az idősort nem tekintjük új információtípusnak, hanem csak a már említett ínformációtípuso'k valamelyikébe tartozó információk halma-

zának. akkor az előző (/1/-—/7/) formák alapján a megfigyelt információk a kö—

vetkező általános formával adhatók meg:

.-

()í G

/0£; [%B/06

k (

UCRC/Oé R 0; ,;

/(0h[p)R /of 3 HIR /0'" ,

X '1' C G C R T

L V ! L__H ka'—l

]. rész 2. rész 3. rész 4. rész

XWZRR vi nne/og

k )

(7)

ADATBAZlS—TERVEZES 879

ahol:

az 1. rész a népgazdaság alapegységét jellemzi, amelyre az információ vonatkozik, a 2. rész a tevékenységet.

a 3. rész a tevékenységet jellemző ismérvet.

a 4. rész az időt írja le,

OIG- OC]; —- a népgazdaság lehetséges részhalmazainak fajtáit tartalmazó halmaz egy eleme, és i 75 [,

§", O? — a tevékenységtípusokat tartalmazó halmaz egy-egy eleme, Ig./IC — tevékenység-részhalmazokat képező ismérvek,

Ip [5 — adott tevékenységet jellemző lehetséges ismérvtípusok halmazának egy- egy eleme, p 1- s,

RB, Rc, RR— relációtípusok.

! — az idő.

/— az ismétlés lehetőségét jelzi, j— a választás jele.

]— a rész kihagyásának lehetőségét adja meg, )— a részek elválasztását, az olvashatóságot segíti.

,...x

Az ínformácíóelemek konkretizálása és a mutatódeiiníciók

Az iparstatisztikai információ általános formájának meghatározása nem ön- célú feladat. hanem egyrészt a katalógusok fogalmainak definiálásához, másrészt az adatbázis adatstruktúrájának a meghatározásához használhatjuk fel. Először tekintsük át az alkalmazott fogalmak és az információelemek összefüggését.

A katalógusoknak az adatbázisban tárolt alapadatokról kell információt szol- gáltatniuk. tömör, áttekinthető formában. A katalóguskészítés egyik problémája az, hogyan lehet összevonni az egyedi információk jellemzőit úgy, hogy az egyedi mutatók képzésére szolgáló minden lényeges információt közöljünk. Mivel az adat- bázis az éves iparstatisztikai rendszer alapinformációit tárolja. az egyedi informá- '* ciókat az /1/ és a /2/ típusú információk általános formájának a segítségével ir—

hatjuk le úgy. hogy az információforma valamennyi tagjának értéket adunk. Az információkat úgy vonhatjuk össze, hogy egy vagy több tagot kihagyunk az érték- adásból, mégpedig minél többet, annál nagyobb információhalmazt fog át az így megtervezett információtömb. Ennek vizsgálatához a legáltalánosabb megfogal—

mazásból induljunk ki, és azt fokozatosan konkretizálva állapítsuk meg a konkre—

tizálási szinteket.

1. lépésként szűkítsük a halmazokat azzal, hogy meghatározzuk az OT tevé- kenység és az l ismérv konkrét típusát, legyen ez a foglalkoztatottak átlagos állo—

mányi létszáma. Nevezzük az ilyen mértékben konkretizált információtípust mutató—

osztálynak. A halmaz most a népgazdaság különböző típusú egységeire. külön—

böző időszakokra és a /2/ típusú információ esetében a foglalkoztatottak külön- böző ismérv szerinti csoportjaira vonatkozhat. Az /1/ típus esetén az információ

2. és 3. részét már konkretizáltuk, a /2/. típusnál viszont még nem.

2. és 3. lépés. Ha a /2/ típusú információnál meghatározzuk, hogy milyen csoportosító ismérv szerint bontjuk részeire az adott tevékenységet (VC), akkor ez egy újabb lépés a konkretizáláshoz. Ez nem jelenti a halmaz szűkítését, mert az éves iparstatisztikára nem jellemző, hogy egy mutatóosztályt többféle csoportosító ismérv szerint is megfigyelnek. így a 2. rész teljes konkretizálásához meg kell adni

a csoportosító ismérv konkrét értékét (l'-C,.) is. Az lé- csoportosító ismérv lehetséges

értékeinek halmazát nómenklatúrának, az ismérv egy értékét pedig nómenklatúra-

elemnek nevezzük. A nómenklatúra—elemmel konkretizált mutatóosztálynak pedig

mind az /1/ mind a /2/ típusú információnál az általános mutató nevet adjuk.

(8)

880 GYÖRKI iLDIKÓ

4. lépés a népgazdasági egység típusának (og) megnevezése. tehát ebben — 0 lépésben határozzuk meg, hogy milyen aggregáltsági szinten kérjük az általá—

nos mutatót és milyen időszakra. illetve időpontra (t) vonatkozóan. Ez utóbbi az adott éves iparstatisztikai rendszerben nem jelenti az ínformációhalmaz csökken—

tését. mivel az egész rendszer éves periodicitásra épül. az időszakra vagy idő- pontra való vonatkozást meghatározza a mutatóosztály. Akkor lesz jelentősége, ha a rendszer nemcsak az éves iparstatisztikára terjed majd ki. Az aggregáltság (pél- dául vállalati vagy telepi információról van-e szó) konkretizáló elem. Az így ka—

pott infor'móciótípus az ún. konkrét mutató.

5. és egyúttal utolsó lépés konkrét értékadás az információ 1. és 4. részének, tehát a gazdasági egység azonosítójának és a konkrét évnek a meghatározása.

amelyek mindegyike még nagy értékhalmazt vehet fel. A teljesen konkretizált in—

formációelemekhez. az egyedi mutatóhoz egyetlen szám rendelhető, maga a sta—

tisztikai adat.

A konkretizálás lépései és a kapott információ

Az információ— Az információ— . , . . ..

L' , elem típusának eiem értékének A konkretlzalt Információ

epes

meghatározása típusa l megnevezése

0- 1 % RB 0,— Ir általános

statisztikai

2- Cl; R.? ("(C RR Orlh információ

* !

l' OTP—) 0? 1. 06 R; O'," is? mutatóosztóly

' S

! mal 2_ O,. R 1 (] R" f),"? ils—l'

u -_; *C A ! *

2' 1- .atíl'v 1. változatlan általános

VG ' Cl , i, m : mutató

2_ OCAB (ICRR OT )! t

3' 11—91' . 1. változatlan általános

C Ci () R 7,— R Omil's'f mutato

2- '*G B('Ci n T "

4. . ' .

u 1_ 01]; Om [stl konkret

;) MO' G 3 T mutató

It'—PPK 2- gigas (:?in ()?)P'l

, w ; m s 1 .

._.-', _ ' '

- G cí?

; A l ' r; , ,": s ,:

rt "" tg 2' 005123 (ICíRR DT )! H'

A katalógusrendszer törzsét képező Mutatókatalógusban alapegységnek az

általános mutatót tekintjük, de figyelembe véve az információk /1/ és /2/ típusa

közti különbséget, két különböző sortípust és hivatkozási számot alakítunk ki. (A hivatkozási szám teremti meg a mutatómegnevezések és az adatbázisban levő adatok kapcsolatát.) A /2/ típusú információnól a mutató szöveges megnevezésé-

(9)

ADATBÁZlS—TERVEZÉS

881 ből kiemeljük a mutatóosztálynak megfelelő részt, azaz a tevékenység és az ismérv megnevezését. Mivel az /1/ típusú információnál az általános mutató és a mutató- osztály egybeesik. a mutatóosztály megnevezésével meg is határoztuk az alapegy-

séget. A mutatóosztályhoz 6 jegyű azonosítószámot rendelünk. A /2/ típusú infor-

mációból viszont meg kell neveznünk a nómenklatúrát, illetve a nómenklatúra—

elemeket is ahhoz. hogy az általános mutató szintjére jussunk. s egyúttal a hivat- kozási számot is bővítenünk kell a nómenklatúra és elemének azonosítási számá- val. Az egy mutatóosztályhoz tartozó valamennyi nómenklatúra-értéket a mutató- osztály alatt soroljuk fel.

Az adott általános mutatóhoz még hiányzó konkretizáló elemek választékát, listáját a szöveges megnevezés mellé rendelt oszlopokban vagy az ott hivatkozott helyeken találjuk meg.

A bevezetőben említettük, hogy ezeknek a mutatómegnevezéseknek a beve-

zetésére azért került sor, mert az általában használt statisztikai fogalmak között nem találtunk olyant. amely az információelemeket a szükséges mélységben ha—

tározná meg. Az egyetlen információelem, amelynek megfelelő statisztikai fogalom—

párja van a sokaság. részsokaság, amely az információ 1. részének típusát hatá- rozza meg. A statisztika ismérv vagy mutató fogalma körülbelül megfelel az álta- lános mutatófogalomnak, de azon belül a számunkra oly lényeges tevékenység—- tevékenységcsoport ismérvelemek megkülönböztetésére már nem találunk statisz- tikai szóhasználatot. Ezért kellett az általános mutatón belül a mutatóosztály és a nómenklatúra—megnevezéseket megkülönböztetnünk.

Az információstruktúra és az adatstruktúra összefüggése

Az új megnevezések bevezetése az információelemek használatának nem egyetlen lehetőségét jelentette. A rendszer input—output információinak és a köz—

tük levő kapcsolatoknak, az információstruktúrának az elemzésével olyan isme- retekre teszünk szert. melyeket az adatbázis szerkezetének meghatározásánál hasz- nosíthatunk.

.

A rendszerfejlesztés során az információk kapcsolatáról szerzett információk- kal fokozatosan bővítjük az információstruktúrát, s közben az információkat ele—

mezve meghatározzuk, hogy

— van-e olyan eleme az információknak, amely kitüntetett kapcsolatteremtő szereppel rendelkezik,

— mely

információelemek változtatják meg információn belüli pozíciójukat a feldolgozás során.

Az információstruktúra áttekinthetősége érdekében össze kell vonnunk azokat az információkat. amelyeknek nincs különös szerepe a struktúra kialakításában.

azonos funkciójú elemekből állnak. lgy lépésről lépésre állapítjuk meg egy rend- szer információstruktúráját, amely tartalmazza a rendszer valamennyi lényeges kap- csolatát az információelemek szintjén.

Mivel egy rendszer információstruktúrája az egyszerűsítések ellenére — a kap—

csolattípusok jó elkülönítése érdekében — csak sok színnel ábrázolható, így szem—

léltetésül az éves iparstatisztika információstruktúrájából egy részletet mutatunk be:

((PRCP'RC 370333 0; fiú.

,,adott szakágazatba és szektorba tartozó vállalatoknál foglalkoztatottak átlagos állományi létszáma".

7 Statisztikai Szemle

(10)

882 ovaRKi ILDIKÓ

(("Rc(í_2: R,; 091ng agyak (rgRR 02915 :)

pedig ,.adott szektorba tartozó adott terméket termelő vállalatok termelési értéke az adott termékből" típusú információt jelent.

Részlet az éves iparstatisztikai információ-rendszer információstruktúráiából

11

l Szakály l

12 ,

l 519149" C) lsmeI/w

Os ;

Waf— WW

IZOÚÉ/fá/a , J (

' fe'/meh f.,/pas.

; m;;ky/anóaz/e/em

07 ne áru/)

Függ/igám' ferne/93

13 14

ily til/. mm,/elf;

lelne/:; err/Ek

Az adatstruktúra tervezésénél kell eldöntenünk, hogy az információstruktúrából

mely kapcsolatokat érvényesítse az adatbázis szerkezete, és melyeket fejezzük ki a programozás során.

Az adatstruktúra az adatbázisban tárolt adatok logikai kapcsolatát tükrözi.

ugyanakkor a kapcsolatok, struktúraszintek és információelemek leírására az al—

kalmazott software által meghatározott terminológiát használjuk. Megemlítjük.

hogy az iparstatisztikai adatbázist a MARK lV software—rendszer segítségével ál—

lítjuk fel, amely hierarchikus file-okat kezelő rendszer. A file—ok azonos szerkezetű rekordo'kból állnak. A rekord elemei, mezőcsoportjai hierarchikus kapcsolatba rendezhetők.

Az információstruktúra és az adatstruktúra megfeleltetése előtt vizsgáljuk meg.

milyen összefüggés van az információ- és az adatstruktúra-elemek között.

Láttuk, hogy minél általánosabb az információtípus. annál nagyobb informá—

cióhalmazt fog át. konkretizálva pedig szűkül a meghatározott információk köre.

Ennek a ténynek jelentős szerepe van az adatstruktúra elemeinek meghatározá—

sában.

Az adatbázisban minden egyedi mutatónak megfelel egy mező, amely a hoz- zátartozó értéket tartalmazza. Ahhoz, hogy az adatbázis elemeihez hozzáférhes- sünk. kezelhessük őket, azonosítót, szimbolikus nevet kell hozzájuk rendelnünk.

Ez a név nem egyedileg azonosítja a mezőket, hanem az információk. illetve a

nekik megfelelő adatok valamilyen halmazához rendel szimbolikus nevet, még-

hozzá olyan halmazhoz, amelynek elemein a feldolgozás során ugyanazon mű—

veleteket hajtjuk végre. Vagyis egy általánosított információtípushoz rendeljük a szimbolikus nevet és az adatokat is. Ez a név az információk, adatok halmazát nevezi meg, így ahhoz, hogyaz egyedi mutatót megkapjuk. a statisztikai adatot tartalmazó mezőt ki kell egészíteni az információtípust konkretizóló adatokkal.

Minél átfogóbb, általánosabb információtípust tekintünk az adathalmazok kiala- kításának alapjául, annál több kon'kretizáló adatot kell még közölnünk.

(11)

ADATBAZiS-TERVEZES

883

A legáltalánosabb információtípus, amelyhez az adatot, illetve a szimbolikus

nevet kapcsolhatjuk, a mutatóosztály. Ebben az esetben ahhoz. hogy az egyedi információhoz hozzájuthassunk, meg kell adnunk a csoportosító ismérvet és érté—

két. a gazdasági egység típusát és azonosítóját, valamint az évet. amelyre a mu—

tatóosztály adott eleme vonatkozik. Ezeket a konkretizáló adatokat azonosítóknak,

elsődleges kulcsoknak hívjuk.

Ha egy konkrétabb mutatót. például általános mutatót választunk az adat- csoport alapjául, akkor az azonosító kevesebb elemből áll (az ismérv és ismérv- érték az információtípus részévé válik). és az azonosan kezelhető elemek száma csökken.

Természetesen az adatbázisban nem rendeljük minden egyes mezőhöz az azo-

nosítóit, hanem az egyforma azonosítóval rendelkező logikailag összefüggő me- zők halmazát látjuk el velük. Egyrészt arra törekszünk. hogy bármely mező az adat- bázisban lehető legkeves'ebbszer forduljon elő, és ez vonakozik az azonosítókra.

is. Másrészt az azonosítók az adatokhoz való hozzáférés eszközei. Az azonosítók

közti kapcsolat biztosításával kell lehetővé tennünk. hogy az adatbázis tartalmát

lépésenként szűkítve olyan mezők együtteséhez jussunk el. amelyeket feladatunk kíván. így az adatstruktúra—kialakítás fontos szempontja. hogy az adott rendszer- ben mit nevezünk mezőtípusnak, mennyire általánosított mutatót tekintünk a me- zőtípusok (adathalmazok) kialakitása alapjának. A többelemű azonosítók több- lépéses halmazszűkítő szerepe ugyanis csak többszintű hierarchikus adatstruktú—

rán keresztül érvényesülhet.

Az /1/ és /2/ típusú információk meghatározásából következik, hogy az ipar—

statisztikai információ-rendszerben mind a kétféle típus előfordul. A megkülönböz—

tetés alapja az. hogy a tevékenységcsoportosító ismérv értékei a tevékenység tel- jes felosztását adják-e vagy sem. illetve az egész tevékenységre vonatkozik-e az információ. A /2/ típusú i-nformációnál a mutatóosztályhoz rendeljük a mezőt, és az azonosítók három szinten keresztül szűkíthetik a mutatóosztály által meghatá—

rozott halmazt, mégpedig a csoportosító ismérv értéke. az idő ésagazdíaságiegy- ség megnevezése szerint. Az /1/ típusú információnál az általános mutatót és a mezőtípust feleltetjük meg egymásnak. Az azonosító szintek száma itt kettő: a gaz-

dasági egység és az idő.

Ha csak az alapinformációt tekintjük. akkor is többféle hierarchiát állítha—

tunk fel az adatok között. Ha figyelembe vesszük az iparstatlsztikai információ—

struiktúra output információkra vonatkozó részét. láthatjuk, hogy a gazdasági egység azonosítása nem egyedül az adatszolgáltató törzsszómánakgz azono- sítását jelenti. hanem az adatszolgáltató valamilyen ismérv szerinti halmazba tar- tozását is ki kell hogy fejezze. Ha ezt is bevisszük az adatstruktúrába. akkor az adatszolgáltatók felett újabb szintet vagy szinteket hozunk létre, amelyek a cso- portosító ismérv vagy ismérvek értékeit tartalmazzák.

Minél több azonosítót rendelünk az adatmezőkhöz. minél több szinten keresz—

tül jutunk el a feladat által igényelt adathalmazhoz, annál nagyobb a lehetősége annak, hogy csak a feladat által igényelt adatokhoz férjünk hozzá és dolgozzuk fel őket.

Ennek az elvnek az alkalmazásához három fontos szempontot kell mérlegel- nünk.

1. Ha a hosszú hozzáférési út eredményeképpen nagyon kis elemszámú rész-

halmazra válik szét az adatszolgáltatók halmaza. vagy az eredeti halmaz nem

tartalmazott sok elemet, akkor lehet, hogy a hozzáférési időegy ilyen kis részhal- mazhoz nagyobb lesz. mint az eggyel kevesebb lépcsős hierarchiában egy no-

7:

(12)

334 GYURK! nome

gyobb halmaz végigolvasással való szelektálásának ideje. Ezért az adattömeg

nagysága nagyon lényeges szempont a hierarchia-szintek számának megválasz- tásánál.

2. Az output információk szelektáló kritériumai gyakran nem egyetlen hierar- chiát tételeznek fel az adatok (az egyedi mutatók) felett. Ha ezt figyelmen kívül hagyjuk, és egyetlen hosszú, sok azonosítón keresztüli hozzáférési utat valósítunk meg. akkor az ettől eltérő igényű, más ismérvek szerinti vagy más sorrendű hierar—

chiát feltételező lekérdezéseknél feleslegesen kell végigjárnunk a hozzáférési utat.

ami jelentősen megnöveli a feldolgozási időt. Ezért alaposan mérlegelnünk kell

a különböző output-igények gyakoriságát és a szelektáló kritériumok egymással való kapcsolatát, s ennek alapján kell meghatároznunk az azonosítók sorrendjét,

hogy

— a leggyakoribb adatigényeket a leggyorsabban

— s emellett a többi igényt is elfogadható idővel tudjuk teljesíteni.

Ezek a hierarchiaproblémák nemcsak a szelektáló kritériumok kapcsán jelent-—

keznek, hanem az időismérv helyének a megállapításánál is. Az időnek mint az információ szerves és kiemelkedő fontosságú részének külön azonosítót és szintet kell képviselnie az adatállományban, de a gazdasági egység, a tevékenység- csoportosító ismérv és az időismérv sorrendjének kérdését mindig mérlegelnünk kell.

Általánosságban a hozzáférési logika szerint annál magasabb szinten kell lennie egy azonosítónak, minél több információkérésnél jelent szelektáló. meg- különböztető ismérvet az egész adatállományra nézve. Ha egy rendszerben a ke- resztmetszeti elemzések az elsődlegesek. akkor a hierarchia legfelső csúcsán áll az idő, ha az idősoros feldolgozások a gyakoribbak, akkor valamelyik alsóbb szint

azonosítójaként kell szerepelnie.

Természetesen a mutatók különböző csoportjait alakíthatjuk ki. ha a kívánt azonosító—sorrend lényegesen eltér az egyes csoportokban. (Az éves iparstatiszti- kában a telepi és a termékenkénti termelési adatok alkotnak a többitől eltérő csoportot.)

Az éves iparstatisztikai adatbázis nagy részét alkotó adatok számos lehetsé-

ges hierarchiája közül kettőt, a keresztmetszeti struktúrát és az idősorra épülő struktúrát, valamint a termékenkénti termelési adatok hierarchiáját. a szelektá- lásra épülő struktúrát mutatjuk be.

Az éves íparstotisztikai adatbázis egyes hierarchíáí 1. ,.Keresztmetszeti" struktúra

(mezők az általános GAZDASÁGI EGYSEG

mutatók szintjén)

i i j

,, _ , , l s

l CSOPORTOSITÓ ISMERV i1 . . . . , csommosno iSMEm/ in

(mezők a mutatóosztóly (mezők (! mutatóosztály

lSMERVÉRTEKEI ISMERVÉRTEKEI

1 szintjén) l szintjén)

(13)

ADATBAZiS—TERVEZÉS

885 2. ldősorra épülő struktúra

GAZDASÁGI EGvssé l

*,

iDÖ !

(mezők az általános mutatók szintjén)

l l l

CSOPORTOSlTO ISMERV i,L . . . . CSOPORTOSlTO lSMERV in

ISMERVÉRTEKEI lSMERVERTEKEl

(mezők a mutatóosztáiy (mezők a mutatóosztály

szintjén) szintjén)

3. Szelektálósra épülő struktúra

É IDÓ )

l TERMÉK [

l

[ SZEKTOR. SZAKAGAZAT l ,,,,,7 l _ _ ___.

GAZDASÁGI EGYSÉG

(mezők az általános mutatók szintjén)

A szelektálásra épülő struktúrában a 2., a 3. és a 4. szint határozza meg az információ tárgyát. Az ilyen jellegű struktúra egy ágán adott terméket termelő és adott szektorba. valamint szakágazatb'a tartozó vállalat adataihoz juthatunk el.

Az adatbázis-tervezés egyik legfontosabb lépése a logikai szintek lehetséges variációinak a felvázolása és a köztük való választás.

3. Az adatstruktúra—tervezés harmadik lépése az adatbázis fizikai tagolása

vertikálisan és horizontálisan (file-okra. rekordokra). A tagolást úgy kell elvégezni.

hogy a szükséges hozzáférési út a tagolás ellenére is biztosítható legyen, és a mutatók között az információstruktúrában megadott kapcsolatok fennálljanak vagy képezhetők legyenek.

Három lehetőség van az iparstatisztikai adatbázis tagolására.

a) A mutatókat fejezetek (termelés, munkaügy, értékesítés stb.) vagy több

fejezet szerinti csoportokba osztjuk. Természetesen minden csoport magával viszi azonosítóit is. llyenkor a csoportok alkotják a file—t. és a legfelső szinten levő azonosító mező értéke által meghatározott hierarchia valamennyi eleme egy re- kordba kerül (annyi rekord van egy file-ban, ahány értéke van az adott azonosító mezőnek).

b) A legfelső szinten levő azonosító mezőt használjuk a file-ok kialakítására.

Annyi file—unk lesz. ahány értéke lehet a legfelső szint azonosítójának, és az alatta levő szint azonosítója szolgál a rekord azonosítására. illetve a hozzátartozó alfa alkotja magát a rekordot (például évenkénti file-ok képzése. ahol a rekord-

azonositó a vállalati törzsszám).

c) Ha az alap—információstruktúrán kívül szelektáló ismérveket is beépítenénk

az adatbázis-struktúrába, de ezzel túlságosan megnövelnénik a rekord *méretét,

(14)

886 GYURKI lLDlKÓ

vagy az adatszolgáltatóvkat több hierarchiába is besorolhatnánk, akkor a követ- kező megoldást alkalmazzuk.

Ha a szelektáló ismérv az első szinten van, akkor az előző esethez hasonlóan elvágjuk a hierarchiát (: 2. szinten, de a 2. szinten levő azonosítók által meghatá—

rozott alfákat nem osztjuk szét file—oik'ká azono'sítójuk 1. szint azonosító mezőjének értékei szerint. Feltesszük, hogy a 2. szint azonosítója egyedien azonosítja az alfá- k'at, Ahhoz. hogy mégis biztosítsuk a 2. szint elemei közt az 1. szint ísmérvértéke által.

meghatározott kapcsolatot, egy invertált file—t hozunk létre, amely az első szinten levő ismérv értékeihez rendeli hozzá a 2. szinten levő azonosítókat. Az invertált file-t és az adatfile-t ezután a feldolgozás során kapcsoljuk össze.

.

Az információstruktúrának és az adatstruktúrának számos összefüggését egy

tanulmány keretében nem áll módunkban áttekinteni. Célunk annak bemutatása

volt, hogy a statisztikai információ általános formájának a meghatározása, az

információelemek szerepének elemzése az adatbázisok tervezéséhez egzakt mód- szert ad.

Az output információ'igények elemzésével felvázolható az összes lehetséges struktúra. amelyből azután a software—rendszer lehetőségeinek fi'gyelembevételével választhatjuk ki a legmegfelelőbb adatstruktúrót.

Az ismertetett módszer nemcsak az iparstatísztikai, hanem más ágazati sta- tisztikai adatbázisok tervezésénél is felhasználható. Mivel a statisztikai információ szerkezetében a tevékenységnek kiemelt szerepe van. ezért haa hiv—atkozásiszám- rendszereket ilyen szerkezet szerint építjük fel, akkor az ágazati adatbázisok funk- cionális statisztikai fejezetek szerinti kapcsolatát is megvalósíthatjuk.

IRODALOM

9 Arvascl Ch.: Adatstruktúrák. adatkezelés és odattárolás. KSH Számitástechnikoi főosztály. Budapest.

1 73. 64 ol .

Az iparstatisztikai adatbázis—rendszer kialakításának tapasztalatai. Statisztikai Szemle. 1974. évi 10.

sz. 867—885 old.

Györki Ildikó Majtényi Edit: Az adatbázis—kezelés problémái. Statisztikai Kiadó Vállalat. Budapest.

1974.

Köves Pál Párniczky Gábor: Általános statisztika. Közgazdasági és Jogi Könyvkiadó. Budapest. 1973.

817 old.

Párniczky Gábor: A statisztikai osztályozás logikai alapjai. (Statisztikai rendszerszervezőí tanfolyami jegyzet.) KSH Számítástechnikai főosztály. Budapest. 1972. 76 old.

PE3fOME

ABTOp saHuMaercn oőoőmeHMeM CprKTypbl uHcpopMaLmu B OTHOLIJeHHH npomumnen—

Hoff cramcmxu, ln'o nansetcn oAHoü na npennocsmon opreuusauuu 6aHKa gar—mux e ami—i oőnacm.

u.ems aaropa aanmouaercn a nouase Toro, uro onpeAenem—ie oőmeü rpopMm cramcm—

uecxoű thjmpMauuu, aHanus ponu anemeH'roa "mpopmauun p.aeT 3K3aKTHbe—í Me'rog mm nnaunposauun őaHKa ABHHHX. HyTeM anannaa unmopmaumounmx Hymg abrxona moxmo yc-ranouan, ace BoaMomnbre CprKTyphl, 143 KOTOprX snocnencmuu c yueToM BO3MO)KHOC- Teü cucreMu MaTeMaTHI-leCKOFO oőecneueuun Moxmo BblőpaTb Hauőonee nonxogzmyio crpymypy p.aHHux.

Manomenuslü MeTOA momuo ucnonbaosa'rb a nnaanoBam—m Gamma nai—mux He TOHBKO s npoMblwneHHoü c-ramcruxe, Ha n a npyrux oTpacneaux ctawcmxax. B crpymype cramc—

Tuuecuoü uncpopmaum sun-aroma"; ponb npunannemm anny gemensuocm, naarOMy, ecnu HHÓPOBble yKaaaTeanble cucreMu crpomcn a COOTBeTCTBMH c aTMM oőcromenb—

cream, soanmcae'r aosmomnocra Takme " Ami ycvauoanenun csnsu memay ovpacnesbwn óaHxaMn nam-lux no duyi—muuonansuum cramcmuecxuM pasgenaM.

(15)

ADATBÁZiS-TERVEZES 887

SUMMARY

The study investigates the generalization of the structure of statistical information of industry, which is a condition of elaborating a data basis in industrial statistics.

lts aim is the demonstration of that determining :! general form of statistical informa—

tion, analyzing the role of information elements provides an exact method for planning data bases. By analyzing the demand for output information every possible structure may be drawn up of which then the most suitable data structure can be selected taking into account the possibilities of software systems.

The method discussed here can be used for planning data bases not only in industrial statistics but also in other branch statistics. Since activity has an outstanding role in the structure of statistical information. therefore if reference number systems have been con- structured by such a structure, the connection between branch data bases by the sections of functional statistics can also be established.

Hivatkozások

KAPCSOLÓDÓ DOKUMENTUMOK

Az Egyesült Államok össznépessége 1970-ben 2043 millió fő volt, és ennek va- lamivel több mint egynegyede (53.9 millió) vidéken; kevesebb mint 5 százaléka (9.7 millió)

zisában tárolt — a Központi Statisztikai Hivataltól átvett -— iparstatisztikai adatok esetében a karbantartás eseményeiről folyamatos tájékoztatást biztosító

Az is fontos ugyanakkor, hogy a szabályzat valóban ne legyen túlszabályozott, mert például ha az ajánlatkérő szabályzat szintjén rögzíti, hogy minden beszerzés esetében

mányesoportjánál az az eset, hogy a munkabértúlkiadás vagy megtakarítás azért állt elő, mert a munkavállalók létszáma nem felel meg a tervelőirányzatnak, vagy azért, mert

Ez jelenti az állammal megosztott tevékenységet éppen úgy, mint adott esetben az állami szolgáltatások kiváltását más szolgáltatókkal vagy az öntevékenység alapján.. Az

Egyéni gazdálkodó (tevékenysége: egyéni gazdálkodás): mezőgazdasági tevékenységet folytató egyéni vállalkozó, valamint mezőgazdasági tevékenységet

Az adott gazdaságra, kultúrára jellemző kockázati közösségek – mint például a kötelező gépjármű-felelősségbiztosításé az Egyesült Királyságban – jó szolgálatot

További eredményünk a útvonalak megnyúlását jellemző stretch fogalom algeb- rai általánosítása: itt megmutatjuk, hogy egyes, a gyakorlatban gyakran előforduló