• Nem Talált Eredményt

A statisztikai adatok ellenőrzésének és javításának korszerű megoldásai

N/A
N/A
Protected

Academic year: 2022

Ossza meg "A statisztikai adatok ellenőrzésének és javításának korszerű megoldásai"

Copied!
11
0
0

Teljes szövegt

(1)

A STATISZTIKAI ADATOK ElzLENÓRZÉSÉ'NEK ÉS JAVlTÁSÁNAK KORSZERU MEGOLDASAP

SZÁSZ JÓZSEFNÉ

A statisztikai adatfeldolgozás kulcsfontosságú fázisa az adatgyűjtést követő ellenőrzés és hibajavítás. Kulcsfontosságú azért, mert e fázis végterméke szolgál—

tatja az alapot mindenfajta statisztikai adatközléshez, tehát meghatározó szerepe van a közreadott információ megbízhatósága és időszerűsége tekintetében. E fá- zis inputja (: gép számára olvasható formában rögzített adathalmaz, outputja a továbbfeldolgozásra kész. megfelelő minőségű adathalmaz. Azt a folyamatot, amely-

nek során ez az output előáll, editálásnak nevezzük.

Mielőtt az editólási problémák lehetséges megoldásait tekintenénk át, foglal- juk össze. hogy milyen mértékben általánosítható a feladat, és mely tényezők tá- masztanak követelményeket az editálással szemben.

AZ EDITÁLÁS TlPlKUS ESETEl

A statisztikai adatfelvételek során gyűjtött adatok vagy kvalitatív, azaz kódolt.

vagy kvantitatív, azaz érték típusú adatok. Az első változatra példaként említhetjük a népszámlálást. míg a gazdaságstatisztika körében gyűjtött adatok jórészt a má-

sodik típushoz sorolható .

A fenti adattípusoknak megfelelően az editálás során végrehajtandó tevé- kenységek különbözők. Ez a különbség néha úgy csökkenthető, hogy a mennyiségi adatokat kódoljuk. ez azt jelenti. hogy a mennyiségi

ismérvértékeket osztályba so—

roljuk. Ezzel azonban nem változik meg jelentése. mindig mennyiségi marad, és erről nem szabad megfeledkezni.

Ez a két kategória az editálást is két feladatkörre osztja, mert az adatok el—

lenőrzésének és javításának módjai is eszerint különbözők.

1. Az editáló rendszer fejlesztésére ható tényezők

Az alábbi lista nem teljes. tartalmazza azonban azokat a legfontosabb ténye- zőket. amelyeknek figyelmen kívül hagyása következményekkel jár:

a) a megfigyelési egységek hierarchiája, amely meghatározza azt a tartományt, amely- ben az editálási ciklus ismétlődik:

b) a megfigyelt jelenségek közötti összefüggések, amelyek bonyolultsági fokukkal (adott relációban bennük szereplő ismérvek számával) és erősségükkel jellemezhetők: egy össze-

! ' Az 1977 szeptemberében Pozsonyban tartott lSlS '77 szemináriumon megvitatott előadás átdolgozott vá tozata.

(2)

730

szAsz JÓZSEFNÉ

függést erősnek nevezünk akkor, ha az ismérv értéke egyértelműen meghatározza egy másik ismérv értékét (vagy más ismérvek értékeit).

A fenti tényezők egyaránt fontosak az editálási szabályok megadása és afel- dolgozási eszközök tervezése során, amikor az editálósi stratégiát kialakítjuk.

2. Az editáló rendszer által végrehajtandó tevékenységek

Az editáló rendszer — mint említettük — lényegében kétféle tevékenységet vé- gez: ellenőrzi és javítja az'adatokat. és mindkettő végrehajtható vagy automatikusan,

vagy mechanikusan, vagy a két megoldás együttes alkalmazásával.

A megoldások e változatosságát az okozza, hogy mind a kvalitatív, mind a kvantitatív adatok ellenőrzésének feladatai könnyebben általánosíthatók és a sta- tisztikus részéről is kevesebb közreműködést kívánnak. Az automatikus hibajavító módszerek átültetése a gyakorlatba nem jelent problémát technikai szempontból.

de alkalmazásuk hatásának előrebecslése nagyon gondos és körültekintő elemző munkát igényel. A statisztikus felelőssége e téren nyilvánvalóan sokkal nagyobb.

Ennek ellenére a fejlődés iránya az automatikus hibajavító módszerek egyre ki- terjedtebb alkalmazása felé mutat. Az alábbiakban vázlatosan felsoroljuk. hogy

milyen tevékenységek végrehajtását várhatjuk el az editáló rendszerektől.

a) A rögzített adatok ellenőrzése:

— az egyes mezők érvényessége szempontjából;

— logikai összefüggések ellenőrzése;

— egyrészt az ugyanahhoz a megfigyelési egységhez tartozó változók, másrészt a külön—

böző megfigyelési egységekhez tartozó változók közötti aritmetikai összefüggések ellenőr- zese;

b) Az ellenőrzés által kiderített hibák javítása:

-

kézileg, amikor a javítás egy aktualizáló vagy ellenőrző folyamat ismétléséből áll, mely addig tart, amíg az adatok minősége eléri a megfelelő szintet (e megoldás idő— és

munkaigényes. de kevesebb előkészítő munkát kíván);

—- automatikusan. amikor a javítást a rendszer hajtja végre a felhasználó beavatkozása nélkül, az editálás elméleti módszerét megvalósító algoritmus segítségével; aszerint, hogy az algoritmus valószínűségi alapon vagy előre meghatározott kapcsolatok segítségével helyet- tesíti-e be a javítandó változó értéket. megkülönböztetünk valószínűségi behelyettesítést és determinisztikus behelyettesítést (ez utóbbit szokták mechanikus hibajavítósnak is nevezni).

Az editálás egyes fázisaiban végrehajtott tevékenységekről a rendszernek tá- jékoztatást kell adnia a felhasználó számára. Ez a tájékoztatás rendszerint hiba- listák, javítási listák és statisztikák formájában jelenik meg. E szolgáltatás épp oly fontos, mint maga az editálás, hiszen ilyen információ hiányában a rendszer meg—

felelő vagy elfogadhatatlan működéséről csak az adatok továbbfelhasznólásakor (elemzésekor, táblázóskor) lehet meggyoződni, és működési hiba esetén az újra- editálós költséges és sokszor már lehetetlen.

ÁLTALÁNOS (EGYBEN MINTAMEGOLDÁSNAK TEKINTHETÖ) STATISZTIKAI EDITÁLÓ RENDSZEREK

Az alábbi értékelés négy rendszer tanulmányozása alapján készült, ezek a következők:

— CONCOR, a Nemzetközi Statisztikai Intézet (lSl) World Fertility Survey részlegeváltal alkalmazott és terjesztett programcsomag;

(3)

ADATOK ELLENÖRZÉSE

731

—- CAN—EDlT, a Kanadai Statisztikai Hivatal által kifejlesztett rendszer;

-— UNEDlT, az ENSZ Statisztikai Hivatala által kifejlesztett és terjesztett editáló rend- szer;

— lSlS-lnput Modul. melyet a pozsonyi Számítástechnikai Kutató Központ fejlesztett ki.

A CONCOR és az lSlS—lnput Modul esetében az értékelés gyakorlati tapasz—

talatokon alapszik, míg a CAN—EDIT és UNEDlT összefoglalásánál a rendelkezé—

sünkre bocsátott leírásokat és dokumentációt használtuk fel.

A vizsgálatot az alábbi szempontokból végeztük:

— a feladat, melynek megoldására a rendszert tervezték.

a működési jellemzők a felhasználó szempontjából.

—— a rendszerben alkalmazott javítási mód,

—- az alkalmazás előnyei és hátrányai, -— az általánosság mértéke.

1. CONCOR

A rendszert kvalitatív adatok editálására fejlesztették ki. Működési struktúrá—

ját az 1. ábra mutatja. A felhasználó az e célra tervezett saját nyelven írhatja az editálási specifikációt. e nyelv használata bizonyos programozói ismereteket téte-

lez fel.

1. ábra. A CONCOR működési sémáia

lnpu/

az;/afa)?

60/7509

űgűgía/M

eá/fá/ás/

MÚJSZÖ/áf

a spea/ÚLéáf/b'

CPA/601? PRÚG'PÁ/W

Máá/is;; és Ú/Úíó'fű/IJZ' f/X'a

Az adatleírást. amely a kérdőív. illetve a rögzített rekord leírása, egy ún. szó—

tárba kell bevinni. Ez a szótár nem független az editáló programoktól. és minden—

kor csak egyetlen adatleírást tartalmazhat. Az egyetlen ellenőrzés. amelyet a szó- tárra támaszkodva hajt végre a CONCOR. a mezőtípus ellenőrzése, az itt kiderí- tett hibákat a program jelzi és automatikusan kijavítja.

A végrehajtható editálő program csak egyetlen kérdőívet tud kezelni, maga—

sabb színtű egységeket nem.

Az ellenőrzési és javítási utasítások leírására szolgáló nyelvi eszközök meg- felelők, és lényegében nem különböznek az általánosan használt magas szintű programozási nyelvek hasonló célú utasításaitól. Van azonban a nyelvben egy olyan utasításcsoport, amely a változók átkódolására szolgál, és különösen alkal-

mas az adatok táblázásához való előkészítésre.

(4)

732

SZÁSZ JÓZSEFNÉ

A rendszer outputja a hibamentes adatok állománya és egy hibalista, amely a hibastatisztikót is tartalmazza. A lista szabványos formátumú és alkalmas arra,

hogy javítás esetén a javító adatokat erről rögzítsék.

Az alkalmazott automatikus hibajavítás a hot—deck módszeren (1) alapszik.!

A felhasználó annyi hot-deck mátrixot állít fel programjában, amennyire szükség van, és a javító adatok behelyettesítését. valamint a matrixok aktualizálását is ne- ki kell programoznia. A CONCOR értékadó utasítása segítségével lehetővé teszi a mechanikus javítást, ami része lehet a kódérvényesség-ellenőrzésnek, és ilyenkor automatikusan megy végbe. vagy pedig egyetlen érték vagy egy kifejezés értéké—

nek feltételes behelyettesítését jelenti. Az automatikus javítás eredményeiről a rendszer nem ad információt.

Tapasztalataink a CONCOR esetében meglehetősen vegyesek. Bár felhaszná- lói nyelve egyszerű, és az átkódolási lehetőségek különösen jók, magát a rend- szert nem tartottuk általánosan alkalmazhatónak a következő okokból:

—- az adatkezelésnél érvényesített hagyományos ..kártyaszemlélet" speciális. egyébként felesleges előkészítő lépést tesz szükségessé, amelynek során a 80 poziciónál hosszabb re—

kardokat 80 pozíciós rekordokká kell átalakítani (felbontani), ellátva az egyes részeket meg- felelő azonosító információval;

— mivel a hierarchia legmagasabb szintje a kérdőív. semmilyen ellenőrzés nem hajtható végre különböző kérdőívek változói (például az egy háztartáshoz tartozók adatai) között:

— bár a rendszer automatikusan írja a hibamentes adatokat tartalmazó file-t. ennek for—

mája és tartalma megegyezik az inputéval; az automatikus javítás eredménye a megfelelő utasítások segítségével kiírható az output file-ba. de ekkor a kérdőívet újra kell definiálni,

mert e fázisban a rendszer nem használja (: szótárt.

Tapasztalataink szerint a CONCOR segítséget adhat a kis és a közepes mé- retű adatfelvételek editólásánál, ahol a szükséges előkészítő munka nem jelenti a feldolgozás jelentős hosszabbodását, és ahol kérdőívek közötti összefüggések nin—

csenek vagy elhanyagolhatók.

lmplementólási nyelve az lBM Assembler (COBOL változatát most fejlesztik ki).

2. CAN-EDIT

Kvalitatív adatok editálására szolgáló általános rendszerként tervezték, főként a népszámlálási adatok feldolgozásában való alkalmazásra. A rendszer adatbázis

környezetben működik, struktúráját a 2. ábra illusztrálja.

2. ábra. A CAN-EDIT szerkezete

Ádi/f— 4450? Ááá/L" f/lmó'f'zés

sza/ar bazd? bázis és

/e/m/702ása lé/nebozása ne'fegezése jav/fás

Réfeyezás/

szabálya/r fe/o'oázpzása

fz/l/á/ás/

szabá/yek fk/da/pazása

(5)

ADATOK ELLENÖRZÉSE

733 A rendszer felhasználói nyelvvel rendelkezik, amely az editálási szabályok le- írására szolgál. A felhasználó ebben az esetben a statisztikus, ennek megfelelő- en a nyelv lehetővé teszi számára saját terminológiájának használatát, és így ér- telmes nevekkel hivatkozhat az adatrekord mezőíre és a kódokra. Az editálási sza- bályokat a szabályelemző (Edit Rule Analyzer) elemzi a redundáns vagy logikailag ellentmondó szabályok kiemelése érdekében. valamint származtatja a felhaszná- ló által megadott szabályokból következő implicit szabályokat. Ez az elemzés a feldolgozást megelőzően történik. Mint a 2. ábrán látható. a rendszernek szerves része a rétegezés, amelynek szabályait a már említett nyelven kell specifikálni. E szabályok alapján a felvett adatokat tartalmazó adatbázis file-okat a rendszer ré- tegezi. Egy réteg az az adathalmaz lesz, melyre egy bizonyos editálási szabályhal-

maz vonatkozik.

Az adatszótár tartalmazza a külső file-ok, valamint az adatbázis—relációk le—

írását, és alapul szolgál a teljes feldolgozási folyamat számára. Ugyanakkor az adatszótár a felhasználónak is rendelkezésére bocsátja azokat a változóneveket és kódneveket. amelyekre a felhasználói nyelven fogalmazott editálási szabályok-

ban kell hivatkozni.

Az alkalmazott editálási módszert a hot-deck megoldás alapján !. P. Fellegi és D. Holt dolgozta ki a Kanadai Statisztikai Hivatalban.

Az ellenőrzés során e rendszer minden adatrekordot összevet az összes edi- tálásí szabállyal (amelyeket konfliktus szabályoknak is neveznek), és feljegyzi a teljesülő szabályokat.

A következő fázis a teljes mértékben automatikus hibajavítás. A behelyette- sítés követelményei magukból az editálásí szabályokból következnek, tehát ezeket nem kell külön specifikálni.

A javítási mechanizmus minden hibás rekordnál először meghatározza a meg- változtatandó mezőket, majd keres egy olyan hot-deck rekordot, amelynek javító értékeivel a rekordban levő összes ellentmondás egyszerre kiküszöbölődik.

A CAN-EDIT minden fázisában információt szolgáltat a felhasználó számára az ellenőrzés és behelyettesítés eredményeiről. és a javítatlan adatokat megőrzi.

hogy később összehasonlíthatók legyenek a javítottakkal.

A kvalitatív adatokra alkalmazott CAN-EDIT módszertan bizonyos mértékig kvantitatív adatok editálására is alkalmas.

Bár a rendszer igazán általános

megoldást adhat az editálás problémaköré- ben, szükségképpen tükrözi azt a statisztikai és szervezeti környezetet, amelyet más intézményekben való alkalmazása esetén reprodukálni kell.

lmplementálási nyelve a PL/l (Optimizer).

3. UNEDIT

Olyan általános rendszer, amelyet teljes körű vagy mintavételes adatfelvéte- lek editálási igényeinek kielégítésére fejlesztettek ki mind kvantitatív. mind kva-

litatív adatok feldolgozásánál. Szerkezetét a 3. ábra mutatja be.

Az editálási specifikációt előnyomott űrlapok szükség szerinti kitöltésével le- het megadni, ezekből az előírásokból generálja a rendszer az editálási szabályo- kat. Ennek alapján több szinten is végez ellenőrzést, és lehetővé teszi a mecha—

nikus (determinisztikus) javítást. A jelenlegi verzió nem rendelkezik a valószínűségi behelyettesítés lehetőségével.

A végrehajtás során hibalistát készít a hiba típusa és az adatmező neve sze—

rint.

(6)

734

SZASZ JÓZSEFNÉ,

Az UNEDIT több rekordtípust tartalmazófile—t is képes feldolgozni, és asze-

rint, hogy rekordok közötti ellenőrzés szükséges—e vagy sem. az alábbi feldolgo-

zási módokban tud működni:

— egy rekordtipus a file-ban:

— több rekordtípus a file-ban (rekordok közötti ellenőrzés nem szükséges);

— több rekordtípus a file—ban (rekordok közötti ellenőrzés szükséges);

— háztartás-kérdőív típusú file (azaz két rekordtípusú file), ahol egy rekordtípus a ház—

tartást írja le, ezt követi egy vagy több személyrekord).

3. ábra. Az UNEDIT működési sémáia hip!/f

ada/mé

fiúi/ási ) ,

;,aeeráp/zí [Mia/as

e/o'a/yazása

(III/EDIT PROGRAM

Wie/Ma És I/ÚHJ/Jf/ÁXZ—

fűz

A végrehajtható editálási funkciók a következők:

-— a kód vagy az érték érvényességének ellenőrzése (az elfogadható kódokat vagy lista- szerűen, vagy intervallumként kell definiálni egy erre a célra szolgáló űrlapon);

— az összefüggések ellenőrzése (vonatkozhat mind kvalitatív, mind kvantitatív mezőkre.

és az ellenőrzések aritmetikai műveleteket is tartalmazhatnak), amely történhet vagy a rekor- don belül, vagy a rekordok között. amikor több rekordtípussal vagy háztartás rekordtípussal

rendelkező file-ról van szó;

- a teljesség ellenőrzése annak megállapítására. hogy hiányzik-e rekord a file-ból, ami háromféleképpen történhet: a) az input rekordszám gyűjtése területi azonosító szerint. b) a hiányzó rekordtípus vizsgálata alapján. c) személyrekordok számolása a háztartás típusú file-ok esetén.

A kódérvényesség ellenőrzésénél, illetve az összefüggés-ellenőrzésnél a fel—

használó javító értéket is specifikálhat (az arra a célra biztosított űrlapon. Az UNEDIT ellenőrzi a felhasználói editálási specifikációt szintaktikai helyesség. re-

dundancia és logikai ellentmondás szempontjából.

A rendszer használata nem tételez fel programozási ismereteket, elsősorban a statisztikus felhasználó számára készült.

Az implementálási nyelv az RPG—ll.

Különlegessége a rendszernek, hogy igen kicsi a memóriaigénye, minimum 32 Kbyte—os belső memóriával rendelkező számítógépeken már futtatható.

4. lSlS-lnput Modul

A modult kvalitatív és kvantitatív adatok editálására tervezték. Funkcióit két alapvető módon lehet aktivizálni: vagy felhasználói nyelv segítségével, vagy COBOL

gazdanyelven keresztül.

(7)

ADATOK ELLENÖRZESE

735

Az editálandó adatok és struktúrájuk leírását a file-katalógus tárolja amelyet a rendszer editáló programoktól függetlenül kezel.

A felhasználói nyelv az editálás végrehajtásához szükséges parancsokból és függvényeljárásokból áll. A nyelv használatához alapos programozási ismeretek szükségesek.

Az ellenőrzés egy vagy több egyszerű logikai kifejezést tartalmazó lF—utasí—

tások sorozatával hajtható végre. E fázis outputja az ellenőrzött adatfile és egy hibalista, amelynek tartalmát és formáját a felhasználó határozza meg.

A javítás elvégezhető kézi úton vagy automatikusan.

A kézi javítást a rendszer az e célra szolgáló listával segíti, amely tartalmaz- za a javítandó rekord file-on belüli pozícióját.

Az automatikus javítás vagy feltételes értékadás útján, vagy a felhasználó ál—

tal programozott javító algoritmussal hajtható végre.

Az input modul hiányossága, hogy semmilyen hibastatisztikát nem készít, így megfosztja a felhasználót az editálási folyamat értékeléséhez szükséges informá- ciótól. A tapasztalatok szerint az lSlS-lnput Modul hasznos lehet kvantitatív ada- tok ellenőrzésénél. de a javító módszer nagy hibaszázalék esetén nehézkessé vá—

lik.

AZ IDEÁLlS EDlTÁLÓ RENDSZER

Vizsgálatunk eredményeként megállapíthatjuk, hogy az editálás összes prob- lémáját megoldó ,.ideális rendszer" egyszerűen nem létezik, és talán soha nem is lesz. Ez természetes, mert bár a problémák nagyjából mindenhol ugyanazok. a megoldások mégis legfeljebb csak hasonlók. Adataink a való világot reprezentál- jók, és ez a világ mindig és mindenhol más a problémák azonossága ellenére.

Ha csak a statisztikai szolgálat szerepét és funkcióját vesszük szemügyre, amely madártávlatból hasonlónak tűnik világszerte, a társadalmi és igazgatási környe-

zet adta különbségek folytán országonként igen nagy eltérések tapasztalhatók.

Az előzőkben ismertetett megoldások szerzői — szándékosan vagy akaratla- nul — környezetük képét építik be a rendszerbe, specifikussá téve azt, miközben általánosságra törekednek. Ennek ellenére, felvázolhatjuk az ,.ideális rendszert"

legalább a követelmények szemszögéből nézve. Még kivitelezési javaslatot is ad—

hatunk, amely ha megvalósulna, amolyan öszvérrendszert eredményezne, ahogyan a 4. ábra mutatja.

4. ábra. Az ideális editáló rendszer

fd/fá/a' nem/szen

l l

7 ÁJJfSZÖ/áf' Kézi és

Álufa/na/Mus

* maman/km

Ba'/fá/ás

jav/fas

(my—fan * * [UA/[Úr?

MMM ms —//W CAW—fű/T

UNfD/f

F—h—MHI

VAa—l

//' . , , . ,, ' ' ' '

f//e/7— s/a/fá/jiyz— iku/á— fot/day f/x'e/za/vzés ggg/j);

á'nze's f/Xja (Irá-

.S'Z/fESE

űzi/ás Vág/la';

E/ÉMZESB ja W/as

. es , ka gene-

f*á/a'sa

(8)

736

szAsz JÓZSEFNÉ

Nyilvánvaló. hogy ilyen hatalmas rendszer ímplementálása nem gazdaságos.

de ésszerűen kiválasztott részrendszerei könnyen azonosíthatók. Ezeket érdemes kifejleszteni, megoldást biztosítva a problémák megfelelő részhalmazára. ilyen fej- lesztés eredményeként jött létre a Központi Statisztikai Hivatal Számítóközpontjá—

ban az AERO rendszer.! amely elsődlegesen az 1980—as népszámlálás editálási igényeit vette figyelembe, de más adatfelvételek kvalitatív adatainak ellenőrzésére és automatikus javítására is alkalmas.

AZ AERO —- ÁLTALÁNOS EDlTÁLÓ RENDSZER

Az AERO két alrendszerből áll. A statisztikus felhasználó által megadott edi—

tálási specifikációt a Specifikációs Alrendszer dolgozza fel. az aktuális editáló programokat pedig a Generóló Alrendszer állítja elő a felhasználói specifikáció

alapján. (Lásd az 5. ábrát.) A rendszer létrehozásának egyik fő követelménye volt

egy olyan automatikus hibajavító eljárás kidolgozása és megvalósítása. amely ele—

get tesz az alábbi feltételeknek:

-— a javított adatok gyakorisági struktúrájának nem szabad különböznie az eredetileg jó adatokétól:

—- a javított rekordnak az összes szabály szerint hibátlannak kell lennie. és ezt a lehető legkevesebb mező megváltoztatásával kell elérni.

5. ábra. Az AERO alkalmazási sémáia

Ádafszá/áf ngáá/Wk fz/l'fá/a' " , 7 ,

ááá/Misa Mo'a/gozása WWW/ÉM Mem/izes Jaw as /e'/f'fúazasa

Salix/Éli

JcíV/YÖÚJ'Z/íf e/a'o/pgzása

/a//'e/mzasa

Az alkalmazott módszer főbb jellemzői:

—- az inkonzisztens kódkombinációkat leíró szabályok a javítás alapjául is szolgálnak (tehát nincs szükség javítási specifikáció megadására);

— az ellenőrző eljárás által kidobott rekord kiegészül úgy. hogy információt tartalmaz—

zon az egyes mezők .,gyanússágát" illetően, más mezőkkel való kapcsolatát figyelembe véve, de tekintet nélkül a kielégített szabályok számára;

— a javítás alapja a lehetséges kódkombinációk által meghatározott kádtérnek az a részhalmaza. amelyet az editálósi szabályok determinálnak; :: kidobott rekord olyan kód-

kombináciát képvisel. amely nem eleme ennek a részhalmaznak.

A ,,leggyanúsabb" mezők eredeti értékeinek megváltoztatásával akkor tekint—

hető egy rekord jónak (azaz javítottnak), amikor az említett részhalmaz elemévé

válik.

Az automatikus hibajavításon kívül az AERO más lehetőségeket is biztosít a felhasználó számára, ha a megvalósított módszert nem kívánja alkalmazni ada—

tainak javítására.

1A rendszert a Központi Statisztikai Hivatal munkatársai tervezték meg. de a kivitelezésben részt vet- tek a Számítógép-alkalmazási Kutató Intézet munkatársai is.

(9)

ADATOK ELLENÖRZESE

737

1. A rendszer funkciói

A Specifikációs Alrendszer két fő részből áll:

adatszótárból és szabálykezelő-

ből.

Az adatszótár tárolja az ellenőrizendő és javítandó rekord leírását és az

egyeshány rekordleírást tartalmazhat. és az egyesmezőkhöz tartozó megengedett kódok listáját. Ugyanazonmezőkhöz azonos kódlisták is tartoz-adatszótár akár—

hatnak, ha ez szükéges. A tárolt információt a szótárkezelő programok segítségével kívánság szerint lehet módosítani vagy törölni.

A szabálykezelő modul az editálási szabályokat ellenőrzi formai és tartalmi szempontból. az adatszótárban tárolt rekordleírás és kódlisták figyelembevételével.

a) egy rekordon belül:

— a kódérvényesség ellenőrzése;

— a

mezők közötti összefüggések ellenőrzése (ellenőrző szabályok megadásával);

—- az automatikus hibajavítás;

-— a

mechanikus hibajavítás (ellenőrző és javító szabályok megadásával);

—- statisztika készítése az ellenőrzés eredményéről;

-- kontroll-lista készítése az ellenőrzés után;

—— javítási lista készítése az automatikus hibajavítás után.

b) a rekordok között:

-— a

rekordcsoport összetételének ellenőrzése;

— az összetételhíbák automatikus javítása;

—— statisztika készítése az ellenőrzésről (és javításról);

kontroll-lista készítése az ellenőrzésről (és javításról).

2. Alkalmazási tapasztalatok

Az AERO rendszert — mint említettük -— elsősorban a népszámlálási adatok editálására fejlesztettük ki. Ez azt jelenti, hogy főként kódolt. más szóval kvalita—

tív adatok ellenőrzésére és javítására használható, de nem zárja ki teljesen a mennyiségi adatok kezelésének lehetőségét sem. lgy a kódoltnak tekinthető vál—

tozók —— például születési év (vagy kor). házasságkötés éve és hasonlók — érték—

adatait is lehet ellenőrizni vagy javítani. ezek és más változók közötti aritmetikai összefüggések is vizsgálhatók.

A népszámlálás nagyságrendű adatfelvételek esetén az alkalmazott automa- tikus hibajavítási módszer megfelelő minőségű javítást biztosít, de kisebb felvé—

teleknél, 100000 tételszám alatt a javítás elfogadhatósága nagymértékben függ a javítóbázis kitöltöttségétől (azaz hány elfogadott kódkombináció fordult elő az összes lehetségeshez képest) és a hibás, valamint elfogadott rekordok arányától.

Amennyiben ez a javítóbázis elég ,.ritkán" van kitöltve, a javítás ideje túlságosan nagy lehet. llyen esetekben megfontolandó, hogy célszerű—e az automatikus hiba—

javítás alkalmazása, de a rendszer egyéb funkciói probléma nélkül végrehajthatók Nagyon hasznosnak bizonyult. hogy a Specifikációs Alrendszer biztosítja az adatok és az editáló programok függetlenségét, így az edi'tálási stratégia még a tényleges feldolgozások kezdete előtt kialakítható a rendszer által biztosított végre—

hajtási információ (statisztikák, kontroll—listák) alapján.

Általában elmondható. hogy az AERO a jelenlegi követelményeknek megfe—

lel. de még szélesebb körű alkalmazást is lehetővé tenné, ha az automatikus hi-

. 5 Statisztikai Szemle

(10)

738

SZÁSZ JÓZSEFNÉ

bajavító eljárás a kisebb terjedelmű adatlelvételek esetén is hatékonyan hasz—

nálható lenne. Ezért a fejlesztés e probléma megoldására irányul elsősorban.

Az említett korlátozott alkalmazhatóság ellenére több ország mutatott érdek—

lődést az AERO iránt, így a Jugoszláv Szövetségi Statisztikai Hivatal és a Spanyol Statisztikai Hivatal az AERO—t alkalmazza az 1981. évi népszámlálás adatai- nak editálására. A téma fontosságát és aktualitását jelzi az a tény is. hogy az ENSZ Fejlesztési Alapjának .,Statisztikai számítástechnika" projektje négy feladat megoldását tűzte ki célul. köztük az adateditálást, és e téma vezetésére - éppen az AERO nemzetközi reputációja miatt — a magyar Központi Statisztikai Hivatalt kér-

ték fel.

iRODALOM

(1) Nordbotten, S,: Automatic editing of individual statistical observations. Conference of European Statisticians. Statistical Standards and Studies. No. 2. United Nations Statistical Commission and Economic

Commission for Europe. United Nations. New Vork. 1963. 55 old.

(2) Fellegi, !. P. —— Holt, D.: A systematic approach to automatic edit and imputation. Journal of the American Statistícal Association. 1976. március. 17—35. old.

(3) Podehl, W. M.: introduction to the Generalized Editing oncl lmputation System using Hot-Deck Approach GEISHA. Statistics Canada. 1974. (Kézirat)

(4) Szabó Kálmán: Statisztikai felvételek adatellenőrzésének és hibajavításának problémái. Statisztikai Kiadó Vállalat. Budapest. 1975. 202 old.

(5) Graves, R. B.: CAN-EDlT —— A Generalized Edit and lmputation System in Data Environmenti CES- WP, 9/142. Geneva, 1976. 30 old.

(6) Szász Katalin: Generolized data editing systems: reauirements and approaches. Megjelent: Pro—

ceedings of the iSlS '77 Seminar. Bratislava. 1977. 361—374. old.

(7) Szász Katalin: Report on the application and development ot the generalized data editing system AERO. CES/SEM. 11,'R. 6. Bratislava. 1979. 10 old.

PE3l-OME

ABTOp nanarae'r HeKOTOpre ConeMeHHbie pemem—m a oőnacm aBTomaTuc-recnoü npo—

aepkm H KOppeKuHH cramcmuecmx nanubrx.

l'lposepka nrpaeT pemarouwro ponbc mmm sperma nocroaepnocm " axryanbnocm npeAOCTaBnHeMHX nai—mux. Baurauuounsie saga—m a OCHOBHOM momno paanenmb Ha nee KaTeropHH, cornacno TOMY, HBHHIOTCSI nu COÖpaHHble B one oőcnenosannn naHHme KOAH- pOBaHHbiMH (KaHeCTBeHHbIMM) mm Konmeasennumu(naamwTawaHbrMu).3To runasoe pas—

nwme m'paeT pam, a nepBle ouepenb s abiőope memga asromamuecxoi Koppekum OLUHÖKH, l'lOCKOJ'ley penpesemampyioumü Hacronmyio sanauy anropmM sannerca Kmo—

uesoü llaCTbI-O CMCTeMbI, ocymec-renmo'uieü enuumo.

3AHTauHOHHbIe CHCTeMbI oőbmno gamma ocymectanntb cnepyrowxe rnaanbre 3a-

nam—i'.

—— nposepky, oanauammyro neücmwrenwocm Kona u csnan memny DTAeanbiMM nemm—1 p.aHHblx;

—- Koppekumo, Koma cucrema nyTeM aeposrrnocn-ioü mm nerepMMHu—icruuecxoü aaMe- Hbi ucnpaanneT OőHapYH-(eHHble a xone npoaepxn OLLIHÖKH;

-———- npeaocraanenue nncpopmaum noTpeÖHTerlO o pesynuatax omenbnbix (pas emi—

HMM.

Paannunbie CHCTeMb! Ha paanbix ypoai-mx oneneTsopmo'r 3TMM zanauam. ABTOp lnaeT oueHKy uetbipex TaKHX CMCTeM (CONCOR, CAN—EDlT, UNEDlT, ISlS-lnput Modul). Ha oc- Hoaamm HOHYHeHHbIX snanuű u onbn'a aPacueTHoM u.eHTpe Lle coeAaHa CSU-I.em anma- H.HOHHBH cucreMe A3PO nna Hymn npoaepku % aevoma'runecxoü koppeuumu nannbix ne- penucn HeceneHMn 1980 rona.

SUMMARY

The article discusses some topical solutions to the automatic checking and correction ot statistical data.

Checking is determinant from the point of view of the reliability and timeliness af pub—

lished data. Editing tasks can be classified principially into two categories depending upon

(11)

ADATOK ELLENÖRZÉSE

739 whether the data collected in the surveys are, by their nature. coded (aualitative) or they are auantitatíve ones. This difference has a role primarily in selecting the method of auto- matic error correction since the algin the editing systems. orithm which describes it is a part of primary importance

The editíng systems are generally to fulfil! the following tasks:

— checking which means the supervision of code validity and the control of the con—

nections between the individual data-blocks;

-— correction, when the system corrects the detected errors by means of probabílistíc or deterministic replacing;

-— supplying information to the data users on the results of the individual phases of editing.

The tasks above are fulfilled by different systems ot different levels, of which the article evoluotes four systems (CONCOR. CAN-EDIT, UNEDlT. lSlS-lnput Modul). Reiying on the ob- tained experiences and knowledge the AERO System for General Editing has been developed inrection of the data of the Populatíonthe Computer Center of the CentralCensus in 1980.Statístical Office for the checking and automatic cor-

5—

Hivatkozások

KAPCSOLÓDÓ DOKUMENTUMOK

1. A területi statisztikai szervek munkájának színvonalát csak akkor lehet tovább emelni, ha kevesebb gondot kell fordítaniok az adatok begyűjtésére és ellenőrzésére. Ez

tikai adatfelvételek" (statisztikai Szemle. old.) és a ,,Hivatalos magyar iparstatisztikai adatfelvételek és közlemények 1921—1944 között" (Statisztikai

Felmerült ezzel kapcso- latban az az igény, hogy a korszerű vállalati statisztikai információs rendszer kialakításá—. ban az iparvállalatok közgazdászait

A beszámolási adatok begyűjtésének és feldolgozásának központosítása a Köz- ponti Statisztikai Hivatalban szükségessé tette az egész állami statisztikai rendszer

böző adatbázisokban tárolt elemi adatokkal végzett közös műveletek lehetősége végső soron attól függ, hogy a statisztikának azokon a területein, ahol a statisztika alanyai

(Ez azt is jelenti, hogy a világ legtöbb országában ez a kérdésfeltevés még nem aktuális, a népszámlálások szükségességét senki sem vitatja, tekintettel arra, hogy

tárban megjelent népszámlálási adatok alapján az egész ország minden községéről közölte a nemzetiségi és a vallási megoszlást, egyúttal összehasonlítva a félszáz

évi népszámlálás adatainak feldolgozását követően, széles körű területi statisztikai mutatók alapján, 1992 második felében a Környezetvédelmi és