• Nem Talált Eredményt

A 2001. évi magyar népszámlálás adatfeldolgozása és adatközlése

In document Doktori disszertáció (Pldal 160-164)

X. Az adatok feldolgozása és közzététele: általános elvek és a hazai gyakorlat

X.5 A 2001. évi magyar népszámlálás adatfeldolgozása és adatközlése

X.5.1 Az optikai karakterfelismerı rendszer alkalmazása

A 2001. évi népszámlálási adatfeldolgozásra való felkészülés több szempontból új feladatok elé állította a Központi Statisztikai Hivatalt. Legmarkánsabban ez az adatbevitel megoldására vonatkozott. A nemzetközi tapasztalatok és a korábbi hazai gyakorlat folytatásával összefüg-gı szervezeti problémák miatt ugyanis valószínővé vált, hogy a hagyományos, manuális adat-beviteli gyakorlat már nem folytatható a hosszú az átfutási idı, a nagy költségek, és a gépesí-tett minıségbiztosítás lehetıségének hiánya miatt. Az alkalmazandó új technológiát a KSH alapos elemzés után, a nemzetközi szakirodalmat, a fejlettebb országok tapasztalatait és a ha-zai lehetıségeket áttekintve választotta ki. A külföldi példákból azt lehetett leszőrni, hogy több országban választották az optikai karakterfelismerési technológiát (OCR) az adatok szá-mítógépre viteléhez. Az új adatfeldolgozási technológia szállítójának kiválasztása bonyolult

és ellentmondásos – sıt jogi szempontból a mai napig lezáratlan – eljárással zajlott le 2000 folyamán.184 Az optikai rendszer számára speciálisan kialakított telephelyen a beolvasott ada-tok ellenırzését népszámlálási szakértık irányították, részben adatvédelmi megfontolásból, részben pedig a szükséges szakmai kompetencia okán. Jogi szempontból sajátos – de szinte elkerülhetetlen – megoldást jelentett, hogy a végtermékért felelıs Bull felelısségi körébe a beolvasási és javítási fázis idıtartamára külön szerzıdéssel „idegen elemek” (éppen a meg-rendelı állandó alkalmazásában lévı, „kölcsönadott” szakértık) is belekerültek.

A feladat egy részéhez szokványos OCR-szakismeretek kellettek, szükség volt azon-ban egy olyan részlegre is, amelynek a franciákkal együtt ki kellett alakítania a rendszer archi-tektúráját, programoznia a KSH által kért ellenırzési funkciókat, és kidolgoznia a szakértıi javító rendszert. A hetente több teherautónyi szállítmány, az összesen közel 15 millió kérdıív érkeztetésére, tárolására, kezelésére és mozgatására az ország minden részébıl jól megköze-líthetı helyen. Az adatvédelmi ombudsman egyébként az elejétıl a végéig figyelemmel kísér-te a folyamatot.

A szolgáltatás alapvetıen három fı elemet tartalmazott: a 4,3 millió lakáskérdıív és 10,3 millió személyi kérdıív feldolgozását és az adatok átadását a KSH-nak; a kérdıívek ké-peinek átadását; végül a kérdıívek megsemmisítése. A pályáztatással összefüggı bizonytalan-ságok és késedelem miatt a rendszerkiviteli terv kidolgozása, a programozás kezdetéig tartó elıkészítés, majd a szoftver kifejlesztése erıltetett menetben folyt. A próbaüzemet 2001. má-jus elején lehetett elkezdeni. A teljes termelési rendszeren végzett fıpróbákon már a KSH szakemberei is részt vettek.185 Elsıként egy képviseleti mintát kellett feldolgozni, ugyanis – a

184 Az elıszőrések után a szőkített listán végül négy vállalkozó maradt, és a KSH „benchmark eljárást” – vagyis modellszerő, de már az ipari termelés jegyeit mutató próbát – írt elı nekik, és ezen a próbán mind a négy pá-lyázó megfelelt. Az eredmények számítógépes értékelése, illetve kettıs szőrése után a szervezettség, a minı -ség és a teljesítmény alapján a Bullre esett a választás; a francia informatikai óriáscég magyarországi leány-vállalata indíthatta el tehát a kétmilliárd forint összértékő informatikai program 1,5 milliárdos OCR-részét. A projekt azonban rögtön az elején négy hónapi állásra kényszerült, mivel az egyik vesztes cég megtámadta az eredményt. Az ügy mind a mai napig nincs lezárva, jóllehet a döntıbizottság eredeti határozata a Legfelsıbb Bíróság elıtt is érvényesnek bizonyult. 2001. február 1-jén azonban – a törvény által elrendelt idıpontban – megindult a több mint 10 milliárd forintos költségvetéső népszámlálás adatfelvétele, miközben a feldolgozás informatikai és logisztikai elıkészítése a pereskedés miatt négyhónapos leállásra kényszerült. A közbeszer-zési döntıbizottság végül is nem semmisítette meg a Bullt nyertesnek mondó határozatot, a szerzıdés meg-kötésének ilyenformán nem volt formai akadálya. Ez 2000 novemberében meg is történt – július helyett – vagyis az optikai adatbevitel közvetlen elıkészítésére a kiválasztott cégnek az eredetileg tervezettnél jóval kevesebb ideje jutott, és sok tekintetben a kidolgozott rendszer tesztelése is már az „éles” feldolgozás idı -szakára maradt.

185 A beolvasáshoz a francia népszámlálásnál is használt nagy teljesítményő, megbízható és felújított Kodak lapolvasókat és azok szoftvereit használták.

tervektıl eltérıen, ám a korábbi évtizedek gyakorlatához hasonlóan – elızetes eredményeket kellett publikálni még a teljes feldolgozás elıtt.186 Ez az elıkészítı, „finomhangolási” mun-kák kényszerő lerövidülése miatt azt a terhet rótta a kivitelezıre, hogy már a projekt elején hiba nélkül dolgozzon, hiszen a mintavételbıl következıen minden egyes hiba a teljeskörősítés után a többszörösére nıtt (volna), rontva az eredmény hitelességét, és különfé-le magyarázkodásokat követelve a végkülönfé-leges adatok közzététekülönfé-lekor. A projektet – az összesen 15 millió személy- és lakáskérdıív OCR-es feldolgozásával és megsemmisítésével együtt – fél év alatt, határidı elıtt, 2001 novemberére sikerült lezárni, a négy hónapos kezdeti késle-kedés ellenére is. A feldolgozás végeredményét CD-ROM-okra és WORM-okra (nagy kapa-citású, egyszer írható, többször olvasható adathordozóra) rögzítették, majd páncélszekrények-be helyezték. Mivel szigorúan bizalmas adatokról volt szó, a feldolgozás eredményét védett állományként, fájlonként tárolják. Feldolgozásuk SAS elemzı rendszerben történt, témakör-önként elkülönítetten, majd az elemzések aggregált formában kerültek Oracle-adattárházba (például a nemek megoszlása). Illetéktelenül, böngészı keresıvel nem lehet hozzáférni az egyébként is titkosított egyedi rekordokhoz, a kezelést kizárólag a megfelelı programmal le-het végezni.

X.5.2 A 2001. évi magyar népszámlálás eredményeinek közzététele

A népszámlálás adatainak közzététele, illetve a közzététel elıkészítése – kihasználva a technikai feltételek fejlıdésének lehetıségeit – számos ponton eltért az elızı népszámlálásnál alkalmazot-tól. A cél az összeírt adatok minél gyorsabb közzététele és minél szélesebb felhasználó körhöz való eljuttatása volt. Ez alapvetıen három módon valósult meg:

– hagyományos, papíralapú kiadványok formájában, – CD-ROM-on,

– az Interneten.

Az elsı, elızetes adatokat tartalmazó kiadvány 2001 júniusában jelent meg; amit további 30 publikáció követetett. A megyei és angol nyelvő kötetekkel együtt mintegy 30 ezer oldal pa-píralapú kiadvány került forgalomba.

186 Az OCR-technológia jóvoltából lehetıség nyílt az elızı népszámlálásoknál alkalmazott kétszázalékos he-lyett most sokkal nagyobb, a társadalmi összetételt igen jól reprezentáló minta kiemelésére, majd annak rendkívül gyors feldolgozására és az eredmények decemberi közzétételére.

A népszámlálási adatok felhasználóinak – központi igazgatás, önkormányzatok, tudo-mányos intézmények és egyéni kutatók, hazai statisztikusok és külföldi vagy nemzetközi társin-tézmények, az üzleti szféra szereplıi, könyvtárlátogatók stb. – körében a személyi számítógép mára általánosan használt munkaeszközzé vált, és az Internet is egyre több felhasználóhoz jut el.

Szükségessé vált tehát, hogy a hagyományos, nyomtatott adattárakon és elemzéseken kívül a PC-vel rendelkezı felhasználókat számítástechnikai adathordozókon tárolt, illetve a világhálón elér-hetı információkkal is ellássuk. Több kötet, valamint az Európai Unió Statisztikai Hivatala által a 2000 körüli népszámlálásokra vonatkozó adataigény alapján összeállított táblázatok anyaga kétnyelvő (magyar-angol) CD-ROM-on is megjelent. A világhálón a www.nepszamlalas.hu honlapon ingyenesen elérhetık a megjelent papíralapú kiadványok erre alkalmassá tett változa-tai. Mind a CD-ROM-on lévı, mind az Interneten elérhetı táblázatok a képernyın jól követhetı, olvasható és nyomtatható (PDF), valamint letölthetı és továbbfelhasználásra alkalmas, szer-keszthetı formában (Excel) megjelentek, a hozzájuk tartozó fogalommagyarázatokkal és szöve-ges értékelésekkel..

Az adatfeldolgozás alapvetı egységei az ország, a településtípus, a régió, a megye, a kis-térség, a település, ám készült kiadvány az országgyőlési egyéni választókerületekrıl is, valamint egyes kiadványok az adatokat a települések népességszám szerinti nagysága alapján is tartalmaz-zák. A feldolgozás legkisebb egysége – szemben a korábbi népszámlálásoknál alkalmazottal – a háztömb, amely a számlálókörzethez képest egyértelmőbben, a felhasználó által jól értelmezhe-tıen mutatja meg azt a területet, amelyre az adatok vonatkoznak. Ehhez rendelkezésre áll a KSH számítógépes rendszerében a népszámlálás teljes adatállománya, amelybıl igény esetén egyedi adatkombinációk, tetszılegesen kijelölhetı terület(ek)re állíthatók elı. Természetesen ilyen ada-tok a sztenderd táblázaada-tokban, a megjelent kiadványokban nem találhatók.

A számítógépes technológia rohamos fejlıdése, ezen belül a térképek digitális formában történı elıállítása lehetıvé tette, hogy a felhasználók – igény szerint, térítés ellenében – a meg-rendelt adatokat digitalizált térképekre feltöltve is megkaphassák. Ehhez a térképi állományt, fel-használói szerzıdés keretében, a Cartographia Kft. bocsátotta a KSH rendelkezésére. 187

187 A népszámlálási adatközlés további új formáiról – mikroadatok, földrajzi információs rendszerbe ágyazott adatok, ezen belül a pályázható Európai Uniós támogatással megvalósult Regionális Operatív Fejlesztési Projektek (ROP)– az értekezés következı alfejezetei szólnak.

In document Doktori disszertáció (Pldal 160-164)