A KSH 2015 elején kutatásra alkalmas nyilvános mikroadatfájlokat adott át a Minnesotai Egyetem számára az IPUMS-projekt keretében. Az állományok előzetes regisztráció35 után kutatók számára ingyenesen hozzáférhetők lesznek 2016 folya-mán. A regisztráció során beazonosítják a kutató személyét, megvizsgálják a kutató intézményi hátterét és elbírálják a kutatási tervet.

A mintavétel a sokasági lakásállományból indult ki. 5 százalékos egyszerű vélet-len mintát vettünk, visszatevés nélkül. A mintavétel során rétegzés nem volt. A min-tába került nem üres lakásokhoz hozzárendeltük a benne lakó személyeket, továbbá a személyeket kiegészítettük a hajléktalanokból és az intézeti lakókból vett 5 százalé-kos visszatevés nélküli egyszerű véletlen mintával. Az így létrejött személyi állo-mány körülbelül 500 ezer rekordot tartalmaz, míg a lakásálloállo-mány nagyságrendileg 220 ezret. A két állomány egy lakásazonosító alapján összekapcsolható. A személyi állomány 36 változót tartalmaz, a lakásállomány pedig 18-at.

35 https://international.ipums.org/international-action/show_register?id=0

Egy adott változót vagy globálisan átkódoltunk vagy változatlan formában hagytuk.

A kérdés az, hogy az átkódolások vajon elegendő mértékben csökkentették-e a felfedé-si kockázatot, vagy még további beavatkozásra is szükség van az állományok anonimi-tása érdekében. A végrehajtott lépések nagyon hasonlók az oktatási fájlnál leírtakhoz:

1. Ellenőrzés. Meggyőződtünk arról, hogy az állomány nem tartal-maz közvetlen azonosítókat.

2. Felfedési forgatókönyvek.

a) Van-e annak reális kockázata, hogy a kutatási célú nyilvános mikroadatfájlt egy másik mikroadattal összekapcsolják, a benne sze-replő személyeket beazonosítsák és róluk új információkat fedjenek fel? (Külső archívum, nyilvános adatok.)

Mivel a 2011-es Népszámlálásból nem áll rendelkezésre a Minne-sotai Egyetemnek átadott állományhoz hasonló változókészlettel és megközelítőleg hasonló kiválasztási aránnyal rendelkező népszámlá-lásból származó vagy egyéb személyi szintű állomány, ezért a külső állománnyal való összekapcsolás lehetőségét elvetettük.

b) Van-e annak reális kockázata, hogy valaki beazonosítja egy kö-zeli ismerősét (kíváncsi szomszéd)?

A kulcsváltozók kiválasztása során ezt a forgatókönyvet vettük fi-gyelembe: a támadó az ismeretségébe tartozó egyedekről birtokában levő információkat (például kor, nem, gyermekek száma, foglalkozás stb.) veti össze az állományban található rekordokkal.

3. Kulcsváltozók meghatározása. A figyelembe vett felfedési forga-tókönyv alapján a következő kulcsváltozókat határoztuk meg:

a) személyi állomány: családi állás, itt tartózkodás jogcíme, nem, korév, állampolgárság, családi állapot, családfőhöz való viszony, ház-tartásfőhöz való viszony, gyermekek száma, az iskolarendszerben el-végzett legmagasabb szint, gazdasági aktivitás, foglalkozása, munkál-tatójának/vállalkozásának tevékenysége, lakhelyének régiója, születés-kori lakhely települése;

b) lakásállomány: az épület típusa, a lakás építési éve, a lakóegység használata, tulajdon típusa, a lakás szobaszám szerinti nagysága, fürdő-szobák száma, vízöblítéses WC-k száma, a lakás alapterülete.

4. Kulcsok képzése. Ezekből a kulcsváltozókból legfeljebb négy változóból álló kulcsokat képeztünk. Ezekre a kulcsokra ki kell számí-tani a felvehető értékek összes lehetséges kombinációjának a gyakori-ságát az 5 százalékos mintában. Ez azt jelenti, hogy 30 darab egyvál-tozós, 435 darab kétválegyvál-tozós, 4 060 darab háromváltozós és 27 405 da-rab négyváltozós kombináció van.

5. Felfedési kockázat. Ezek után a kulcskombinációk előfordulásait határoztuk meg. Látható, hogy a három- és négyváltozós kombinációk száma már olyan magas, amit egyenként áttekinteni nagyon időigényes feladat lenne. Ezért szükség van a vizsgálat alá vont esetek számának szűkítésére:

a) Az egy- és kétváltozós kombinációk kereszttábláit egyenként át-tekintettük. Már ezek alapján is elég jó közelítéssel ki lehet szűrni azo-kat a változóazo-kat, ahol alacsony előfordulások tapasztalhatók.

b) A hármas és négyes kulcsok számát úgy szűkítettük le, hogy csak azokat a kombinációkat vizsgáltuk meg, melyek a legnagyobb mértékben alkalmasak a beazonosításra és a felfedésre.

Ha megtaláltuk a minta alapján kockázatosnak ítélt kulcsokat, akkor ezekre a kul-csokra meg kell vizsgálni a sokasági előfordulásokat is.36 Végül is csak azokon a változókon kell valamilyen felfedés elleni védelmi beavatkozást végrehajtani, ame-lyekre a sokaságban is alacsony előfordulásokat tapasztalunk. Ha egy változóra vagy kulcsra kizárólag a mintában tapasztalunk alacsony gyakoriságokat, de a sokaságban nem, akkor ezeket a változókat nem szükséges felfedés elleni védelmi okokból mó-dosítani. Meg kell jegyezni, hogy azokat a kulcskombinációkhoz tartozó kereszttáb-lákat, amelyek csak személyi jellemzőket tartalmaznak a személyi állományból, a csak lakásváltozókból állókat a lakásállományból, míg a vegyes jellemzőkkel rendel-kezőket a személyi állományból37 készítettük el.

Például a korév = 50, a lakás alapterülete = 70 kulcs esetében a kérdéses gyakori-ság: hány 50 éves, 70 m2-es lakásban lakó személy található az 5 százalékos mintában?

6. A nyers mikroadatfájlon végrehajtott módosítások. A kereszttáb-lák áttekintése után ezeket a következtetéseket vontuk le:

– A legtöbb vizsgált kombinációban a korév alacsony előfordulá-sokkal szerepelt a KEV > 90 esetében.

– A legtöbb vizsgált kombinációban az élve született gyermekek száma alacsony előfordulásokkal szerepelt az EGYERUJ > 10 eseté-ben.

– A legtöbb vizsgált kombinációban a fürdőszobák száma és a víz-öblítéses WC-k száma alacsony előfordulásokkal szerepelt a FURDOUJ > 2 és a WCUJ > 2esetében.

– A lakás alapterülete a LAT < 12 és a LAT > 300 esetében a leg-több vizsgált kombinációban alacsony előfordulásokkal szerepelt.

36 Pontosabban a kulcsok lehetséges kombinációinak (nem az összes elméletben lehetséges kombinációnak, csak azoknak, amelyek a mintában is előfordulnak) a gyakoriságát kell megvizsgálni.

37 A személyi állományhoz hozzákapcsoltuk a lakásállományt, így egy rekord szinten személyeket tartal-mazó, de lakásjellemzőkkel kiegészített állományt kaptunk.

– A foglalkozás ISCO-0838 szerinti foglalkozási csoportja a FOGLKOD = 03 (Fegyveres erők egyéb rangú állománya) és a FOGLKOD = 95 (Utcai és hasonló árusok, szolgáltatók) esetében több kombinációban alacsony előfordulásokat tapasztaltunk.

– A munkáltató vagy a vállalkozás NACE Rev. 239 szerinti ágazata a MUNKKOD = 03 (Halászat, halgazdálkodás), a MUNKKOD = 06 (Kőolaj-, földgázkitermelés), a MUNKKOD = 07 (Fémtartalmú érc bá-nyászata) és a MUNKKOD = 98 (Háztartás termék-előállítása, szolgál-tatása saját fogyasztásra) esetében több kombinációban alacsony előfor-dulásokat tapasztaltunk.

Az ún. „problémás” változók tehát további beavatkozást igényeltek. A rajtuk vég-rehajtott módosításokat tartalmazza a 6. táblázat.

6. táblázat További felfedés elleni védelmet igénylő változók

Problémás változó Felfedés elleni védelem érdekében végrehajtott módosítások

Korév (KEV) KEV > 90 értékekre felsőkódolás

Élve született gyermekek száma (EGYERUJ) EGYERUJ > 10 értékekre felsőkódolás Fürdőszobák száma (FURDOUJ) FURDOUJ > 3 értékekre felsőkódolás Vízöblítéses WC-k száma (WCUJ) WCUJ > 3 értékekre felsőkódolás

Lakás alapterülete (LAT) LAT < 12 és LAT > 300 értékekre alsó-, illetve felsőkódolás

Foglalkozás ISCO-08 szerinti foglalkozási csoportja (FOGLKOD)

FOGLKOD = 0240 tartalmazza a 03-as kategóriát is FOGLKOD = 5241 tartalmazza a 95-ös kategóriát is Munkáltató/vállalkozás NACE Rev. 2 szerinti ágazata

(MUNKKOD)

MUNKKOD = 0242 tartalmazza a 03-as kategóriát is MUNKKOD = 0543 tartalmazza a 06-os és a 07-es

kategóriát is

MUNKKOD = 9744 tartalmazza a 98-as kategóriát is

A 6. táblázatból jól látható, hogy az azonosító jellegű változók alacsony előfordu-lásait alsó- és felsőkódolással, illetve kategóriák összevonásával sikerült

38 ISCO (International Standard Classification of Occupations): Foglalkozások Egységes Nemzetközi Osz-tályozási Rendszere.

39 NACE Rev. 2 (Statistical Classification of Economic Activities in the European Community): az Európai Közösség Gazdasági Tevékenységek Statisztikai Osztályozása.

40 Fegyveres erők tiszthelyettesei.

41 Értékesítési foglalkozások.

42 Erdőgazdálkodás.

43 Szénbányászat.

44 Háztartási alkalmazottat foglalkoztató magánháztartás.

ni. Az így létrejött személyi- és lakásminta véleményünk szerint már nem tartalmaz reális felfedési kockázatot, figyelembe véve a felfedési forgatókönyvet.

Az információveszteséget ebben az esetben nem mértük fel, mivel a megrendelő (a Minnesotai Egyetem) ezt nem igényelte.

4. Összegzés

Nyilvános mikroadatfájlokat a világ fejlett részein már évtizedek óta publikálnak, de ahogy az 1. fejezetben bemutattuk, egységes definíció a mai napig nem létezik rá.

Ebből következően a nyilvános mikroadatfájlok előállítására is számos lehetőség áll rendelkezésre. Ebben a cikkben nem vállalkoztunk, nem is vállalkozhattunk arra, hogy a teljesség igényével mutassuk be a nyilvános mikroadatfájlok előállításának módszer-tani kelléktárát. Csupán a módszermódszer-tanilag egyszerűbb, ún. hagyományos módszereket45 foglaltuk össze. A módszerek technikai részleteiről az érdeklődő Olvasó tájékozódhat a bőségesen rendelkezésre álló szakirodalomban. E helyett inkább a „nagy egészre” a nyilvános mikroadatok előállításának folyamatára koncentráltunk. Hangsúlyozzuk, hogy a 2. fejezetben felvázolt folyamatséma csupán egy lehetséges, de nem az egyetlen módja a nyilvános mikroadatfájlok előállításának. A cikk vezérfonalként szolgált, mely segít eligazodni a módszerek és lehetőségek tárházában.

Bízunk abban, hogy a tanulmány – elsősorban a 3. fejezet – hasznos lehet azok-nak a felhasználókazok-nak, akik már használták, vagy ezután kívánják megismerni a KSH által publikált nyilvános mikroadatfájlokat. Célunk az volt, hogy a KSH hon-lapján megtalálható információknál egy kicsit bővebben bemutassuk ezeknek az állományoknak az előállítási folyamatát, illetve az előállítás során felmerülő adatvé-delmi dilemmákat.

A cikk azok számára is hasznos lehet, akik most ismerkednek a nyilvános mikroadatfájlokkal, és szeretnének megismerkedni az alapfogalmakkal, illetve rövid bevezetést kapni arról, hogy melyek a legalapvetőbb, leggyakrabban használt mód-szerek a nyilvános mikroadatok előállítása során.

Végül, de nem utolsósorban a cikk megírását az is motiválta, hogy összegezzük a KSH-ban még viszonylag gyerekcipőben járó nyilvános mikroadatokkal kapcsolatos módszertani tapasztalatainkat. Bízunk benne, hogy a közeljövőben a felhasználói igényeknek megfelelően további nyilvános mikroadatfájlok publikálására is sor ke-rülhet, melyek során továbbfejleszthetjük az itt bemutatott módszertani apparátust is.

45 Nem beszéltünk például az utóbbi években egyre divatosabbá váló szintetikus adatok módszertanáról, például Alfons et al. [2011].

Irodalom

ALFONS, A. KRAFT, S. TEMPL, M. FILZMOSER, P. [2011]: Simulation of Close-to-Reality Population Data for Household Surveys with Application to EU-SILC. Statistical Methods &

Applications. Vol. 20. Issue 3. pp. 383–407.

AZ EURÓPAI UNIÓ HIVATALOS LAPJA [2009]: Az Európai Parlament és a Tanács 223/2009/EK rendelete (2009. március 11.) az európai statisztikákról és a titoktartási kötelezettség hatálya alá tartozó statisztikai adatoknak az Európai Közösségek Statisztikai Hivatala részére történő to-vábbításáról 1101/2008/EK, Euratom európai parlamenti és tanácsi rendelet, a közösségi sta-tisztikákról szóló 322/97/EK tanácsi rendelet és az Európai Közösségek statisztikai programbi-zottságának létrehozásáról szóló 89/382/EGK, Euratom tanácsi határozat hatályon kívül helye-zéséről. 2009. 3. 31. L 87/164.

BARTUS T. [2013]: Adatcserével anonimizált mikroadatok használhatósága – Egy szimulációs vizsgálat tanulságai. Statisztikai Szemle. 91. évf. 5. sz. 465–497. old.

DRECHSLER,J.REITER,J.P. [2009]: Disclosure Risk and Data Utility for Partially Synthetic Data:

An Empirical Study Using the German IAB Establishment Survey. Journal of Official Statistics. Vol. 25. No. 4. pp. 589–603.

DRECHSLER,J. [2011]: Synthetic Datasets for Statistical Disclosure Control. Springer. New York.

EXECUTIVE OFFICE OF THE PRESIDENT OF THE UNITED STATES [2014]: Methods for Public-Use Microdata Files. In: Report on Statistical Disclosure Limitation Methodology. Working Paper 22. pp. 61–72. https://www.ciser.cornell.edu/NYCRDC/helpful_links/WP-22-OMB-totalreport.pdf

HUNDEPOOL,A.DOMINGO-FERRER,J.FRANCONI,L.GIESSING,S.NORDHOLT,E.S.SPICER, K. DE WOLF,P.-P.[2012]: Statistical Disclosure Control. John Wiley & Sons, Ltd. London.

HUNDEPOOL,A. DE WOLF,P.-P.BAKKER,J.REEDIJK,A.FRANCONI,L.POLETTINI,S. CAPOBIANCHI, A. DOMINGO-FERRER, J. [2014]: μ-Argus 5.1 User’s Manual. Statistics Netherland. Amsterdam.

KSH (KÖZPONTI STATISZTIKAI HIVATAL) [2013]: A Központi Statisztikai Hivatal elnökének 27/2013. KSH utasítása a Központi Statisztikai Hivatal adatvédelmi szabályzatáról. Budapest.

https://www.ksh.hu/docs/szolgaltatasok/adatigenyles/ksh_adatvedelmi_szabalyzat.pdf LOWTHIAN,P. [2012]: Guidelines for Anonymisation of Social Survey Microdata. Eurostat.

Luxem-bourg.

OECD (ORGANISATION FOR ECONOMIC CO-OPERATION AND DEVELOPMENT) [2014]: OECD Expert Group for International Collaboration on Microdata Access – Final Report.

http://www.oecd.org/std/microdata-access-final-report-OECD-2014.pdf

TEMPL,M. MEINDL, B.KOWARIK,A. [2014]: Introduction to Statistical Disclosure Control (SDC). International Household Survey Network. Vienna. https://cran.r-project.org/web/packages/sdcMicro/vignettes/sdc_guidelines.pdf

WILLENBORG, L. DE WAAL, T. [2001]: Elements of Statistical Disclosure Control. Springer-Verlag. New York.

Summary

In the first part of this study, the main types and definitions of public use files are summarized.

Beyond that, key issues and the most important steps of generating such files are outlined briefly at an introductory level. The second part of the paper reflects a more practical point of view, since the elaboration of the three types of public use files (research, teaching and test files) is demonstrated.

These files are derived from the 2011 Population and Housing Census of Hungary conducted by the Hungarian Central Statistical Office. If the public use files described in the study become popu-lar among users, the Hungarian Central Statistical Office may publish more such files in the future.

In document Nyilvános mikroadatfájlok összeállításának főbb jellemzői, különös tekintettel az adatvédelmi szempontokra (Pldal 22-28)