Az imputálás, korrekció módszere: a mikroszimulációs eljárás

A mikroszimuláció azt jelenti, hogy az e célra létrehozott számítógépes rendszer különböző hipotézisek, hipotetikus paraméterek alapján, elemi szinten átalakít egy statisztikai adatállományt. Ezzel megváltoznak a statisztikai sokaság egyedeinek és ezen keresztül a sokaság egészének demográfiai és/vagy társadalmi, gazdasági jel-lemzői.

Alkalmazásához állandó döntésekre van szükség, meg kell adni azokat az össze-függéseket, paramétereket, ami alapján a korrekció megvalósulhat. Ehhez a jövedel-mi felvétel teljes adatállományára, annak jövedel-minden egyes jövedelemtípusára és olyan egyedi és jövedelemforrásonként kombinált munkatáblákra, s olyan részletezettség-ben volt szükség, amelyre a külső, – ahol ez nem állt rendelkezésre belső (a Jöve-delmi felvételre válaszolók) – adatforrások rendelkezésre álltak. Ezek összehasonlí-tásával alakítottuk ki az eloszlásfüggvényeket, paramétertáblákat stb., amelyek az

előre elkészített számítógépes struktúrában külső adatokként importálhatók voltak, s a korrekciót végrehajthattuk.

A rendszerrel szemben támasztott követelmények a következők:

– többnyelvű végfelhasználói felület és csoportos alkalmazásfej-lesztési technológia,

– jogosultságkezelés, – metainformációs-rendszer, – adatkezelés,

– mikromodul-tervezés,

– táblázatkezelés, becslési eljárások, valamint

– futtatórendszer és verziókezelés alkalmazásának képessége.

Felhasználási területei sokrétűek: a statisztikai felvételek adatállományának javí-tásán túl alkalmasak az idő függvényében az adatállományok továbbírására, intézke-dési tervek hatásvizsgálataira, nemzetközi összehasonlításokra stb.

A rendszer felépítését szemlélteti a 9. ábra.

9. ábra. A mikroszimulációs eljárási rendszer működése

6.1. A statistical matching eljárás mikroszimulációs eszközökkel való megvalósíthatóságáról

A mikroszimulációs rendszerhez szükséges számítástechnikai eszközök segítsé-gével kialakítható az ún. statistical matching módszertana. Az eljárásban két

külön-Adatkezelés

Modultervezés

Futtató

Elemző Eredeti

adatállomány

Szimulációs adatállomány

Meta- adatállomány

Paraméter- táblázatok

Futtatható mikromodulok

Szimulált adatállomány

böző adatfelvételből származó adatrendszert kapcsolunk össze statisztikai módszer-rel, abban az esetben, amikor nem állnak rendelkezésre az összekapcsoláshoz szük-séges egyedi kulcsok (például nem volt azonos a kiválasztott minta, azaz nem lehet-séges az egyedek egyedi azonosítói segítségével az adatok összekapcsolása). A mód-szer lényege, hogy hasonlósági alapon keres párt egyik adatállományból a másik hi-ányzó adatainak pótlására. Igen fontos tulajdonsága a statistical matching módszerta-nának, hogy megengedjük-e az ismételt kiválasztást, vagy sem. Egy adatkorrekciós eljárásnál megengedhető az ismétlés. Fontos szempont, hogy a kiválasztási kritériu-mok megegyezzenek, azaz ne gyengítsük az összekapcsolás minőségét. A statisztikai eljárás minőségét alapvetően befolyásolja a kiválasztáshoz használt elemszám, a „pi-ac” nagysága, Tapasztalati alapokon elmondható, hogy legalább tízszeres elemszá-mot kell felállítani, ha megengedjük az ismétlést.

Az adatkorrekciós szakirodalomban elterjedt az adatjavítás hot deck, vagy cold deck módszertana. Az elnevezések arra utalnak, hogy a javítás a már hibátlannak minősített adatállomány adatainak ismételt felhasználásával, vagy pedig egy statikus állapotú, a kívánt eloszlásoknak megfelelő állomány jó adatainak felhasználásával történik. Lénye-gében mindkét korrekciós módszertan használatakor statistical matching eljárást haszná-lunk, a módszerek abban különböznek, hogy mi a javítandó, a későbbiekben elsődleges adatállomány és mi a javításhoz, vagy összekapcsoláshoz tartozó másodlagos állomány.

Hot deck eljárás esetén a javítás alapja az elsődleges állomány jónak minősített része, il-letve cold deck módszer esetén akár egy korábbi időpontban felvett jó adatállomány, vagy egy teljesen más felvétel adatai lehetnek a javító vagy másodlagos adatok.

6.2. A Jövedelmi felvétel adatállománya javításának lépései és a használt módszertan

A Mikrocenzushoz kapcsolódó Jövedelmi felvétel korrekciójakor vegyesen hasz-náltuk a statistical matching módszer hot deck és cold deck változatát és a hagyomá-nyos szimulációs eljárásokat a következő lépésekben.

1. lépés. Az adatállományokat kiegészítettük az ún. I-s, azaz imputált és K-s azaz korrigált változókkal. Annak érdekében, hogy később ellenőrizni lehessen a korrek-ciót, a szokásostól eltérően külön változókba tettük az új adatokat.

2. lépés. A jövedelemadatokra nemválaszoló személyek kereseti adatainak imputálása az Egyéni keresetfelvétel adatainak (több, mint 500 ezer kereseti adat) felhasználásával történt. Az alkalmazott módszer a statistical matching, cold deck változata, az elsődleges állomány a Jövedelmi felvétel, a másodlagos az Egyéni kere-setfelvétel volt. (Például a keresettel rendelkező teljes munkaidőben dolgozó szemé-lyeket korcsoportok, nemek és a FEOR első három számjegye alapján cellákba sorol-tuk. Véletlen szám generálásával történt az adott cellába tartozó keresettel nem

ren-delkező személy részére az ugyanazon cellába tartozó egyéni keresetfelvételben résztvevő személyek kiválasztása és havi keresetösszegének imputálása. A hónap meghatározása az ugyanazon ismérvekkel rendelkező válaszoló személy hónapszáma szerint történt, de figyelembe vettünk egyéb szempontok is: például a választott idő-pont előtt a személy tanuló volt, időközben nyugdíjba ment stb.) A részmunkaidő-söknél a kiválasztás mechanizmusa ugyanez volt.

3. lépés. A másodállás, mellékfoglalkozású jövedelemadatokra nemválaszoló személyek adatainak imputálása szintén az egyéni keresetfelvétel adatainak felhasz-nálásával történt, de a „B” kérdőíven található egyéb ismérvek figyelembevételével, például szerződése pár hónapra szól, meghatározatlan idejű volt stb. Az alkalmazott módszer a statistical matching, cold deck változata, az elsődleges állomány a Jöve-delmi felvétel, a másodlagos az Egyéni keresetfelvétel volt.

4. lépés. A vállalkozói jövedelemadatokra nemválaszoló személyek adatainak imputálása: a társas vállalkozók dolgozó tagjainál a 2. lépésben leírtak szerint, az egyéni vállalkozók vállalkozói kivétjénél és az eva-alá tartozóknál a kérdésre vála-szolók adataival történt. Az alkalmazott módszer a statistical matching, hot deck vál-tozata, az elsődleges állomány a Jövedelmi felvételt megtagadók, a másodlagos a fel-vételre válaszolók csoportja volt.

5. lépés. Az adatállományok adatainak korrigálása a statistical matching eljárások során nyert adatokkal.

6. lépés. A személyi és a háztartási szintű társadalmi jövedelmek pótlása szimulá-ciós módszerekkel. Négy háztartási és tizenkettő személyi szintű mikromodul korri-gálja a makroadatok szerint „hiányzó” társadalmi jövedelmeket. A paramétertábláza-tok a külső adatforrásból nyert eloszlások (például APEH-, tb-adatbázis). A táppénz esetén az imputálás az OEP adatainak figyelembevételével Poisson-eloszlással az egész állományra egyszerre történt.

7. lépés. A mezőgazdasági jövedelemadatokra nemválaszoló személyek adatainak imputálása a kérdésre válaszolók adataival készült, kiválasztásukat a meghatározott ismérvekkel rendelkezők közül véletlen számmal végeztük. Az alkalmazott módszer a statistical matching hot deck változata, az elsődleges állomány a jövedelmi felvétel megtagadók, a másodlagos a felvételre válaszolók csoportja volt.

8. lépés. A társadalmi levonások számítása (adókedvezmények, szja, külön adó, nyugdíjjárulék, stb.) szimulációs módszerekkel történt, az érvényes adó- és társada-lombiztosítási törvényeknek megfelelő „intézményes” továbbírással. (A Jövedelmi felvétel során csak a levonások algoritmizálásához szükséges információkra kérdez-tünk rá, ezzel is csökkentve a családok terhelését). A korrekciós eljárások során vál-toztak a személyi és a háztartási bevételek, ezen változásoknak megfelelőn kellett korrigálni a társadalmi befizetéseket is.

9. lépés. Az eredmények vizsgálatához szükséges eloszlástáblák elkészítése.

HTML-formában olvashatók a listák az összes váltózó eloszlásáról háztartási és

sze-mélyi szinten súlyozott és súlyozatlan változatban. Ezeket minden fontosabb lépésso-rozat után elkészítettük, így az eredmények folyamatosan ellenőrizhetők voltak.

10. lépés. A publikációs adatállomány elkészítése volt, melyben összevontan sze-repelnek az eredeti, az imputált és a korrigált adatok, illetve a személyi és háztartási szinten számított mutatók. Ezek alapján közölhetők a decilistáblák, a háztartások ti-pizálása, a háztartások létszáma, a gyermekek száma, az eltartottak száma stb. szerin-ti lekérdezések.

In document A lakossági jövedelmek mérésének megbízhatóbb módszere (Pldal 24-28)