A mikroszimuláció azt jelenti, hogy az e célra létrehozott számítógépes rendszer különböző hipotézisek, hipotetikus paraméterek alapján, elemi szinten átalakít egy statisztikai adatállományt. Ezzel megváltoznak a statisztikai sokaság egyedeinek és ezen keresztül a sokaság egészének demográfiai és/vagy társadalmi, gazdasági jel-lemzői.
Alkalmazásához állandó döntésekre van szükség, meg kell adni azokat az össze-függéseket, paramétereket, ami alapján a korrekció megvalósulhat. Ehhez a jövedel-mi felvétel teljes adatállományára, annak jövedel-minden egyes jövedelemtípusára és olyan egyedi és jövedelemforrásonként kombinált munkatáblákra, s olyan részletezettség-ben volt szükség, amelyre a külső, – ahol ez nem állt rendelkezésre belső (a Jöve-delmi felvételre válaszolók) – adatforrások rendelkezésre álltak. Ezek összehasonlí-tásával alakítottuk ki az eloszlásfüggvényeket, paramétertáblákat stb., amelyek az
előre elkészített számítógépes struktúrában külső adatokként importálhatók voltak, s a korrekciót végrehajthattuk.
A rendszerrel szemben támasztott követelmények a következők:
– többnyelvű végfelhasználói felület és csoportos alkalmazásfej-lesztési technológia,
– jogosultságkezelés, – metainformációs-rendszer, – adatkezelés,
– mikromodul-tervezés,
– táblázatkezelés, becslési eljárások, valamint
– futtatórendszer és verziókezelés alkalmazásának képessége.
Felhasználási területei sokrétűek: a statisztikai felvételek adatállományának javí-tásán túl alkalmasak az idő függvényében az adatállományok továbbírására, intézke-dési tervek hatásvizsgálataira, nemzetközi összehasonlításokra stb.
A rendszer felépítését szemlélteti a 9. ábra.
9. ábra. A mikroszimulációs eljárási rendszer működése
6.1. A statistical matching eljárás mikroszimulációs eszközökkel való megvalósíthatóságáról
A mikroszimulációs rendszerhez szükséges számítástechnikai eszközök segítsé-gével kialakítható az ún. statistical matching módszertana. Az eljárásban két
külön-Adatkezelés
Modultervezés
Futtató
Elemző Eredeti
adatállomány
Szimulációs adatállomány
Meta- adatállomány
Paraméter- táblázatok
Futtatható mikromodulok
Szimulált adatállomány
böző adatfelvételből származó adatrendszert kapcsolunk össze statisztikai módszer-rel, abban az esetben, amikor nem állnak rendelkezésre az összekapcsoláshoz szük-séges egyedi kulcsok (például nem volt azonos a kiválasztott minta, azaz nem lehet-séges az egyedek egyedi azonosítói segítségével az adatok összekapcsolása). A mód-szer lényege, hogy hasonlósági alapon keres párt egyik adatállományból a másik hi-ányzó adatainak pótlására. Igen fontos tulajdonsága a statistical matching módszerta-nának, hogy megengedjük-e az ismételt kiválasztást, vagy sem. Egy adatkorrekciós eljárásnál megengedhető az ismétlés. Fontos szempont, hogy a kiválasztási kritériu-mok megegyezzenek, azaz ne gyengítsük az összekapcsolás minőségét. A statisztikai eljárás minőségét alapvetően befolyásolja a kiválasztáshoz használt elemszám, a „pi-ac” nagysága, Tapasztalati alapokon elmondható, hogy legalább tízszeres elemszá-mot kell felállítani, ha megengedjük az ismétlést.
Az adatkorrekciós szakirodalomban elterjedt az adatjavítás hot deck, vagy cold deck módszertana. Az elnevezések arra utalnak, hogy a javítás a már hibátlannak minősített adatállomány adatainak ismételt felhasználásával, vagy pedig egy statikus állapotú, a kívánt eloszlásoknak megfelelő állomány jó adatainak felhasználásával történik. Lénye-gében mindkét korrekciós módszertan használatakor statistical matching eljárást haszná-lunk, a módszerek abban különböznek, hogy mi a javítandó, a későbbiekben elsődleges adatállomány és mi a javításhoz, vagy összekapcsoláshoz tartozó másodlagos állomány.
Hot deck eljárás esetén a javítás alapja az elsődleges állomány jónak minősített része, il-letve cold deck módszer esetén akár egy korábbi időpontban felvett jó adatállomány, vagy egy teljesen más felvétel adatai lehetnek a javító vagy másodlagos adatok.
6.2. A Jövedelmi felvétel adatállománya javításának lépései és a használt módszertan
A Mikrocenzushoz kapcsolódó Jövedelmi felvétel korrekciójakor vegyesen hasz-náltuk a statistical matching módszer hot deck és cold deck változatát és a hagyomá-nyos szimulációs eljárásokat a következő lépésekben.
1. lépés. Az adatállományokat kiegészítettük az ún. I-s, azaz imputált és K-s azaz korrigált változókkal. Annak érdekében, hogy később ellenőrizni lehessen a korrek-ciót, a szokásostól eltérően külön változókba tettük az új adatokat.
2. lépés. A jövedelemadatokra nemválaszoló személyek kereseti adatainak imputálása az Egyéni keresetfelvétel adatainak (több, mint 500 ezer kereseti adat) felhasználásával történt. Az alkalmazott módszer a statistical matching, cold deck változata, az elsődleges állomány a Jövedelmi felvétel, a másodlagos az Egyéni kere-setfelvétel volt. (Például a keresettel rendelkező teljes munkaidőben dolgozó szemé-lyeket korcsoportok, nemek és a FEOR első három számjegye alapján cellákba sorol-tuk. Véletlen szám generálásával történt az adott cellába tartozó keresettel nem
ren-delkező személy részére az ugyanazon cellába tartozó egyéni keresetfelvételben résztvevő személyek kiválasztása és havi keresetösszegének imputálása. A hónap meghatározása az ugyanazon ismérvekkel rendelkező válaszoló személy hónapszáma szerint történt, de figyelembe vettünk egyéb szempontok is: például a választott idő-pont előtt a személy tanuló volt, időközben nyugdíjba ment stb.) A részmunkaidő-söknél a kiválasztás mechanizmusa ugyanez volt.
3. lépés. A másodállás, mellékfoglalkozású jövedelemadatokra nemválaszoló személyek adatainak imputálása szintén az egyéni keresetfelvétel adatainak felhasz-nálásával történt, de a „B” kérdőíven található egyéb ismérvek figyelembevételével, például szerződése pár hónapra szól, meghatározatlan idejű volt stb. Az alkalmazott módszer a statistical matching, cold deck változata, az elsődleges állomány a Jöve-delmi felvétel, a másodlagos az Egyéni keresetfelvétel volt.
4. lépés. A vállalkozói jövedelemadatokra nemválaszoló személyek adatainak imputálása: a társas vállalkozók dolgozó tagjainál a 2. lépésben leírtak szerint, az egyéni vállalkozók vállalkozói kivétjénél és az eva-alá tartozóknál a kérdésre vála-szolók adataival történt. Az alkalmazott módszer a statistical matching, hot deck vál-tozata, az elsődleges állomány a Jövedelmi felvételt megtagadók, a másodlagos a fel-vételre válaszolók csoportja volt.
5. lépés. Az adatállományok adatainak korrigálása a statistical matching eljárások során nyert adatokkal.
6. lépés. A személyi és a háztartási szintű társadalmi jövedelmek pótlása szimulá-ciós módszerekkel. Négy háztartási és tizenkettő személyi szintű mikromodul korri-gálja a makroadatok szerint „hiányzó” társadalmi jövedelmeket. A paramétertábláza-tok a külső adatforrásból nyert eloszlások (például APEH-, tb-adatbázis). A táppénz esetén az imputálás az OEP adatainak figyelembevételével Poisson-eloszlással az egész állományra egyszerre történt.
7. lépés. A mezőgazdasági jövedelemadatokra nemválaszoló személyek adatainak imputálása a kérdésre válaszolók adataival készült, kiválasztásukat a meghatározott ismérvekkel rendelkezők közül véletlen számmal végeztük. Az alkalmazott módszer a statistical matching hot deck változata, az elsődleges állomány a jövedelmi felvétel megtagadók, a másodlagos a felvételre válaszolók csoportja volt.
8. lépés. A társadalmi levonások számítása (adókedvezmények, szja, külön adó, nyugdíjjárulék, stb.) szimulációs módszerekkel történt, az érvényes adó- és társada-lombiztosítási törvényeknek megfelelő „intézményes” továbbírással. (A Jövedelmi felvétel során csak a levonások algoritmizálásához szükséges információkra kérdez-tünk rá, ezzel is csökkentve a családok terhelését). A korrekciós eljárások során vál-toztak a személyi és a háztartási bevételek, ezen változásoknak megfelelőn kellett korrigálni a társadalmi befizetéseket is.
9. lépés. Az eredmények vizsgálatához szükséges eloszlástáblák elkészítése.
HTML-formában olvashatók a listák az összes váltózó eloszlásáról háztartási és
sze-mélyi szinten súlyozott és súlyozatlan változatban. Ezeket minden fontosabb lépésso-rozat után elkészítettük, így az eredmények folyamatosan ellenőrizhetők voltak.
10. lépés. A publikációs adatállomány elkészítése volt, melyben összevontan sze-repelnek az eredeti, az imputált és a korrigált adatok, illetve a személyi és háztartási szinten számított mutatók. Ezek alapján közölhetők a decilistáblák, a háztartások ti-pizálása, a háztartások létszáma, a gyermekek száma, az eltartottak száma stb. szerin-ti lekérdezések.