• Nem Talált Eredményt

Pontossági követelmények és varianciabecslés az Európai Statisztikai Rendszer háztartás-statisztikai felvételeihez. Kézikönyv

N/A
N/A
Protected

Academic year: 2022

Ossza meg "Pontossági követelmények és varianciabecslés az Európai Statisztikai Rendszer háztartás-statisztikai felvételeihez. Kézikönyv"

Copied!
5
0
0

Teljes szövegt

(1)

Könyvszemle

Pontossági követelmények és

varianciabecslés az Európai Statisztikai Rendszer háztartás-statisztikai felvételeihez. Kézikönyv.

Handbook on Precision Requirements and Variance Estimation for ESS Households Surveys.

Publication Office of the European Union. 2013.

Luxembourg.

A kézikönyv letölthető:

http://epp.eurostat.ec.europa.eu/portal/page/port al/product_details/publication?p_product_code=KS- RA-13-029

A kézikönyv az Európai Statisztikai Rend- szerhez (European Statistical System – ESS) tartozó nemzeti statisztikai intézetek módszer- tanért felelős vezetői (ESS Methodology Directors’ Group – DIME), valamint az Eurostat Módszertani Igazgatósága által létre- hozott, nemzetközi összetételű munkacsoport tevékenységének eredményeként készült el.

Az első változatot egymástól függetlenül öt lektor olvasta át 2011 utolsó hónapjaiban; őket olyan országok nemzeti statisztikai intézetétől kérték fel, ahonnan nem delegáltak tagot a munkacsoportba. A lektorok egyhangúan az első változat „kisebb módosítások” melletti el- fogadását terjesztették elő. Javaslataikat to- vábbi szakértők bevonásával a DIME és a munkacsoport tagjai a lehetőségek határain be- lül a legjobb eredmény elérésére törekedve vi- tatták meg. A kézikönyv végül 2013 júliusá- ban jelent meg az Eurostat honlapján.

A kötet célja olyan standard fogalmak ki- alakítása a varianciabecslésen alapuló pontos- sági követelmények területén, amelyek egyér- telművé teszik a mintavételes eljárásokból

(Leslie Kish amerikai statisztikus szóhasznála- tával élve reprezentatív megfigyelésekből) származó adatok használatát az Európai Unió- ban, ezen belül az Eurostat és a nemzeti statisz- tikai intézetek közötti együttműködésben. Eh- hez a szándékhoz szorosan kapcsolódik a varianciabecslés céljára jelenleg rendelkezésre álló módszerek és szoftverek áttekintése, vala- mint ezzel összefüggésben, ajánlások megfo- galmazása a „jó módszerek” használatára, illet- ve a „rosszak” kerülésére. Tekintettel a számot- tevő különbségekre az egyes uniós tagállamok- ban használt mintavételi tervek és becslési eljá- rások között, a kézikönyv ajánlásokat tartalmaz a módszerek harmonizálására és ahol lehet, az integrálásra is, de nem hiányoznak belőle azok a javaslatok sem, amelyek a tagországok statiszti- kai intézetei számára megkönnyítik a pontossági követelmények teljesítését.

Az ESS háztartás-statisztikai felvételei kö- zött kitüntetett szerepet játszik a munkaerő- felmérés (Labour Force Survey – LFS), illetve a jövedelem- és életkörülmények-felvétel (EU Statistics on Income and Living Conditions – EU-SILC), ami rányomja bélyegét a kézi- könyvre is: az ajánlások és az illusztrációként bemutatott példák többsége e két felvétel va- lamelyikéhez kapcsolódik. Ennek következté- ben a kötetet azok forgathatják a legnagyobb haszonnal, akik ezek valamelyikével foglal- koznak. Ugyanakkor a tárgyalt fogalmak és módszerek – a könyv címével összhangban – az ESS további háztartás-statisztikai felvételei- re is alkalmazhatók.

A kötet a következő szerkezeti egységekre tagolódik: 1. Bevezetés; 2. Pontossági köve- telmények; 3. Ajánlott eljárások a szórásnégy-

(2)

zet becslésére; 4. A standard hiba számszerűsí- tése országos szinten és az európai statiszti- kákban; 5. A pontossági követelmények telje- sítésének lehetőségei; 6. Irodalom; 7. Függe- lék; Tárgymutató. (A 2–5. fejezetek alfejeze- tekből állnak, ezek tartalmazzák a fejezetek témájával kapcsolatos ajánlásokat.) A további- akban a kézikönyv fejezeteinek és egyéb szer- kezeti egységeinek tartalmát ebben a sorrend- ben mutatjuk be.

Jelen ismertetés eddigi része már tárgyalta a Bevezetésben leírt legfontosabb célokat és elveket. A „Pontossági követelmények” című fejezet azt a kétféle lehetőséget ismerteti, ame- lyekkel ezeket a követelményeket megfogal- mazhatjuk, tehát a (relatív) standard hiba és a minimális effektív mintanagyság alkalmazását.

A kétféle megközelítés között a mintanagyság és a becsült standard hiba összefüggése teremt kapcsolatot, amihez azonban a Leslie Kish ál- tal bevezetett design effect (a.m. a mintavételi terv hatása) mutatóra is szükség van, hacsak nem visszatevés nélküli, egyszerű véletlen mintával van dolgunk – tehát gyakorlatilag mindig. (A design effectről részletes ismertetés található a Függelékben). A fejezetben talá- lunk ajánlásokat arra vonatkozóan, hogy mikor célszerű és mikor nem relatív standard hibát alkalmazni a pontossági küszöb minőségében, tehát például akkor nem, ha nullához közeli aránnyal van dolgunk, amikor a relatív stan- dard hiba abszolút értéke nem korlátos. A te- kintett populáción belüli tartományok mutatói- val kapcsolatos pontossági határokra nézve is kapunk javaslatokat, például arra, hogy lehető- leg ne alkalmazzunk pontossági követelmé- nyeket olyan tartományoknál, amelyek nagy- ságáról csupán a felvétel végrehajtása után szerzünk információt.

A 3. fejezet az ESS háztartás-statisztikai mintáiban alkalmazott mintavételi eljárásokról és varianciabecslő módszerekről nyújt átfogó képet. A minták végső mintavételi egysége ál-

talában a személy vagy a háztartás, az alkal- mazott mintavételi eljárások többsége közis- mert – egyszerű véletlen kiválasztás visszate- vés nélkül, csoportos mintavétel, szisztemati- kus mintavétel, mindez rétegzéssel vagy rétegzés nélkül; egy- és többlépcsős mintavétel stb. Az olvasó megfelelő képet kap a pontosság és a torzítatlanság, a közvetlen és a közvetett mintavétel, valamint a többlépcsős és a többfá- zisú kiválasztás közötti különbségről. A ke- vésbé ismert módszerek közül a fejezet bemu- tatja a kiegyenlített mintavétel (balanced sampling) alapelveit is.

Ennek a résznek – vagy talán a kézikönyv egészének – a gerincét a varianciabecslő mód- szerek tárgyalása adja; a 3.3–3.5. alfejezetek nagyjából lefedik azt, amit ez a tudományág napjainkban a felhasználóknak kínál. A kulcs- szavak itt a következők: analitikus módszerek (ezeken belül egzakt és közelítő módszerek);

linearizáláson alapuló módszerek; a minta má- sodlagos feldolgozásán alapuló módszerek (replication methods: jackknife, bootstrap, ki- egyensúlyozott félminták stb.); általánosított varianciafüggvények (generalized variance functions). Ajánlások segítik a felhasználókat abban, hogy adott számítógépes környezet ese- tén miképp mérlegeljenek, figyelembe véve a kívánt pontosság és a számítási költségek egymással ellentétes szempontjait, továbbá, hogy milyen varianciabecslő módszert válasz- szanak, ha a becslések ingadozásának bizo- nyos összetevői, illetve ezek forrásai azonosít- hatók (például közvetett mintavétel, rekord- vagy kérdésszintű meghiúsulás, imputálás és – nem várt esetként – a kalibrálás). Külön alfeje- zetben találunk egy ugyancsak átfogó összeál- lítást, természetesen megfelelő ajánlásokkal arról, hogy varianciabecslés céljából milyen szoftvereszközök közül válogathatnak az ESS háztartás-statisztikusai. Az ajánlott variancia- becslő eljárásokat és a hozzájuk tartozó szoft- vereszközöket tárgyaló alfejezeteket a Függe-

(3)

lék 7.4. és 7.5. alfejezetei táblázatos formában egészítik ki; a táblázatok azt mutatják, hogy egyes gyakran használt mintavételi tervek mi- lyen típusú mutatók becslését és variancia- becslő eljárások, illetve kész szoftvereszközök alkalmazását teszik lehetővé.

Két megjegyzés a 3. fejezet eddigiekben ismertetett részéhez. 1. Közismert tény, hogy napjainkban a háztartás-statisztikai felvételek- ben kalibrált becsléseket használnak, és ezeknél sima statisztikák esetén, egyszerű fel- tételek mellett a varianciabecslés leggazdasá- gosabb módja annak a becsült szórásnégyzet- nek a közelítő jelleggel való használata, me- lyet a tekintett mutatóhoz az általánosított reg- ressziós módszer mint kalibrálási eljárás mel- lett kaptunk volna. A háztartás-statisztikákra jellemző populációk és mintanagyságok mel- lett ezt a közelítést akkor alkalmazhatjuk, ha a kalibrálás segédváltozói a regressziós becslés- nél ugyanazok, mint a tekintett felvétel végle- ges mintasúlyainak meghatározásához használt eljárásban. Ennek a varianciabecslési eljárás- nak tipikus alkalmazási területe a munkaerő- felmérés, amelynél mind a létszámadatok, mind pedig a ráták esetén olyan általánosított regressziós becslésen alapuló közelítés alkal- mazható, ami Taylor-linearizáláson alapuló el- járásnak is tekinthető. Nemlineáris statisztikák, például kvantilisek esetén azonban ez az út nem járható, viszont a linearizálás két, vi- szonylag új keletű, a „becslő egyenleteken”

(estimation equations), valamint a „hatás egyenletén” (influence equations)1 alapuló módja átveszi azt a szerepet, amelyet sima sta- tisztikák esetén a Taylor-linearizálás játszik a varianciabecslésben. Konkrét alkalmazásra az EU SILC-ben találunk példát. Ezek a linearizálási módszerek és alkalmazásuk 1997 és 2009 között megjelent publikációkban lát-

1 Ismeretem szerint általánosan elfogadott, meg- felelő magyar kifejezés még nincsen.

tak napvilágot. Célszerű lenne ezt az eljárást beilleszteni a KSH eszköztárába. 2. A kézi- könyv az R programozási nyelv és az abban készült programcsomagok használatát a „jó módszerek” közé sorolja, ami középtávon a nemzeti statisztikai intézmények szintjén is korlátozhatja a nagy kereskedelmi szoftverek (SAS, SPSS, Stata) hegemóniáját.

A 3.6. alfejezetben néhány EU-tagállam (Lettország, Olaszország, Luxemburg és Fran- ciaország) nemzeti statisztikai intézete varianciabecslésének gyakorlatából származó példákkal találkozunk. Lettország háztartás- statisztikai felvételeiben saját fejlesztésű, R- nyelvben írt varianciabecslő programot hasz- nálnak, amely Osiernek egy 2012-ben (!) pub- likált eredményén alapul.

A 3. fejezet utolsó részének tárgya az idő- beni változások mérése és az ehhez tartozó varianciabecslési módszerek. Itt az időbeni változások megfigyelésére használt minták – többségükben panelminták – típusainak átte- kintése mellett három témakör részletes kifej- tésével találkozunk: az éves átlagok, valamint az időbeni nettó és bruttó változások becslésé- nek feladatával, ideértve az ezekhez tartozó varianciabecslés módszerét is. Figyelemre méltó, hogy az utolsó két témakörben az iro- dalmi hivatkozások többsége 2000 utáni.

A 4. fejezetben az Eurostat és a nemzeti statisztikai intézetek, tehát a tagállamok közöt- ti együttműködés három lehetséges stratégiá- jával ismerkedhetünk meg, amelyek olyan ki- emelt fontosságú folyamatos felvételek szem- pontjából játszanak lényeges szerepet, mint például a munkaerő-felmérés, illetve a jövede- lem- és életkörülmények-felvétel.

A jelenlegi gyakorlatban decentralizált stra- tégia valósul meg. A nemzeti statisztikai intéze- tek meghatározzák az Eurostat által megadott mutatók becslését a hozzájuk tartozó standard hibával, adott részletezésben. Az Eurostat a tag- államokat technikai rétegekként kezelve, ezek-

(4)

ből az adatokból állítja elő a megfelelő európai statisztikákat a hozzájuk tartozó standard hibá- val együtt. Ennél a stratégiánál a nemzeti sta- tisztikai intézetek csupán aggregátumokat adnak át az Eurostatnak, elemi adatok átadására nincs szükség. Ez az út komoly szakmai felelősséget ró az egyes tagállamok nemzeti statisztikai inté- zeteire, és a sokféle mintavételi terv, illetve a különböző varianciabecslési módszerek miatt az Eurostat nem tudja ellenőrizni, hogy az alkal- mazott módszerek a „jók” körébe tartoznak-e vagy sem. További hátrány, hogy a rendszer nem rugalmas, csak előre megadott bontásokat tud kezelni. A teljesen centralizált stratégia ese- tén mind az egyes nemzeti statisztikák, mind pedig az európai statisztika számára az Eurostat állítaná elő a szükséges mutatók standard hibá- ját egy egységes módszerrel – feltehetően bootstrap, jackknife vagy hasonló technika al- kalmazásával. Ehhez a nemzeti statisztikai inté- zeteknek a felvétel elemi adatait az Eurostat rendelkezésére kellene bocsátaniuk mindazok- kal az információkkal együtt, amelyek a minta struktúráját leírják és a varianciabecsléshez szükségesek (a mintavétel lépcsőinek száma, a kiválasztás módja az egyes lépcsőkben, a réte- gek azonosítója, elsődleges és végső mintavételi egységek kódja stb.). Szükség van a végleges (kalibrált) súlyokra is. Ennek a stratégiának az előnyei nyilvánvalók, viszont túl sok terhet je- lentene az Eurostat számára, és nem zárná ki sa- ját fejlesztésű programokkal előállított standard hibák használatát az egyes tagországokban.

Az integrált stratégia egyik lehetősége fel- tételezi, hogy az Unió nemzeti statisztikai in- tézetei elfogadnak egy közös varianciabecslő eljárást, éspedig a minta másodlagos feldolgo- zásán alapuló módszerek egyikét; ez lehet pél- dául a bootstrap. Ebben az esetben az egyes nemzeti statisztikai intézetek feladata a meg- adott mutatók kiszámítása lenne a meghatáro- zott részletezésben, továbbá az Eurostat ren- delkezésére kellene bocsátaniuk a következő

információkat: a felvétel teljes állományát a végleges mintasúlyokkal; a varianciabecs- léshez szükséges információkat a minta struk- túrájával kapcsolatban (a rétegeket, az elsődle- ges és a végső mintavételi egységek kódját stb.); a „replicate” módszerhez tartozó minták súlyrendszerét, más szóval, a másodlagos min- tasúlyokat. Az Eurostat ezeknek az adatoknak a birtokában elő tudná állítani a mutatószám- okhoz tartozó standard hibákat a megfelelő részletezésben, országos és Európai Uniós szinten. A stratégia jelentős előnye a módszer egységessége, ennélfogva a standard hibák becslésének jó minősége, továbbá a rugalmas- ság az ad hoc modulokhoz tartozó standard hi- bák becslésének szempontjából. Az Eurostat hosszú távon ennek a stratégiának az elfogadá- sát látná szívesen a nemzeti statisztikai intéze- tek részéről, jóllehet ez utóbbiak számára a másodlagos mintasúlyok előállítása nem cse- kély feladat.

Az integrált stratégia másik lehetősége az általánosított varianciafüggvények alkalmazá- sára épül. Ebben az esetben a nemzeti statisz- tikai intézeteknek elemi adatok helyett aggre- gátumokat kellene átadniuk az Eurostat számá- ra, továbbá az egyes mutatókhoz tartozó varianciafüggvények paramétereit. Bár a replicate módszeren alapuló stratégia előnyö- sebbnek látszik, mint a keresett standard hibák általánosított varianciafüggvény segítségével meghatározott becslése, egyelőre nem kizárt, hogy idővel mégis csak az utóbbi lesz az álta- lánosan elfogadott közös módszer az Európai Unióban. Erre való tekintettel a 4. fejezet tar- talmazza az általánosított varianciafüggvények módszerének tankönyvbe illő részletességű le- írását is, így a potenciális felhasználó ezen a téren ugyancsak szinte kész eszközt kap a munkájához.

Az 5. fejezet útmutatóul szolgál a nemzeti statisztikai intézetek számára a pontossági kö- vetelmények teljesítéséhez. Az Eurostat azok

(5)

erre irányuló tevékenységét folyamatosan kö- veti, ennek módját illetően három stratégia áll rendelkezésre. 1. Adott időszakra vonatkozóan rögzített paraméterű képlet(ek) segítségével végrehajtott ellenőrzés. Mivel becsült standard hibák ellenőrzéséről van szó, ennél a stratégiá- nál általában a design effect mutatóra is szük- ség van, ami problematikus lehet. A kézikönyv mindenesetre kellő támpontot nyújt a design effect becslésére. 2. Minőségi riportok készíté- se – ezt a stratégiát a munkaerő-felméréssel és az EU-SILC-kel összefüggésben az Unió tag- államaiban már mindenütt ismerik. 3. A pon- tossági követelmények automatikusan teljesül- nének, amennyiben a nemzeti statisztikai inté- zetek valamennyien elfogadnák és a gyakor- latban is bevezetnék azt a varianciabecslő módszert, amelyet az előző fejezetben integrált stratégiaként ismertünk meg. Ez azonban csak a távolabbi jövőben várható.

A kézikönyv 6. egysége az Irodalomjegy- zék, ami 162 hivatkozott publikáció adatait tartalmazza.

A Függelék – a kötet hetedik egysége – fontos információkkal egészíti ki a 2–5. fejeze- tek anyagát. Hat részből, alfejezetből áll.

A 7.1. alfejezet statisztikai szakkifejezések gyűjteményét, glosszáriumát tartalmazza, kü- lönös tekintettel a varianciabecslés témakör- éhez tartozó fogalmakra.

A 7.2. alfejezetben a design effect mutató ismertetése szerepel tankönyvbe illő részletes- séggel, a témához kapcsolódó néhány újabb eredményt is tárgyalva.

A 7.3. alfejezet olyan általános sablont mu- tat be, amelynek segítségével könnyen lehet mi- nőségi riportok kérdőívét megtervezni. Azok a kollégák, akiknek a feladata a munkaerő- felmérés negyedéves minőségi riportjának elké- szítése és elküldése az Eurostatnak, egykettőre felismerik ennek azokat az elemeit, amelyekre válaszolniuk kell a végrehajtott negyedéves munkaerő-felmérés alapján. A sablon elsősor- ban háztartás-statisztikai felvételeknél alkal- mazható, kérdéseit/ rovatait természetesen min- dig a konkrét felvételhez kell igazítani.

A 7.4–7.5. alfejezetek, mint már az elő- zőkben is említettük, a mintavételi tervek, eljá- rások és a varianciabecslő módszerek, vala- mint az ezekhez tartozó szoftvereszközök kö- zötti kompatibilitást mutatják táblázatos for- mában. A táblázatok segítségével azonosítha- tók a jó és a rossz módszerek.

A rövid 7.6. alfejezet a minimális effektív mintanagyság kérdésére ad választ longitudi- nális felvételek esetén. Ezt az alfejezetet köve- ti a Tárgymutató mint a könyv utolsó egysége.

A recenzió szerzőjének nem feladata az ismertetett mű értékelése, azzal azonban való- színűleg mindenki egyetérthet, hogy a XXI.

század második évtizedében a kézikönyv kellő áttekintést nyújt a háztartás-statisztikai felvéte- leknél használható varianciabecslő módszerek- ről, valamint az ezekhez tartozó szoftveresz- közökről.

Mihályffy László,

a KSH ny. statisztikai főtanácsadója E-mail: laszlo.mihalyffy@ksh.hu

Hivatkozások

KAPCSOLÓDÓ DOKUMENTUMOK

Ennek megfelelően a statisztikai fogalmi rendszer is csak több vetületben kép—.. zelhető el (például ágazati fogalmak. tárgykör szerinti

Mindez jelzi, hogy nemcsak a statisztikai munka van átalakulóban, hanem a statisztikai szervezet és a statisztikusokkal— szemben támasztott követelmények is.13 A

pen ezek miatt (: kapcsolódások miatt olyan nehéz lényeges előrehaladást elérni még a nemzetközi egységesítés elméleti kérdéseiben is.) Ebben a témakörben tehát azt

böző adatbázisokban tárolt elemi adatokkal végzett közös műveletek lehetősége végső soron attól függ, hogy a statisztikának azokon a területein, ahol a statisztika alanyai

Az egyetemek posztgraduális kurzusai és a más szervezetek által biztosított képzési lehetőségek segíthetik a tudás szintentartását, de semmiképpen sem elégít- hetik ki

milyen kompromisszummal jár. így nyomatékosan felmerül az a kérdés, hogy vajon az eseti vagy csak nagyon ritkán, 5—10 évenként ismétlődő felvételek esetén nem

ák, amelyeket az ASA, a Biometriai Társaság Keleti és a Nyugati Észak—Amerikai Régiói (Eastern and Western North American Regions of the Biometric Society), gyakran a

A szellemi felvérteződéshez nehezen túlbecsülhető támogatást adtak a különböző nemzeti statisztikai hivatalok és a nemzetközi statisztikai intézmények, Ahhoz, hogy ezt