STATISZTIKAI IRODALMI FIGYELŐ
KÜLFÖLDI STATISZTIKAI IRODALOM
A STATISZTIKA ÁLTALÁNOS ELMÉLETE ÉS MÓDSZERTANA
Megjegyzés. A Statisztikai Irodalmi Figyelő rovatot a Központi Statisztikai Hivatal Könyvtár és Dokumentációs Szolgálat állítja össze. A rovat minden hónapban Külföldi Statisztikai Irodalom fejezetet (külföldi statisztikai és demográfiai könyvek és cikkek ismertetését Rettich Béla szerkesztésében), páratlan hónapban Bibliográfiát (a könyveket az MSZ 3423/2–84, az időszaki kiadványokat az MSZ 3424/2–82 szabvány szerinti feldolgozásban), páros hónapokban Külföldi folyóiratszemlét tartalmaz.
SINGH, M.P. ET AL.:
A KANADAI STATISZTIKAI HIVATAL BECSLÉSI MÓDSZEREI
(Estimation methods and related systems at Statistics Canada.) – International Statistical Review, 2001. 3. sz.
461–485. p.
A tanulmány széles körű áttekintést nyújt azokról a becslési módszerekről, amelyeket a Kanadai Statisz- tikai Hivatal reprezentatív megfigyeléseiben, más szóval valószínűségi mintákon alapuló felvételeiben használtak a múlt század nyolcvanas éveitől napjain- kig. Ezen kívül foglalkozik az általánosított regresszi- ós becsléssel, az összetett becslésekkel (kompozit esztimátorok), a longitudinális és keresztmetszeti sú- lyozással és becsléssel, az ún. kisterületi módszerek- kel, a variancia-becsléssel és egyéb, speciális problé- mákkal. Egyenlő figyelmet szentel a háztartásstatiszti- kai és a gazdaságstatisztikai adatgyűjtésekkel kapcso- latos alkalmazásoknak, és ezen belül a keresztmetsze- ti, illetve a longitudinális vizsgálatoknak. A szerzők sokféle mintavételi eljárást és speciális becslési mód- szert mutatnak be, ezek közül néhányat részletesen, másokat csupán vázlatosan, míg bizonyos módszerek- re csupán irodalmi hivatkozásokkal hívják fel a fi- gyelmet. Az látszott célszerűnek, az alkalmazások szempontjából, ha egy-egy kiemelten fontos vagy jel- legzetesen „kanadai” megoldást részletesen bemuta- tunk. Számos szerző, Huang és Fuller (1978), Deville és Särndal (1992), Rao és Singh (1997) dolgozott ki el- járást a kalibrált súlyok korlátosságának biztosítására.
A módszerek, eljárások többsége reprezentatív felvételekhez, megfigyelésekhez kapcsolódik.
A tanulmány következő módszereket, eljáráso- kat mutatja be.
Munkaerő-felmérés (Labour Force Survey – LFS):
53 000 háztartás havonkénti megfigyelése, elsősorban mun- kaerő-piaci információk gyűjtése céljából. A felvételnek többlépcsős valószínűségi mintája van, amely hat rotációs csoportból áll. A kanadai háztartás-statisztikai felvételek többsége valamilyen formában kapcsolódik a munkaerő- felméréshez.
Foglalkoztatottság, bérek és munkaórák felvétel (Survey of Employment, Payrolls and Hours – SEPH) egy ún. adminisztratív mintára és egy vállalati mintára épül. Az adminisztratív minta 200 000 levonási jegyzékből, a vállala- ti minta pedig 10 000 vállalatból áll, és ezek alapján becsü- lik havonta a fizetett alkalmazottak számát, a heti átlagkere- seteket, a heti munkaórák átlagos számát stb.
Foglalkoztatottság és a jövedelmek dinamikája felvétel (Survey of Labour and Income Dynamics – SLID): háztartá- si panelfelvétel a munkaerő-piaci státus és a jövedelmek di- namikájának vizsgálatára, 15 000 háztartásból álló panel alapján.
Az Egészségügyi felvétel (National Population Health Survey – NPHS): panelfelvétel a kanadai népesség egészsé- gi állapotáról, annak időbeni változásáról, a társadalmi, gaz- dasági és környezeti hatásokról valamint az egészségügyi rendszer működéséről stb. A panelminta 20 000 személyből áll.
A Gyermek- és ifjúkor longitudinális vizsgálata (National Longitudinal Survey of Children and Youth – NLSCY) a csecsemőkortól a felnőtté válásig kíséri a kana- dai fiatalok életét, biológiai, társadalmi és gazdasági ténye- zők tükrében egy 18 000 főből álló panelminta alapján.
A Munkahelyek és foglalkoztatottak felvétel (Workplace and Employee Survey – WES) egy munkahe- lyekből és személyekből álló kombinált panelmintán vizs- gálja az emberi erőforrással való gazdálkodás különböző stratégiáit és ezek hatását a munkahelyek stabilitására, a (tovább)képzésre és a keresetekre. A minta 7 500 munkahe- lyet és 40 000 foglalkoztatottat tartalmaz. (Ezek a felvételek a továbbiakban az angol nyelvű rövidítésükkel szerepelnek.)
STATISZTIKAI IRODALMI FIGYELŐ 608
A Kanadai Statisztikai Hivatal reprezentatív megfigyeléseiben többnyire kalibrálást alkalmaz- nak, ami végeredményben az általánosított regresz- sziós becslés (generalized regression estimator – GREG) alkalmazásához vezet. A mintavételi tervek közvetlen következménye a létszámadatok, értékösz- szegek Horvitz–Thompson-esztimátorral való becs- lése, vagyis
Ŷ = Σwkyk,
ahol yk a vizsgált ismérvre vonatkozó megfigyelés a minta k-adik elemére nézve, wk az ehhez tartozó mintasúly, és az összegzést a minta elemeire kell el- végezni. Kalibráláson a wk mintasúlyok olyan kor- rekcióját értük, amelynek eredményeként a tekintett becslési összefüggés bizonyos xk segédváltozók vagy más néven kontrollváltozók esetén becsült értékösz- szegként a megfelelő sokaságbeli értéket állítja elő.
Háztartás-statisztikai felvételek esetén gyakran al- kalmaznak korcsoportokat jellemző kategória- változókat kontrollváltozóként; ennek eredménye- ként a kalibrált becslések a sokaságbeli korcsoportos létszámadatokat reprodukálják.
Többféle kalibrálási eljárást ismerünk, ezeknek egy speciális esete az, amely az előbbi értékösszeg- re az
ŶGREG = Ŷ + (X’ – x’)b
általánosított regressziós becslést eredményezi. Itt X’
a segédváltozók értékösszegéből álló sorvektor, x’
ennek a mintából származó becslése az eredeti wk
mintasúlyokkal, b pedig a vizsgált változónak a se- gédváltozókra vonatkozó regressziós együtthatóiból álló oszlopvektor. Az általánosított regressziós becs- lésnek számos előnyös tulajdonsága van, például mátrix-invertálás segítségével zárt alakban előállít- ható. Hátránya viszont az, hogy a végső vagy kalib- rált súlyok között, amelyeket ŵk = wkgk alakban szoktak felírni, előfordulhatnak negatívok is, abszo- lút értékük pedig tág határok között változhat. Isme- retesek azonban olyan módszerek, amelyekkel az ál- talánosított regressziós becslés hátrányos sajátságait ki lehet küszöbölni. A regressziós becslés szórás- négyzete analitikus kifejezéssel becsülhető, az ösz- szefüggés alkalmazásához azonban ismerni kell az alapsokaságból kiválasztható elempárok mintába ke- rülésének a valószínűségét. Ezt a feltételt bonyolul- tabb minták, például az LFS mintája nem teljesítik, ilyen esetekben ŶGREG szórásnégyzetét jackknife- módszerrel szokták becsülni.
Ötletes megoldást dolgoztak ki a Kanadai Sta- tisztikai Hivatal kutatói az összetett becslés, más né-
ven kompozit esztimátor elvének alkalmazására.
Összetett becsléseket olyan ismétlődő vagy folyama- tos felvételeknél alkalmazhatnak, amelyeknél az egymást követő időszakok mintái között van bizo- nyos mértékű átfedés; ekkor valamilyen értékösszeg összetett becslése a t időszakban
Ŷc(t) = KŶ(t) + (1-K)(Ŷc(t-1) + ΔŶ’(t)), ahol Ŷ(t) a kalibrált becslés ugyanebben az időszak- ban, ΔŶ’(t) a szintbeli változás becslése a t-1 és a t időszak között a minták közös része alapján és K egy 0 és 1 közé eső súly. Ŷc(t) szórásnégyzete általában K olyan értéke mellett veszi fel a minimumát, amelyre 0 < K < 1.
Összetett becsléseket első ízben az Egyesült Ál- lamokban vezettek be, a Current Population Survey- ben (CPS). Időközben egyre bonyolultabb változa- tokat fejlesztettek ki, ezek azonban mindig konzisz- tencia-problémákhoz vezettek, ugyanis különböző K súlyok alkalmazása a különböző mutatóknál – pél- dául foglalkoztatottaknál és munkanélkülieknél – gá- tolta az adatok összeadhatóságát. A kanadai megol- dás, amelyet a LFS-re dolgoztak ki, úgy küszöböli ki ezt a problémát, hogy
– Ŷ(t) és Ŷc(t-1) + ΔŶ’(t) kombinálását nem a becsült értékösszegeken, hanem a személyi szintű megfigyelések szintjén végzi, és
– az összetett becslés képzését beépíti a kalibrálás fo- lyamatába.
A szokványos kalibrálás a t időszak mintájától megköveteli, hogy
Σŵkxkm = Xm
teljesüljön minden xm kontrollváltozóra; ŵk kalibrált súlyt, Xm pedig sokaságbeli értékösszeget jelöl (az összegzés a minta összes elemére vonatkozik). Eze- ket a kalibrálási feltételeket ki lehet egészíteni azzal, hogy a jelenlegi mintában szereplő személyeknek a t-1 időszakhoz tartozó adatai ŵk-val súlyozva, a t-1 időszak kompozit becslését eredményezzék. Legyen p egy ilyen típusú feltétel sorszáma, Xp az ehhez tar- tozó értékösszeg (például a foglalkoztatottak létszá- mának összetett becslése a t-1-edik időszakban); a t- edik időszak mintájának k sorszámú személyére egy xkp változót definiálunk a következőképpen. Ha a te- kintett személy részt vett a t-1-edik időszak mintájá- ban, akkor
xkp = K yk(t-1) + (1-K)( yk(t) +Δyk(t-1)), ahol
Δyk(t-1) = 6(yk(t-1) - yk(t))/5,
STATISZTIKAI IRODALMI FIGYELŐ 609
és a 6/5 tényező azt tükrözi, hogy a rotáció követ- keztében két egymás utáni időszak mintája között 5/6 mértékű átfedés van. Ha a szóban forgó személy első ízben vesz részt a felvételben, akkor xkp értékét az adott munkaerő-piaci státushoz tartozók arányá- val tesszük egyenlővé a t-1-edik időszak adatai sze- rint.
Mint említettük, a Foglalkoztatottság, bérek és munkaórák felvétel (SEPH) kettős mintája egyrészt egy 200 000-es tételű levonási jegyzékből, más- részt egy tízezer egységet magában foglaló vállala- ti mintából áll. Az adminisztratív részminta csupán a bérekre és a foglakoztatotti létszámra vonatkozó információkat tartalmazza, míg a regiszterből származó vállalati minta, a SEPH tárgyát jelentő összes adatra vonatkozóan tartalmaz információt.
Az adminisztratív mintából származó aggregált lét- szám- és béradatok segédváltozóként szerepelnek a regressziós modellben, amely a tízezer elemű vál- lalati mintára épül. Ez utóbbit ún. modellcsopor- tokra bontják, és e csoportokon belül külön-külön illesztenek regressziós modellt. Így sokkal jobb il- leszkedést lehet elérni, mintha a teljes mintára il- lesztenének egyetlen modellt. A modellek függet- len változói a havi foglalkoztatott létszámok és a havi bérek, míg a munkaórák száma, az egyes foglakoztatott kategóriák munkaóráinak aránya, az összesített keresetek stb. játsszák a függő változó szerepét. A becslő függvény analóg a 2. pontban ismertetett esztimátorral.
Mint a bevezetésből kitűnt, a Kanadai Statiszti- kai Hivatal több panelfelvételt is folytat. A lakossági panelek (SLID, NPHS, NLSCY) mintája a LFS min- tavételi tervén alapul, így az első hullám súlyozása adott. A panelkopás ellensúlyozására kétféle eljárást használnak. Az ún. szegmentálás olyan csoportokra bontja a panelmintát, hogy az egyes csoportokon be- lüli egységek (személyek vagy háztartások) válasz- adási hajlandósága nagymértékben hasonló, míg a különböző csoportokban levő egységek válaszadási hajlandósága nagymértékben eltérő. Logisztikus reg- resszió alkalmazásával a válaszadás valószínűségét lehet modellezni rendelkezésre álló kategóriaválto- zók segítségével, ennek eredményeként a minta olyan cellákra bomlik, amelyeken belül a válaszadás valószínűsége azonos. Mindkét esetben a csoportok- ra, cellákra bontás az eggyel korábbi hullámból származó információn alapul, majd az egyes csopor- tokhoz tartozó, válaszoló egységeknél azonos kor- rekciós tényezővel ellensúlyozzák a panelkopást.
A panelsúlyozás utolsó fázisa mindkét esetben olyan kalibrálási eljárás, amellyel a mintát, illetve a mintából származó becsléseket a kiválasztás idő-
pontjának megfelelő korcsoportos népességszámok- nak megfelelően igazítják.
Bizonyos esetekben keresztmetszeti adatok elő- állítására van igény panelminták alapján. Az adott időszak demográfiai jellemzőihez való igazítás ön- magában nem elégséges; a recept az, hogy a panel- mintát ki kell egészíteni egy olyan mintával, amelyet a sokaságnak a panel által le nem fedett részéből vá- lasztanak ki.
A Kanadai Statisztikai Hivatal a kisterületi becslési módszerek alkalmazásának és kutatásának egyik úttörője volt. Mivel ez a témakör a magyar Központi Statisztikai Hivatal gyakorlatában kissé háttérbe szorult, érdemes felidézni annak kiinduló pontját. Eszerint, kisterületi becslési problémáról akkor szólunk, ha adott egy valószínűségi minta, amely országos szinten reprezentatív, kielégítő pon- tosságú; bizonyos területi részletezések esetén azon- ban ez már nem érvényes. Hazai viszonylatban tipi- kus példa erre egy jó tulajdonságokkal rendelkező országos minta, és annak megyei (vagy régió szintű) részmintái.
A különböző kisterületi módszerek közös jel- lemzője a „kölcsönözzünk erőt” elve. Ez az elv meg- figyelhető a legegyszerűbb módszereknél is, mint például a „hasonló” kis területek egyesítése, össze- vonása, vagy adott kis területre vonatkozó, de kü- lönböző időpontokhoz tartozó megfigyelések egyesí- tése, átlagolása (pooling).
Az egyik leggyakrabban alkalmazott kisterületi módszer a Kanadai Statisztikai Hivatalban jelenleg az
Ŷd = λdŶ1d + (1 - λd)Ŷ2d
alakú kombinált becslés, ahol Ŷ1d mintából származó (például általánosított regressziós) becslés, Ŷ2d pedig modellalapú becslés, λd pedig 0 és 1 közé eső súly.
Az Ŷ2d komponens általában szintetikus becslés, ami azt jelenti, hogy egy nagyobb terület valamilyen adatát, például átlagát, a terület egy részére is jel- lemzőnek tekintjük. Jelölje Nd a “d” területhez tarto- zó esetszámot a sokaságban, Ñd ennek becslését a mintából; a LFS-ben a következőképpen meghatáro- zott kombinált becslést használják:
λd = 1, ha Ñd ≥ 2 Nd /3 és
λd = 3Ñd /(2 Nd), ha Ñd < 2Nd /3.
A bonyolult felvételekből származó adatok szó- rásnégyzetének becslésével kapcsolatban számos ku- tatási eredmény és tapasztalat halmozódott fel a Ka-
STATISZTIKAI IRODALMI FIGYELŐ 610
nadai Statisztikai Hivatalban. A kutatások fő téma- körei a következők:
– linearizáláson alapuló módszerek kétfázisú minták, általánosított regressziós becslés, valamint nem lineáris és nem sima statisztikák esetén,
– a szórásnégyzetre vonatkozó ún. jackknife-esztimátor linearizálása,
– a szórásnégyzet becslése longitudinális vizsgálatok- ban,
– a minta másodlagos feldolgozásán alapuló szórásnégyzetbecslő eljárások empirikus összehasonlítása stb.
A Taylor-soros közelítésből kiindulva, kidol- goztak egy módszert, amelyet a „becslő egyenle- tek” módszerének neveztek el, és amelyet a bonyo- lult felvételekből származó adatok széles körére vonatkozóan lehet alkalmazni a szórásnégyzet becslésére. A becslő egyenletek módszerével ke- zelhető feladatok közé tartoznak többek között az általánosított regressziós becsléssel előállított ada- tok, továbbá a jövedelmi egyenlőtlenségekkel kap- csolatos több mérőszám, mint a Gini-koefficiens, a Lorenz-görbe ordinátája, kvantilisek stb. A bonyo- lult jövedelem-eloszlások esetén alkalmazható szó- rásbecslő eljárásokra vonatkozó empirikus össze- hasonlítás a Taylor-soron alapuló linearizálás telje- sítményét mutatta a legjobbnak, ezt követte máso- dik helyezettként a bootstrap-módszer. Más típusú feladatoknál természetesen másképpen alakul a szórásnégyzetbecslő módszerek teljesítmény sze- rinti sorrendje. A kalibráláson alapuló módszerek- kel kapcsolatos vizsgálat eredménye szerint példá- ul a jackknife-módszer torzítása mindig kisebb volt, mint a Taylor-soros közelítésből adódó varianciabecslő formuláé, bár a torzítás egyik eset- ben sem volt jelentős mértékű.
A legtöbb szórásnégyzetbecslő eljárás figyel- men kívül hagyja az imputálás hatását, és ezáltal alábecsüli a szórásnégyzetet. Van azonban olyan szórásnégyzetbecslő módszer is, amellyel az imputálás hatása figyelembe vehető: ehhez a mintát fel kell bontani egy ténylegesen válaszoló és egy imputált részre. A teljes szórásnégyzet akkor egy összeadható ismérv esetén formálisan
Var(Ŷ) = Var(ŶV) + Var(ŶIMP) + Cov(ŶV, ŶIMP), ahol ŶV és ŶIMP a tekintett ismérv becslése a minta válaszoló, illetve nemválaszoló részén (ahol a hiány- zó válaszokat imputálták). Az ezen az elven működő szórásbecslő eljárások a Kanadai Statisztikai Hivatal SIMPVAR nevű programrendszerében a felhaszná- lók rendelkezésére állnak.
A speciális problémák közül a többféle keretből kiválasztott minták kezelését és az eloszlásfüggvé-
nyek becslését kell kiemelni. A többféle (gyakorlati- lag általában kettős) keretből való mintavételre ak- kor kerül sor, amikor egy nem teljes lista, illetve adatállomány – például egy hiányos regiszter – alap- ján kell kiválasztani a mintát, és azt adatgyűjtés so- rán megfelelő eljárással ki kell egészíteni. (Egy ilyen típusú, a kiskereskedelmi áruforgalom megfigyelésé- re szolgáló mintát 1993-ban a Kanadai Statisztikai Hivatal munkatársai kidolgoztak a magyar KSH ré- szére.) A becslési eljárás a komponensmintákhoz tartozó becslések lineáris kombinációjának a két minta átfedésén való optimalizálásával adódik.
Az eloszlásfüggvények becslésének fontosságát az jelzi, hogy kvantiliseket az eloszlásfüggvény invertálásával becsülünk. Ebben a vonatkozásban az állapítható meg, hogy az általánosított regressziós becslés, bár aszimptotikus tulajdonságai nem a leg- kedvezőbbek, mégis hatékony és stabil eszköze a kvantilisek becslésének. Ezt a megállapítást empiri- kus tapasztalatok támasztják alá.
A Kanadai Statisztikai Hivatalban használt becslési módszerek egy jelentős részét a GES prog- ramrendszerbe (általánosított becslő rendszer) építet- ték be (Generalized Estimation System – GES). A GES nagyon sokoldalú, 1996-ban például ezzel vé- gezték az itáliai Fogyasztási kiadások felvétel kalib- rálását. A kanadai LFS feldolgozását azonban nem a GES, hanem egy külön arra a célra kialakított cél- program segítségével végzik.
A GES segítségével megoldhatók a következő feladatok:
– értékösszegek, átlagok, hányadosok becslése a hoz- zájuk tartozó megbízhatósági mérőszámokkal együtt,
– szeparált és kombinált hányadosbecslések, regresszi- ós becslések, utólagos rétegzésen alapuló becslések, iteratív skálázások,
feltéve, hogy a következő mintavételi tervek valame- lyikével van dolgunk:
– egyszerű véletlen kiválasztás, visszatevéssel vagy anélkül, adott rétegzés mellett;
– rétegzett csoportos kiválasztás és rétegzett kiválasz- tás nagysággal arányos valószínűség szerint;
– rétegzett többlépcsős minták, mikor egyidejűleg csak a lépcsők egyikének megfelelő kiválasztást lehet elvégezni;
– rétegzett kétfázisú minták, feltéve. hogy minden ré- tegben és minden fázisban csak egyszerű véletlen kiválasz- tás lehetséges.
A jelen ismertetés természetesen nem helyettesí- ti az eredeti dolgozat elolvasását, ami elsősorban a reprezentatív megfigyelésekkel kapcsolatos becslé- sekkel foglalkozó statisztikusok számára igen fontos lehet.
(Ism.: Mihályffy László)