Singh, M. P. et al.: A Kanadai Statisztikai Hivatal becslési módszerei

(1)

STATISZTIKAI IRODALMI FIGYELŐ

KÜLFÖLDI STATISZTIKAI IRODALOM

A STATISZTIKA ÁLTALÁNOS ELMÉLETE ÉS MÓDSZERTANA

Megjegyzés. A Statisztikai Irodalmi Figyelő rovatot a Központi Statisztikai Hivatal Könyvtár és Dokumentációs Szolgálat állítja össze. A rovat minden hónapban Külföldi Statisztikai Irodalom fejezetet (külföldi statisztikai és demográfiai könyvek és cikkek ismertetését Rettich Béla szerkesztésében), páratlan hónapban Bibliográfiát (a könyveket az MSZ 3423/2–84, az időszaki kiadványokat az MSZ 3424/2–82 szabvány szerinti feldolgozásban), páros hónapokban Külföldi folyóiratszemlét tartalmaz.

SINGH, M.P. ET AL.:

A KANADAI STATISZTIKAI HIVATAL BECSLÉSI MÓDSZEREI

(Estimation methods and related systems at Statistics Canada.) – International Statistical Review, 2001. 3. sz.

461–485. p.

A tanulmány széles körű áttekintést nyújt azokról a becslési módszerekről, amelyeket a Kanadai Statisz- tikai Hivatal reprezentatív megfigyeléseiben, más szóval valószínűségi mintákon alapuló felvételeiben használtak a múlt század nyolcvanas éveitől napjain- kig. Ezen kívül foglalkozik az általánosított regresszi- ós becsléssel, az összetett becslésekkel (kompozit esztimátorok), a longitudinális és keresztmetszeti sú- lyozással és becsléssel, az ún. kisterületi módszerek- kel, a variancia-becsléssel és egyéb, speciális problé- mákkal. Egyenlő figyelmet szentel a háztartásstatiszti- kai és a gazdaságstatisztikai adatgyűjtésekkel kapcsolatos alkalmazásoknak, és ezen belül a keresztmetszeti, illetve a longitudinális vizsgálatoknak. A szerzők sokféle mintavételi eljárást és speciális becslési mód- szert mutatnak be, ezek közül néhányat részletesen, másokat csupán vázlatosan, míg bizonyos módszerek- re csupán irodalmi hivatkozásokkal hívják fel a figyelmet. Az látszott célszerűnek, az alkalmazások szempontjából, ha egy-egy kiemelten fontos vagy jel- legzetesen „kanadai” megoldást részletesen bemuta- tunk. Számos szerző, Huang és Fuller (1978), Deville és Särndal (1992), Rao és Singh (1997) dolgozott ki el- járást a kalibrált súlyok korlátosságának biztosítására.

A módszerek, eljárások többsége reprezentatív felvételekhez, megfigyelésekhez kapcsolódik.

A tanulmány következő módszereket, eljáráso- kat mutatja be.

Munkaerő-felmérés (Labour Force Survey – LFS):

53 000 háztartás havonkénti megfigyelése, elsősorban mun- kaerő-piaci információk gyűjtése céljából. A felvételnek többlépcsős valószínűségi mintája van, amely hat rotációs csoportból áll. A kanadai háztartás-statisztikai felvételek többsége valamilyen formában kapcsolódik a munkaerő- felméréshez.

Foglalkoztatottság, bérek és munkaórák felvétel (Survey of Employment, Payrolls and Hours – SEPH) egy ún. adminisztratív mintára és egy vállalati mintára épül. Az adminisztratív minta 200 000 levonási jegyzékből, a vállala- ti minta pedig 10 000 vállalatból áll, és ezek alapján becsü- lik havonta a fizetett alkalmazottak számát, a heti átlagkere- seteket, a heti munkaórák átlagos számát stb.

Foglalkoztatottság és a jövedelmek dinamikája felvétel (Survey of Labour and Income Dynamics – SLID): háztartá- si panelfelvétel a munkaerő-piaci státus és a jövedelmek di- namikájának vizsgálatára, 15 000 háztartásból álló panel alapján.

Az Egészségügyi felvétel (National Population Health Survey – NPHS): panelfelvétel a kanadai népesség egészsé- gi állapotáról, annak időbeni változásáról, a társadalmi, gaz- dasági és környezeti hatásokról valamint az egészségügyi rendszer működéséről stb. A panelminta 20 000 személyből áll.

A Gyermek- és ifjúkor longitudinális vizsgálata (National Longitudinal Survey of Children and Youth – NLSCY) a csecsemőkortól a felnőtté válásig kíséri a kanadai fiatalok életét, biológiai, társadalmi és gazdasági ténye- zők tükrében egy 18 000 főből álló panelminta alapján.

A Munkahelyek és foglalkoztatottak felvétel (Workplace and Employee Survey – WES) egy munkahe- lyekből és személyekből álló kombinált panelmintán vizs- gálja az emberi erőforrással való gazdálkodás különböző stratégiáit és ezek hatását a munkahelyek stabilitására, a (tovább)képzésre és a keresetekre. A minta 7 500 munkahe- lyet és 40 000 foglalkoztatottat tartalmaz. (Ezek a felvételek a továbbiakban az angol nyelvű rövidítésükkel szerepelnek.)

(2)

STATISZTIKAI IRODALMI FIGYELŐ 608

A Kanadai Statisztikai Hivatal reprezentatív megfigyeléseiben többnyire kalibrálást alkalmaz- nak, ami végeredményben az általánosított regresz- sziós becslés (generalized regression estimator – GREG) alkalmazásához vezet. A mintavételi tervek közvetlen következménye a létszámadatok, értékösz- szegek Horvitz–Thompson-esztimátorral való becs- lése, vagyis

Ŷ = Σwkyk,

ahol yk a vizsgált ismérvre vonatkozó megfigyelés a minta k-adik elemére nézve, wk az ehhez tartozó mintasúly, és az összegzést a minta elemeire kell el- végezni. Kalibráláson a wk mintasúlyok olyan kor- rekcióját értük, amelynek eredményeként a tekintett becslési összefüggés bizonyos xk segédváltozók vagy más néven kontrollváltozók esetén becsült értékösz- szegként a megfelelő sokaságbeli értéket állítja elő.

Háztartás-statisztikai felvételek esetén gyakran al- kalmaznak korcsoportokat jellemző kategória- változókat kontrollváltozóként; ennek eredménye- ként a kalibrált becslések a sokaságbeli korcsoportos létszámadatokat reprodukálják.

Többféle kalibrálási eljárást ismerünk, ezeknek egy speciális esete az, amely az előbbi értékösszeg- re az

ŶGREG = Ŷ + (X’ – x’)b

általánosított regressziós becslést eredményezi. Itt X’

a segédváltozók értékösszegéből álló sorvektor, x’

ennek a mintából származó becslése az eredeti wk

mintasúlyokkal, b pedig a vizsgált változónak a se- gédváltozókra vonatkozó regressziós együtthatóiból álló oszlopvektor. Az általánosított regressziós becs- lésnek számos előnyös tulajdonsága van, például mátrix-invertálás segítségével zárt alakban előállít- ható. Hátránya viszont az, hogy a végső vagy kalib- rált súlyok között, amelyeket ŵk = wkgk alakban szoktak felírni, előfordulhatnak negatívok is, abszo- lút értékük pedig tág határok között változhat. Isme- retesek azonban olyan módszerek, amelyekkel az ál- talánosított regressziós becslés hátrányos sajátságait ki lehet küszöbölni. A regressziós becslés szórás- négyzete analitikus kifejezéssel becsülhető, az ösz- szefüggés alkalmazásához azonban ismerni kell az alapsokaságból kiválasztható elempárok mintába ke- rülésének a valószínűségét. Ezt a feltételt bonyolultabb minták, például az LFS mintája nem teljesítik, ilyen esetekben ŶGREG szórásnégyzetét jackknife- módszerrel szokták becsülni.

Ötletes megoldást dolgoztak ki a Kanadai Sta- tisztikai Hivatal kutatói az összetett becslés, más né-

ven kompozit esztimátor elvének alkalmazására.

Összetett becsléseket olyan ismétlődő vagy folyama- tos felvételeknél alkalmazhatnak, amelyeknél az egymást követő időszakok mintái között van bizonyos mértékű átfedés; ekkor valamilyen értékösszeg összetett becslése a t időszakban

Ŷ^c(t) = KŶ(t) + (1-K)(Ŷ^c(t-1) + ΔŶ’(t)), ahol Ŷ(t) a kalibrált becslés ugyanebben az időszak- ban, ΔŶ’(t) a szintbeli változás becslése a t-1 és a t időszak között a minták közös része alapján és K egy 0 és 1 közé eső súly. Ŷ^c(t) szórásnégyzete általában K olyan értéke mellett veszi fel a minimumát, amelyre 0 < K < 1.

Összetett becsléseket első ízben az Egyesült Ál- lamokban vezettek be, a Current Population Survey- ben (CPS). Időközben egyre bonyolultabb változa- tokat fejlesztettek ki, ezek azonban mindig konzisz- tencia-problémákhoz vezettek, ugyanis különböző K súlyok alkalmazása a különböző mutatóknál – pél- dául foglalkoztatottaknál és munkanélkülieknél – gá- tolta az adatok összeadhatóságát. A kanadai megol- dás, amelyet a LFS-re dolgoztak ki, úgy küszöböli ki ezt a problémát, hogy

– Ŷ(t) és Ŷ^c(t-1) + ΔŶ’(t) kombinálását nem a becsült értékösszegeken, hanem a személyi szintű megfigyelések szintjén végzi, és

– az összetett becslés képzését beépíti a kalibrálás fo- lyamatába.

A szokványos kalibrálás a t időszak mintájától megköveteli, hogy

Σŵkxkm = Xm

teljesüljön minden xm kontrollváltozóra; ŵk kalibrált súlyt, Xm pedig sokaságbeli értékösszeget jelöl (az összegzés a minta összes elemére vonatkozik). Eze- ket a kalibrálási feltételeket ki lehet egészíteni azzal, hogy a jelenlegi mintában szereplő személyeknek a t-1 időszakhoz tartozó adatai ŵk-val súlyozva, a t-1 időszak kompozit becslését eredményezzék. Legyen p egy ilyen típusú feltétel sorszáma, Xp az ehhez tar- tozó értékösszeg (például a foglalkoztatottak létszá- mának összetett becslése a t-1-edik időszakban); a t- edik időszak mintájának k sorszámú személyére egy xkp változót definiálunk a következőképpen. Ha a tekintett személy részt vett a t-1-edik időszak mintájá- ban, akkor

xkp = K yk(t-1) + (1-K)( yk(t) +Δyk(t-1)), ahol

Δyk(t-1) = 6(yk(t-1) - yk(t))/5,

(3)

és a 6/5 tényező azt tükrözi, hogy a rotáció követ- keztében két egymás utáni időszak mintája között 5/6 mértékű átfedés van. Ha a szóban forgó személy első ízben vesz részt a felvételben, akkor xkp értékét az adott munkaerő-piaci státushoz tartozók arányá- val tesszük egyenlővé a t-1-edik időszak adatai szerint.

Mint említettük, a Foglalkoztatottság, bérek és munkaórák felvétel (SEPH) kettős mintája egyrészt egy 200 000-es tételű levonási jegyzékből, más- részt egy tízezer egységet magában foglaló vállala- ti mintából áll. Az adminisztratív részminta csupán a bérekre és a foglakoztatotti létszámra vonatkozó információkat tartalmazza, míg a regiszterből származó vállalati minta, a SEPH tárgyát jelentő összes adatra vonatkozóan tartalmaz információt.

Az adminisztratív mintából származó aggregált lét- szám- és béradatok segédváltozóként szerepelnek a regressziós modellben, amely a tízezer elemű vál- lalati mintára épül. Ez utóbbit ún. modellcsopor- tokra bontják, és e csoportokon belül külön-külön illesztenek regressziós modellt. Így sokkal jobb il- leszkedést lehet elérni, mintha a teljes mintára il- lesztenének egyetlen modellt. A modellek függet- len változói a havi foglalkoztatott létszámok és a havi bérek, míg a munkaórák száma, az egyes foglakoztatott kategóriák munkaóráinak aránya, az összesített keresetek stb. játsszák a függő változó szerepét. A becslő függvény analóg a 2. pontban ismertetett esztimátorral.

Mint a bevezetésből kitűnt, a Kanadai Statiszti- kai Hivatal több panelfelvételt is folytat. A lakossági panelek (SLID, NPHS, NLSCY) mintája a LFS min- tavételi tervén alapul, így az első hullám súlyozása adott. A panelkopás ellensúlyozására kétféle eljárást használnak. Az ún. szegmentálás olyan csoportokra bontja a panelmintát, hogy az egyes csoportokon be- lüli egységek (személyek vagy háztartások) válasz- adási hajlandósága nagymértékben hasonló, míg a különböző csoportokban levő egységek válaszadási hajlandósága nagymértékben eltérő. Logisztikus reg- resszió alkalmazásával a válaszadás valószínűségét lehet modellezni rendelkezésre álló kategóriaválto- zók segítségével, ennek eredményeként a minta olyan cellákra bomlik, amelyeken belül a válaszadás valószínűsége azonos. Mindkét esetben a csoportokra, cellákra bontás az eggyel korábbi hullámból származó információn alapul, majd az egyes csopor- tokhoz tartozó, válaszoló egységeknél azonos kor- rekciós tényezővel ellensúlyozzák a panelkopást.

A panelsúlyozás utolsó fázisa mindkét esetben olyan kalibrálási eljárás, amellyel a mintát, illetve a mintából származó becsléseket a kiválasztás idő-

pontjának megfelelő korcsoportos népességszámok- nak megfelelően igazítják.

Bizonyos esetekben keresztmetszeti adatok elő- állítására van igény panelminták alapján. Az adott időszak demográfiai jellemzőihez való igazítás ön- magában nem elégséges; a recept az, hogy a panel- mintát ki kell egészíteni egy olyan mintával, amelyet a sokaságnak a panel által le nem fedett részéből vá- lasztanak ki.

A Kanadai Statisztikai Hivatal a kisterületi becslési módszerek alkalmazásának és kutatásának egyik úttörője volt. Mivel ez a témakör a magyar Központi Statisztikai Hivatal gyakorlatában kissé háttérbe szorult, érdemes felidézni annak kiinduló pontját. Eszerint, kisterületi becslési problémáról akkor szólunk, ha adott egy valószínűségi minta, amely országos szinten reprezentatív, kielégítő pon- tosságú; bizonyos területi részletezések esetén azonban ez már nem érvényes. Hazai viszonylatban tipi- kus példa erre egy jó tulajdonságokkal rendelkező országos minta, és annak megyei (vagy régió szintű) részmintái.

A különböző kisterületi módszerek közös jel- lemzője a „kölcsönözzünk erőt” elve. Ez az elv meg- figyelhető a legegyszerűbb módszereknél is, mint például a „hasonló” kis területek egyesítése, össze- vonása, vagy adott kis területre vonatkozó, de kü- lönböző időpontokhoz tartozó megfigyelések egyesí- tése, átlagolása (pooling).

Az egyik leggyakrabban alkalmazott kisterületi módszer a Kanadai Statisztikai Hivatalban jelenleg az

Ŷd = λdŶ1d + (1 - λd)Ŷ2d

alakú kombinált becslés, ahol Ŷ1d mintából származó (például általánosított regressziós) becslés, Ŷ2d pedig modellalapú becslés, λd pedig 0 és 1 közé eső súly.

Az Ŷ2d komponens általában szintetikus becslés, ami azt jelenti, hogy egy nagyobb terület valamilyen adatát, például átlagát, a terület egy részére is jel- lemzőnek tekintjük. Jelölje Nd a “d” területhez tarto- zó esetszámot a sokaságban, Ñd ennek becslését a mintából; a LFS-ben a következőképpen meghatáro- zott kombinált becslést használják:

λd = 1, ha Ñd ≥ 2 Nd /3 és

λd = 3Ñd /(2 Nd), ha Ñd < 2Nd /3.

A bonyolult felvételekből származó adatok szó- rásnégyzetének becslésével kapcsolatban számos ku- tatási eredmény és tapasztalat halmozódott fel a Ka-

(4)

nadai Statisztikai Hivatalban. A kutatások fő téma- körei a következők:

– linearizáláson alapuló módszerek kétfázisú minták, általánosított regressziós becslés, valamint nem lineáris és nem sima statisztikák esetén,

– a szórásnégyzetre vonatkozó ún. jackknife-esztimátor linearizálása,

– a szórásnégyzet becslése longitudinális vizsgálatok- ban,

– a minta másodlagos feldolgozásán alapuló szórásnégyzetbecslő eljárások empirikus összehasonlítása stb.

A Taylor-soros közelítésből kiindulva, kidolgoztak egy módszert, amelyet a „becslő egyenletek” módszerének neveztek el, és amelyet a bonyolult felvételekből származó adatok széles körére vonatkozóan lehet alkalmazni a szórásnégyzet becslésére. A becslő egyenletek módszerével ke- zelhető feladatok közé tartoznak többek között az általánosított regressziós becsléssel előállított adatok, továbbá a jövedelmi egyenlőtlenségekkel kapcsolatos több mérőszám, mint a Gini-koefficiens, a Lorenz-görbe ordinátája, kvantilisek stb. A bonyolult jövedelem-eloszlások esetén alkalmazható szó- rásbecslő eljárásokra vonatkozó empirikus össze- hasonlítás a Taylor-soron alapuló linearizálás telje- sítményét mutatta a legjobbnak, ezt követte máso- dik helyezettként a bootstrap-módszer. Más típusú feladatoknál természetesen másképpen alakul a szórásnégyzetbecslő módszerek teljesítmény szerinti sorrendje. A kalibráláson alapuló módszerek- kel kapcsolatos vizsgálat eredménye szerint példá- ul a jackknife-módszer torzítása mindig kisebb volt, mint a Taylor-soros közelítésből adódó varianciabecslő formuláé, bár a torzítás egyik esetben sem volt jelentős mértékű.

A legtöbb szórásnégyzetbecslő eljárás figyel- men kívül hagyja az imputálás hatását, és ezáltal alábecsüli a szórásnégyzetet. Van azonban olyan szórásnégyzetbecslő módszer is, amellyel az imputálás hatása figyelembe vehető: ehhez a mintát fel kell bontani egy ténylegesen válaszoló és egy imputált részre. A teljes szórásnégyzet akkor egy összeadható ismérv esetén formálisan

Var(Ŷ) = Var(ŶV) + Var(ŶIMP) + Cov(ŶV, ŶIMP), ahol ŶV és ŶIMP a tekintett ismérv becslése a minta válaszoló, illetve nemválaszoló részén (ahol a hiány- zó válaszokat imputálták). Az ezen az elven működő szórásbecslő eljárások a Kanadai Statisztikai Hivatal SIMPVAR nevű programrendszerében a felhaszná- lók rendelkezésére állnak.

A speciális problémák közül a többféle keretből kiválasztott minták kezelését és az eloszlásfüggvé-

nyek becslését kell kiemelni. A többféle (gyakorlati- lag általában kettős) keretből való mintavételre akkor kerül sor, amikor egy nem teljes lista, illetve adatállomány – például egy hiányos regiszter – alap- ján kell kiválasztani a mintát, és azt adatgyűjtés so- rán megfelelő eljárással ki kell egészíteni. (Egy ilyen típusú, a kiskereskedelmi áruforgalom megfigyelésé- re szolgáló mintát 1993-ban a Kanadai Statisztikai Hivatal munkatársai kidolgoztak a magyar KSH ré- szére.) A becslési eljárás a komponensmintákhoz tartozó becslések lineáris kombinációjának a két minta átfedésén való optimalizálásával adódik.

Az eloszlásfüggvények becslésének fontosságát az jelzi, hogy kvantiliseket az eloszlásfüggvény invertálásával becsülünk. Ebben a vonatkozásban az állapítható meg, hogy az általánosított regressziós becslés, bár aszimptotikus tulajdonságai nem a leg- kedvezőbbek, mégis hatékony és stabil eszköze a kvantilisek becslésének. Ezt a megállapítást empirikus tapasztalatok támasztják alá.

A Kanadai Statisztikai Hivatalban használt becslési módszerek egy jelentős részét a GES prog- ramrendszerbe (általánosított becslő rendszer) építet- ték be (Generalized Estimation System – GES). A GES nagyon sokoldalú, 1996-ban például ezzel vé- gezték az itáliai Fogyasztási kiadások felvétel kalib- rálását. A kanadai LFS feldolgozását azonban nem a GES, hanem egy külön arra a célra kialakított cél- program segítségével végzik.

A GES segítségével megoldhatók a következő feladatok:

– értékösszegek, átlagok, hányadosok becslése a hoz- zájuk tartozó megbízhatósági mérőszámokkal együtt,

– szeparált és kombinált hányadosbecslések, regresszi- ós becslések, utólagos rétegzésen alapuló becslések, iteratív skálázások,

feltéve, hogy a következő mintavételi tervek valame- lyikével van dolgunk:

– egyszerű véletlen kiválasztás, visszatevéssel vagy anélkül, adott rétegzés mellett;

– rétegzett csoportos kiválasztás és rétegzett kiválasz- tás nagysággal arányos valószínűség szerint;

– rétegzett többlépcsős minták, mikor egyidejűleg csak a lépcsők egyikének megfelelő kiválasztást lehet elvégezni;

– rétegzett kétfázisú minták, feltéve. hogy minden ré- tegben és minden fázisban csak egyszerű véletlen kiválasz- tás lehetséges.

A jelen ismertetés természetesen nem helyettesí- ti az eredeti dolgozat elolvasását, ami elsősorban a reprezentatív megfigyelésekkel kapcsolatos becslé- sekkel foglalkozó statisztikusok számára igen fontos lehet.

(Ism.: Mihályffy László)