• Nem Talált Eredményt

Singh, M. P. et al.: A Kanadai Statisztikai Hivatal becslési módszerei

N/A
N/A
Protected

Academic year: 2022

Ossza meg "Singh, M. P. et al.: A Kanadai Statisztikai Hivatal becslési módszerei"

Copied!
4
0
0

Teljes szövegt

(1)

STATISZTIKAI IRODALMI FIGYELŐ

KÜLFÖLDI STATISZTIKAI IRODALOM

A STATISZTIKA ÁLTALÁNOS ELMÉLETE ÉS MÓDSZERTANA

Megjegyzés. A Statisztikai Irodalmi Figyelő rovatot a Központi Statisztikai Hivatal Könyvtár és Dokumentációs Szolgálat állítja össze. A rovat minden hónapban Külföldi Statisztikai Irodalom fejezetet (külföldi statisztikai és demográfiai könyvek és cikkek ismertetését Rettich Béla szerkesztésében), páratlan hónapban Bibliográfiát (a könyveket az MSZ 3423/2–84, az időszaki kiadványokat az MSZ 3424/2–82 szabvány szerinti feldolgozásban), páros hónapokban Külföldi folyóiratszemlét tartalmaz.

SINGH, M.P. ET AL.:

A KANADAI STATISZTIKAI HIVATAL BECSLÉSI MÓDSZEREI

(Estimation methods and related systems at Statistics Canada.) – International Statistical Review, 2001. 3. sz.

461–485. p.

A tanulmány széles körű áttekintést nyújt azokról a becslési módszerekről, amelyeket a Kanadai Statisz- tikai Hivatal reprezentatív megfigyeléseiben, más szóval valószínűségi mintákon alapuló felvételeiben használtak a múlt század nyolcvanas éveitől napjain- kig. Ezen kívül foglalkozik az általánosított regresszi- ós becsléssel, az összetett becslésekkel (kompozit esztimátorok), a longitudinális és keresztmetszeti sú- lyozással és becsléssel, az ún. kisterületi módszerek- kel, a variancia-becsléssel és egyéb, speciális problé- mákkal. Egyenlő figyelmet szentel a háztartásstatiszti- kai és a gazdaságstatisztikai adatgyűjtésekkel kapcso- latos alkalmazásoknak, és ezen belül a keresztmetsze- ti, illetve a longitudinális vizsgálatoknak. A szerzők sokféle mintavételi eljárást és speciális becslési mód- szert mutatnak be, ezek közül néhányat részletesen, másokat csupán vázlatosan, míg bizonyos módszerek- re csupán irodalmi hivatkozásokkal hívják fel a fi- gyelmet. Az látszott célszerűnek, az alkalmazások szempontjából, ha egy-egy kiemelten fontos vagy jel- legzetesen „kanadai” megoldást részletesen bemuta- tunk. Számos szerző, Huang és Fuller (1978), Deville és Särndal (1992), Rao és Singh (1997) dolgozott ki el- járást a kalibrált súlyok korlátosságának biztosítására.

A módszerek, eljárások többsége reprezentatív felvételekhez, megfigyelésekhez kapcsolódik.

A tanulmány következő módszereket, eljáráso- kat mutatja be.

Munkaerő-felmérés (Labour Force Survey – LFS):

53 000 háztartás havonkénti megfigyelése, elsősorban mun- kaerő-piaci információk gyűjtése céljából. A felvételnek többlépcsős valószínűségi mintája van, amely hat rotációs csoportból áll. A kanadai háztartás-statisztikai felvételek többsége valamilyen formában kapcsolódik a munkaerő- felméréshez.

Foglalkoztatottság, bérek és munkaórák felvétel (Survey of Employment, Payrolls and Hours – SEPH) egy ún. adminisztratív mintára és egy vállalati mintára épül. Az adminisztratív minta 200 000 levonási jegyzékből, a vállala- ti minta pedig 10 000 vállalatból áll, és ezek alapján becsü- lik havonta a fizetett alkalmazottak számát, a heti átlagkere- seteket, a heti munkaórák átlagos számát stb.

Foglalkoztatottság és a jövedelmek dinamikája felvétel (Survey of Labour and Income Dynamics – SLID): háztartá- si panelfelvétel a munkaerő-piaci státus és a jövedelmek di- namikájának vizsgálatára, 15 000 háztartásból álló panel alapján.

Az Egészségügyi felvétel (National Population Health Survey – NPHS): panelfelvétel a kanadai népesség egészsé- gi állapotáról, annak időbeni változásáról, a társadalmi, gaz- dasági és környezeti hatásokról valamint az egészségügyi rendszer működéséről stb. A panelminta 20 000 személyből áll.

A Gyermek- és ifjúkor longitudinális vizsgálata (National Longitudinal Survey of Children and Youth – NLSCY) a csecsemőkortól a felnőtté válásig kíséri a kana- dai fiatalok életét, biológiai, társadalmi és gazdasági ténye- zők tükrében egy 18 000 főből álló panelminta alapján.

A Munkahelyek és foglalkoztatottak felvétel (Workplace and Employee Survey – WES) egy munkahe- lyekből és személyekből álló kombinált panelmintán vizs- gálja az emberi erőforrással való gazdálkodás különböző stratégiáit és ezek hatását a munkahelyek stabilitására, a (tovább)képzésre és a keresetekre. A minta 7 500 munkahe- lyet és 40 000 foglalkoztatottat tartalmaz. (Ezek a felvételek a továbbiakban az angol nyelvű rövidítésükkel szerepelnek.)

(2)

STATISZTIKAI IRODALMI FIGYELŐ 608

A Kanadai Statisztikai Hivatal reprezentatív megfigyeléseiben többnyire kalibrálást alkalmaz- nak, ami végeredményben az általánosított regresz- sziós becslés (generalized regression estimator – GREG) alkalmazásához vezet. A mintavételi tervek közvetlen következménye a létszámadatok, értékösz- szegek Horvitz–Thompson-esztimátorral való becs- lése, vagyis

Ŷ = Σwkyk,

ahol yk a vizsgált ismérvre vonatkozó megfigyelés a minta k-adik elemére nézve, wk az ehhez tartozó mintasúly, és az összegzést a minta elemeire kell el- végezni. Kalibráláson a wk mintasúlyok olyan kor- rekcióját értük, amelynek eredményeként a tekintett becslési összefüggés bizonyos xk segédváltozók vagy más néven kontrollváltozók esetén becsült értékösz- szegként a megfelelő sokaságbeli értéket állítja elő.

Háztartás-statisztikai felvételek esetén gyakran al- kalmaznak korcsoportokat jellemző kategória- változókat kontrollváltozóként; ennek eredménye- ként a kalibrált becslések a sokaságbeli korcsoportos létszámadatokat reprodukálják.

Többféle kalibrálási eljárást ismerünk, ezeknek egy speciális esete az, amely az előbbi értékösszeg- re az

ŶGREG = Ŷ + (X’ – x’)b

általánosított regressziós becslést eredményezi. Itt X’

a segédváltozók értékösszegéből álló sorvektor, x’

ennek a mintából származó becslése az eredeti wk

mintasúlyokkal, b pedig a vizsgált változónak a se- gédváltozókra vonatkozó regressziós együtthatóiból álló oszlopvektor. Az általánosított regressziós becs- lésnek számos előnyös tulajdonsága van, például mátrix-invertálás segítségével zárt alakban előállít- ható. Hátránya viszont az, hogy a végső vagy kalib- rált súlyok között, amelyeket ŵk = wkgk alakban szoktak felírni, előfordulhatnak negatívok is, abszo- lút értékük pedig tág határok között változhat. Isme- retesek azonban olyan módszerek, amelyekkel az ál- talánosított regressziós becslés hátrányos sajátságait ki lehet küszöbölni. A regressziós becslés szórás- négyzete analitikus kifejezéssel becsülhető, az ösz- szefüggés alkalmazásához azonban ismerni kell az alapsokaságból kiválasztható elempárok mintába ke- rülésének a valószínűségét. Ezt a feltételt bonyolul- tabb minták, például az LFS mintája nem teljesítik, ilyen esetekben ŶGREG szórásnégyzetét jackknife- módszerrel szokták becsülni.

Ötletes megoldást dolgoztak ki a Kanadai Sta- tisztikai Hivatal kutatói az összetett becslés, más né-

ven kompozit esztimátor elvének alkalmazására.

Összetett becsléseket olyan ismétlődő vagy folyama- tos felvételeknél alkalmazhatnak, amelyeknél az egymást követő időszakok mintái között van bizo- nyos mértékű átfedés; ekkor valamilyen értékösszeg összetett becslése a t időszakban

Ŷc(t) = KŶ(t) + (1-K)(Ŷc(t-1) + ΔŶ’(t)), ahol Ŷ(t) a kalibrált becslés ugyanebben az időszak- ban, ΔŶ’(t) a szintbeli változás becslése a t-1 és a t időszak között a minták közös része alapján és K egy 0 és 1 közé eső súly. Ŷc(t) szórásnégyzete általában K olyan értéke mellett veszi fel a minimumát, amelyre 0 < K < 1.

Összetett becsléseket első ízben az Egyesült Ál- lamokban vezettek be, a Current Population Survey- ben (CPS). Időközben egyre bonyolultabb változa- tokat fejlesztettek ki, ezek azonban mindig konzisz- tencia-problémákhoz vezettek, ugyanis különböző K súlyok alkalmazása a különböző mutatóknál – pél- dául foglalkoztatottaknál és munkanélkülieknél – gá- tolta az adatok összeadhatóságát. A kanadai megol- dás, amelyet a LFS-re dolgoztak ki, úgy küszöböli ki ezt a problémát, hogy

Ŷ(t) és Ŷc(t-1) + ΔŶ’(t) kombinálását nem a becsült értékösszegeken, hanem a személyi szintű megfigyelések szintjén végzi, és

– az összetett becslés képzését beépíti a kalibrálás fo- lyamatába.

A szokványos kalibrálás a t időszak mintájától megköveteli, hogy

Σŵkxkm = Xm

teljesüljön minden xm kontrollváltozóra; ŵk kalibrált súlyt, Xm pedig sokaságbeli értékösszeget jelöl (az összegzés a minta összes elemére vonatkozik). Eze- ket a kalibrálási feltételeket ki lehet egészíteni azzal, hogy a jelenlegi mintában szereplő személyeknek a t-1 időszakhoz tartozó adatai ŵk-val súlyozva, a t-1 időszak kompozit becslését eredményezzék. Legyen p egy ilyen típusú feltétel sorszáma, Xp az ehhez tar- tozó értékösszeg (például a foglalkoztatottak létszá- mának összetett becslése a t-1-edik időszakban); a t- edik időszak mintájának k sorszámú személyére egy xkp változót definiálunk a következőképpen. Ha a te- kintett személy részt vett a t-1-edik időszak mintájá- ban, akkor

xkp = K yk(t-1) + (1-K)( yk(t) +Δyk(t-1)), ahol

Δyk(t-1) = 6(yk(t-1) - yk(t))/5,

(3)

STATISZTIKAI IRODALMI FIGYELŐ 609

és a 6/5 tényező azt tükrözi, hogy a rotáció követ- keztében két egymás utáni időszak mintája között 5/6 mértékű átfedés van. Ha a szóban forgó személy első ízben vesz részt a felvételben, akkor xkp értékét az adott munkaerő-piaci státushoz tartozók arányá- val tesszük egyenlővé a t-1-edik időszak adatai sze- rint.

Mint említettük, a Foglalkoztatottság, bérek és munkaórák felvétel (SEPH) kettős mintája egyrészt egy 200 000-es tételű levonási jegyzékből, más- részt egy tízezer egységet magában foglaló vállala- ti mintából áll. Az adminisztratív részminta csupán a bérekre és a foglakoztatotti létszámra vonatkozó információkat tartalmazza, míg a regiszterből származó vállalati minta, a SEPH tárgyát jelentő összes adatra vonatkozóan tartalmaz információt.

Az adminisztratív mintából származó aggregált lét- szám- és béradatok segédváltozóként szerepelnek a regressziós modellben, amely a tízezer elemű vál- lalati mintára épül. Ez utóbbit ún. modellcsopor- tokra bontják, és e csoportokon belül külön-külön illesztenek regressziós modellt. Így sokkal jobb il- leszkedést lehet elérni, mintha a teljes mintára il- lesztenének egyetlen modellt. A modellek függet- len változói a havi foglalkoztatott létszámok és a havi bérek, míg a munkaórák száma, az egyes foglakoztatott kategóriák munkaóráinak aránya, az összesített keresetek stb. játsszák a függő változó szerepét. A becslő függvény analóg a 2. pontban ismertetett esztimátorral.

Mint a bevezetésből kitűnt, a Kanadai Statiszti- kai Hivatal több panelfelvételt is folytat. A lakossági panelek (SLID, NPHS, NLSCY) mintája a LFS min- tavételi tervén alapul, így az első hullám súlyozása adott. A panelkopás ellensúlyozására kétféle eljárást használnak. Az ún. szegmentálás olyan csoportokra bontja a panelmintát, hogy az egyes csoportokon be- lüli egységek (személyek vagy háztartások) válasz- adási hajlandósága nagymértékben hasonló, míg a különböző csoportokban levő egységek válaszadási hajlandósága nagymértékben eltérő. Logisztikus reg- resszió alkalmazásával a válaszadás valószínűségét lehet modellezni rendelkezésre álló kategóriaválto- zók segítségével, ennek eredményeként a minta olyan cellákra bomlik, amelyeken belül a válaszadás valószínűsége azonos. Mindkét esetben a csoportok- ra, cellákra bontás az eggyel korábbi hullámból származó információn alapul, majd az egyes csopor- tokhoz tartozó, válaszoló egységeknél azonos kor- rekciós tényezővel ellensúlyozzák a panelkopást.

A panelsúlyozás utolsó fázisa mindkét esetben olyan kalibrálási eljárás, amellyel a mintát, illetve a mintából származó becsléseket a kiválasztás idő-

pontjának megfelelő korcsoportos népességszámok- nak megfelelően igazítják.

Bizonyos esetekben keresztmetszeti adatok elő- állítására van igény panelminták alapján. Az adott időszak demográfiai jellemzőihez való igazítás ön- magában nem elégséges; a recept az, hogy a panel- mintát ki kell egészíteni egy olyan mintával, amelyet a sokaságnak a panel által le nem fedett részéből vá- lasztanak ki.

A Kanadai Statisztikai Hivatal a kisterületi becslési módszerek alkalmazásának és kutatásának egyik úttörője volt. Mivel ez a témakör a magyar Központi Statisztikai Hivatal gyakorlatában kissé háttérbe szorult, érdemes felidézni annak kiinduló pontját. Eszerint, kisterületi becslési problémáról akkor szólunk, ha adott egy valószínűségi minta, amely országos szinten reprezentatív, kielégítő pon- tosságú; bizonyos területi részletezések esetén azon- ban ez már nem érvényes. Hazai viszonylatban tipi- kus példa erre egy jó tulajdonságokkal rendelkező országos minta, és annak megyei (vagy régió szintű) részmintái.

A különböző kisterületi módszerek közös jel- lemzője a „kölcsönözzünk erőt” elve. Ez az elv meg- figyelhető a legegyszerűbb módszereknél is, mint például a „hasonló” kis területek egyesítése, össze- vonása, vagy adott kis területre vonatkozó, de kü- lönböző időpontokhoz tartozó megfigyelések egyesí- tése, átlagolása (pooling).

Az egyik leggyakrabban alkalmazott kisterületi módszer a Kanadai Statisztikai Hivatalban jelenleg az

Ŷd = λdŶ1d + (1 - λd2d

alakú kombinált becslés, ahol Ŷ1d mintából származó (például általánosított regressziós) becslés, Ŷ2d pedig modellalapú becslés, λd pedig 0 és 1 közé eső súly.

Az Ŷ2d komponens általában szintetikus becslés, ami azt jelenti, hogy egy nagyobb terület valamilyen adatát, például átlagát, a terület egy részére is jel- lemzőnek tekintjük. Jelölje Nd a “d” területhez tarto- zó esetszámot a sokaságban, Ñd ennek becslését a mintából; a LFS-ben a következőképpen meghatáro- zott kombinált becslést használják:

λd = 1, ha Ñd ≥ 2 Nd /3 és

λd = 3Ñd /(2 Nd), ha Ñd < 2Nd /3.

A bonyolult felvételekből származó adatok szó- rásnégyzetének becslésével kapcsolatban számos ku- tatási eredmény és tapasztalat halmozódott fel a Ka-

(4)

STATISZTIKAI IRODALMI FIGYELŐ 610

nadai Statisztikai Hivatalban. A kutatások fő téma- körei a következők:

– linearizáláson alapuló módszerek kétfázisú minták, általánosított regressziós becslés, valamint nem lineáris és nem sima statisztikák esetén,

– a szórásnégyzetre vonatkozó ún. jackknife-esztimátor linearizálása,

– a szórásnégyzet becslése longitudinális vizsgálatok- ban,

– a minta másodlagos feldolgozásán alapuló szórásnégyzetbecslő eljárások empirikus összehasonlítása stb.

A Taylor-soros közelítésből kiindulva, kidol- goztak egy módszert, amelyet a „becslő egyenle- tek” módszerének neveztek el, és amelyet a bonyo- lult felvételekből származó adatok széles körére vonatkozóan lehet alkalmazni a szórásnégyzet becslésére. A becslő egyenletek módszerével ke- zelhető feladatok közé tartoznak többek között az általánosított regressziós becsléssel előállított ada- tok, továbbá a jövedelmi egyenlőtlenségekkel kap- csolatos több mérőszám, mint a Gini-koefficiens, a Lorenz-görbe ordinátája, kvantilisek stb. A bonyo- lult jövedelem-eloszlások esetén alkalmazható szó- rásbecslő eljárásokra vonatkozó empirikus össze- hasonlítás a Taylor-soron alapuló linearizálás telje- sítményét mutatta a legjobbnak, ezt követte máso- dik helyezettként a bootstrap-módszer. Más típusú feladatoknál természetesen másképpen alakul a szórásnégyzetbecslő módszerek teljesítmény sze- rinti sorrendje. A kalibráláson alapuló módszerek- kel kapcsolatos vizsgálat eredménye szerint példá- ul a jackknife-módszer torzítása mindig kisebb volt, mint a Taylor-soros közelítésből adódó varianciabecslő formuláé, bár a torzítás egyik eset- ben sem volt jelentős mértékű.

A legtöbb szórásnégyzetbecslő eljárás figyel- men kívül hagyja az imputálás hatását, és ezáltal alábecsüli a szórásnégyzetet. Van azonban olyan szórásnégyzetbecslő módszer is, amellyel az imputálás hatása figyelembe vehető: ehhez a mintát fel kell bontani egy ténylegesen válaszoló és egy imputált részre. A teljes szórásnégyzet akkor egy összeadható ismérv esetén formálisan

Var(Ŷ) = Var(ŶV) + Var(ŶIMP) + Cov(ŶV, ŶIMP), ahol ŶV és ŶIMP a tekintett ismérv becslése a minta válaszoló, illetve nemválaszoló részén (ahol a hiány- zó válaszokat imputálták). Az ezen az elven működő szórásbecslő eljárások a Kanadai Statisztikai Hivatal SIMPVAR nevű programrendszerében a felhaszná- lók rendelkezésére állnak.

A speciális problémák közül a többféle keretből kiválasztott minták kezelését és az eloszlásfüggvé-

nyek becslését kell kiemelni. A többféle (gyakorlati- lag általában kettős) keretből való mintavételre ak- kor kerül sor, amikor egy nem teljes lista, illetve adatállomány – például egy hiányos regiszter – alap- ján kell kiválasztani a mintát, és azt adatgyűjtés so- rán megfelelő eljárással ki kell egészíteni. (Egy ilyen típusú, a kiskereskedelmi áruforgalom megfigyelésé- re szolgáló mintát 1993-ban a Kanadai Statisztikai Hivatal munkatársai kidolgoztak a magyar KSH ré- szére.) A becslési eljárás a komponensmintákhoz tartozó becslések lineáris kombinációjának a két minta átfedésén való optimalizálásával adódik.

Az eloszlásfüggvények becslésének fontosságát az jelzi, hogy kvantiliseket az eloszlásfüggvény invertálásával becsülünk. Ebben a vonatkozásban az állapítható meg, hogy az általánosított regressziós becslés, bár aszimptotikus tulajdonságai nem a leg- kedvezőbbek, mégis hatékony és stabil eszköze a kvantilisek becslésének. Ezt a megállapítást empiri- kus tapasztalatok támasztják alá.

A Kanadai Statisztikai Hivatalban használt becslési módszerek egy jelentős részét a GES prog- ramrendszerbe (általánosított becslő rendszer) építet- ték be (Generalized Estimation System – GES). A GES nagyon sokoldalú, 1996-ban például ezzel vé- gezték az itáliai Fogyasztási kiadások felvétel kalib- rálását. A kanadai LFS feldolgozását azonban nem a GES, hanem egy külön arra a célra kialakított cél- program segítségével végzik.

A GES segítségével megoldhatók a következő feladatok:

– értékösszegek, átlagok, hányadosok becslése a hoz- zájuk tartozó megbízhatósági mérőszámokkal együtt,

– szeparált és kombinált hányadosbecslések, regresszi- ós becslések, utólagos rétegzésen alapuló becslések, iteratív skálázások,

feltéve, hogy a következő mintavételi tervek valame- lyikével van dolgunk:

– egyszerű véletlen kiválasztás, visszatevéssel vagy anélkül, adott rétegzés mellett;

– rétegzett csoportos kiválasztás és rétegzett kiválasz- tás nagysággal arányos valószínűség szerint;

– rétegzett többlépcsős minták, mikor egyidejűleg csak a lépcsők egyikének megfelelő kiválasztást lehet elvégezni;

– rétegzett kétfázisú minták, feltéve. hogy minden ré- tegben és minden fázisban csak egyszerű véletlen kiválasz- tás lehetséges.

A jelen ismertetés természetesen nem helyettesí- ti az eredeti dolgozat elolvasását, ami elsősorban a reprezentatív megfigyelésekkel kapcsolatos becslé- sekkel foglalkozó statisztikusok számára igen fontos lehet.

(Ism.: Mihályffy László)

Hivatkozások

KAPCSOLÓDÓ DOKUMENTUMOK

Jóllehet az állami gyakorlat és a Nemzetközi Bíróság döntései világos képet mutatnak, az e tárgyban megjelent szakirodalom áttekintéséből kitűnik, hogy jelen- tős,

A fiatalok (20–30 évesek, más kutatásban 25–35 évesek) és az idősek (65–90 évesek, más kutatásban 55–92 évesek) beszédprodukciójának az összevetése során egyes

A vándorlás sebességét befolyásoló legalapvetőbb fizikai összefüggések ismerete rendkívül fontos annak megértéséhez, hogy az egyes konkrét elektroforézis

Az ELFT és a Rubik Nemzetközi Alapítvány 1993-ban – a Magyar Tudományos Akadémia támogatásával – létrehozta a Budapest Science Centre Alapítványt (BSC, most már azzal

A második felvételen mindkét adatközlői csoportban átlagosan 2 egymást követő magánhangzó glottalizált (az ábrákon jól látszik, hogy mind a diszfóniások, mind a

Feltevésem szerint ezt a kiadást ugyanaz a fordító, azaz Bartos zoltán jegyzi, mint az előzőt, s vagy azért nem tüntették fel a nevét, mert az ötvenes évek klímájában

(Véleményem szerint egy hosszú testű, kosfejű lovat nem ábrázolnak rövid testűnek és homorú orrúnak pusztán egy uralkodói stílusváltás miatt, vagyis valóban

Az akciókutatás korai időszakában megindult társadalmi tanuláshoz képest a szervezeti tanulás lényege, hogy a szervezet tagjainak olyan társas tanulása zajlik, ami nem