A mintakoordináció szerepe a statisztikai adatgyűjtésekben

42  Letöltés (0)

Teljes szövegt

(1)

A mintakoordináció szerepe a statisztikai adatgyûjtésekben

Mihályffy László,

a Központi Statisztikai Hivatal ny. statisztikai főtanácsadója E-mail: Laszlo.Mihalyffy@ksh.hu

A dolgozat a mintakoordináció célját, elméleti alapjait és módszertanának legfontosabb elemeit is- merteti. Részletesen elemzi az alkalmazások fő terüle- tein, így a háztartás-statisztikában és a gazdaságstatisz- tikában használt eljárások sajátságait, magyarázatot keresve a specifikus metódusok közötti szembeszökő különbségek okaira. Egy rövid fejezetben bemutatja a mintakoordináció bevezetésének előkészületeit a Mon- tenegrói Statisztikai Hivatalban.

TÁRGYSZÓ:

Valószínűségi minta.

Kontrollált kiválasztás.

Pozitív és negatív koordináció.

(2)

A

tanulmánynak az a célja, hogy áttekintést adjon a mintakoordináció címszó alatt megjelent módszerekről, alkalmazásukról és az ehhez kapcsolódó tapasztalatok- ról. A reprezentatív megfigyelések, adatgyűjtések mintáinak koordinálására irányuló törekvés kezdetei a múlt század ötvenes éveibe nyúlnak vissza (Patterson [1950], Keyfitz [1951]), és a hangsúly a kezdetektől fogva az ilyen típusú adatgyűjtések adat- szolgáltatóira irányult. Még napjainkban is gyakran találkozunk azzal a szóhasználat- tal, hogy a mintakoordináció célja a válaszadói terhek csökkentése. Mivel egy adott mintavételes eljárás esetén az összes válaszadói terhet – bármilyen egységekben is mérjük azt – a mintanagyság, pontosabban a megvalósult minta nagysága teljes mér- tékben meghatározza, ezért helyesebb azt mondani, hogy a felvétel válaszadói terhét a felvételben részt vevő válaszadók között lehetőség szerint közel egyenletesen kí- vánjuk elosztani a mintakoordináció segítségével.

Mintegy két-három évtizeddel ezelőtt a fejlett statisztikai rendszerrel rendelkező országokban, például az Európai Unió tagállamaiban egyre nagyobb igény mutatko- zott a gazdaságstatisztikai adatok iránt, és ezért egyre több gazdaságstatisztikai adat- gyűjtésre lett szükség. A figyelem így újból a mintakoordináció felé fordult, annak érdekében, hogy a nemzeti statisztikai hivatalok a válaszadók részéről minél hatható- sabb együttműködésre számíthassanak. Azt lehetne mondani, hogy a gazdaságstatisz- tikusok újra felfedezték a mintakoordinációt. Egy, a közelmúltban megjelent hasznos és informatív Eurostat-kiadvány [2015], „A modern üzleti statisztika Memobust- kézikönyve” (The Memobust1 Handbook on the Methods of Modern Business Statistics), ugyanis a gazdaságstatisztikával kapcsolatos összes tudnivaló között teret szentel a mintakoordináció kérdésének is, és ebben azt olvassuk, hogy a mintakoor- dináció alkalmazása elsősorban a gazdaságstatisztikai adatgyűjtésekre jellemző, a háztartás-statisztikában csak ritkán fordul elő. A helyzet ezzel szemben az, hogy mindazok a nemzeti statisztikai hivatalok, amelyek munkaerő-felmérést és emellett még legalább egy háztartási költségvetési felvételt is végrehajtanak, régóta koordi- nált mintákkal dolgoznak, legfeljebb nem használták ezt a szakkifejezést.

A tanulmány felépítése a következő. Az első fejezetben a mintakoordinálás alapfo- galmait ismertetjük, (utalva itt a különböző szerzők által használt fogalmak közötti kisebb-nagyobb eltérésre is), valamint a mintakoordináció különböző típusait (pozitív és negatív koordináció, időbeni koordinálás, azonos időszakban végrehajtott felvételek mintái közötti koordinálás stb.). A következő fejezetekben a mintakoordináció módsze- reit, a másodikban az ún. általános metodikát, a harmadikban a háztartás-statisztika mintakoordinálási eszközeit, a negyedikben a gazdaságstatisztikai minták koordinálá-

1 Memobust (methodology for modern business statistics): a modern üzleti statisztika módszertana.

(3)

sára alkalmas eljárásokat mutatjuk be. Itt jegyezzük meg, hogy – bár minden esetben az adott mintavételi tervből indulunk ki – a mintakoordináció során megváltozik az egyes minták valószínűsége, következésképpen a mintakoordináció mindig kontrollált kiválasztást jelent. A dolgozat ötödik fejezetében a mintakoordináció alkalmazásáról, és az ezzel kapcsolatos tapasztalatokról lesz szó. Erre vonatkozóan meglehetősen kevés információt sikerült szerezni, van viszont egy viszonylag egyszerű eljárás, amelynek segítségével egy adott koordinálási módszer eredményessége tesztelhető. Ha a feladat bizonyos számú, megfelelően specifikált minta kiválasztása, akkor szimulációs számí- tás keretében ki kell választani ezeket egymástól függetlenül és koordinálással is. Más szóval, koordinálás nélkül és koordinálással. Ezt követően össze kell hasonlítani a kétféle eredményt aszerint, hogy azok mennyire felelnek meg a válaszadói terhek vá- laszadók közötti közel egyenletes elosztása elvének. A hatodik fejezet egy rövid eset- tanulmány a mintakoordináció bevezetésének előkészítéséről a MONSTAT-ban2. Ez- zel kapcsolatban egyebek között egy újszerű megoldásra is szükség van, két mintako- ordinálási eljárás kombinálásával, ennek ismertetése a Függelékben található.

1. Terminológia és alapfogalmak

A tanulmányban véges U U U, , , 1 2  s í. t. sokaságokkal, valamint azokból kivá- lasztott s s s, , , 1 2  s í. t. valószínűségi mintákkal foglalkozunk. A mintákat termé- szetesen mintavételi keretekből választjuk ki, azonban a sokaság és a mintavételi keret közötti különbséget mindaddig figyelmen kívül hagyjuk, amíg ez nem okoz zavart.

1.1. A minták közötti átfedés

Tekintsük az U1 és az U2 sokaságokat, az U1U2 esetet is megengedhetőnek tartva. Tegyük fel, hogy az s1 és az s2 mintát U1-ből, illetve U2-ből választottuk ki.

1. definíció. s1 és s2 átfedésén a két minta s1s2 közös része elemeinek n12 számát értjük.

A definíció szerint U1-nek és U2-nek azonos típusú elemekből kell állnia. En- nek a feltételnek a szigorúságát azonban enyhíteni lehet, ha például U1 háztartások-

2 MONSTAT (Statistical Office of Montenegro): Montenegrói Statisztikai Hivatal.

(4)

ból, U2 pedig személyekből áll, akkor egy U1-hez tartozó háztartást és ennek U2- höz tartozó tagjait a két sokaság közös részének tekinthetjük.

Az átfedés fogalma természetes módon kiterjeszthető kettőnél több minta esetére.

1.2. Negatív és pozitív koordináció

Az átfedés a mintakoordináció kulcsfontosságú fogalma. Ha a definícióban sze- replő két mintát egymástól függetlenül választottuk volna ki, az átfedés nagysága tág határok között ingadozhatott volna. A mintakoordináció feladata éppen ennek az ingadozásnak a kiküszöbölése; ha az a cél, hogy az átfedés legyen olyan kismértékű, amilyen csak lehet, akkor negatív koordinációról, ellenkező esetben pedig pozitív koordinációról beszélünk. A negatív koordinációt a gyakorlatban sokszor a válasz- adói terhek csökkentésére alkalmas eszköznek tekintik,3 mint említettük, ehelyett inkább a szóban forgó terheknek közel egyenletes elosztását érdemes megcéloznunk a válaszadók között. A pozitív koordináció nem eredményezi a válaszadói terhek közel egyenletes elosztását, viszont koherens becsléseket eredményez, kiváltképpen akkor, ha valamilyen változásnak a becsléséről van szó valamilyen folyamatos felvé- tel két, időben egymás utáni hullámában.4 Jóllehet a hangsúly gyakran a pozitív vagy pedig a negatív koordináción van, előfordulnak olyan esetek, amikor az átfedésnek olyan értéke lehet célravezető, amely a két szélsőérték közé esik.

1.3. Felvételek koordinálása és időbeni koordinálás

A mintakoordinációt az átfedés nagysága szerinti osztályokba sorolás mellett osz- tályozhatjuk a tekintett felvételek referencia-ideje szerint is. A következő két esetet különböztethetjük meg.

a) Tekintsünk m felvételt, amelyeket azonos időben hajtanak vég- re, m 2. Vezessük be a következő jelöléseket:

– minták: s s ... s1, , , 2 m;

– minták elemszáma: n n ... n1, , , 2 m;

3 Válaszadói terhen annak az időnek és/vagy energiának a mértékét értjük, amelyre a válaszadónak szüksé- ge van a kérdőív kitöltéséhez.

4 Hullámon egy folytonos felvétel végrehajtását értjük egy adott naptári időszakban.

(5)

– sokaságok: U U ... U1, , , 2 m;

– a sokaságok elemszáma: N N ... N1, , , 2 m.

A sokaságok között kettő vagy több is lehet azonos, nem zárható ki az U U12... ... Um esete sem. Feltesszük, hogy teljesül az átfe- dés létezésének valamilyen egyszerű feltétele, például, hogy a sokasá- gok valamennyien azonos típusú elemekből állnak.

b) Folytonos felvétellel van dolgunk, és egyelőre csak egy ilyen felvételt tekintünk. A jelölések hasonlók az a) esetben alkalmazott je- lölésekhez, de a minták, sokaságok és elemszámok alsó indexben sze- replő sorszáma helyett a hullámok t sorszáma felső indexben szerepel mindenütt, és a felvételek m száma helyett a T jelölést használjuk.

Például a sokaságokat így jelöljük: U U1, , , 2UT; ezek ugyanannak a sokaságnak a különböző állapotai az időben bekövetkező változá- soknak megfelelően. A változásokat születések, elhalálozások és bizo- nyos esetekben fúziók és szétválások okozzák.

Az a) és b) típusú mintakoordinációra a „felvételek koordinálása”, illetve az

„időbeni koordináció” kifejezésekkel hivatkozunk. Jegyezzük meg, hogy az utóbbi mindig egyszerű feladat, megoldására egyszerű módszereket használhatunk; míg ez felvételek koordinálása esetén csak abban az esetben igaz, ha a szóban forgó minták azonos típusú elemekből állnak.

A következő definíciókat a Memobust-kiadványból vesszük (Eurostat [2015]).

Negatív mintakoordináció a felvételek között azt jelenti, hogy két negatívan koordinált felvétel mintájában olyan kevés közös elem van, amilyen csak lehetséges. Pozitív mintakoordináció a felvételek között azt jelenti, hogy két pozitívan koordinált felvétel mintájában olyan sok közös elem van, amilyen csak lehetséges.

A mintakoordináció fogalmát érdemes ennél tágabb értelemben használni, nem cél- szerű arra az esetre szorítkozni, amikor a mintákat ugyanabban az időszakban választ- ják ki, és amikor mindössze két mintával van dolgunk, nem célra vezető továbbá a mintaelemek szempontjából valamilyen speciális kategóriára, például gazdasági egy- ségekre szorítkozni. Ezért a következő általánosabb definíciót tekintjük mérvadónak.

2. definíció. Két vagy több minta pozitívan koordinált, ha az átfe- désük (vagyis a közös részükben található elemek száma) olyan nagy, amilyen csak lehetséges. Két vagy több minta negatívan koordinált, ha az átfedésük olyan kismértékű, amilyen csak lehetséges.

(6)

Ezt a definíciót ki kell egészíteni a következőképpen: felvételek koordinálása azt je- lenti, hogy ugyanabban az időszakban végrehajtott felvételek mintáit koordináljuk, az időbeni koordinálás pedig azt jelenti, hogy egy folytonos felvétel időben egymás után következő mintáit koordináljuk. Az „olyan nagy, amilyen csak lehet” és az „olyan kismértékű, amilyen csak lehet” kifejezések azt jelentik, hogy a minták és a sokaságok elemszáma úgy korlátozhatja az átfedés minimumát és maximumát, hogy a minimum nagyobb mint nulla, és a maximum kisebb, mint a koordinálásban figyelembe vett minták elemszámának a minimuma. A gyakorlatban a mintakoordinálás céljára rendel- kezésre álló szoftver nemritkán az elméleti minimum vagy maximum helyett annak csak valamilyen közelítését állítja elő. Ez a körülmény is arra mutat, hogy pozitív vagy negatív koordinálás esetében nem érdemes minden áron az elméleti szélsőérték eléré- sére törekedni. Mint arra már az 1.2. alfejezetben is utaltunk, vannak olyan esetek is, amikor két minta között olyan átfedést célszerű elérni, amely határozottan a lehetséges minimum és maximum között van. Ez az eset leginkább időbeni koordinálással kap- csolatban fordul elő; a következőkben majd látunk erre példákat.

1.4. Felvételek koordinálása és időbeni koordinálás a gyakorlatban

Az 1.2. alfejezetben mondottak szerint pozitív (vagy ahhoz közeli) koordinálás ket- tő vagy több minta között a becslések koherens voltát erősíti, a negatív (vagy ahhoz közeli) koordinálás ezzel szemben a válaszadói terhek méltányos, azaz közel egyenle- tes elosztását teszi lehetővé a válaszadók között. Természetesen csak azokról az adat- szolgáltatókról van itt szó, akik a koordinált mintákban, illetve felvételekben részt vettek. Feltéve, hogy a tekintett minták mind ugyanabból a mintavételi keretből szár- maznak, nyilvánvaló, hogy azonos időszakban végrehajtott felvételek mintáit negatí- van, folyamatos felvételek időben változó mintáit pedig pozitívan érdemes koordinálni.

Fölvethető a kérdés, hogy mi a teendő akkor, ha egy mintavételi keretből több folya- matos mintát is kiválasztunk. Erre a kérdésre a háztartás-statisztika területén már régen megadták a választ. Gyakorlatilag mindenhol van munkaerő-felmérés, háztartási költ- ségvetési felvétel és SILC5. Ezek mind folytonosak, a minták mind közös mintavételi keretből származnak, az egyes felvételek időben egymást követő mintái között jelentős és időben állandó mértékű átfedés, tehát kvázi pozitív koordináció áll fenn. Ugyanak- kor minden egyes időszakban – ami többnyire negyedév vagy félév – a felvételek min- tái között gyakorlatilag nincs átfedés, negatív koordináció érvényes. A mintakoordiná- ciónak ezt a fajtáját kétirányú koordinációnak nevezhetjük.

A gazdaságstatisztikai felvételek körében elvétve találkozunk ilyen kétirányú ko- ordinálással. Ezeket a felvételeket feltehetően a legtöbb nemzeti statisztikai hivatal-

5 SILC (Survey on Incomes and Living Conditions): jövedelem és életkörülmények felvétel.

(7)

ban úgy szervezik, hogy az egyes felvételek mintáiban nagyon kevés közös elem legyen, és ennélfogva nincs szükség kétirányú koordinálásra. Ebben a vonatkozásban kivételt képez a MONSTAT, amely három gazdaságstatisztikai felvételt hajt végre, és nem elhanyagolható azoknak a vállalkozásoknak, egységeknek a száma, amelyek egynél több felvételben is szerepelhetnek. Erre a kérdésre a 6. fejezetben térünk visz- sza, amely a mintakoordinálás módszereinek a bevezetését, pontosabban ennek elő- készítését mutatja be a MONSTAT-ban.

2. A mintakoordináció általános módszerei

Amint a bevezetőben is említettük, a mintakoordináció módszereit a következő három csoportba soroljuk: általános módszerek, háztartás-statisztikai, továbbá gazda- ságstatisztikai alkalmazások. A háztartás-statisztikai és a gazdaságstatisztikai felvéte- lek, illetve minták esetében a koordinálás feladatspecifikus módszerei jöttek létre, a háztartás-statisztikában bevált koordinálási eljárás általában nem alkalmazható gaz- daságstatisztikai felvételek esetében és viszont. A továbbiakban a mintakoordináció- nak azokat a módszereit nevezzük általánosnak, amelyek nem tartoznak sem a ház- tartás-statisztika, sem pedig a gazdaságstatisztika speciális szempontjainak megfele- lően kidogozott eljárások közé.

Ebben a fejezetben az általános mintakoordinálási eljárás közül kettőt ismerte- tünk, ezeket a többi általános módszerhez hasonlóan két minta koordinálására dol- gozták ki. Bár ilyen technikákat napjainkban ritkán alkalmaznak, szükség van rájuk, ha átfogó képet akarunk nyerni a mintakoordináció módszertanáról.

2.1. Kish és Scott módszere két minta pozitív vagy negatív koordinálására

Kish és Scott [1971] módszere a következő feladat megoldására alkalmazható.

Legyen adva két sokaság, U1 és U2, és tegyük fel, hogy a közös részük, U1U2 nem üres. Válasszunk visszatevés nélküli egyszerű véletlen mintavétellel egymástól függetlenül az U1 sokaságból egy s1, az U2 sokaságból pedig egy s2 rétegzett mintát, s1s11  s12 ... s1H, s2s12  s22 ... sG2, ahol s1h és s2g az s1 és az s2 minták h-adik, illetve g-edik rétegének részmintája.6 Két részfeladatunk van: koordi-

6 A módszer egyaránt alkalmazható felvételek közötti és időbeni koordinálásra; jelölési konvenciónk sze- rint itt az utóbbihoz tartozó jelöléseket használjuk.

(8)

náljuk a két mintát mind pozitív, mind pedig negatív értelemben is. Vezessük be a következő jelöléseket.

U1hUg2 az U1 és az U2 h-adik, illetve g-edik rétegének közös része, – s1hg az s1 mintának a U1hUg2 közös részhez tartozó része,

shg2 az s2 mintának a Uh1Ug2 közös részhez tartozó része, – s12hgs1hgshg2 ,

s1hg, shg2 és s12hg elemszáma rendren1hg , nhg2 , illetve n12hg.

1. ábra. A koordinálásban szereplő részminták

Tekintsük először a pozitív koordinálás esetét. Ha n1hgnhg2 , akkor hagyjunk el az shg2 részmintának a közös részt (az s12hg részmintát) nem tartalmazó elemei közül

1 12

hg hg

n – n számút egyszerű véletlen kiválasztással, és pótoljuk ezeket az s1hg s12hg részmintából egyszerű véletlen eljárással kiválasztott n – n2hg 12hg számú elemmel.

Viszont, ha n1hgnhg2 , ebben az esetben hagyjuk el shg2 s12hg összes elemét, és pótol- juk ezeket az s1hg s12hg részmintából egyszerű véletlen eljárással kiválasztott

2 12

hg hg

n – n számú elemmel. Ezeket a műveleteket az összes U1hUg2 keresztosztályra, illetve az ezekhez tartozó mintákra el kell végezni; vonatkozik ez a negatív koordi- náció esetére is, amire most áttérünk.

2hg

s s12hg

12 1 2

hg hg hg

s s s

1hg

s s12hg

1 2

h g

U U

s1hgs2hg

(9)

Az s1hg és az s2hg minták közös részének n12hg eleme van, a cél ennek minél na- gyobb mértékű csökkentése. Ha az U1hUg2 keresztosztályban, nem számítva az s1hg és az shg2 mintákba kiválasztott elemeket, több elem található mint n12hg , akkor az

2hg

s mintából az s12hg közös részhez tartozó elemeket kihagyjuk, és azokat az

 

1 2 1 2

h g hg hg

UU ss elemeiből egyszerű véletlen eljárással kiválasztott n12hg számú elemmel pótoljuk. Viszont, ha az U1hUg2

s1hgshg2

részsokaságnak n12hg-nél kevesebb eleme van, akkor az s12hg közös részből hagyunk el véletlenszerűen megfe- lelő számú elemet, és azokat pótoljuk U1hUg2

s1hgshg2

elemeivel.

Megjegyzés

1. Kish és Scott módszere egyszerű és elegáns, előnye az, hogy használható mind pozitív, mind pedig negatív koordinálás céljára.

Szimulációs kísérletek tanulsága szerint az átfedés elméleti minimuma vagy maximuma helyett bizonyos esetekben azok meglehetősen gyen- ge közelítését eredményezi.

2. A bemutatott algoritmusban s1 és s2 szerepe nem szimmetrikus, az utóbbit igazítjuk az előzőhöz a koordináltság javítása érdekében.

Természetesen a két minta szerepe felcserélhető.

2.2. Mintakoordináció két minta egyidejű kiválasztása esetén – Ernst és Paben módszere

Tekintsük a következő feladatot. Adott T sokaságból7 egyidejűleg két mintát kell kiválasztanunk a következő feltételek mellett

– a mintákat a D1, illetve a D2 mintavételi terveknek megfelelően kell kiválasztani;

– rétegzett mintákról van szó, a rétegek száma D1 és D2 esetén M, illetve N, az egyes rétegekben nagysággal arányos valószínűség szerin-

7 A T szimbólum ebben az alfejezetben kivételesen nem időszakot jelöl, hanem a sokaság elemeinek a szá- mára (Total) utal.

(10)

ti kiválasztást alkalmazunk visszatevés nélkül, az ni1 és az nj2 minta- nagyságok rögzítettek, i1, 2, , , M j1, 2, ,  N;

– az egyidejű kiválasztás mellett D1 és D2 szabályai érvényesülje- nek;

– a minták közötti átfedés legyen maximális (vagy minimális).

A bemutatott módszer Ernst és Paben [2002] nevéhez fűződik, a továbbiakban az EP- módszer kifejezéssel hivatkozunk rá. Felhívjuk a figyelmet arra, hogy bonyolult eljárás- ról van szó, és valószínű, hogy a kitűzött feladat megoldására nem lehet egyszerűbbet találni, mint az EP-módszer. Az is valószínű, hogy ennek itt következő leírása egysze- rűbb, mint a szerzők gondolatmenete a Jorunal of Official Statistics című folyóiratban publikált dolgozatban. Az EP-módszer elméleti szempontból fontos, jelentős eredmény, a gyakorlati megoldások iránt érdeklődő Olvasó azonban ezt az alfejezetet átugorhatja. A pozitív koordinálás esetére szorítkozunk, a módszernek a negatív koordinálásra alkalmas változata ettől csak kismértékben tér el. Az eljárás ismertetéséhez a következő segédesz- közökre lesz szükségünk.

Legyen adott egy nem negatív valós aij elemekből álló, M N méretű A mátrix.

Tekintsünk továbbá egy ugyancsak M N -es M

 

mij mátrixot, amely az A mátrixszal a következő kapcsolatban áll:

, ha egész,

[ ] vagy [ ] 1 egyébként,

ij ij

ij ij ij

a a

m a a



 

ahol [x] az x valós szám egész része. Az M mátrixot az A mátrix kontrollált kerekíté- sének nevezzük. Például az

1

0 1 0 1 1 0 0 1 1 0 0 1 0 1 0 1 2 2 0 4

M  mátrix az 1

0 6 0 4 0 0 1 0 0 4 0 6 0 0 1 0 0 2 0 6 0 2 1 0 0 8 0 4 0 0 1 2 2 0 2 0 0 2 4 2

, , , ,

, , , ,

, , , ,

, , , ,

, , , ,

A  mátrixnak

egy lehetséges kontrollált kerekítése. Mind az A1

 

aij,1 , mind pedig az M1 mátrix utolsó sora és oszlopa sor-, illetve oszlopösszegekből áll, ezért ezeket kontingenciatábláknak is tekinthetjük.

(11)

Az EP-módszer véges számú ilyen típusú A mátrixot állít elő, ezeknek belső ele- mei várható értékek, amelyek a D1 és D2 mintavételi tervekben előírt mintasúlyok- tól függnek. Az eljárás során a mintasúlyok változnak, a végeredményként kapott mintákhoz azonban az eredeti mintasúlyok tartoznak. Jelöljük ezeket a mátrixokat

1-gyel, -vel, ..., -lel2 L

A A A . Mindegyik mátrixhoz tartozik egy kontrollált kerekítés, jelben: M M1, 2, ..., ML, és fennáll az MLAL egyenlőség. AL elemei tehát nem negatív egész számok, ebből az adott esetben az következik, hogy a sokaság bármely eleméhez vagy az 1, vagy pedig a 0 valószínűséget sikerült hozzárendelni. A minták- hoz azokat az elemeket soroljuk, amelyekhez az eljárás egységnyi valószínűséget rendelt.

Az EP-módszer leírása három részből áll. Először az A mátrix előállításának a módját, ezután pedig a minták kiválasztásának az eljárását mutatjuk be. A minták kiválasztása az A-hoz tartozó M mátrixon alapul. Ezt követi annak az iteratív eljá- rásnak a leírása, amelynek t-edik lépésében

t 2, 3, ,  L

az előző lépés mintái- nak alapján meghatározzuk az At mátrixot, valamint ennek Mt kerekítését. Mt segítségével előállítjuk a t-edik lépés mintáit és azoknak a valószínűségeknek az új értékét, amelyekre az At1mátrix épül. Az EP-módszer ismertetése a megállási krité- rium megadásával fejeződik be.

2.2.1. Az A mátrix előállítása

Vezessük be a következő jelöléseket. Legyen D*ij a D1 mintavételi terv i-edik és a D2 mintavételi terv j-edik rétegéből képzett keresztosztály, valamint legyen cij a

ij*

D elemeinek a száma. Itt és a következőkben, hacsak mást nem mondunk, feltesz- szük, hogy az i és a j indexekre vonatkozóan 1 i M, 1 j N. A sokaság tet- szőleges elemét az ( , , )i j k számhármassal jelöljük, ahol 1 k cij; a T sokaság elemszáma T

 

Mi1 Nj1cij. A sokaság tetszőleges ( , , )i j k eleméhez a D1 és a D2 mintavételi tervek szerint két mintasúly tartozik, ezek jele πijk1, illetve πijk2.

1, 2, , ij

k  c esetén a mintasúlyok a

1 1

1 1 cij N

ijk i

j k π n

 

 

2 2

1 1 cij M

ijk j

i k π n

   /1a-1b/

feltételeknek tesznek eleget.

(12)

Legyen s1 és s2 a D1, illetve a D2 alapján kiválasztott két minta, az

1 11 21 M1

nnn  ... n és az n2n12n22 ... nN2 mintanagyságok az előzőek alapján rögzítettek. Definiáljuk a következő részmintákat:

s1 

 

i j k, ,

s i j k1 , ,

 

s2

, /2/

s2 

 

i j k, ,

s i j k2 , ,

 

s1

, – s3 

 

i j k, ,

 s1 s2

,

s4 

 

i j k, ,

s i j k1 , ,

 

s2

.

Az s1, s2 és az s3 részmintákhoz a következő bekerülési valószínűségeket ren- deljük:

 

β

ijkβ

P i, j, ks  π , β1, 2, 3, ahol

 

3 min 1 2

ijk ijk ijk

π  π , π ,

3

1 ijk1 ijk

ijk  

    ,

2 2 3

ijk ijk ijk

π  ππ ,

πijk4 1

3α1πijkα . /3/

A πijk1, πijk2, πijk3 és a πijk4 valószínűségek alapján bármely D*ij keresztosztály elemei négy kategóriába sorolhatók. Mivel célszerű elkerülni azt a lehetőséget, hogy a sokaság valamely

i j k, ,

elemét kétféleképpen is – például a πijk2 és a πijk3 való- színűség alapján – kiválasszuk, a sokaság elemeire nézve a következő kategóriákat is bevezetjük.

 

 

1C , , : ijk2 ijk1 1

Ti j k ππ  , T1S

 

i j k, , :

πijk2πijk11

,

 

 

2C , , : ijk1 ijk2 1

Ti j k ππ  , T2S

 

i j k, , :

πijk1πijk21

,

T3

 

i j k, , :

πijk1πijk2

. /4/

(13)

Minden egyes kategóriának használni fogjuk a D*ij keresztosztályokhoz tartozó részét is a következő jelöléssel: Tij C1 , Tij S1 , Tij C2 stb.

Feladatunk A mátrixa

3M N  2

 

 3N M  2

méretű hipermátrix, struk- túrája a következő:

3 2 2 2 1

1

1 2

1 1

1

0 0 0

0 0

0 0

C S D

C c

S E s

D E d

c s d



A A A A a

A a

A A a

Α

A A a

a a a a a

. /5/

Az egyes blokkok mérete a következő:

A3:

M 1

 

N1

; A2D:

M 1

M;

A1C: M

N1

; A2E: M M ; a1: 1

N1

; A1S: M

N1

; a1:

M 1 1

; ac: 1 N; A1D: N

N1

; ac: M1; as : 1 N; A1E: N N ; as: M1; ad : 1 M; A2C:

M 1

N; ad :N1; a : 1 1 . A2S:

M 1

N;

Az A3, A2C, A2S, A1C, és az A1S mátrix struktúrája a következő:

11 12 1 1, 1

21 22 2 2, 1

1 2 , 1

1, 2 1, 2 1, 1, 1

N N

N N

M M MN M N

M M M N M N

a a a a

a a a a

a a a a

a a a a

.

Az

M1

-edik sor és az

N1

-edik oszlop elemei sor-, illetve oszlopössze- gek. Ahol a blokk mérete M

N1

vagy

M 1

N, ott az oszlopösszegek sora, illetve a sorösszegek oszlopa hiányzik. aMN 0 minden esetben.

(14)

A blokkok elemeinek az értékét /3/ és /4/ felhasználásával az 1. táblázatban látha- tó összefüggések határozzák meg, i és j továbbra is a D1 szerinti i-edik, illetve a D2 szerinti j-edik rétegre utal. 1 i M, 1 j N, kivétel ez alól a táblázatnak az

E

A2 -hez és azA1E-hez tartozó soraiban „a mátrix általános elemének értéke” című oszlopban megadott szabály.

1. táblázat Az A hipermátrix elemeinek a definíciója

A mátrix jele

A mátrix általános elemének

Megjegyzés indexe

értéke a blokk-

ban az A mátrixban

A3 aij aij

3 3 ij k T πijk

Sor- és oszlopösszeg üres.

A2C aij ai N j, 1 

2 2 ij C ijk

k T π

Sorösszeg: Mi1ai N j, 1 

A2S aij ai N j, 2  1

2 2 ij S k T πijk

Sorösszeg: Mi1ai N j, 2  1. A1C aij aM i 1, j

1 1 ij C k T πijk

Oszlopösszeg: Nj1aM i 1, j. A1S aij a2M i 1, j

1 1 ij S k T πijk

Oszlopösszeg: Nj1a2M i 1, j.

A2D aii ai, 3 N i 1 a – ai1 i1 1, 2, ,

i M

M×M méretű diagonális mátrix, plusz egy üres sor.

A2E aii a2M i 1 , 3  N i 1 a – ai1 i1

2 2 …, 3 1

i M , M M×M méretű diagonális mátrix.

A1D ajj a3M j 1 , j a – aj2 j2 1, 2, ,

j N

N×N méretű diagonális mátrix, plusz egy üres oszlop.

A1E ajj a3M j 1 , 2  N j 1 a – aj2 j2 2 2, …, 3 1

j N N N×Nméretű diagonális mátrix.

Megjegyzés. ai 13jN11aij, ai1 az ai1 egész része; a j23iM11aij, aj2 az aj2 egész része.

Az a1 , ac , as, ad és ae komponensei sorösszegek, az a1, ac, as , ad és ae komponensei oszlopösszegek. Az a1első M komponense n n ... n11, , , 21 M1, az

1

a első N komponense n n12, , ..., 22 nN2. Ezek az eljárás során nem változhatnak.

(15)

2.2.2. Egy minta kiválasztása az A mátrix ismeretében

Adott A mátrix esetén meghatározunk egy ennek megfelelő M kontrollált kerekí- tést. Emlékeztetünk arra, hogy az M mátrixnak is rendelkeznie kell a kontingenciatábla tulajdonságával; nem magától értetődő, de elméletileg igazolt, hogy az adott körülmé- nyek között létezik a kívánt tulajdonságú M mátrix, általában egynél több is. Az M hipermátrix struktúrája azonos az A mátrix struktúrájával, és így az előzőkben mondot- tak szerint m1 első M –1 komponense n n ... n11, , , 21 M1, m1első N –1 komponen- se n n12, , ..., 22 nN2. A mintavételt az EP-módszerrel kapcsolatban úgy értelmezzük, hogy a T sokaság bármely (i, j,k) elemét a /2/ alatt definiált s1, s2, s3és az s4 halmazok közül pontosan egyhez rendeljük.

Tekintsünk egy D*ij keresztosztályt, ezt a T T3, , , 2C T T2S 1C és T1S kategóriák öt, páronként diszjunkt részre osztják. D*ij-nek ezekből a részeiből az M mátrix

3, 2C, 2S, 1C

M M M M és M1S blokkjainak (i, j) helyzetű elemei szerint rendre mij, mi N j, 1  , mi N j, 2  1, mM i 1, j és m2M i 1, j

számú

i j k, ,

elemet kell kiválasztani8; ezek valamennyien a két minta közös részé- hez, vagyis az s3 halmazhoz fognak tartozni. Mivel 1aij mijaij , a kivá- lasztás megvalósítható. Kétféle korlátozást kell figyelembe vennünk: az

i j k, ,

elemet nem szabad a mintákba választani, ha π ijkα 0, és π ijkα 1 esetén az elem csak akkor választható a közös részbe, ha α 3.

Ha a minták közös részét már kiválasztottuk (az összes D*ij-ra nézve), akkor a T1SDi1 részsokaságokból választunk

i j k, ,

elemeket az s1 részmintába az M1C és az M1S blokkok utolsó oszlopaiban található elemek alapján; itt arra kell ügyelni, hogy olyan elemet ne válasszunk, amelyet előzőleg már a minták közös részébe válasz- tottunk. Továbbá, ha T1C nem üres, itt beválasztjuk az s1 részmintába azokat az egy- ségeket, amelyekre π ijk1 1. Analóg utat követünk az s2 részmintával kapcsolatban, itt az M2C és az M2S blokkok utolsó sorainak elemein alapul a mintába választás.

2.2.3. Iteratív eljárás a két minta közötti átfedés maximalizálásra

A fejezet elején megfogalmazott feladatot iteratív eljárással oldjuk meg.

1, 2, 3, ...

t esetén a következő műveleteket kell végrehajtani.

8 Itt és a következőkben nagysággal arányos valószínűség szerinti kiválasztásról van szó.

(16)

1. lépés. Az /1a-1b/, /3/ és /4/ összefüggések, valamint a 2.2.1. szakasz alapján elő- állítjuk a

3M N  2

 

3N M 2

méretű At mátrixot (t = 1 esetén AtA).

2. lépés. A 2.2.2. szakaszban leírt eljárással meghatározzuk az At-hez tartozó mintát, amely az s1t, s2t, s1t , s2t , s3t és s4t halmazokkal jellemezhető a követke- zőképpen: s1t a D1, s2t pedig a D2 mintavételi terv szerinti minta, továbbá

s1 t

 

i j k, ,

s1t, , ,

i j k

s2t

; – s2 t

 

i j k, ,

s1t, , ,

i j k

s2t

; – s3 t s1ts2t;

s4 t

 

i j k, ,

s1t, , ,

i j k

s2t

.

3. lépés. β1, 2, 3, 4 mellett számítsuk ki az

i j k, ,

elemhez tartozó πijkβt va- lószínűségek új értékét a következőképpen (t1 esetén πijkβt  πijkβ ):

πijkβt  πijkβt , ha

i j k, ,

sβt, egyébként πijkβt  1 πijkβt ;

ptmin{πijkβ ( , , )i j kT}; /6/

p1p1, pt 

1

tτ11p pτ

t, ha t1;

– legyen a hijkβt indikátor 1, ha

i j k, ,

sβt, egyébként legyen hijkβt 0; – ha pt1, legyen , 1

1

ijkβt ijkβt t ijkβ t

t

π h p

π p

   

 , és következzen az 1. lépés; egyéb- ként az eljárás véget ér.

Bizonyítható, hogy ez az iteratív eljárás véges számú lépés után valóban befeje- ződik, ami azt jelenti, hogy valamilyen t L esetén pL1, és így a /6/ összefüggés szerint a T sokaság minden

i j k, ,

elemére πijkβL 1, tehát πijkβL  0 vagy pedig

ijkβL 1

π  teljesül. A πijkβL valószínűség ebben az esetben megegyezik az

i j k, ,

elemhez tartozó hijkβL indikátorral, ennélfogva az eljárás befejezésekor a πijkβL 1, β1, 2, 3

összefüggés azonosítja azokat az

i j k, ,

elemeket a sokaságban, amelyek felada- tunk megoldását jelentik. A D1 és a D2 mintavételi terveknek megfelelő mintákat a

(17)

1 1

ijk L

π  és a πijk L3 1, illetve a πijk L2 1 és a πijk L3 1 összefüggések jellemzik.

Bizonyítható, hogy a két minta közös része (πijk L3 1) maximális.

Fennáll továbbá a

Lt1hijktpt ijk

egyenlőség minden(i, j,k)T és β1, 2, 3, 4 esetén. Ez pedig azt jelenti, hogy a kiválasztott minták megfelelnek a D1 és a D2 mintavételi tervek előírásainak.

3. Mintakoordinálás a háztartás-statisztikai felvételekben

A továbbiakban áttérünk a háztartás-statisztikai felvételek mintáinak koordinálá- sára. A tekintett felvételek folyamatosak, a minták általában többlépcsősek, a réte- gekben gyakran alkalmaznak nagysággal arányos valószínűség szerinti kiválasztást.

A szabályos időközökben végrehajtott felvételek ennek ellenére általában egyszerű lehetőséget biztosítanak a minták koordinálására.

3.1. Néhány általános megjegyzés a háztartás-statisztikai felvételekkel kapcsolatban – Negatív koordinálás a felvételek között

Összehasonlítva a háztartás-statisztikai és a gazdaságstatisztikai felvételekben al- kalmazott mintakoordinálási módszereket, kétségtelenül szembeszökő különbségeket állapíthatunk meg, amelyek a kétféle adatgyűjtés sajátosságaiból adódnak. A háztar- tás-statisztikai felvételek esetében ezek a sajátosságok a következők:

– nagy elemszámú sokaságokkal és kis elemszámú mintákkal dol- gozunk,

– a sokaságoknak a változása két egymást követő időszak (negyed- év vagy év) között kismértékű vagy mérsékelt,

– a minták végső mintavételi egységei – személyek vagy háztartá- sok – között nincsenek nagyságrendi különbségek.

Ezek a körülmények lehetővé teszik a mintavételi keret alkalmasan kijelölt részé- nek a mintavétel szempontjából való letiltását rövidebb-hosszabb időre, anélkül, hogy a mintákból származó becslésekben ezáltal keletkező torzítások számottevők lennének. Ezzel máris a felvételek közötti negatív koordináció kérdéséhez jutottunk.

(18)

Tegyük fel, hogy kettő vagy több folytonos háztartás-statisztikai felvétellel van dolgunk, a felvételek rotációs mintán alapulnak (lásd a továbbiakban). A legegysze- rűbb módja a felvételek közötti negatív koordinálásnak az, hogy amint egy egység (személy vagy háztartás) belép valamelyik mintába, kap egy jelzést (szakkifejezéssel élve, egy flag-et), és ezáltal előre meghatározott időre a többi felvétel számára elér- hetetlen lesz. Sőt, ha kilép a mintából, ugyanoda is csak meghatározott idő után lehet újra beválasztani.

A felvételek közötti negatív koordinálásnak más módja is van. Fel lehet például osztani a mintavételi keretet kettő vagy több statisztikailag egyenértékű részre, és ekkor a felvételek mintáit ezekből a részkeretekből választhatjuk ki.

3.2. A minta rotációja háztartás-statisztikai felvételekben

Tekintsünk egy háztartás-statisztikai felvételt az 1, 2, …, T időhorizonton, és te- gyük fel, hogy a megadott mintavételi terv alapján tetszőleges n elemű mintát tu- dunk kiválasztani, hacsak n 2. Tegyük fel, hogy a felvétel negyedéves, és hogy az időhorizont hossza T 8, tehát legalább két év, valamint hogy n elemű

1, , , 2 T

s s ... s mintákat akarunk kiválasztani, n rögzített, amelyek megfelelnek a kö- vetkező követelményeknek. Válasszunk egy m 4 egész számot, amelyre

n n / m is egész, és amelyre az n elemű minta kiválasztása értelmes feladat.9 A 1, 2, ,

t  T mellett vezessük be az s s ... s1t, , , 2t tm jelölést, és az m hullámból10 álló rotációs minta előállítására definiáljuk a következő algoritmust:

1. lépés. Az adott mintavételi terv alapján válasszuk ki a páronként diszjunkt n n / m elemű s s ... s11, , , 12 1m részmintákat és az első teljes minta legyen

1 1 1 1

1 2 m

ss   s ... s .

2. lépés. A t 2, 3, ,  T esetén hajtsuk végre a következő műveleteket:

a) hagyjuk el az stm1 részmintát;

b) léptessük a mintákhoz tartozó hullám sorszámát a következő- képpen: s2ts1t1, s3ts2t1, ,  stmsmt1;

c) válasszuk ki az m elemű s1t részmintát a mintavételi terv szerint;

d) a t-edik időszak mintája legyen sts1t  s2t ... smt .

9 Egyelemű rétegzett minta előállításának a feladata nem értelmes.

10 A gazdaságstatisztikai felvételek többségében másfajta rotációt használnak.

Ábra

Updating...

Hivatkozások

Kapcsolódó témák :