STATISZTIKAI IRODALMI FiGYELÖ
BAiLAR, B. A.:
NEM VÁLASZOLÁS
(Nonresponse: what it is and what we do about it.) —- Statistical Journal of the United Nations Eco- nomic Commission for Europe. 1984. 2, sz. 382—392. p.
A statisztikai felvételek során szembe kell nézni azzal a problémával, hogy nem tud- juk az előre kijelölt sokaság minden egyes elemétől (családok vagy személyek) a ki- vánt információkat különböző okok miatt megszerezni. Mielőtt a begyűjtött adatokat elemeznék, a felhasználóknak tudniuk kell a legfontosabb tényeket a hiányzó adatok- ról, nevezetesen: mekkora a meghíúsulások száma, annak megoszlása egyenletes—e, vagy bizonyos csoportokra koncentrálódik. korre- láltak—e a hiányzó adatok más megkérde—
zett adatokkal, illetve lehet-e kompenzálnia hiányzó adatok miatt elveszett információ- kat? Végül, a tapasztalatok befolyásolják-e a jövőbeni adatgyűjtéseket, illetve van—e mód a jövőben a meghiúsulások számának csökkentésére?
A nem válaszolások, a felvételek bizo- nyos számú meghiúsulása eleve arra figyel- meztet, hogy számolni kell a kapott infor- mációk valamelyes torzulásával, kivéve azta nagyon valószínűtlen esetet, amikor a meg- hiúsulások megoszlása teljesen véletlensze- ru.
A meghiúsulások között meg kell külön- böztetni azt az esetet, amikor a teljes felvé- tel meghiúsul. s így semmit sem tudunk bi- zonyos személyekről. családokról. és azt, a- melyben csak az információk egy része hi—
ányzik valamilyen okból. Ahhoz, hogy az egész kérdéskört tisztázzuk s elkerüljük a félreértéseket, világosan el kell határolni a
különböző problémákat.
Más megközelítést igényel az az eset.
amelyben a meghiúsult felvételek a minta céljára kijelölt alapsokaság hiányosságának következményei. Amennyiben például a megfigyelési egységek háztartások, előfor- dulhat, hogy annak egy vagy több tagja vé—
letlenül vagy egyéb ok miatt kimarad a fel- vételből. Ebben az esetben a háztartágok közül egy sem hiányzik, de az alapsokasá- got alkotó személyek közül igen. Ezt a hely—
zetet (: felvétel elemzésekor a személyek te- kintetében nem válaszolásként kell kezelni, míg a háztartásokat illetően az a helyzet.
hogy nem sikerült a teljes (minta—)sokasá- got lefedni. A longitudinális vizsgálatoknak is megvannak a hasonló problémái.
Az amerikai Népszámlálási Hivatal (Bureau of the Census) által végrehajtott felvételek feldolgozása olyan editálási eljárásokat tar—
talmaz, amelyek gyakran feltárják a hibás, logikailag elfogadhatatlan válaszokat, ame- lyeket törölnek, majd helyükre az adott sze- mély sajátosságainak megfelelő átlagot he-
7 Statisztikai Szemle
817
Iyettesítik be. Ez lényegében ugyanúgy ke- zelhető. mint egy hiányzó adat pótlása.
ezért nevezik indukált (induced) nem vála- szolásnak.
Sokszor gondot okoz, hogy a minta nem minden személyére vonatkozik a felvétel.
Például, ha bizonyos betegségekben szen- vedő vagy megadott tevékenységeket folyta- tó személyeket kell csak megkérdezni, akkor nem tekinthetők üres kérdőíveknek azok, a- melyeket olyan személyekről nem töltöttek ki, akik nem rendelkeznek a vizsgálni kívánt tu- lajdonságokkal, ismérvekkel.
A hiányzó adatok (item és unit non-res- ponse) elemzése ritkán történik meg. A ta- nulmány szerzője szerint nagyon fontos, hogy a felhasználók, az elemzők részletes tájékoztatást kapjanak annak mértékéről, megoszlásáról, okairól, a végrehajtott kor- rekciók, illetve a hiányzó tételek számáról stb.
A nem válaszolás kezelésének lehetősége egyrészt attól függ, hogy keresztmetszeti vagy longitudinális vizsgálatról van-e szó, más- részt attól, hogy a nem válaszolókról mennyi
információval rendelkezünk.
A nem válaszolás problémájának kezelé- sére alapvetöen kétféle stratégia létezik: az összeírók képzettségének növelése és általá- ban a végrehajtás javítása, illetve statiszti- kai módszerek kidolgozása a hiányzó adatok pótlására.
Különböző tapasztalatok azt jelzik, hogya meghiúsulások mértéke erősen függ az ősz—
szeíróktól. rátermettségük a sikeres interjúk számában nyilvánult meg.
A statisztikai helyettesítés, pótlás sikere attól tügg, hogy mennyire relevánsak az alapul szolgáló feltételek. Amennyiben azok helytállók, akkor a korrekció a végeredményt javítja. (Valójában, ha semmilyen korrekció- ral pótlásra nem kerül sor, akkor a hiányzó adat lényegében az átlaggal válik azonos- sá. lgy tágabb értelemben nem kerülhető el, hogy a hiányzó adatokat ne ,,kezeljük" va- lahogyan. Nyilvánvaló, hogy a több ,,rossz"
közül a legkevésbé rosszat kell választani.) Az egyes hiányzó tételek pótlása legtöbb- ször az ún. ,,hot—deck" módszerrel történik, a tényleges ismérvek által azonosított hason—
ló egyedek válaszainak átlagát helyettesítve be a hiányzó adat helyére. (Ez az eljárás hasonló a statikus párosítás módszeréhez.)
A tanulmány a továbbiakban két konkrét korrelációs módszert ismertet.
Az elsőt az 1980-as népszámlálásból hi—
ányzó személyek adatainak pótlására hasz- nálták öt különböző kategóriába sorolva a
hiányzó adatokat. (így lényegében öt külön-
böző hot-deck eljárást alkalmaztak.) A má- sik eljárás egy jövedelemfelvétellel volt kap—
csolatos, ahol összesen 266 azonosítási cel—
lát képeztek, s azokon belül használták a
818 STATISZTIKAI IRODALMI FIGYELÖ
megfigyelt adatok átlagát. ami lényegében ismét a hot-deck módszert jelenti, csak az előző esetnél sokkal részletesebb körülhatá—
rolással.
A különböző módszerek eredményességét úgy lehet megítélni, ha abból indulunk ki, hogy milyen célra használják azokat. Mint arról már volt szó, ha nem csinálunk sem- mit. akkor végeredményben azzal a feltéte- lezéssel élünk, hogy a hiányzó adatok az át- laggal azonosak. igy. ha arra nincs is lehe- tőség. hogy egy konkrét helyettesítést ellen- őrizzünk. hiszen éppen az a baj, hogy a hi- ányzó adat nem hozzáférhető. de azt meg lehet csinálni, hogy ismert adatokat elhagy- va szimuláljuk a helyettesítési eljárást, és az eredményt különböző szinten összevetve az ismert adatokkal képet alkotunk a módszer hatékonyságáról. A tanulmány befejezésül több ilyen kísérletet említ meg.
(ism.: Marton Ádám)
DURBIN. J.:
TÓBBLÉPCSÖS FELVÉTELI TERVEK MINTAVÉTELI HIBAJANAK BECSLÉSE
(Design of multi-stage surveys for the estimation of sampling errors.) — Applied Statistics. 1967. 2. sz.
152—164. a.
A szerző közel húsz esztendeje foglalkozik a többlépcsős mintavételi tervek hatékony- ságának problémájával. 1965-ben a kieli egyetemen rendezett általános statisztika- alkalmazási konferencián bírálta a meglevő többlépcsős felvételi tervek hatékonyságát.
és elemezte a mintavételi eljárások hibái- nak becslési módszereit. Azt bizonyította, hogy az ismert és elméletileg megalapozott mintavételi módszerek gyakorlati alkalmazá- sa bonyolult és nem kellően hatékony. Azok a módszerek viszont, amelyek a gyakorlati alkalmazás szempontjából megfelelők, rend- szerint elméletileg nincsenek megalapozva.
Véleménye szerint olyan eljárásokat kell al- kalmazni, amelyek elméletileg is helytállók, és a gyakorlatban is könnyen bevezethetők.
Ilyen azonban kevés van, ezért megkísérelt egyet kidolgozni.
A konferencia szervező bizottsága nagyra értékelte a szerzőnek azt a törekvését, hogy az elméletet a gyakorlattal összhangba hoz—
za. és az előadásért az ún. ,,Gua" bronz- éremmel tüntették ki. Ezt követően jelent meg az itt ismertetett tanulmány, amelyet a londoni Gazdasági és Társadalmi Tudomá- nyok Főiskoláján, valamint a Hopkins Egye- temen dolgozott ki.
A tanulmányban először egy elméletileg jól megalapozott mintavételi tervet ismertet.
A mintavétel két fázisban történik. Először viszonylag nagy mintából egy X segédválto-
zót választ ki, amelyből X eloszlását és alapsokasógbeli átlagát becsüli. Ez a minta alapozza meg a második fázisban történő rétegezést, amely az elsőnél viszonylag ki- sebb számú minta. A második mintánál megengedi. hogy az elsőnek almintája le- gyen, de lehet attól független is. Megvizsy gálja, hogy az X segédváltozó és az Y. ——
az eredetileg vizsgálni kivánt — változó kö—
zött milyen a kapcsolat, mert a módszer csak szoros összefüggés esetében ad jó e-
redményt.
Figyelembe veszi azt a körülményt, hogy a mintavételből nyert eredményeket nemcsak a véletlen kiválasztásból eredő hibák terhe- lik, hanem hibákat, torzításokat más forró- sok is okozhatnak. A különböző mintavételi és becslési eljárásokra megadott szórásfor- mulák csak a mintavételi hibákat tükrözik, vagyis, ha a mintavételt azonos módszerrel és ugyanolyan körülmények között többször megismételjük, azt mutatják, hogy a becslé- sekben mekkora eltéréseket kaphatnunk. A felhasználót azonban a kapott eredmények teljes hibája érdekli, mert végső soron ez mondja meg, mennyire megbízhatók a min- tából kapott adatok. Az összes hibaforrás és pontos hatásuk számbavétele természetesen nehéz, de bizonyos típusú mintavételi hibák figyelembevételére vannak módszerek. A szerző egy ilyen. P. C. Mahalanobistál szár- mazó módszert használ fel, mely abból az elvből indul ki. hogy a becslések szórásérté—
keinek változása az azonos körümények kö- zött megismételt mintavételi eredmények kü—
lönbözőségéből adódik. Mahalanobis szerint, ha egyetlen n elemű minta helyett ponta—
san ugyanolyan mintavételi módszerrel k da- rab független n/k elemű mintát, ún. véletlen részmintát veszünk, ezekből külön—külön be- csüljük az alapsokaság valamely mutatóiát.
majd ezeket egyesítjük és abból is megbe—
csüljük ugyanazt a mutatót, akkor a becslé—
sek eltérése alapján lehet a torzításra 'kö- vetkeztetni. Az eredmény annál pontosabb, minél több a véletlen részminták száma.
A kiválasztást először visszatevéses minta- vétel szerint végzi, majd megadja a vissza- tevés nélküli eljárást is, amely elméletileg az előzőnél sokkal bonyolultabb, A kiválasztást a nagysággal arányos valószínűség szerint végzi. Felhasználja Lahiri eljárását, amikor a kiválasztáshoz keres egy M-nél nem no- gyobb véletlen számot: r-et. Utána újból vá—
laszt egy véletlen számot: R-et, 1 és maxi-
mum N között (N az alapsokaság száma).
Ha R kisebb vagy egyenlő, mint N , akkor ez azt jelenti, hogy az r-edik részmintát be—
választotta a mintába. Ha ellenben R no- gyobb, mint N, akkor ebben a lépésben nem történt kiválasztás, tehát két újabb vé- letlen mintát választ. Az eljárást addig is- métli, amig ki nem választja a mintába ke-