• Nem Talált Eredményt

A mintavételi hiba kiszámításának néhány kérdése

N/A
N/A
Protected

Academic year: 2022

Ossza meg "A mintavételi hiba kiszámításának néhány kérdése"

Copied!
17
0
0

Teljes szövegt

(1)

A MINTAVÉTELI HIBA KISZÁMITÁSÁNAK NÉHÁNY KÉRDÉSE'

MARTON ADAM — MIHÁLYFFY LÁSZLÓ

A reprezentativ (nem teljes körű) statisztikai adatgyűjtések eredményeinek

megbízhatósága a szá-m'bavételi hiba mellett a mintavételi hiba nagyságától függ.

A mintavételi hiba kiszámítása, feltéve, hogy valószínűségi mintáról van szó. még bonyolult mintavételi tervek esetén is matematikailag jól kezelhető feladat.

A reprezentativ megfigyelés célj-a általában valamilyen ,,pont" Becslés (átlag.

megoszlás, népességszám. termelési érték, jövedelemnagyság stb. kiszámítása). Az.

hogy egy statisztikai adatnak milyen pontosnak kell lennie. a felhasználás céljától függ. Van—nak esetek, amikor nagy pontosságra kell törekedni (a relatív hiba csak egy-két százalékos lehet), míg más esetben akár 50—100 százalékos relativ hiba

mellett is felhasználható a kapott információ.

A hivatalos statisztika gyakorlatában elég ritkán fordulnak elő olyan felada—

tok. amelyeknél egyértelműen elő van irva a becslés kivánatos pontossága. Ha ugyanis ilyen van, akkor viszonylag egyszerű a statisztikus dolga: kidolgoz egy vagy több olyan mintavételi tervet, amelyek megfelelnek az előirt követelményeknek. s

azután már csak a szükséges anyagi és tárgyi feltételeket kell biztosítania.

A legtöbb esetben azonban az történik. hogy a rendelkezésre álló anyagi esz-

közök által meghatározott mintanagyság keretei között hajtják végre a felvéte-

leket. Az eredményül kapott különböző részletezettségű mutatók megbízhatósága pedig természetsze—rűleg különböző lesz, s az utólagos hibaszámitás dönti el, hogy

a kiszámított mutatóik miként használhatók fel.

A hibahatárok ismerete különösen fontos összehasonlító elemzéseknél, amikor olyan következtetéseket kell levonni. hogy valamilyen folyamat. jelenség időben vagy térben mutat—e lényeges változást. eltérést.

A statisztikai hivatalok ki'adwva'nyai'kban a különböző reprezentativ felvételeik—

ből igen sokféle adatot publikálnak. amelyek kiszámítási módjáról nagyon külön-

bözőképpen adnak tájékoztatást. Hol hosszabb. hol rövidebb leírást találhatunk

arról. hogy az adatokat hogya—n számították ki. Előfordul. hogy közlik a mintavételi hibát is. A megbízhatósági határokra azonban leginkább csak következtetni lehet.

amit egy módszertanilag jól képzett statisztikus meg tud tenni, de az ..átlagos"

felhasználó nem. Valószínűleg nem túlozzuk el a helyzetet, amikor azt mondjuk.

hogy a felhasználók legnagyobb része bizonyos fenntartással elfogadja a kinyom- tatott adatot annyinak amennyi. ám ennek gyakorlati jelentőségét :: következteté-

sek levonásánál nem ismerjük.

" A KSH Kutatási Alap Koordináló Tanácsa 1987-re kiirt módszertani pályázatán pályadijial jutal- mazott tanulmány kissé módosított változata.

(2)

MARTON MIHÁLYFFY: A MINTAVÉTELI HlBA 351

E tanulmányban mindig a lakossági felvételeki szempontjából közelítjük meg az egyes kérdéseket. Ez bizonyos mértékig megkönnyíti a tárgyalást, de nem megy

az általánosság rovására, mert 0 különböző problémák — sokszor kisebb súllyal

-— értelemszerűen kezelhetők a gazdaságstatisztika (például mezőgazdaság) ese-

tében is.

Az Egységes Lakossági Adatfelvételi Rendszer (ELAR) minta több célt szolgál (3). Az egy-egy évben a mintába (kerülő családoknál, személyeknél több. sokszor nagyon különböző témájú felvételt végeznek. De még egy felvételen belül is lehet-

nek nagyon eltérően viselkedő kérdések (változók). Ebből az következik, hogy -—

mint látni fogjuk —— a minta viselkedése, a mintából származó becslések megbíz- hatóság-a szinte változón'k—ént különböző. Tovább bonyolítja a helyzetet az, hogy az egyes változók értékeit különböző társadalmi, földrajzi, demográfiai stb. csopor- tosításban is ki kell számítani. összehasonlítóan elemezni. Viszonylag egyszerűbb a helyzet, ha azonos módon megfigyelt paraméterek időbeli változásait kell vizsgálni.

A szóró-sok e tekintetben mutatnak legnagyobb állandóságot. A mintavételi hiba

kiszámítását, közreadását megkönnyítené. ha lenne olyan eljárás. amely a minta—

vételi hiba bizonyos átvitelét (porta'bilitás) egyik változóról a másikra (egyik al-

csoportról vagy területi részletezésről a másikra) lehetővé teszi, egyszerűsítve ez- által mind a számító-sokat. mind az eredmények bemutatását.

A statisztikai adatgyűjtemények természete ugyanis nem teszi lehetővé, hogy minden egyes adat mellett a megbízhatósági határokat is közöljük. A mintavételi

hiba kiszámítása egyrészt munka— és költségigényes, másrészt a nagyon sok szám

áttekirnthetetlenné tenné az aclatközléseket.

Az elmúlt évek során az ELAR-felvételeket tanulmányozva számos hibaszásmí—

tást végeztünk, melyek során begyakorlottá, viszonylag egyszerűvé vált a rendel-

kezésre álló számítástechnxikai progra—mok alkalmazása, valamint több érdekes ta—

pasztalatot szereztünk a kapott számítási eredmények értelmezése, felhasználása területén.

Tonulmányunkban erről a munkáról azzal a céllal adunk áttekintést, hogy -—

a külföldi szakirodalom legújabb eredményeit is felhasználva — megkíséreljük a mintavételi hiba kiszámítását és felhasználását (pu'blikálását) célratörőbbé, egy—

szerűbbé tenni. Ez lényegében azt jelenti, hogy megpróbáljuk körülhatárolni a mu- tatók azon osztályait, csoportjait. amelyeknél a mintavételi hiba nagyjából azo—

nos vagy arányos.

A mintavételi terv és a mintavételi hiba nagyságának összefüggése

Egy becsült paraméter mintavételi hibája lényegében három tényezőtől függ.

úgymint

— a vizsgált ismérvnek a szórásától a teljes sokaságban,

— a minta nagyságától (a minta elemeinek számától).

— a mintavételi terv hatásától.

A következőkben ezzel az utóbbi, a magyar szakirodalomban mind ez ideig egyáltalán nem vizsgált tényezővel foglalkozunk, melyet angol nyelvű megnevezése (design effect) után DEFT—tel jelölünk.2

1 A lakossági felvételek során azok témájától függően sokszor jelentős lehet a nem mintavételi (válaszadási) hiba is. A kapott információk elemzése során erre messzemenően tekintettel kell lenni. Meg kell azonban jegyezni, hogy a nem mintavételi hiba korrekt kezelése módszertanilag nem megoldott, termé- szeténél fogva igen bonyolult feladat. Legtöbbször csak nagyon hozzávetőleges megítélésre van lehetőség.

l k ? Akmintavételi hiba kiszámításának. becslésének alapelvei jól ismertek, így annak részletezésétől e te íntün .

(3)

352 MARTON ADAM - MlHÁLYFFY LAszLo

A mintavételi terv hatását a

pm : 35.-

SR

összefüggéssel értelmezzük, ahol SE jelöli a szóban forgó paraméter szórásának

becsült értékét az adott mintavételi tervnek megfelelően, SR pedig annak a szó-

rásnak a becslése. amelyet akkor kaptunk volna. ha az adott mintával uzenos nagyságú, egyszerű véletlen mintából becsültük volna a fenti paramétert. Egyes statisztikusok a DEFT helyett annak négyzetével számolnak. amelyet DEFF—el jelöl-

nek:

2

DEFF :: DEFT? : EL

A DEFT tehát a működés. hatékonyság szerint adott mintán—kat az egyszerű

véletlen mintához viszonyítja. Önként adódik a kérdés. hogy mennyire megbízható ez az összehasonlítás. Nyilván SE és SR becsült értékek. és így hónyadosukat sem

szabad abszolút pontos mennyiségnek tekinteni: kimutatható viszont, hogy a DEFT

mint becslés pontosabb, mint SE é—s SR külön-külön. Azt lehet mondani. hogy a DEFT gyakorlatilag kiküszöböli a beosilésnek a min—tanagyságtól való függ—ését. Na- gyobb problémának tűnik. legalábbis első látásra az, hogyan lehet az adott min—

tából azt a szórást becsülni, amelyet egyszerű véletlen minta esetén kaptunk volna.

Nem lehetne akkor már mindjárt az adott mintából a keresett paraméterre vonat—

kozóan ugyanazt a becslést meghatározni, mint az egyszerű véletlen mintából?

A válasz erre az utóbbi kérdésre nemleges. és — bármilyen meglepőnek is tűnik ——

az SR—szórást mégis lehet becsülni az adott minta alapján. Tanulmányutnk kereteit meghaladná az idetartozó egzakt matematikai bizonyítás közlése. indokoltnak lát—

szik viszont annak az alapgondolatn—ak az ismertetése, amelyen ez a bizonyítás

nyugasziik.

Tekintsük például az ELAR M—mintát. amely 0.4 százalékos, és igy körülbelül

40000 személyt tartalmaz. Ezt a 40000 személyt ki lehetett volna választani egy- szerű véletlen kiválasztással is, amikor bármely 40000 elemű minta kiválasztásá-

nak ugyanakkora - egyébként igen kicsi - a valószínűsége. Azáltal. hogy a mű-

ködő M-mintát az ELAR mintavételi keretből választják ki, a kiválasztás valószínű- sége az egyszerű véletlen mintavétel esetéhez képest nagymértékben megnő.

ugyanakkor viszont igen sok olyan lakossági mintának. amelyet a z egyszerű esetben

pozitív valószinűséggel ki lehetne választani. az ELAR—ban nulla lesz a valószínű—

sége, pontosabban, az ELAR mintavételi keretből nem lehet kiválasztani azokat.

Ismerve a mintavételi keretet és a megváltozott kiválasztási valószínűségeket, egy—

fajta "inverz" okoskodással következtetni lehet az egyszerű véletlen mintához tar—

tozó szórávsra.

Felvethető a kérdés. hogyan. milyen értelemben alkalmas a DEFT egy adott

minta működésén—ek jellemzésére. Többcélú minták esetén -— mint ismeretes, az ELAR is ilyen —- különböző mutatószámok becsléséhez nema—sak különböző szórás-.

hanem általában különböző DEFT-értékek is tartoznak. Ezen túlmenően. ha a vizs- gált sokaságot részosztályokra bontjuk. és a mintából az egyes részosztályokhoz tartozó mutatószámokat is becsüljük. akkor ez utóbbiakhoz általában nagyobb min—

tavételi hiba fog tartozni. mint a teljes sokaságra vonatkozó mutatókhoz (mivel a részmintálk kisebbek a teljes mintőnál), ugyanakkor azonban a rész—mintákhoz álta- lában kisebb DEFT—értékek tartoznak. mint az egészhez.

(4)

A MINTAVÉTELI HIBA 353

A gyakorlatban használt lakossági minták s így az ELAR is általában egyrészt

többlépcsősek, másrészt pedig rétegzettek. A több—lépcsős kiválasztás azt jelenti.

hogy a vizsgált sokaságból először bizonyos tulajdonságú kisebb-nagyobb csopor-

tokat választunk ki — az esetek igen nagy részénél népszámlálási szá'mlálókörze—

tekhez tartozó lakások vagy háztartások összességét —. majd ezekből az elsődleges mintavételi egységekből. ezek-nek elemei közül választjuk ki a másodlagos, har-

madlagos stb.. majd a végső mintavételi egységeket. A kiválasztási lépcsők száma általában kettő vagy három, az ELAR-minta például bizonyos tulajdonságú szám-

lá-ló'körzetek vonatkozásában két—, más száimilállókörzetek vonatkozásában pedig

háromlépcsős. Az elsődleges kiválasztási egységeket (angolul: primary sampling units). PSUJkart3 kl-asztereknek tekinthetjük. Alkalmazásukat (tehát a többlépcsős kiválasztási technikák alkalmazását) kizárólag az adatgyűjtés költségeinek csökken-

tése indokolja, mivel például olcsóbb egy számil'álákörzet címeit felkeresni, mint

ugyanannyi címet az adott településen belül, teljesen véletlenszerűen. Mivel úgy-

szólván m'indennemű takarékosságnak ára van. ez a PSU-k esetén úgy jelentkezik.

hogy az egy PSU-hoz tartozó megkérdezettek válaszai általában nem függetlenek.

közöttük bizonyos korreláció van.

A mintavételi hiba szempontjából az az előnyös, ha a minta egyes rétegein be-

lül lehetőleg sok PSU van, és az egyes PSU-ikon belül viszonylag kevés további ki-

választási egys—ég. Abban a hatá'resetben, amikor a PSU-kat egyszerű véletlen el—

járással választanánk ki. és minden egyes PSU-in belül egyetlen egy további egy- séget választunk, amely egyben már végleges is. mintánk az egyszerű véletlen min- tába menne át. Az ELAR—mintában egyébként megyénként 8—22 réteg van, és egy

rétegben általában 2—10 PSU található, az egy PSU—n belüli személyek száma

elég széles határok között változik. általában 9 és 60 közé esik.

Visszatérve arra a kérdésre. hogyan változik a DEFT, ha a teljes sokaságról

részosztályokra térünk át. könnyen belátható, hogy általában csökkenni fog. ugyan- is. kivált. ha a részosztályokat keresztosztá'lyozá'ssal határozzuk meg — lásd később -, akkor a részmintákban (: rétegek és ezeken belül a PSU—k száma ugyanannyi lesz, mint a teljes mintában. az egyes PSU-kban található végleges mintavételi egységek száma viszont arányosan kisebb lesz, és így a ré—szmi—nta jobban hason- lit az egyszerű véletlen mintához, mint az egész. Mindaz, amit a DEFT—ről eddig elmondtunk. azt mutatja. hogy egy találomra kiragadott mutatóhoz tartozó DEFT- érték semmiképpen sem alkalmas arra, hogy egy minta. kivált egy többcélú minta

hatékonyságáról felvilágosítást adjon: ha egy mintát a DEFT segítségével akarunk

a vele azonos nagyságú egyszerű véletlen mintához hasonlitani. akkor lehetőség szerint több. célszerűen választott mutató DEFT-értékének az átlagával kell dolgoz—

nu'n'k.

Mivel a DEFT vagy a DEFT-ek átlaga önmagában véve nem ad teljes képet egy bonyolult minta működéséről. L. Kish professzor bevezetett egy további mérő-

számot erre a célra ((5) 161—164. old.), amelyet homogenitási aránynak nevezünk,

és angol neve (rate of homogene'ity) után ROH—val 'rövidítünlk. A ROH a következő-

képpen függ össze a DEFT-tel:

ROH : *73 m

ahol E a PSU-k átlag—os nagysága. vagyis a minta elemeinek a száma (N) osztva

3Használotos még az EME rövidítés is. A végleges mintavételi egység angol neve ultimate area unit, rövidítve UAU.

2 Statisztikai Szemle

(5)

354 MARTON ADAM MlHÁLYFFY LÁSZLÓ

a PSU-ik számával (A). Ugyanúgy. mint a DEFT-nél. ezúttal is hasznos lesz kifejteni azt. hogy milyen gondolat húzódik meg a ROH definíciójában szereplő összefüg- g—és mögött.4

Tekintsünk egy elsődleges mintavételi egységet, amelyben n személyt kérde-

zü'nlk meg. A válaszok kódja rendre xi, X2, . . . . xn. Tegyük fel. hogy az x-ek ótlagóm vagyunk kíváncsiak, és vizsgáljuk e célból az Xr'l"X2"l'. . .—l—xn összeg vaniancióió't.

Mivel egy PSU-n belül a válaszok nagy valószinüséggel korrelóltak egymással.

!!

var (x1 a" x; $ . . . % x,.) :: Zivar (x,) 4- ); cov (x,—, x,)

ia: ne]

Ha feltesszük, hogy mindegyik Xi-nek ugyanakkora a szórósnégyzete, és ezt

a közös érméket var(x)-Jszel jelöljük. alak—or

var(x1-i—x2-i—...—i—x,,)

sn—kn(n—1)g var(x)

illetve

varx(1 -i-x2 inni—x")31—i—(n—1)g

nvar(x)

ahol 9 jelöli az x,- vóltozók közötti korreláció átlagos értékét. A bal oldalon álló tört két szóró—snrégyzet hányadosa. és fölfogható úgy. mint a DEFT négyzete a te-

kintett. PSU-ra vonatkozóan, és ezért

DEFTZ—i

? : N R!

n—1

Ez a 9, mint említettük, az egyes PSU-Akon (clalaszberelaen) belüli korreláció ót—

lagos ért—ékét méri a válasz-adósak között. L. Kis'h a [2/ összefüggés általánosító-sa- ként írta fel a /1/ egyenlőséget. ahol a számlálóban levő DEFT már nem egyetlen PSU—ra, hanem a minta egészére vonatkozik. és 8, mint említettük. a klaszterek ót- lagos elemszamót jelöli (a mintavétel végső egységeire vonatkozóan). A ROH—

mutató —— szemben a (_) mutatóval — a PSU-k vagy klaszterek egymás közöíti homo- gienitósón-ak átlagos értékét méri; ez a különbség tükröződik a két mennyiség an-

gol nyelvű elnevezés—ében is:

a -— intraclass correlation.

ROH — interclass correlation.5

A ROH, mint majd látni fogjuk. sokkal alkalmasabb egy adott mintavételi el—

jó-rc'ls sajátosságainak feltárására. mint a DEFT . Egyelőre csak azt jegyezzük meg.

hogy a ROH nullához közeli értékeket vesz fel akkor. ha az egyes PSU-kban meg—

kérdezett személyek úgy viselkednek. mintha egyszerű véletlen eljárással választot—

ták volna ki őket: ROH 0.1 és 0.2 közötti értékeket vesz fel akkor, ha az egyes PSU—

kon belül a válaszok .közöt erős korreláció van, és szélsőséges esetben :: ROH ér—

téke akár 1.0 is lehet. Az [1] képlet szerint ROH negativ is lehet (ha DEFTc l), és

ez az eset a számítások tanúsága szerint elő is fordul a gyakorlatban. Mivel a

'A ROH fogalmának ez a motiválósa - L. Kísh és szerzőtársainak megállapítása szerint Sir Maurice Kendalltól szarmazik (lásd (T)).

5 Megjegyezzük. hogy a görög (! latin betűs átírása _az angol nyelvben rho. így a két mutató között Ilyen fajta. kétségkívül ]úiékos megkülönböztetés is lehetséges.

(6)

A MINTAVÉTELI HIBA

355

negativ ROH-értékeket nem lehet jól értelmezni. ezeket az elemzések során álta—

lában figyelmen kivül szokták hagyni. Hasonló a helyzet akkor is. ha E-(ő, ekkor

ugyanis a ROH értékét definiáló egyenlet jobb oldala numerikusan instabillá vál-

hat.

Tanulmányunk következő részében konxkrét felvételek, illetve az azokhoz tartozó hi'baszá'mitás ismertetésével foglalkozunk. és bemutatjuk, hogyan alkalmazhatók a

DEFT és a ROH mérőszámok a hibaszámí'tás eredményeinek értelmezésére és elem-

zésére.

A Világ Termékenységvizsgálat

A Világ Termékenység-vizsgálatot (World Fertility Survey — WFS) a Nemzetközi

Statisztikai Intézet — international Statisticail lnstitute -— lSl) végezte az ENSZ-szel

és más nemzetközi szervezetekkel együttműködve. Az első felvételre 1973-ban ke- rült sor. és 1979—ig 35 fejlődő országban hajtották végre a felvételeket. A felvéte—

leknelk az volt a célja, hogy átfogó képet adjanak a 15-49 éves nők helyzetéről

családi állapot. gyermekek száma. családtervezési elképzelések, valamint a fogam- závsgátló'k haszná—latta szerint. A munikák koordinálását a WFS londoni központja

végezte M. Kendall irányításával.

A WFS londoni központjában számos javaslatot dolgoztak ki mind az egyes

országokban kiválasztásra kerülő minták nagyságára, mind pedig a kiválasztás

módszerére vonatkozóan. A szervező 2000—10000 15—49 éves nőből álló mintát

javasoltak, és a kiválasztott minták kisebb eltéréstől eltekintve végeredményben

meg is feleltek ennek a követelménynek.

A minta területi egységeinek (körzetek. részkörzetek stb.) kiválasztása 21 or-

szág esetén egy lépcsőben, a többinél kettő, illetve három lépcsőben ment végbe.

Gyakorlatilag mind a 35 országban rétegzett mintát választottak ki, bár a rétegzés

meghatározásában voltazk különbségek; egyes országokban közvetlenül meghatá-

rozták a rétegeket. másokban viszont közvetett módszereket alkalmazta—l? erre a cél- ra (adminisztratív nyilvántartások átrendezésével stb.). A rétegek általában a kö—

vetkezők voltak:

— a főváros és vonzáskörzete,

—— városok (ezeken belül esetleg nagyság szerinti rétegek),

— községek (ezeken belül esetleg nagyság szerinti rétegek).

Ebből a vázlatos ismerteté'sből is látható. hogy az ELAR-minta felépítése ha- sonló (: WFS országos mintákhoz, és lehetővé teszi. hogy az e célra kifejlesztett

módszereket, így a mintavételi hiba becslés—ére alkalmas számítógépi programot az ELAR—felvétele'knél is alkalmazzak.

Az ELAR szempontjából a WFS-ben alkalmazott módszertannak három eleme játszik kitüntetett szerepet, ezek a következők:

—— a mintavételi hiba becslésére alkalmas CLUSTERS-program.

- a változók becslésénél és a hibaszámitásnál előforduló bontások egyfajta tipizálása (részosztályok, tartományok stb.),

d -— a mintavételi hiba és a származtatott statisztikák portabilitásának (átvihetőség) kér—

ese.

A CLUSTERS—programot ebben a tanulmányban nem kell bemutatnunk, mivel

már több magyar nyelvű tanulmány hivatkozott rá ((8). (4), (9)). Célszerű viszont

már itt hangsúlyoznunk, hogy valahányszor a mintavételi hiba becslésének ,.idő- igényes" voltáról van szó, az szükségképpen a program eredeti változatára vonat—

2—

(7)

355 MARTON ADAM _ MlHALYFFY LASZLO

kozik; a program új változata. melyet a magyar Központi Statisztikai Hivatalban

1986-ban fejlesztettek ki, elődjénél lényegesen gyorsabb és sokkal kevésbé munka- igényes.6

A WFS-ben a vizsgált sokaság részcsoportokra, ré'szosztályokra való felbontá—

sának három fő típusát különböztették meg:

—- demográfiai részosztólyok: korcsoport, házosságtartam, gyermekszám:

—- társadalmi—gazdasági részosztályok: életkor az első házasságkötéskor, iskolázottsági szint, a férj iskolai végzettsége, a férj foglalkozása. vallás, etnikai hovatartozás;

— földrajzi tartományok: város—község bontás, régiók.

A demográfiai és a társadalmi—gazdasági részasztályok általában kereszt—

o'sztáílyok. vagyis kettő vagy több ismérv egyidejű figyelembevételével jönnek létre.

A DEFT szempontjából ezekre általában érvényes az az előzőleg említett tenden- cia, hogy a részosztályhoz tartozó DEFT kisebb, mint a teljes sokasághoz (mintá—

hoz) tartozó érték. Földrajzi tartományok esetén — és hazai alkalmazások szem—

pontjából ebbe a kategóriába tartoznak a megyék is —- ez nem igaz. ugyanis egy megyei mutató DEFT-je sokkal nagyobb is lehet. mint a vidék összesené. A Termé—

kenységvizsgálwat tapasztalatai szerint a demográfiai részosztályokat általában ala- csonyabb ROH-érték jellemzi, mint a társadaalm'i—gazdaságiakat.

A részosztályok kijelölése nemcsak azt jelenti, hogy a vizsgált mutatókat a hoz—

zájuzk tartozó mintavételi hibával és a származtatott statisztikákkal együtt ezekre vonatkozóan is becsüljük. hanem azt a lehetőséget is, hogy bizonyos mutatók ese—

tén ezeknek két—két részosztállyna vonatkozó különbségét vizsgáljuk. Demográliiai.

illetve társadalmi—gazdasági részosztályok esetén — amikor ezek ugyanazokat a rétegeket. és ezeken belül ugyanazokat a PSU-ikat tartalmazzák —— az ilyen jellegű különbségek becslés-e szempontjából általában azzal! a kedvező körülménnyel szá- molhatunk. hogy az ugyanabból a PSU-ból származó válaszok közötti pozitiv ko- vairiancia csökkenti a különbség szórásn—égyzetét. Képletben:

VBf'Ez—í't) :: mög) 'l— VOI'Öi) — 2 COVÚD ;2)

ahol yi és Y2 ugyanannak az ismérvnek két külömböző részosztályhoz tartozó átla- gát (illetve ennek a mintából származó becslését) jelöli. ELAR-felvételekkel kap-

csolatban ez ideig ilyen jellegű vizsgálatokkal —- tehát különbség becslésével —

nem foglalkoztunk. jóllehet a CLUSTERS—prograam ezt is lehetővé teszi. A WFS ta- pasztalatainak értelmében az yz—yi küelön'bségekhez tartozó DEFT egyhez közeli ér—

téket vesz fel akkor is, ha yj—ihoz, illetve yz—ihoz külön lényegesen magasabb DEFT tartozik.

Most rátérünk a portaibil'itárs kérdésére. Tegyük fel, hogy egy olyan tábla köz-

lés—ét tervezzük. mint amilyent a következő oldalon bemutatunk.

Tegyük fel továbbá, hogy r : 1.2, a esetén ismerjük az r részosztályhoz tartozó részminta nagyságának a teljes minta nagyságához való viszonyát, ame—

lyet Mr-rel fogunk jelöl—ni. Abban az esetben tehát. amikor a a számú részosz'tály

páronként idegen (diszjunkt), fennáll az

Ml—hMg'l'...—j—Mg:1

összefüggés.

** Ha adott egy (országos) felvétel állománya (Budapest, a 19 megye), és valamilyen szempont szerint kiválasztott öt megyére akarunk becslést és hibaszámitúst végezni az ún. űj CLUSTERS—progrommal, akkor olcsóbb a számítást a teljes állományra elvégezni, mint előzőleg az öt megyét leválasztani az állományból.

(8)

§

A MINTAVÉTELI HIBA 357

Végül fel fogjuk tenni azt is. hogy ismerjük a PSU-nak átlagos nagyságát a

teljes mintára. ezt B-gal jelöljük.

A közölni kivánt tábla terve

1. 2. . . . ldtk

Részosztály e '

változó

a-adik .

Összesen

A portabilitás problémája a legegyszerűbb esetben a következő: módunkban áll ugyan a tábla minden cel—lájwára kiszámítani és közölni a becsült mutatószám

mellett annak szórását is, ezt azonban az áttekinthetőség érdekében el szeretnénk kerülni. Ha csak az összesen sorban közöljük a becsült mutatók szórását. lehetsé-

ges-e és ha igen. miképpen, az összesen értékekhez tartozó szórásokból következ-

tetni a táblázat belső celláiihoz tartozó szóró—sokra?

A WFS számítási eredményeinek tapasztalatai alapján L. Kish professzor és munkatársai azt állítják (7) — amit a későbbiekben az ELAR-Isz'ámítások alapján ellenőrizni fogunk —, hogy a sémá—nok megfelelő táblázatban egy tetszőleges r részosztályhoz tartozó ROHrdnek a teljes mintához tartozó ROH—hoz való viszonya

közel állandó. és értéke sozk számítás átlagában körülbelül 1.2:

ROH,

___—___ N

, .. N ,

ROH

Ha ezt elfogadjuk. akkor az /1/ képlet szerint Dal—"T,! :1 I m ROH (í, — 1)

ahol az r index értelemszerűen az r részosztáwlyhoz tantozó mennyiségekre utal.

Figyelembe véve Eranalk mint átlagos PSU-mére'tnek a definícióját. azt látjuk, hogy fennáll a

B,. :. M, E

egyenlőség, és ennek következtében

DEFTJ : 1 * 1,2 ROH (MJ _ 1) ' /3/

összefüggés. Mivel

se, : DEFT, - SR, /4/

ahol SE, és SR, vaIlamelink mutató szárá'sánIaIk becsült értékét jelöli az r részosz-

tályna vonatkozóan. az adott mintavételi tervnek megfelelően. illetve az egyszerű

(9)

353 MARTON ADAM .. MlHALYFFY LASZLD

véletlen mintavétel esetére vonatkozóan (azonos mintaelemszámot feltételezve), a szórások közlésével kapcsola—tos problémánkat. amelyből kirindultunvk, megoldott-

nak tekinthetjük.

Osszefoglalva az elmondottakat. a következőkre van szükség:

-- az átlagos PSU—méretre (E) a teljes mintára vonatkozóan;

— a részmwintá—k nagyságának a teljes mintanagyság'hoz viszonyított arányára (Mi .. ..

Ma):

—— az összesen sorhoz tartozó ROH-értékekre:

—- az egyszerű véletlen mintavételnek megfelelő szórás (SRr) valamilyen elfogadható becslésére a táblázat összes belső cellájára vonatkozóan.

Megjegyezzük. hogy L. Kis—h professzor, a vázolt számítási eljárást, illetve tá-

gabb értelemben a ROH, a DEFT és a becslés szórása közötti összefüggést a kö—

vetkezőképpen szemlélteti nemrégen megjelent könyvében ((6) 205. old.):

s 4 52 W-W—w— 52 e s

l l A i

y v 1

DEFT WWW DEFTZ WWW- DEFT2 ___M, DEFT

Y l

ROH ——————W————- ROH

Az ábrán S és S2 szórást. illetve szórársnégyzetet jelöl, emellett a bal oldalon szereplő mennyiségek a teljes sokaságra. a jobb oldalon állók pedig valamilyen

részosztályra vonatkoznak. A legalsó vízszintes nyíl mellé képzelvhetjüik a tapaszta—

lati értékké-nt meghatározott 1.2-es szorzót.

Kimurtaliturk tehát. hogyxazvadott leltételek mellett a /3/ [és a [4] képlettel valóban becsülhető a részosztályokhoz tartozó mutaltóiszágmdk szórása (SE,) az adott minta- vételi tervnek megfelelően. Felvethető természetesen a kérdés, hogyan becsüljük

az SR, értékeket. Ha semmi más távmpontunk nincs. és elsősorban nagyságrendi

meghatározásra törekszünk, akkor a mintából származó megfigyelésekre minden további nélkül alkalmazhatjuk az egyszerű véletlen mintához tartozó összefüggést.

tehát például egy arány becs'l-ésből származó Pr értéke esetén

SR, % fímllíml'íímm

Megjegyezzük azonban, hogy ennél jobb becslés is lehetséges (például (10)).

A gyakorlatban azt a megoldást célszerű követni, hogy külön táblázatban közöl- jük az egyes SR, értékeket részosztályolk és a legfontosabbnak ítélt változók sze—

rint, ez a [4/ kép'lert alkalmazását nagymértékben megkönnyíti.

Röviden be kell mutatnunk azt a megfontolást. amely a stabilnak mutatkozó ROH,/ROH hányados 1.2 értékéhez vezetett. Ez részben a Termékenységvizsgálat

előkészítéseként. nyolc korábbi, hasonló témájú felvétel—re épült (7). E felvételek

feldolgozása során bebizonyosodott, hogy a különböző változákhoz tartozó ROH-

értékek között igen jelentős nagyságrendi különbségek lehetnek: a legkisebbek 0,001—0.002. a legnagyobbak 0.1—O.2 körüli értéket vettek fel.

Az első lényeges észrevétel az. hogy az egyes vállozócsoporták -— családi ál- lapot, termékenység. családtervezési kérd—ések, fogamzásgátló módszerek ismerete.

(10)

A MINTAVÉTELI HIBA

359

illetve használata — esetében a ROH-értékek szórása lényegesen kisebb. mint az összes változó halmazában: egy—egy csoporton belül a legnagyobb ROH átlagban tízszerese (: legkisebbnek. például a termékenységre vonatkozó mutatóknál ROH 0.005 és 005 között mozgott. Azt mondhatjuk tehát, hogy a ROH—értékek viszonylag

stabilak az egyes változóosoportokon belül.

A következő megfigyelés viszont azt mutatta. hogy :: ROH kisebb mértékben változik egy adott változó különböző részosztáilydkhoz tartozó beés-lésekor, mint hogyha különböző változákhoz tartozó ROH-értékeket hasonlítunk össze. Hang- súlyozni kell. hogy itt keresztosztályozássaail előállított részosztá-lyokról - demográ—

fiai és társadalmli—gazd-asági részosztályokról — van szó. a földrajzi tartományok-

ra. régiókra mint részosztályokra ez a megállapítás nem vonatkozik.

A következő lépés annalk kon-sta'tálá-sa volt, hogy a legnagyobb fokú stabili-

tás a ROH viselkedésében akkor mutatkozik, ha az egyes változókhoz tartozó ROH-

é'rtélkek átlagát vesszük a részosztályokra vonatkozóan — ezek szóma átlagosan 24 volt —. és ezt az átlagot elosztjuk a változónak a teljes mintából származó becs-

léséhez tartozó ROH-val. Az így kapott vi'szonyszámok a következő hányados körül lngad-oz—nauk: vegyülk a teljes mintán beosültmutatólk ROH-értékének átlagát az ősz- szes változóra vonatkozóan. és osszuk ezt azoknak az átlagolt ROH—értékeknek az

összes változóra vonatkozó átlagával. mely átlagolt ROH-kort előzőleg számítottuk ki. Az 1. táblában ezeket az átlagolt ROH-értékekből számi—tott hányadosokat mu-

tatjuk be néhány országnak a WFS-lt megelőző és ahhoz hasonló témájú felvétele alapján.

1. tábla

A részosztályokra és a teljes mintára vonatkozó átlagos ROH-értékek az egyes osztályokban

Dől—Korea Egyesült

M . WM, _ Tajvan, Peru. Államok

"""" 1973 1969 (fehérek),

1971 1973 1970

A ROH-értékek átlaga a teljes minta ! [

esetében . . . . . . . . . . 0,0496 0.0327 0.059 0.056 0.0375

A részosztályok ROH—értékeinek átlaga 0,0589 0.0444 0.079 0,0ó9 00515

A részosztályokra és a teljes mintára !

áwtlogolt ROH-értékek hányadosa (l,-) 1.188 ! 1.358 1.334 1232 1.37

A tábla utolsó sorában A, általában valamivel nagyobb, mint 1,.2 de több fel-

vétel figyelembevételével ez az érték a gyakorlat számára elfogadható.

Az ELAR-felvételekhez kapcsolódó hibaszámítások eredményei

Az elmúlt évek során nem minden ELAR-íellvételnéil került sor mintavételihi'ba—

számításra.

Az 1983-as jövedelmi felvétel kötetében elég részletes információk találhatók

a mintavételi hiba nagyságáról (1). Hát táblára vonatkozóan becslik az abszolút

és a relatív hibáikat, s ez jó képet ad a kötetben közölt több ezer adat megbíz- hatóságáról. A mikrocenzus és a mezőgazdasági reprezentatív felvételekből készült publikációk alapján is jól megítélhető az egyes mutatók mintavételi hibából adódó bizonytalanságra. Sok esetben elég jól meg lehet határoz-ni (: mintavételi hibát a közölt adat mögött levő megfigyelések száma alapján. Ekkor a megfigyelések szá-

(11)

360 MARTON ADAM — MlHALYFFV LASZLO

ma bizonyos értelemben egy-— átvihető, általánosan értelmezhető mutatószámai a

mintavételi hibá nak.

A kisterületi becslésekkel összefüggésben végeztünk ELAR mintavételihiba-szá-

mítást,

—- a "Fiatalok életkörülményei" és

— a "Vélemények az egészségügyről"

elnevezésű. 1984. évi felvételek egyes megyei adataira, ezek közül az elsőre vonat—

kozó tapasztalatokat módszertani munkaanyagbaxn foglaltuk össze (4).

Az ELAR—minta nagyságától függő működésének vizsgálatára szimulációs kí—

sérleteket végeztünk (2).

Számításainlkat részben a CLUSTERS—, részben pedig ennek továbbiejlesztett

változata. az új CLUSTERS-prognam segítségével végeztük ((S), (4), (9)). Ezt a kö- rülményt azért emeljük ki, mivel az ELAR—ral kapcsolatos mintavétel-ihiba-számítás során az eddigiekben a szinte kizárólag a becslés szórá'sána (SE) és a 95 százalé—

kos megbízhatósági szinthez tartozó intervaílilumxna (RiZSE) figyeltünk, és ezért az új CLUSTERS készítésénél a ROH és a DEFT kiszámításának és kinyomtatásának

progwralmozás'ávra nem is került sor. Amikor felvetődött az az igény. hogy az eddigi ELAR mintavételi—h'ibduszámitást a ROH- és a DEFT-mutatók oldaláról. illetve a por—

ba'bil-itás szempontjából is át kellene tekinteni. akkor az új CLUSTERS ilyen értelmű

hiányossága mellett még a következő nem elhanyagolható nehézségekkel! is szó- mol nunk kellett:

— a ROH igen sok, gyakorlati szempontból fontos esetben negatív értékű (amikor -— L.

Kish szerint —- nem lehet jól értelmezni);

-— az esetek túlnyomó többségében B, az átlagos PSU-méret ó-nál kisebb volt, és eb—

ben az esetben az eredeti CLUSTERS sem határozza meg a ROH értékét, mivel ilyenkor alng-mutastó értékét meg—határozó képlet numerikus szempontból nagymértékben instabillá

va :: .

Ez azt jelentette. hogy a portabi—litás vizsgálatának céljából nagyszámú hiba- számítási eredményeink közül olyanokat kellett kiválogatni, amelyek eleget tesznek

a következő feltételnek: legyenek olyan változók és olyan részosztályok. hogy a változókhoz tartozó ROH-értékek negatívak a szóban forgó részosztályok mindegyi—

kében. Erre —-— vagyis több ilyen változóra, illetve részosztályra — azért van szüks-ég.

mert mind a részosztályokra. mind pedig a változókra vonatkozóan átlagolxni kell a ROH-értékeket. Nem volt könnyű kiválasztani ilyen tulajdonságú mutatókat —- az

1983—es jövedelmi felvétel hibaszámitásának anyagából nem is sikerült —. végered- ményben azonban több olyan mutatót is találtunk. amelyek alkalmasak a vizsgálat céljára.

Számítási eredményeink az 1984-es ifjú—sági felvételhez. az ugyancsak 1984—es egészségügyi felvételhez. valamint a már említett szimulációs kísérlethez kapcso-

lódtalk. (Lásd a 2—4. táblákat.) A táblák a vidék összesen. valamint Baranya, Sza- bolcs—Szatmár és Vas megye adatait tartalmazzák, a 4. táblában a vidék összesen

szerepét öt - Baranya, Békés, Borsod—Abaúj-Zemplén. Szabolcs-Szatmár és Vas -

megye összesenje veszi át.

A vizsgált egyes terülleti egységekhez tartozó valamennyi adat felépítése

a következő: az első oszlopban találjuk a terület (például megye) egészéhez tar—

tozó ROH-értékeket. a második oszlopban a ROH—értékeknek az átlagát a részosz—

tá—lyokra vonatkozóan. A harmadik oszlop az átlagnak és a terület egészéhez tar-

tozó ROH—értéknek a hányadosárt (l) tartalmazza. A szakirodalom szerint már ezek-

nek a hányadosokndk is 1.2 körül kell ingadozniok (7). Az utolsó sor mindegyik

(12)

A MINTAVÉTELI HIBA 361

táblában az előző sorok átlaga, és az átlagos ROH/ROH hányados is az előző

két mennyiség hányadosa. tehát nem az. adott oszlop értékeinek az átlaga.

Az eredmények értékelésénél két kérdéssel foglalkozunk:

— megerősítik-e számításaink azt a tapasztalati eredményt. hogy a részosztólyok ROH—

értékeinek átlaga és a teljes mintához tartozó ROH hányadosa 1.2 körül ingadozik;

— ha ezt az 1.2-es középértéket elfogadjuk, kielégítően működik-e a portabilitós alap- jóul szolgáló számítás.

2. tábla

A ROH-mutató alakulása

az 1984. évi ifjúsági felvétel hibaszámítósánál

Vidék összesen Baranya megye Szabolcs—Szatmár megye Vas megye

Változó Rész- Rész- Rész- Rész-

ROH osztály ). ROH osztály Á ROH osztály 4 ROH osztály 11

átlag átlag átlag átlag

1.46 0.064 l0.088 1.37 0.105 0.083 0.79 0.107 0.086 0.81 1.51 0.129 0.224 1.713 0.085 0.102 1.20 0.070 0.068 0.98 126 0.125 0.096 0.77 0.038 0.092 2.413 0.009 0.006 0.61 1.90 0.071 0.128 1.80 0.272 0.541 1.99 0.101 0.055 0.55 0.158 0.210 1.33 0.201 0.320 1.59 0.167 0.183 1.10 0.342 0.374 1.09

1 1 1 1 1 0.130 0.189 2

3

4

5.

6. 0.181 0.227 25 0.184 0.257 1.339 0.123 0.191 1.55 0.128 0.104 0.81 7

8 A

0.151 0.229 0.105 0.132 0.210 0.398

. 0.180 0.218 . 0.210 0.247 flag 0.166 0.231

',21 0.327 0.307 0.94 0.189 0.230 1.22 0.108 0.139 1.29 .18 0.085 0.070 0.82 0.177 0.157 0.89 0.086 0.068 0.79 ,39 0.148 0.186 [ 1.26 0.145 0.198 1.37 0.119 0.112 0.95

l

Megiegyzés. A minta nagysága a következő volt: Vidék összesen 23 372. Baranya megye 1225. Szabolcs- Szatmúr megye 1864. Vas megye 804.

:: rászoszíályok: nem mezőgazdasági fizikai dolgozók. fizikai dolgozók együtt. aktív dolgozók együtt.

v tozó :

1. -— jártak a családdal külföldön.

2. — voltak a családdal együtt nyaralni.

3. - olyan családból szarmaznak. ahol italozás okozta a konfliktust, 4. konfliktusmentes családból származnak.

5—8. 1, 2. 3. illetve 4 vagy ennél több szobás lakásban laknak.

3. tábla

A ROH—mutató alakulása

az 1984. évi egészségügyi felvétel hibaszámításánál

Vidék összesen l Baranya megye 1 Szabolcs—Szatmár megyei Vas megye

Változó Rész- l Rész- l Rész- l Rész-

ROH osztály 1 ! ROH osztály 4 . ROH osztály 3. ROH ; osztály 4

atlag [ átlag 5 atlag . % atlag

! ; ; ] l

1 0.077 30.087 ' 1.12 0.011 0.051 l 4.64 0.066 0.079 I 1.1? l0.089 l0,090 l 1.01 2 0.099 0.104 1.05 0.027 0.024 0.89 0.385 0.395 . 1.02 0.060 0.052 0.86 3. 0.023 0.043 1.815 0.039 0.033 0.85 0.011 0.085 ' 7.72 0.042 0.036 0.85 4. . 0.056 0.077 1.37 0.066 0.076 l 1.15 0.064 4 0.056 0.87 2 l 0.041 0.047 1 1.14 0.039 0.051 1.31 0.030 0.013 l 0.415 0.039 l 0.067 1.71 tlag 10.059 i0,071 1.20 0.029 l0.040 1.238 10.111 0.129 1.16 0058 ?0060 1.03

1

Megjegyzés. A minta nagysága a következő volt: vidék összesen 17 643. Baranya megye 942, Szabolcs- Szatmár megye 1282. Vas megye 587.

A részasztúlyok: férfiak. nők.

A változók:

1 -— tartós betegségben szenvednek.

2 több tartós betegségben szenvednek.

3 szívbetegségben szenvednek.

4 érrendszeri betegségben szenvednek, 5 - mozgásszervi betegségben szenvednek.

(13)

362 MARTON ADAM _ MIHÁLYFFY LASZLO *

4. tábla

A ROH-mutató alakulása az 1984. évi mikrocenzuson alapuló míntaszimuláció hibaszámításánál

Az öt megye átlaga Baranya megye Szabolcs—Szatmár megval Vas megye

Változó Rész- Rész- Rész- ! Rász-

ROH osztály 1 ROH osztály 11 ROH osztály 11 i ROH osztály 2.

átlag átlag átlag _ i átlag

i

1. 0.028 0.046, 1.63 —-l 0.032 0.097l 3.031 0.039! 0.164 431 2. 0.037 0.062 1.66 0.028 0.036 127 0.058 0.076 130 0.046 0.070 1.52 3. 0.129 0.138 1.07 0.008 0,057 7.133 0.356 0.367 1.03 0.011 0.022 2.00 4. 0,086 0.083 096 0.034 0.020 059 0.121 0,116 095 0.087 0.077 0.8?

Átlag 0.070 0,082§ 120 0.011 0.038! 3.42 0.142 0.164 1.16 0.046 0.083 1.813

Megiegyzés. A minta nagysága: öt megye együtt 5086, Baranya megye 965. Szabolcs-Szatmár megye 1177. Vas megye 625.

A részosztályok: férfiak, nők.

A változók: az aktív keresők körében:

1 —— a szakmunkások aránya.

2 - a betanított munkások aránya, 3 a segédmunkások aránya.

4 —- a szellemi foglalkozásúak aránya.

Az első kérdésre a 2—4. táblák alapján lényegében véve igennel válaszolha- tunk, ehhez azonban feltétlenül meg kell jegyeznünk a következőket. Ez a bizonyos Á : átlagos ROH/ROH : 1.2 érték annál jobban közelíthető meg. minél nagyobb mintákkal dolgozunk: az utolsó sorban levő l—ér—tékek minőhárom táblában sta—

bilabbak. mint a táblák többi sorában található értékek. és a vidék összesenihez, illetve az öt megye együtteséhez tartozó Á-értek—ek egyértelműen jobbak, mint az egyes megyékhez tartozó értékek. Külön érdemes kiemelni, hogy 2 ilyen értelemben 1.2-nek adódott a 3—4. tábláiban és 1.39-anrek a 2. táblában. Megemlitjük még.

hogy a 3. tábla adatai végeredményben mind a 19 megyére elkészültek. s csupán

tenjede'lmi okokból szorítkozunk itt három megye adatainak közlésére. Tanulságos

viszont megjegyezni, hogy a 19 megye 2- értékei a megyék szokásos sorrendjében a következők voltak:

1,38, 0.98. 0.97, 0397, 1.06, 1.18. 2.10, 0.95, 3.12. 1.17.

0.95 1.29, 2.73, 1216, 2,74, 1.32, 1.03, 1.39, 2.27.

A portabilitós számszerű ellenőrz—éséhez felidézzük azt a számítási eljárást.

amely a WFS—részben szerepelt.

Az említett eljárás szerint

- keressük valamely változó egy adott részosztályhoz tartozó értéke szórásá—nak becs—

lését. amit SE,-rel jelölünk;

-— feltesszük, hogy adott B a teljes min—tára vonatkozóan átlagos PSU-méret: a ROH a teljes mintára vonatkozik; M, :: részosztály aránya a teljes sokaságon belül; SR, annak a szórásnak a becslése, amelyet a mintónkkal azonos nagyságú egyszerű véletlen minta ese- tén kaptunk volna.

A számítás menete a következő:

DEFT, : V1 4- 1,2 ROH(M,ÉV— 1)

SE, : DEFT, . SR,

(14)

A MlNTAVETELl HIBA

363

Ezeknek a képleteknek a segítségével néhány esetben kiszámítottuk SE, érté-

két. és ezt egybe-vetettük a CLUSTERS-program által kiszámított SErérvtékke'l.

5. tábla

Számított és imputált SE, értékek

SE,

Változó B ROH M , SR , ———————————— ———

becslés tényleges

1. 352 0.067 0.417 0.004 0.006 0.009

2. 25.3 0.107 0.640 0.012 0.021 0.023

3. 352 0.085 0.644 0.000 0.014 0.013

4. 15.15 0.125 0.598 0.011 0.017 0.017

5. 15,5 0.071 0.598 0.016 0.021 0.024

6. 303 0.167 0.750 0.010 0.023 0.021

7. 20.8 0.128 0.793 0.021 0.039 0.036

8. 26.7 _ 0.042 0.509 0.013 0.017 0.015

9. 192 0.011 0.526 0.021 0.022 0.026

10- 320 0.385 0.529 0.012 0.033 0.033

11- 26.7 0.064 0.491 0.012 0.017 0.016

12— 19.2 0.039 0.474 0.012 0.014 0.013

13- 26.7 0.042 0.509 0.013 0.017 0.015

14- 16.9 0.008 0.441 0.014 0.014 0.016

15- 250 0.039 0.435 0.022 0.027 0.036

16- 16.9 0.016 0.559 0.021 0.019 0.021

17- 25.0 0.058 0.431 0.022 0.029 0.031

18- 25.0 0.011 0.565 0.012 0.013 0.013

19- 16.9 0.034 0.441 0.024 0.027 0.026

20- 250 0.032 0.569 0.019 0.023 0.029

21. 250 0.046 0.435 0.030 0.037 0.039

A változók:

1 -— azok aránya, akiknek családjában a szülők italozása volt a konfliktus forrása (Szabolcs—Szal- már megye).

2 —— azok ar nya, akik Jártak a családdal külföldön (Vas megye).

3 azok aránya, akik voltak a családdal nyaralni (Szabolcs-Szatmár megye).

4 azok aránya. akiknek családjában a szülők italozósa volt a konfliktus forrása (Baranya me- gye).

5 —— azok aránya, akik konfliktusmentes családból származnak (Baranya megye).

6 - az egyszobás lakásban lakók aránya (Szabolcs-Szatmár megye).

7 - a kétszobás lakásban lakók aránya (Vas megye).

8 a szívbelegségben szenvedők aránya (Vas megye).

9 a tartós betegségben szenvedők aránya (Baranya megye),

10 —- a több tartás betegségben szendvedők aránya (Szabolcs-Szatmár megye).

11 -— az érrendszeri betegségben szenvedők aránya (Vas megye), 12 -— a moz ásszervi betegségben szenvedők aránya (Baranya megye), 13 a szív etegségben szenvedők aránya (Vas megye),

14 - a segédmunkások aránya az aktiv keresők körében (Baranya megye), 15 —- a szakmunkások aránya az aktív keresők körében (Vas megye).

16 a szakmunkások aránya az aktív keresők körében (Baranya megye),

17 - a betanított munkások aránya az aktív keresők körében (Szabolcs—Szatmár megye).

18 -— a segédmunkások aránya az aktív keresők körében (Vas megye).

19 - a szellemi foglalkozásúak aránya az aktív keresők körében (Baranya megye), 20 —- a szakmunkások aránya az aktív keresők körében (Szabolcs-Szatmár megye), 21 - a betanított munkások aránya az aktív keresők körében (Vas megye).

A táblában szereplő B, ROH. M, és SR, értékek a CLUSTERS-program futta—

tásának eredwményliasftáiról származnak. Mint látható. a tábla két SE, oszlopot is tartalmaz: a becslés oszlopban az imputálásbál szár-mazó eredményeket. az SE tényleges oszlopban ugyanannak a szóró—snak a CLUSTERS-program által kiszámí- tott értékét találjuk. E két oszlop értékeinek eltérései adnak felvilágosítást az im—

putálási algoritmus működésének pontosságáról.

Az 5. tábla végeredményben 21 érték-párt tartalmaz a portabilitás lehetőségé- vel, illetve pontosságával kapcsolatban. Ezek szerint a L. Kish által javasolt köze—

(15)

364 MARTON ADAM -— MIHÁLYFFY LÁSZLÓ

lítő módszer jól. sőt mondhatjuk. meglepően jól működik: a 21 eset közül mind—

össze háromban van nagyobb eltérés (0.036. 0.009 és 0.029 helyett rend—re 0.027.

0.006 és 0.023 adódott). és nagyságrendi eltérés egy esetben sem regisztrálható.

Azt mondhatjuk tehát, hogy számításaink. tapasztalataink a portaibilitás lehetősé- gét elvben alátámasztják.

Gyakorlati. technikai szempontból a helyzet már nem ennyire egyértelmű. Szá—

mírtá'sain'kbain az imvputáláshoz haszná-lt adatokat — B. ROH. M, és SR. — a CLUS- TERS-program ered'ménylisrtáiból vettük. Az természetes, hogy egy gyakorlati feladat

során a teljes mintára vonatkozó átlagos PSU—értéket (B), valamint az ugyancsak

a teljes mintára vonatkozó ROH—értéket a CLUSTERS-programimal kell kiszámítani.

Merőben más a helyzet azonban az egyes részosztállyokhoz tartozó Mr arányok.

valamint az egyes (részosztáilyokhoz tartozó) becslések SR. szórálsának eredetével.

Ha ezeket is CLUSTERS-programmal kellene meghatározni. akkor a portabilitásnak

nem lenne értelme. mivel akkor a program a keresett SE, értéket is kiszámítaná.

Ez a helyzet egyébként előáll, ha átlag és hányados típusú mutatók beosléséről van szó, vagyis — ismereteink szerint — ilyen esetekben a portaibilitás elvben ugyan

lehetséges. gyakorlatilag azonban nem jelent megtakarítást az elvégzendő számí-

tások terén. (ElAR-imeixnta esetén például egy 500 megfigyelésen alapu-ló átlag egyszerű véletlen kiválasztásnak megfelelő szárásánaik kézi úton való kiszámítása nem megtakarítás a CLUSTERS-prognam futtatásához képest.)

Jobb a helyzet arányok. megoszlási viszonyszá—mxok becslésekor. Ha egy ilyen

arány becsült értéke P, akkor ennek szórása egyszerű véletlen kiválasztás esetén.

mint ismeretes. a l/P(1——P)/N kifejezéssel becsülhető. A kérdés most már az. hogy

módosulnak-e és ha igen. akkor mennyire. az 5. táblából levont következtetések akkor. ha az SR, oszlopban található értékeket a binomiális eloszlásna'k megfe-

lelő értékekkel helyettesítjü'k. Kihasználva. hogy itt éppen arányokat kell beosüslni.

az így meghatá rozott SR.— szórásokra (: következő értékeket kaptuk (a sorrend meg- egyezik az 5. tábla sorainak sorrendjével):

0.004, 0.012, 0.008, 0.011. 0.016. 0.010, 0.021, 0.013, 0.021. 0.012, 0.012, 0.012. 0.013, 0.014, 0.022, 0.021, 0.022. 0.012. 0.024, 0.019. 0.030

Mint látható, a kézi úton kiszámított SR.szórások három tizedes pontossággal megegyeznek a CLUSTERS-program által kiszámított értékekkel. Ez azt jelenti. hogy arányok becslése esetén a portabilitás alapjául szolgáló eljárás gyakorlatilag is könnyen megvalósítható. Az egyes részosztállyolkn'ak (: teljes sokasághoz viszonyí—

tott M, rész—arányára természetesen továbbra is szükség van. ez azonban bármilyen szabványos feldolgozás (például a TPL-program segitségével végzett táblázáfs) so- rán is előállítható.

Következtetések

Tanalm-ányunkban a mintavételi tervnek a mintavételi hibára gyakorolt hatásá- val foglalkoz—tunxk. és bemutattuk ennek a viszonylag új kutatási iránynak néhány fontosabb eredményét egy-ékét nemrégen megjelent külföldi tudományos mű alap- ján. Az ELAR-mi—nta felépítéséből következően ezek az eredmények közvetlenül vo- natkoztathatók számos olyan kérdésre. amelyek a hazai statisztikai gyakorlatban vetődnek fel: olyan fogalmak például. mint a mintavételi terv hatása (DEFT) és a homogenitási viszony (ROH) szemléletformálók lehetnek az ELAR-minta műkö—

désének jobb megértésében. Ezzel kapcsolatban elég arra utalni. hogy sokak

(16)

A MINTAVÉTELI HIBA 363

számára még ma sem természetes. hogy az ELAR-minta esetén valamely becsült arány szórását nem úgy kell meghatározni. mint egyszerű véletlen minta esetén.

Tanuilmányunfkban röviden ismertettük a Világ Termé'kenységvízsgálatot. az eh- hez hantozó mlintavéte'lihi'bauszáfmiftárslt, és ez utóbbit összehasonalítottuk az ELAR mlinta'vételiihiba—számítás eddigi tapasztalataival. A nagy földrajzi távolságok és a témák közötti lényeges különbségek ellenére *több vonatkozásban számottevő ha—

sonlóságot tapasztaltunk. Vizsgálataink jelentős része arra a kérdésre irányult.

hogy vajon számításaink alátámasztják-e az ún. portabi'litás lehetőségét; itt röviden arról van szó, hogy mikor. milyen körülmények között lehet egy már kiszámított min- tavételi hibát a meghatározásának körülményeitől :időben és térben távol felhasz-

nálni, mikor lehet —- megfelelő traxnsszformálás után — egy új, tová—bbi változóhoz

hozzárendelni. Erediményeinwk elvi szempontból alátámasztják a L. K'ish által java- solt közelítő. extmpolációs számítás helyességét, annak gyakorlati alkalmazása vi—

szont megítélésünk szerint vitatható, kivéve arányok, megoszlási viszonyszámok

becslését.

Az elvégzett munka számos eredménye, tapasztalata ellenére is csak első, kez- deti olépésnek tekinthető. Az elvi megfontolások, valamint a számítások eredményei arra utalnak, hogy jó úton járunk a reprezentatív felvételekhez kapcsolódó hiba- számitásakban. A további alkalmazás és kutatómunka adhat választ arra. hogy a hibaszá'mí'oá'sok milyen mértékben egyszerűsimhfetők, s ennek milyen gyakorlati kö- vetkezménye lesz az adatközlésre. Ez volt dolgoz—atunk egyik legfontosabb kérdése.

amire részleg-es vállalszt tudtunk csak -— a dolog természetéből adődóain —— adni. Az

azonban. hogy a WFS keretei között végzett kísérleteket sikerült az ELAR—felvéte- leknél megismételni s azonos eredményre jutni. úgy véljük. igen jelentős szemlélet—

formáló és gyakorlati eredményekkel kecsegtető lépés.

lRODALOM

985 (;) %családi jövedelmek színvonala és szórádása 1982-ben. Központi Statisztikai Hivatal. Budapest.

1 . 19 o .

(2) Az ELAR-felvételekből származó adatok mintavételi hibájának alakulása a mintanagyság lehet- séges csökkentése. illetve növelése esetén (szimulációs kísérlet). Egységes Lakossági Adatfelvételi Rendszer Módszertani Tanulmányok. 4. sz. Központi Statisztikai Hivatal. Budapest. 1987. 61 old.

(3) Az ELAR-minta és az 1984. évi mikrocenzus mintájának kiválasztási eljárása. KSH Módszertani füzetek 24. sz. Központi Statisztikai Hivatal. Budapest. 1987. 59 old.

(4) A "Fiatalok életkörülményei" c. 1984. évi ELAR-felvételhez kapcsolódó hibaszámitós fontosabb ta—

pasztalatai. Egységes Lakossági Adatfelvéteii Rendszer Módszeriani Tanulmányok. 1. sz. Központi Statisztikai Hivatal. Budapest. 1986. 46 old.

(5) Kish, L.: Survey sampling. John Wiley and Sons. New York. 1965. 643 old.

(6) Kísh, L.: Statistica! design for research. John Wiley and Sons. New York. 1987. XXII. 267 old.

(7) Kish, L. -— Groves, R. M. - Klotkí, K. F.: Sampling errors for fertility surveys. WFS Occasional Papers. No. 17. London. 1976. 61 old.

(8) Kovács István -- Míhályffy László: Az ELAR—mintából származó becslések mintavételi hibájának meghatározása a CLUSTERS programcsomag segitségével. Rendszerfejlesztési Közlemények 4. Központi Sta- tisztikai Hivatal. Budapest. 1985. 35—71. old.

(9) ,.UJ CLUSTERS": egy egyszerű lehetőség az ELAR mintavételi hibák kiszámítására. Egységes igasság adatfelvételi Rendszer. Módszertani Tanulmányok. 3. sz. Központi Statisztikai Hivatal. Budapest.

1 . 1o .

(10) Vermo, V. -— Scott, C. -— O'Muircheartoigh. C.: Sampie designs and sampling error for the World Fenility Survey. Journal of the Royal Stafistícal Society. (A sorozat) 1980. évi 431—473. old.

TÁRGYSZO: Mintavételi hiba.

PE3lOME

ABTOpr usnararor nous-run T.H. HOprI oAHopoAHocm n, cooreercrseuno, acpcpexra nnaua Bblőopku. 3111 nemi—mm.: aenmo'rcn oőpaaoaaHHuMu Ha őaae oumőxu ablőopku cra—

rucmuecngn enemeHTaMu, KOTOpre a cnyuae BbiőOpOK, nonyueHHux MHoroc-ryneuuarbm

Hivatkozások

KAPCSOLÓDÓ DOKUMENTUMOK

Lépcsőzetes véletlen mintavétel: ekkor a mintavételi keretből első lépésben egy nagyobb egységet választunk ki véletlenszerűen (például egy iskolát), és ezután

Érdekes mozzanat az adatsorban, hogy az elutasítók tábora jelentősen kisebb (valamivel több mint 50%), amikor az IKT konkrét célú, fejlesztést támogató eszközként

A korábbi fejezetben bemutattuk a kutatott szöveg sajátosságait a tartalomelemzés alapján. Most a fókuszhoz igazodva, releváns mértékben bemutatjuk a tanulási

A helyi emlékezet nagyon fontos, a kutatói közösségnek olyanná kell válnia, hogy segítse a helyi emlékezet integrálódását, hogy az valami- lyen szinten beléphessen

milyen kompromisszummal jár. így nyomatékosan felmerül az a kérdés, hogy vajon az eseti vagy csak nagyon ritkán, 5—10 évenként ismétlődő felvételek esetén nem

Az SE ismerete azonban nem csak azért fontos, hogy helyes következtetéseket von- hassunk le, hanem azért is, hogy a lehetőségeket figyelembe véve meghatározhassuk a

A diffúziós mintavételi technika előnyös tulajdonságai  Egyszerű és olcsó, mivel nincs szükség mintavevő szivattyú alkalmazására..  Nem igényel felügyeletet,

Az alacsony fajlagos aktivitási nyomjelzők a radioaktív atomok mellett nagy mennyiségben tartalmazzák ugyanazon elem inaktív magjait is és hozzáadva az ilyen