Szakirodalom
Statisztikai Szemle, 87. évfolyam 6. szám 662
A gyakorisági adatokat tekintve a 2000.
évi cenzusnál a legnagyobb arányban az adat- cseréket alkalmazták mind a rövid, mind a hosszú kérdőíveknél. Ez a gyakorlat az AKF- nél is. Mindkét felvételnél a háztartások egy kis részét kicserélik, és a táblázatokat és a mikroadatokat a csere lebonyolítása után hoz- zák nyilvánosságra. Ezen túlmenően sor kerül a publikálási küszöbértékek meghatározására (például az etnikumoknál), továbbá a kerekí- tésre is. A felfedés elkerülését segíti elő az is, hogy három- vagy négydimenziós táblázatnál részletesebb adatközlés nem történik. Külön felhasználói kérés esetében követelmény, hogy a területi aggregáció minimálisan 300 főt tar- talmazzon, de a terület ne legyen azonos a Hi- vatal területbeosztásával.
Az összevont mennyiségi adatok esetén al- kalmazzák
– a cellaösszevonásokat (suppression) ak- kor, ha a kérdéses adat lehetőséget ad a felfe- désre. Ilyen esetben az adatot nem közlik, de jelzik az összevonást. Az összevonást számí- tógépes program segítségével végzik, különö- sen a többdimenziós tábláknál kell pótössze- vonásokat végezni, itt a lineáris programozásra épülő szoftvert alkalmazzák;
– az adattorzítást (noise addition), amikor az érzékeny adatokat +/–10 százalékkal, a nem érzékeny adatokat csak kisebb mértékben térí- tik el az eredeti értéktől. A módszer előnye a cellaösszevonással szemben, hogy a közlési tábla minden cellájában szerepel érték.
A tökéletesített keresőrendszer nem bizto- sítja a mikroadatok korlátlan elérését. A cikk ismerteti mind a beérkező kéréseknél, mind a kimenő válaszoknál beiktatott szűrőrendszerek részletes szempontjait.
A továbbiakban a felfedés elkerülését szol- gáló legújabb kutatásokat ismerhetjük meg.
A mikroadatok vonatkozásában új helyzetet jelent, hogy egyre inkább több – online vagy más formájú – forrásból származó adat- összekapcsolásra kerül sor, s a végtermék több-
nyire ingyen, de jellemzően alacsony ráfordítás- sal bárki számára elérhető. Több belső ellenőrző eljárás segítségével vizsgálják, hogy az adat- összekapcsolások nem eredményeznek-e felfe- dési lehetőséget. Az esetleges veszélyek valószí- nű bekövetkezése esetén az előbbiekben ismerte- tett valamennyi módszert alkalmazzák.
A kutatások foglalkoznak a mesterséges mikroadatok generálásával is. A művelet jelent- het teljes, vagy részleges (néhány ismérvre kiter- jedő) generálást. A részleges generálásnál jel- lemzően a felfedésre érzékeny adatok impu- tálására kerül sor. Párhuzamosan több – az ere- deti adathalmaz jellemzőivel bíró – „szintetizált”
modell is kidolgozható, közzétehető.
A gyakorisági adatokat illetően a korábbiak- ban mind a cenzus, mind az AKF vonatkozásá- ban az adatcsere technikáját alkalmazták.
Ugyanakkor az AKF „szintetizált” modellezését, mint a felfedés megakadályozását szolgáló másik lehetőséget vizsgálják.
Az összevont mennyiségi adatokat érintően kidolgozás alatt vannak táblázási módszerek, amelyek a cellaösszevonások, az adattorzítás és a kerekítés legjobb módszereinek kombinálásával hivatottak biztosítani a felfedés elkerülését.
John Ede,
a KSH ny. vezető főtanácsosa E-mail: edejohn@t-online.hu
Kraus, J.:
A geostatisztika mint statisztikai jelenségek térmodellezése
(Geostatistika jako prostorové modelování statistickych jevu.) – Statistika. 2007. évi 6. sz. 490–
501. old.
A tanulmány letölthető: http://panda.hyperlink.cz/
cestapdf/pdf07c6/kraus.pdf
A geostatisztika elnevezést G. Matheron francia matematikus használta először 1962- ben, miután a földrajzi interpolációkban és
Szakirodalom
Statisztikai Szemle, 87. évfolyam 6. szám
663
extrapolációkban rendszerré fejlesztette D. G.
Krige dél-afrikai bányamérnök eljárásait. Eze- ket a lineáris legkisebb négyzetek módszerébe tartozó műveleteket a diszciplína „krigelés- ként” emlegeti, és rokona az inverz távolság- súlyozás (Inverse Distance Weighting – IDW) módszerének. 2
J. Kraus cikke bemutatja a térelemzés ma használatos eljárásait, amelyek egy-egy jelen- ség térbeli (síkbeli) előfordulásainak bizonyos pontokon történő mérésein alapulnak, majd ebből készítenek becsléseket a változók elő- fordulására a teljes térre (síkra). Ezt interpolá- lással lehet elérni: az adott jelenségnek a tér (sík) egyes kiválasztott pontjain megfigyelt ér- tékeit a felület összességére kell kivetíteni mé- réssel vagy becsléssel.
A geostatisztika a determinisztikus és a sztochasztikus interpolációt egyaránt alkal- mazza; mindkettő alapja a megfigyelt jelensé- gek hasonlósága az egymáshoz közel fekvő pontokon (autokorreláció), ami a felületen az x, y koordinátarendszert és a hozzájuk rendelt z értékkészletet fedi. A diszciplína alaptétele szerint a távolság növekedésével a megfigyelt és a becslésre szoruló pontok között csökken a felmért pontok hatása az előrejelzésre, míg nem nullával lesz egyenlő. A két módszer kö- zötti választás a megfigyelt jelenség jellegéből következik. A természeti folyamatokat a tér- elemzés inkább determinisztikus, a társadalmiakat főleg a véletlen mozzanatokat tartalmazó sztochasztikus eljárással elemzi.
A szerző röviden bemutatja, milyen egyéb determinisztikus technikákat alkalmaz a geostatisztika az inverz távolságsúlyozás mel- lett, majd ismerteti a krigeléssel történő becslé-
2A témával kapcsolatban a következő internetes oldalakat ajánljuk Olvasóink figyelmébe. http://
www.geothink.hu/html/egyetem/geostat/index.html, http://www.rkk.hu/TET/2007_1/TET_2007_1.pdf, http://geogr.elte.hu/REF/REF_Kiadvanyok/REF_RTT_
11/RTT-11-02-adatkezeles.pdf
seket. Az ennek során használt súlyok nemcsak a mérési pontok közötti távolságtól függenek, hanem azok térbeli viszonyától is.
Kvantifikálása (auto)korrelációs függvénnyel történik; fogalmához szorosan kapcsolódik a variogram fogalma, amely a jelenség autokorrelációját fejezi ki az autokorreláció tá- volságával és hatásának irányával. Ám míg a súlyok az IDW módszerénél kizárólag az előre- jelzés pontjától való távolságtól függenek, a krigelésnél a félvariogram szabja meg ezeket, amely egyrészt tartalmazza az előrejelzés helyé- től való távolságot, másrészt az előrejelzendő pont körüli térbeli viszonyokat. A súlyozás módszerének kiindulópontja, hogy a súlyok ösz- szege 1; ezért – a minta elemeinek azonosságát feltételezve – összességében minimalizálja az első mérési pont és az előrejelzési pont közötti különbséget. A feladathoz alkotott mátrix az összes megfigyelési pontpár félvario-gram mo- delljeinek értékét tartalmazza, vektora pedig a félvariogram modellértékeit írja le az utolsó megfigyelt pont és az előrejelzendő pont között.
A mátrix elemei a félvariogram értékének isme- retében számíthatók ki.
A statisztikában a stacionaritás jelentése, hogy az egyes megfigyelések függetlenek egymástól; ezzel szemben a téradatoknál az egyes megfigyelések ugyan függetlenek, ám egy bizonyos hely megfigyelt értékei össze- függnek a szomszédos helyeken tapasztal- takkal, tehát az egyes megfigyelések bizo- nyos szempontból összefüggnek egymással.
A geostatisztika kétféle stacionaritást ismer:
az átlagos esetében feltételezi, hogy a (térbe- li) minták átlaga konstans és független elhe- lyezkedésüktől. A másik stacionaritás a ko- variancia (a félvariogram esetében „belső”), amely azonos bármely két, egymástól azonos távolságra lévő, azonos irányba mutató hely- nél, függetlenül attól, hol választották ki eze- ket. A félvariogram belső stacionaritása fel- tétele annak, hogy a különbségek szórása
Szakirodalom
Statisztikai Szemle, 87. évfolyam 6. szám 664
azonos lesz bármely két hely között, amelyek távolsága és iránya elhelyezkedésüktől füg- getlenül azonos. A tapasztalati félvariogram az adott csoportokra osztott pontpárok átla- gos értékeit tünteti fel az y tengelyen, míg a csoportokra osztott pontpárok távolságait az x tengelyen veszi fel.
Az ezt követő lépésekben a tapasztalati érté- keket modellekben dolgozzák fel. Ebben a tekin- tetben a legfontosabb a módszer megválasztása, vagyis annak a függvénynek a meghatározása, amely a leghívebben ragadja meg a térbeli korre- láció lefolyását. A szerző a továbbiakban ezeket részletezi, szerepeltetve közöttük a Krige-ről el- nevezett módszereket, kitérve a modellezések elemzésének és értékelésének eljárásaira.
A térbeli előrejelzés minőségét két összete- vő befolyásolja: az adatokban rejlő általános trend, valamint a hatástávolság. Az anizotrópiát (a változó hatástávolságát) az adatokban a geostatisztika eleve ismeretlennek tekinti, s a modellekben véletlenszerű hibaként kezeli. Az anizotrópia ellentéte az izotrópia, vagyis az irá- nyok szerint egyenlő módon kiütköző jelenség, amikor is a fizikai sajátságok függetlenek az iránytól. Az anizotrópia hatásának kiszűrését követően alkalmazható a tapasztalati fél- variogram és a kovariáciafüggvény a konkrét Krige-módszer paramétereinek becsléséhez.
Holka László,
a Központi Statisztikai Hivatal vezető főtanácsosa E-mail: laszlo.holka@ksh.hu
Kiadók ajánlata
WINKLER, O. W. [2009]: Interpreting Economic and Social Data. (Gazdasági és tár- sadalmi adatok értelmezése.) Springer. New York.
A könyv a társadalom- és gazdaságstatisz- tika leíró funkciójának újbóli megerősítésére irányul, áthidalva ezzel egyrészt a mai statisz- tikaelmélet, másrészt a társadalom ökono- metriai és matematikai modelljei közötti űrt. A szerző ezt az adatok és a módszerek alaposabb megértésének lehetőségét biztosítva éri el meglepő látásmódja útján, ami a hat évtizedes oktatói, tanácsadói munkája és a statisztikai adatfelvételek során szerzett tapasztalatainak eredménye. A statisztikaelmélet szokásostól eltérő megközelítésével számos előítéletet megkérdőjelez az aggregálással, az idősorok- kal, az indexszámokkal, a gyakorisági elosz- lással, a regresszióanalízissel és a valószínű- ség-számítással kapcsolatosan. A kötet a sta- tisztikát más, kvantitatív szemléletű területek- kel (például a számvitellel és a földrajzzal) is
összeköti. A könyv, melynek megértéséhez elegendő az elemi statisztikaelmélet ismerete, üzleti, közgazdasági és társadalomtudományi tárgyakat hallgató diákok, illetve oktató egye- temi/főiskolai tanárok, valamint társadalmi- és gazdaságiadat-felhasználók számára íródott.
ZUUR,A.F. ET AL. [2009]: Mixed Effects Models and Extensions in Ecology with R.
(Kevert modellek és kiterjesztett módszerek ökológiai alkalmazásai az R programcsomag- gal.) Springer. New York.
A szerzők – Zuur, Ieno és Smith „Ökológiai adatok elemzése” (Analysing Ecological Data) című, 2007-ben megjelent sikeres könyvére építve – részletes bevezetést nyújtanak a reg- resszió alkalmazásába és kiterjesztéseibe az ökológiai adatelemzésben. Csakúgy, mint a ko- rábbi kötetben, ebben is posztgraduális ökológi- ai tanulmányokból, illetve kutatási projektekből vett valós adatállományokat használnak. A könyv első része főleg nem matematikai beve-