Kraus, J.: A geostatisztika mint statisztikai jelenségek térmodellezése

(1)

Szakirodalom

Statisztikai Szemle, 87. évfolyam 6. szám 662

A gyakorisági adatokat tekintve a 2000.

évi cenzusnál a legnagyobb arányban az adat- cseréket alkalmazták mind a rövid, mind a hosszú kérdőíveknél. Ez a gyakorlat az AKF- nél is. Mindkét felvételnél a háztartások egy kis részét kicserélik, és a táblázatokat és a mikroadatokat a csere lebonyolítása után hoz- zák nyilvánosságra. Ezen túlmenően sor kerül a publikálási küszöbértékek meghatározására (például az etnikumoknál), továbbá a kerekí- tésre is. A felfedés elkerülését segíti elő az is, hogy három- vagy négydimenziós táblázatnál részletesebb adatközlés nem történik. Külön felhasználói kérés esetében követelmény, hogy a területi aggregáció minimálisan 300 főt tar- talmazzon, de a terület ne legyen azonos a Hi- vatal területbeosztásával.

Az összevont mennyiségi adatok esetén al- kalmazzák

– a cellaösszevonásokat (suppression) ak- kor, ha a kérdéses adat lehetőséget ad a felfe- désre. Ilyen esetben az adatot nem közlik, de jelzik az összevonást. Az összevonást számí- tógépes program segítségével végzik, különö- sen a többdimenziós tábláknál kell pótössze- vonásokat végezni, itt a lineáris programozásra épülő szoftvert alkalmazzák;

– az adattorzítást (noise addition), amikor az érzékeny adatokat +/–10 százalékkal, a nem érzékeny adatokat csak kisebb mértékben térí- tik el az eredeti értéktől. A módszer előnye a cellaösszevonással szemben, hogy a közlési tábla minden cellájában szerepel érték.

A tökéletesített keresőrendszer nem bizto- sítja a mikroadatok korlátlan elérését. A cikk ismerteti mind a beérkező kéréseknél, mind a kimenő válaszoknál beiktatott szűrőrendszerek részletes szempontjait.

A továbbiakban a felfedés elkerülését szol- gáló legújabb kutatásokat ismerhetjük meg.

A mikroadatok vonatkozásában új helyzetet jelent, hogy egyre inkább több – online vagy más formájú – forrásból származó adat- összekapcsolásra kerül sor, s a végtermék több-

nyire ingyen, de jellemzően alacsony ráfordítás- sal bárki számára elérhető. Több belső ellenőrző eljárás segítségével vizsgálják, hogy az adat- összekapcsolások nem eredményeznek-e felfe- dési lehetőséget. Az esetleges veszélyek valószí- nű bekövetkezése esetén az előbbiekben ismerte- tett valamennyi módszert alkalmazzák.

A kutatások foglalkoznak a mesterséges mikroadatok generálásával is. A művelet jelent- het teljes, vagy részleges (néhány ismérvre kiter- jedő) generálást. A részleges generálásnál jel- lemzően a felfedésre érzékeny adatok impu- tálására kerül sor. Párhuzamosan több – az eredeti adathalmaz jellemzőivel bíró – „szintetizált”

modell is kidolgozható, közzétehető.

A gyakorisági adatokat illetően a korábbiak- ban mind a cenzus, mind az AKF vonatkozásá- ban az adatcsere technikáját alkalmazták.

Ugyanakkor az AKF „szintetizált” modellezését, mint a felfedés megakadályozását szolgáló másik lehetőséget vizsgálják.

Az összevont mennyiségi adatokat érintően kidolgozás alatt vannak táblázási módszerek, amelyek a cellaösszevonások, az adattorzítás és a kerekítés legjobb módszereinek kombinálásával hivatottak biztosítani a felfedés elkerülését.

John Ede,

a KSH ny. vezető főtanácsosa E-mail: edejohn@t-online.hu

Kraus, J.:

A geostatisztika mint statisztikai jelenségek térmodellezése

(Geostatistika jako prostorové modelování statistickych jevu.) – Statistika. 2007. évi 6. sz. 490–

501. old.

A tanulmány letölthető: http://panda.hyperlink.cz/

cestapdf/pdf07c6/kraus.pdf

A geostatisztika elnevezést G. Matheron francia matematikus használta először 1962- ben, miután a földrajzi interpolációkban és

(2)

Szakirodalom

Statisztikai Szemle, 87. évfolyam 6. szám

663

extrapolációkban rendszerré fejlesztette D. G.

Krige dél-afrikai bányamérnök eljárásait. Eze- ket a lineáris legkisebb négyzetek módszerébe tartozó műveleteket a diszciplína „krigelés- ként” emlegeti, és rokona az inverz távolság- súlyozás (Inverse Distance Weighting – IDW) módszerének.²

J. Kraus cikke bemutatja a térelemzés ma használatos eljárásait, amelyek egy-egy jelen- ség térbeli (síkbeli) előfordulásainak bizonyos pontokon történő mérésein alapulnak, majd ebből készítenek becsléseket a változók elő- fordulására a teljes térre (síkra). Ezt interpolá- lással lehet elérni: az adott jelenségnek a tér (sík) egyes kiválasztott pontjain megfigyelt ér- tékeit a felület összességére kell kivetíteni mé- réssel vagy becsléssel.

A geostatisztika a determinisztikus és a sztochasztikus interpolációt egyaránt alkal- mazza; mindkettő alapja a megfigyelt jelensé- gek hasonlósága az egymáshoz közel fekvő pontokon (autokorreláció), ami a felületen az x, y koordinátarendszert és a hozzájuk rendelt z értékkészletet fedi. A diszciplína alaptétele szerint a távolság növekedésével a megfigyelt és a becslésre szoruló pontok között csökken a felmért pontok hatása az előrejelzésre, míg nem nullával lesz egyenlő. A két módszer kö- zötti választás a megfigyelt jelenség jellegéből következik. A természeti folyamatokat a tér- elemzés inkább determinisztikus, a társadalmiakat főleg a véletlen mozzanatokat tartalmazó sztochasztikus eljárással elemzi.

A szerző röviden bemutatja, milyen egyéb determinisztikus technikákat alkalmaz a geostatisztika az inverz távolságsúlyozás mel- lett, majd ismerteti a krigeléssel történő becslé-

2A témával kapcsolatban a következő internetes oldalakat ajánljuk Olvasóink figyelmébe. http://

www.geothink.hu/html/egyetem/geostat/index.html, http://www.rkk.hu/TET/2007_1/TET_2007_1.pdf, http://geogr.elte.hu/REF/REF_Kiadvanyok/REF_RTT_

11/RTT-11-02-adatkezeles.pdf

seket. Az ennek során használt súlyok nemcsak a mérési pontok közötti távolságtól függenek, hanem azok térbeli viszonyától is.

Kvantifikálása (auto)korrelációs függvénnyel történik; fogalmához szorosan kapcsolódik a variogram fogalma, amely a jelenség autokorrelációját fejezi ki az autokorreláció tá- volságával és hatásának irányával. Ám míg a súlyok az IDW módszerénél kizárólag az előre- jelzés pontjától való távolságtól függenek, a krigelésnél a félvariogram szabja meg ezeket, amely egyrészt tartalmazza az előrejelzés helyé- től való távolságot, másrészt az előrejelzendő pont körüli térbeli viszonyokat. A súlyozás módszerének kiindulópontja, hogy a súlyok ösz- szege 1; ezért – a minta elemeinek azonosságát feltételezve – összességében minimalizálja az első mérési pont és az előrejelzési pont közötti különbséget. A feladathoz alkotott mátrix az összes megfigyelési pontpár félvario-gram mo- delljeinek értékét tartalmazza, vektora pedig a félvariogram modellértékeit írja le az utolsó megfigyelt pont és az előrejelzendő pont között.

A mátrix elemei a félvariogram értékének isme- retében számíthatók ki.

A statisztikában a stacionaritás jelentése, hogy az egyes megfigyelések függetlenek egymástól; ezzel szemben a téradatoknál az egyes megfigyelések ugyan függetlenek, ám egy bizonyos hely megfigyelt értékei össze- függnek a szomszédos helyeken tapasztal- takkal, tehát az egyes megfigyelések bizonyos szempontból összefüggnek egymással.

A geostatisztika kétféle stacionaritást ismer:

az átlagos esetében feltételezi, hogy a (térbe- li) minták átlaga konstans és független elhe- lyezkedésüktől. A másik stacionaritás a ko- variancia (a félvariogram esetében „belső”), amely azonos bármely két, egymástól azonos távolságra lévő, azonos irányba mutató hely- nél, függetlenül attól, hol választották ki ezeket. A félvariogram belső stacionaritása fel- tétele annak, hogy a különbségek szórása

(3)

Szakirodalom

Statisztikai Szemle, 87. évfolyam 6. szám 664

azonos lesz bármely két hely között, amelyek távolsága és iránya elhelyezkedésüktől füg- getlenül azonos. A tapasztalati félvariogram az adott csoportokra osztott pontpárok átla- gos értékeit tünteti fel az y tengelyen, míg a csoportokra osztott pontpárok távolságait az x tengelyen veszi fel.

Az ezt követő lépésekben a tapasztalati érté- keket modellekben dolgozzák fel. Ebben a tekin- tetben a legfontosabb a módszer megválasztása, vagyis annak a függvénynek a meghatározása, amely a leghívebben ragadja meg a térbeli korre- láció lefolyását. A szerző a továbbiakban ezeket részletezi, szerepeltetve közöttük a Krige-ről el- nevezett módszereket, kitérve a modellezések elemzésének és értékelésének eljárásaira.

A térbeli előrejelzés minőségét két összete- vő befolyásolja: az adatokban rejlő általános trend, valamint a hatástávolság. Az anizotrópiát (a változó hatástávolságát) az adatokban a geostatisztika eleve ismeretlennek tekinti, s a modellekben véletlenszerű hibaként kezeli. Az anizotrópia ellentéte az izotrópia, vagyis az irá- nyok szerint egyenlő módon kiütköző jelenség, amikor is a fizikai sajátságok függetlenek az iránytól. Az anizotrópia hatásának kiszűrését követően alkalmazható a tapasztalati fél- variogram és a kovariáciafüggvény a konkrét Krige-módszer paramétereinek becsléséhez.

Holka László,

a Központi Statisztikai Hivatal vezető főtanácsosa E-mail: laszlo.holka@ksh.hu

Kiadók ajánlata

WINKLER, O. W. [2009]: Interpreting Economic and Social Data. (Gazdasági és tár- sadalmi adatok értelmezése.) Springer. New York.

A könyv a társadalom- és gazdaságstatisz- tika leíró funkciójának újbóli megerősítésére irányul, áthidalva ezzel egyrészt a mai statisz- tikaelmélet, másrészt a társadalom ökono- metriai és matematikai modelljei közötti űrt. A szerző ezt az adatok és a módszerek alaposabb megértésének lehetőségét biztosítva éri el meglepő látásmódja útján, ami a hat évtizedes oktatói, tanácsadói munkája és a statisztikai adatfelvételek során szerzett tapasztalatainak eredménye. A statisztikaelmélet szokásostól eltérő megközelítésével számos előítéletet megkérdőjelez az aggregálással, az idősorok- kal, az indexszámokkal, a gyakorisági elosz- lással, a regresszióanalízissel és a valószínű- ség-számítással kapcsolatosan. A kötet a sta- tisztikát más, kvantitatív szemléletű területek- kel (például a számvitellel és a földrajzzal) is

összeköti. A könyv, melynek megértéséhez elegendő az elemi statisztikaelmélet ismerete, üzleti, közgazdasági és társadalomtudományi tárgyakat hallgató diákok, illetve oktató egye- temi/főiskolai tanárok, valamint társadalmi- és gazdaságiadat-felhasználók számára íródott.

ZUUR,A.F. ET AL. [2009]: Mixed Effects Models and Extensions in Ecology with R.

(Kevert modellek és kiterjesztett módszerek ökológiai alkalmazásai az R programcsomag- gal.) Springer. New York.

A szerzők – Zuur, Ieno és Smith „Ökológiai adatok elemzése” (Analysing Ecological Data) című, 2007-ben megjelent sikeres könyvére építve – részletes bevezetést nyújtanak a reg- resszió alkalmazásába és kiterjesztéseibe az ökológiai adatelemzésben. Csakúgy, mint a ko- rábbi kötetben, ebben is posztgraduális ökológi- ai tanulmányokból, illetve kutatási projektekből vett valós adatállományokat használnak. A könyv első része főleg nem matematikai beve-