Robosztusság a statisztikában

(1)

ROBUSZTUSSÁG A STATISZTIKÁBAN

DR. MARTON ÁDÁM

A ,,robustness" (robusztusság. erőteljesség) fogalmát mint matematikai statisz-

tikai eljárások tulajdonságát az irodalomban. de a különböző elemzésekben is egyre gyakrabban használják. Bevezetése az 1950—es évek elején valószínűleg G. E. P.

Boxtól származik. Meglehetősen tágan értelmezett s éppen ezért nehezen definiálha- tó tulajdonság. Lényege M. (3. Kendall és W. R. Bucklancl szerint1 a következő: való- színűségi megfontolásokon alapuló számos próba, eljárás pontossága az őket gene- ráló mechanizmusra tett feltételektől függ. azaz attól. hogy az alapsokaság normális vagy más ismert eloszlást követ. Ha a következtetéseket kevésbé érinti a tett feltéte—

lektől való eltérés, azaz ha a próbák szignifikoncia pontjai kevéssé változnak, ha az alapsokaság a normálistól (vagy az eloszlásra tett egyéb feltételtől) elég lénye- gesen különbözik, akkor a következtetésekre vonatkozó próbákat robusztusnak ne- vezzük. Általánosabban egy statisztikai eljárás akkor robusztus, ha nem nagyon ér- zékeny azoktól (: feltételektől való eltérésekre, amelyektől függ. A robusztusság re- latív fogalom. amely az adott feltételekre vonatkozik. Létezik a robusztusság mértéke is. ami lényegében a kiugró értékekkel szembeni érzékenység.2

A robusztusságnak nagy elméleti irodalma van, de a gyakorlati statisztikai munka során alkalmazott módszerekkel kapcsolatban is mind a becslési eljárásokkal.

mind a mintavételi. megfigyelési rendszerek kialakításával kapcsolatban egyre in—

kább előtérbe kerül. A továbbiakban a gyakorlati hasznosítás bizonyos kérdéseit, megfontolásait vázoljuk.

A statisztikai elemző. feltáró munka részben a megnövekedett igények, részben az egyre nagyobb lehetőségeket nyújtó számítástechnikai háttér következtében gyorsan fejlődött. A rendelkezésre álló adatok kihasználtsága növekedett, bővült a mód—

szertani aparátus. viszont ezzel párhuzamosan fokozott gondot kellett fordítani arra, hogy a vizsgált sokaságok mennyiben felelnek meg azoknak a feltételeknek, ame- lyeken az elemzések alapultak. Egyre nagyobb aggodalommal vizsgálják az ered- mények stabilitását. azt, hogy milyen negatív hatása lehet a levont következtetésre

annak. hogy a tett feltételek nem mindig teljesültek.3

Vizsgálat tárgyává tették például azt. hogy különböző módszerek esetében milyen hatóssal lehet a levont következtetésre az. ha valami a normálistól ilyen vagy amolyan értelemben eltérő eloszlású. jóllehet normális eloszlást tételeztek fel; vagy

* A dictionary of statistical terms. 3. kiad. Oliver and Boyd. Edinburgh. 1971. 166 old.

?ldLásd: Kerékly Pál: A robusztus becslésekről. Alkalmazott Matematikai Lapok. 1978. évi 3—4. sz. 327—

357. o .

3 Nyomatékossan fel kell hívni a figyelmet a matematikai statisztikai eszközök mechanikus. nem eléggé körültekintő alkalmazásának veszélyeire. illetve a használni kívánt módszer alapjául szolgáló feltételek tel—

jesülése ellenőrzésének szükségességére. Ez alól a robusztus módszerek alkalmazása sem mentesít, tekintettel azok viszonylagosságára.

(2)

906 DR. MARTON ADAM

a változók között függőség van, bár függetlenségen alapuló módszert használtak;

sok esetben problémát okozott a stacionáriusság hiánya stb. Ezek a problémák új módszerek kidolgozásához vezettek, amelyek robusztusabbak. mint a hagyományos módszerek. Ennek azonban .,ára" is volt, mivel a ..valamit valamiért" elv itt is érvé- nyesül. Más szavakkal ez azt jelenti. hogy valamely sokaságból csak azokat az in- formációkat lehet megkapni. amelyek abban benne vannak. Ezért az újabb mód—

szerek — párhuzamosan néhány adott szempont szerinti robusztusság növekedésével

—— általában kevésbé robusztusakká váltak más feltételekkel szemben, hatékonyságuk csökkent. számítástechnikai kezelésük nehézkessé vált stb.

A robusztus módszerek elterjedésében valószínűleg az is szerepet játszott, hogy a számítástechnikai lehetőségek gyorsabban fejlődtek, mint a software-ek, s így

gyakran előfordult, hogy nagy anyagokat nem az arra legalkalmasabb programok

alapján dolgoztak fel. így a robusztus módszerek végeredményben kiegészítő. kise—

gítő szerepet is játszottak a klasszikus statisztikai módszerek mellett.4

A robusztus technikák kidolgozása nemcsak csökkentette a nem tökéletes mo-

dellek vagy hamis adatok miatt adódó félrevezető következtetések esélyét, hanem a torzítás csökkentése mellett megkönnyítette a szórás becslését is. (Ilyen módszer pél- dául az ún. .,Jackknifing"). A számítástechnikai alkalmazások is gyorsan fejlődtek

például a nagy tömegű adatok feldolgozása. grafikus ábrázolása tekintetében.5

A robusztusság fogalma az alkalmazási területtől függően konkretizólódott.6 Például egy becslő függvény (esztimátor) akkor robusztus a lehetséges változatok- kal szemben. ha azok egyikének szórása sem sokkal kisebb, mint a szóban forgó becslő függvényé. A számtani átlagnál kevésbé érzékeny az esetleges ingadozá—

sokra a medián, a regressziós együtthatók becslésénél az abszolút eltérések mini—

malizálása, mint a legkisebb négyzetek módszere. A gyakran használt csonkított

minta (például a szélsőséges megfigyelési értékek elhagyása) úgyszintén az eredeti

mintánál robusztusabb eljáráshoz vezet. Általában megfigyelhető. hogy az elmúlt 10—15 évben jelentős módon kibővültek azok a kutatások. amelyek robusztus eljá- rásokat keresnek olyan esetekre. amikor az a valószínűségi mechanizmus. ami az adatokat generálja. nem tekinthető egészen normális eloszlásúnak. A robusztusság lényege becsléselméleti szempontból tehát az. hogy olyan függvényeket kell keresni.

amelyek kiugró értékekre kevésbé érzékenyek. Az a törekvés, hogy a becslési mód—

szerek minél robusztusabbak legyenek az alapsokaságra tett feltételekkel szem—

ben, elvezetett olyan módszerek kidolgozásához. amelyek egyáltalán nem függnek az alapsokaság eloszlásától. Ezek az ún. nem paraméteres módszerek. amelyeknek természetesen előnyeik mellett bizonyos hátrányaik is vannak.

A robusztus becslési eljárásoknak mind ez ideig kevésbé kidolgozott alkalma- zósi területe az idősorok elemzése. Ezzel foglalkozott R. D. Martin, A. Samarov és W.

Vandoele.7 Tanulmányuk mottója. hogy Box és Jenkins forradalmasította az előrejel- zések elméletét, de módszereik nem nyújtottak védelmet a szélsőséges adatokkal vagy

a különböző ,.szennyeződésekkel" szemben.

Martin és társai egy olyan iteratív eljárást javasolnak, amelyben egy egyszerű algoritmus a kiugróan magas vagy alacsony (hiányzó) adatok helyett a modellbe illő

értékeket generál. Ezek a ,,filterek" lehetővé teszik az ARlMA—modellek paraméte-

4 Lásd például: W. !. !. Rey: Robust statistical methods. Springer Verlag. Berlin—Heidelberg—New York.

1978. VI. 128 old.

5 Mallows, C. L.: Robust methods — Some examples of their use. The American Statistician. 1979. no- vember. 179—184. old.

'5 Lásd például: International encyclopedia of statistics. l—ll. Free Press — Macmillan. New York —— Lon- don. 1978. XXI. 666. illetve 1350 old.

7 Martin, R. D. — Samarov, A. -—- Vandaele, W.: Robust methods for ARIMA models. Technical Report.

Na. 29. Alfred P. Sloan School of Management. M. I. T. Cambridge. Massr 1981.

(3)

ROBUSZTUSSAG 907

reinek biztonságos becslését, illetve megakadályozzák azt, hogy az adatok bizonyos kis szegmenseinek hiányosságai hibás paraméterekhez vezessenek. Segítségükkel szükség esetén lehetővé válik a modell módosítása is.

Az utóbbi években a mintavételi módszerekkel kapcsolatban is egyre többször fordul elő a robusztusság fogalma abban az értelemben, hogy a különböző hibák milyen mértékű eltéréseket okoznak, pontosabban a különböző eredmények mennyi- re érzéketlenek a mintavétel kisebb hiányosságaira.

A különböző összeírások nagyon komplex erőfeszítések eredményei, és nyilván—

való, hogy arra kell törekedni, hogy annak végrehajtása egyszerű és megbízható le—

gyen a tervezés, a felvétel, az összesítés, a feldolgozás, a végső elemzés során. Nem küszöbölhető ki teljesen az .,emberi tényező" sem. s törekedni kell arra, hogy an—

nak hatása is a lehető legkisebb legyen. (Ebben az értelemben a robusztusság lé- nyegében az érzéketlenség, a praktikusság fogalmának felel meg.)

A mintavételi technikáknak több konkrét aspektusa vizsgálható a robusztusság szempontjából. Nagyon lényeges tudni azt, hogy milyen változások milyen hatással vannak az eredményre. Ennek ugyanis fontos konzekvenciája. hogy a becslési eljá- rás mely részének pontosítására, javítására célszerű törekedni. Például lehet, hogy a súlyozási rendszer változása a becslés szempontjából nem nagyon lényeges. Ilyen- kor nem érdemes sok energiát fordítani a súlyok pontosítására. Természetesen azért az nem mellékes, hogy önsúlyozásról van—e szó, vagy a súlyozási rendszer valamilyen módon kívülről adott. Minden esetben jó lenne ismerni a ráfordítás—kibocsátás vi—

szonyt, vagyis azt, hogy milyen erőfeszítések árán milyen eredmények érhetők el. Ál- tolában azonban nem megoldott az a probléma, hogy a mintavételi tervtől való el- térés — számszerűen — mennyiben érinti az eredményt.8

A robusztusság szempontjából a mintavételi technika kialakítása során cél—

szerű vizsgálni többek között az egyenlő valószínűségekkel történő kiválasztás elő- nyeit, a súlyozás egyszerű módszereit, a mintavételi arány ellenőrzésére szolgáló eljárásokat, az egyszerű kiválasztási módszerek hierarchikus rendszerét, a minta- vételi hiba meghatározásának problémáit.

A jó gyakorlati utasítások elengedhetetlenek bármely felvételről legyen is szó.

Ez egyaránt vonatkozik arra, hogy miként kell az általában nem statisztikusok által végrehajtott felvételek során a különböző kérdéseket értelmezni, valamint arra. hogy

milyen rendszer szerint kell a megadott címeket felkeresni stb.

A robusztus technikák széles skálája képzelhető el, s vannak ugyan általános módszerek — mint amilyeneket említettünk —. de sokszor attól függnek, hogy milyen a vizsgált sokaság természete. Például az árindexek értéke nemcsak az árváltozás mértékétől. hanem a megválasztott súlyozási rendszertől is függ. Viszont olyan eset—

ben, amikor nincsenek nagyon szélsőséges ármozgások, az árindex a súlyozási rendszer kisebb változására szinte alig reagál, azaz ebből a szempontból robusztus.

A nagyméretű felvételek mintavételi terveinek és becslési formuláinak robusztus- ságát vizsgálja K. R. W. Brewer tanulmánya9 abban a gyakori esetben, amikor az alapsokaság elemei nagyon különböző méretűek: például ha termelő vagy keres- kedelmi vállalatok megfigyeléséről van szó. Az ilyen mintavételi tervek általában az alapsokaság elemeinek mérete szerinti rétegzést is tartalmaznak. A méret szerinti rétegzés ugyan csökkenti a mintavételi hibát, de csak nagyon kis mértékben, viszont emiatt a különböző tulajdonságok szerinti rétegzés szórást csökkentő hatása romlik.

8 Lásd bővebben: L. Kish: Robustness in survey sampling. Proceedings of the 41st session. Bulletin of the International Statistícal Institute. 1977. évi 3. sz. 515—528. old.

9 A class of robust sampling design for large-scale surveys. Journal of the American Satisfical Asso- ciation. 1979. december. 911—915. old. Lásd még ugyanebben (: folyóiratban: Scott, A. I. — Brewer. K. R. W. - Ho, E. W. H.: Finite population sampling and robust estimation. 1978. június. 359—361. old.

(4)

908 DR. MARTON ÁDÁM

A tanulmány néhány olyan gyakorlati jelentőséggel bíró eljárást ismertet. amelyek aszimptotikusan torzítatlanok. robusztusak, jó hatékonyságúak. s feleslegessé teszik

az alapsokaság elemeinek mérete szerinti rétegzést.

F. R. Hampel, 1973-ban megjelent művében10 a robusztus módszerek használa- táról a következőket írta: .,Mi a robusztus becslőfüggvények célja? Acljuk talán fel azokat a jól ismert és egyszerű modelljeinket mint például a szép szóráselemzést, az erőteljes regressziót vagy a messzevezető többváltozós kovariancia mátrixot? A vó- lasz az, hogy nem. de nagyon előnyös lenne kissé módosítani azokat. Valójában egy jó statisztikus már elvégezte ezeket a változtatásokat. kötetlen formában; a mi dol—- gunk a megfelelő elmélet kidolgozása. A teoretikus kidolgozás valószínűleg azzal az előnnyel jár, hogy jobban a mélyére tekinthetünk e változtatásoknak, tökéletesíthet—

jük az alkalmazott módszereket (még bizonyos értelemben a teljesen rutin módsze-

reket is), és lehetőséget adunk az elméleti matematikusoknak, hogy közreműködje-

nek a problémák megoldásában. Lehetségesek hátrányos következmények is. mint például az. hogy az elméleti eredmények bővülésével párhuzamosan egyre keve- sebben fogják a megoldásokat megérteni.

Mi indokolja a robusztus eljárások alkalmazását? Alapvetően két megfontolás kombinációja adja meg a választ. A statisztikában gyakran olyan paraméteres mód- szert alkalmazunk, amely a valószínűségi eloszlások nagyon szűk körére épül, azt fel- tételezi. hogy a hibák normális vagy exponenciális eloszlásúak. A klasszikus (para—

méteres) statisztikák abból indulnak ki, hogy ezek a feltételek pontosan teljesülnek.

Néhány kivételes esettől eltekintve azonban ezek a feltételek sohasem teljesülnek.

Az eltérések három fő oka különböztethető meg: 1. kerekítési. csoportosítási és egyéb helyi pontatlanságok; 2. mérési hibák, rossz helyre tett tizedespontok, másolási hi- bák vagy egyszerűen csak valami éppen rosszul ment; 3. a modell maga is minden- képpen csak közelítés, a központi határeloszlás tétel ad csak valami reálitást a tett

feltételezéseknek."

A robusztus módszereknek tehát — mint láttuk — a gazdaság— és társadalom- statisztikai elemzésekben számtalan előnyük van. lgy egyrészt az, hogy az alkal- mazásukhoz szükséges elméleti feltételek közelebb állnak a valósághoz. másrészt az.

hogy kevésbé érzékenyek a hibás vagy szélsőségesen viselkedő. a vizsgált folya- matra általában nem jellemző adatokra. jó alapot adnak a jelenségek megisme- résére. Éppen ezért törekedni kell e módszer minél szélesebb körű alkalmazására.

PE3l—OME

B cramcrnxe Haute scero npuMéHancn Tam—le unapamerpmecuuen METOAH, KOTopble OCHOBbIBal—OTCSI Ha Y3KOM prry Bepon'mocmux pacnpenenenuü " Tpeőyior TOHHOI'O ocy- mecmnenm ycnoauü. ÖAHBKO sa ucxmouenuem peAKux cnyuaea BBHAY pasnwunblx He—

'rouHocreü mm XapaK'chu ocnoauux cosonynnocreü YI'IOMHHYTble ycnoaun He ocymecrans- tOTCSl. B TOM cnyuae, enm oTKnoneH'i—m OT ycnosm'i a Heőonbwoü mepe anumot Ha BbIBOAbl, anMeHneMble MGTOAbl unablaaioTcs pOÖYCTHbIMH.

ABTOp OTMeuaeT, mu nccnersaHne poöycmoro xapau'repa B Tennem—ie nocneAHux neT nana pesynuarbi, sacuymnaaroume en:—manna " c page npam'mecmx Touex 3peHHSI. 31-01 nogxon MomeT B auaumenbuoü Mépe COKpaTHTb npoőneMbr, BOSHHKBIOLUMe s xone Bblőo- pounblx oőcnenosaunű, ouenon, ananusa BpeMeHHle pnAoa, oőpaőomu naHme " coor- aercraeHHo, pememm annal-l B oőnacm ucuncnenun nnnexcoa, HOCKOHbe a 3TOM cnyuae

10 Hampel, F. R.: Robust estimotion: A Condensed partial survey. Zeitschrift für Wahrscheinlichkeit stheorie und verwandte Gebiete. 1973. évi 2. sz. 87—184. old.

(5)

ROBUSZTUSSAG 909

nocroaepHocrb ABHHle a MeHbmeü Mepe saancm or HeCKOJ'IbKHX omuőouuux p.aHme, or omnoueuun or npeAnonaraeMoro pacnpeneneum, o'r pacxomAeHuü a Tonxoaamm p6311w4- Hblx yKasaHuü " T. a.

SUMMARY

Statistics most freauently applies .,porametric" methods based on limited sphere of probability distributions and reauiring accurate fulfilment of the hypotheses. Apart from rare events, however. they are not fulfilled due to certain ínaccuracies or to characteristic features of the population. The methods applied can be taken for robust ones if departure from the postulates affect but Slightly the implicatíons.

The study directs attention to the fact that the analysis of robustness recently provided results remarkable from several practical aspects. The results can considerably diminísh the problems which arise in solving the tasks of sampling, estimation, time series analysis data processing, index calculation in such a way that reliability of the results depend to a lesser extent on a few biased data, on the deviation from the hypothetic distribution, on misinterpretation of various instructions etc.