Fienberg, S. E.: A statisztika rövid története

(1)

STATISZTIKAI IRODALMI FIGYELÖ

KÚLFÖLDI STATISZTIKAI I RODALOM*

A STATISZTIKA ÁLTALÁNOS ELMÉLETE És MÓDSZERTANA

FIENBERG S. E.:

A STATISZTIKA RÖVID TÖRTÉNETE

(A brief history of statistics in three and one-half chsp- ter: a review essay.) —— Statiuieal Science. 1992. 2. sz.

sos—225. p.

A tanulmány, eredeti rendeltetését tekint- ve egy könyv ismertetése és bírálata, mely a Valószínűség-számításokat és általában a Statisztika történetével foglalkozó következő hét monográfiát értékeli:

Daslon, L. F.: Classical probability in the enligbtenment.

Princeton Univ. Press. 1988.

Gigerenzer, G.: The empire of chance. How probability changed science and everyday life. Cambridge Univ. Press.

1989.

Halal, A. : A history of probability and statistics and their applications before 1750. Wiley. New York. 1990.

The ptobabilistic revolution. l. köt. Ideas in history.

Szerk.: Krüger, L. MIT Press. 1987.

The probabilistie revolution. 2. köt. Ideas in the sciences.

Szerk.: Krüger, L. Press. 1987.

Porter, I. M.: The rise in statistical thinking, 1820—1900.

Princeton Univ. Press. 1986.

Sligler S. M. : The history of statistics: the measurement of uncertainity before 1900. Harvard Univ. Press. 1986.

A szerző azonban messze meghaladja a ki—

tűzőtt célt: a bemutatott kötetekre támasz—

kodva önálló és átfogó képet ad a statisztika tudományának mintegy három évszázados fejlődéséről.

E hosszú fejlődéstörténetet a szerző négy szakaszra bontva tárgyalja; ez a négy szakasz alkotja a tanulmány négy —— pontosabban három és fél —— fejezetét. Az első, 1750-ig tartó periódus az előtörténet: közel száz esz- tendő eredménye a klasszikus valószínűség- elmélet kialakulása. A második, l750-től 1820-ig terjedő szakaszban jelenik meg a

statisztikai következtetés gondolata; ezt a bő

fél évszázadot tekinthetjük a matematikai statisztika kezdetének. A harmadik, 1820 és 1900 közötti periódus fő eseménye a reg—

resszió- és korreláció-elemzés módszerének

kidolgozása. Végül a negyedik szakasz a szá- zadfordulótól egészen napjainkig tart; a leg- frissebb eredmények azonban ma még nem ítélhetők meg kellő megalapozottsággal, ezért a szerző csak az 1950—es évekig tárgyalja e periódus történéseit.

Hol kezdődik a statisztika története? ——

ez az a kérdés, amellyel mindenkinek szembe kell néznie., aki e tudomány előzményeit kutatja. Ha abból indulunk ki, hogy minden tudományban szükség van mérésre, a statisztika pedig nem más, mint a mérés logikája, akkor a statisztika történetének át kell fognia valamennyi tudomány történetét. Ez azonban túlságosan parttalan felfogás; célszerűbb- nek látszik egy szűkebb értelmezést elfogadni s ennek megfelelően időben későbbre tenni a szorosan vett statisztika kezdeteit. Sokan J. Graun! munkásságát tekintik kiinduló- pontnak, s valóban Graunt demográfiai vizsgálatai joggal nevezhetők a modern kvantitatív adatelemzés előképének. E vizs- gálatok azonban tisztán leíró jellegűek., hiányzik belőlük a statisztikai gondolkodás magvát alkotó valószínűségi szemlélet. He- lyesebb ezért inkább azoknak a tudósoknak

—— a XVI. században élt olasz matematikus G. Cardano, majd a francia B. Pascal, még később pedig J. Bernoulli és A. de Moivre — nevéhez kötni a statisztika kialakulását., akik úttörő szerepet játszottak a valószínűségen alapuló statisztikai módszerek kidolgozásá- ban.

A klasszikus valószínűség-elmélet gyökerei

— amint azt a tudománytörténészek úgy- szólván mindegyike megjegyzi —— a szerencse- játékhoz nyúlnak vissza. Ugyanakkor azonban látni kell azt is, hogy az e kérdéskörrel foglalkozó tudósok közül sokan (például Pascal) mélyen hívő emberek voltak, akiknek gondolkodását elsősorban teológiai —— Isten

" A Statisztikai Szemle 1962. júliusi számától kezdődően a "Statisztikai Irodalmi Figyelő"—ben a külföldi statisztikai könyvek és folyóiratoikkek ismertetését havonta közli.

A Külföldi statisztikai irodalom egyes fejezetein belül az anyag általában könyv— és folyóiratcikk-ismertetésekre tago- lódik. (Ezeket ' választja el egymástól.) Az ismertetések szerzők, illetve ahol szerző nincs, a címek betűrendjében következ—

nek egymás után.

(2)

182

STATISZTIKAI IRODALMI FIGYELő

létével és szerepével kapcsolatos —— problémák foglalkoztatták. Erdekes módon e tudósok szinte kivétel nélkül hittek a világ determi- nisztikus jellegében —— abban, hogy Isten semmit sem hagy a véletlenre ._., mégis a vé- letlen, a valószínűség törvényeit kutatták.

Bár a statisztika történetének ebben az első, a XVIII. század közepéig tartó szaka—

szában jött létre az, amit ma klasszikus való—

színűség-elméletnek nevezünk, a valószínű- ségi szemlélet adatok elemzésére történő alkalmazása még váratott magára. Az adat- elemzésnek azok a példái, amelyek ezen idő- szakból származnak —— mindenekelőtt a már említett Graunt halandósági vizsgálatai — döntően leíró jellegűek voltak, s nem támasz- kodtak a véletlen és a bizonytalanság fogal- mára. Ugyanakkor azonban a későbbiekben épp Graunt munkássága ösztönzött számos olyan kutatást, amelyek már felhasználták a valószínűség-elmélet eszköztárát. Igy például J. Arbuthnot a binomiális modell alkalmazá- sával igyekezett ellenőrizni Grauntnak a nemek arányára vonatkozó megállapítását, a holland matematikus és fizikus, Ch. Huygens pedig valószínűségi értelmezést adott a Graunt által kidolgozott halandósági táblá- nak.

A statisztika történetének második, 1750- től 1820-ig tartó szakaszát két, egymáshoz szorosan kapcsolódó áramlat jellemezte. Az egyik a valószínűségen alapuló következtetés gondolatának megjelenése, a másik pedig a legkisebb négyzetek módszerének kialakulása.

A valószínűségi következtetés területén min- denekelőtt T. Bayes és P. S. Laplace alkotott maradandót; az előbbi nevéhez fűződik töb- bek között a két esemény feltételes, illetve feltétel nélküli valószínűsége közötti kapcso-

latot leíró ún. Bayes-tétel, az utóbbiéhoz

pedig a központi határeloszlás tétele, amelynek segítségével igazolható, hogy független valószínűségi változók összege közelítőleg normális eloszlású.

Az áramlat másik ágát ebben az idő- szakban azon általános statisztikai meg- közelítésmód kidolgozása jelentette, amelynek eélja különböző megfigyelések össze- kapcsolása volt, s amely végül elvezetett a napjaink statisztikai elemzéseiben meghatá- rozó szerepet játszó legkisebb négyzetek mód- szeréhez. Mindezen fejlemények mögött alap- vetően a csillagászat gyakorlati problémái álltak: ezen problémák megoldására javasolta ]. T. Mayer a matematikai egyenletek kom- binálásának s ezen keresztül redukálásának azt az újszerű módját, amelyet azután Lap- lace fejlesztett tovább, s amely 1805-ben A. M. Legendre révén nyerte el végső, a legkisebb négyzetek módszereként ismert for- máját.

Hogyan kapcsolódott egymáshoz a statisztika története második periódusának ez a két

fő vonulata? A döntő fordulat a nagy német matematikus, C. F. Gauss munkássága volt, aki 1809-ben megjelent művében igazolta a normális eloszlású hibatényezők alkalmazását lineáris egyenletrendszerekben. Ez a tanul- mány nagy hatással volt Laplace-ra, aki fel—

ismerte, hogy a hibatényezők normális eloszlása az általa kidolgozott központi határ- eloszlás tételből is levezethető. így épült be a valószínűségi szemlélet a legkisebb négyzetek módszerének alkalmazásába, s így jött létre az, amit Gauss—Laplace-szintézisnek nevez- hetünk. Ez a szintézis valóban forradalmi jelentőségű volt: a hibák normális eloszlására vonatkozó elképzelések ötvözése a legkisebb négyzetek elvén nyugvó görbeillesztési eljá—

rással egy olyan valószínűségi alapú adat- elemzési módszert eredményezett, amelynek napjainkban is kiemelkedő helye van a statisztika eszköztárában.

A statisztika fejlődésének harmadik, 1820- tól 1900-ig tartó szakasza az elért eredmények tekintetében két kisebb periódusra tagolható.

Az 1870—es évek végéig nem történt igazi át—

törés a módszerek tökéletesítésében. A belga csillagász és matematikus, A. Ouetelet mun—

kássága —— így az ,,átlagember" fogalmának bevezetése —, továbbá a valószínűség új- fajta, objektív gyakoriságként történő értel- mezésének a megjelenése kétségkívül gazda- gította a tudományt, mégsem ért fel az előző korszak nagy felfedezéseivel: a legkisebb négyzetek módszerének a kidolgozásával s e módszernek a normális eloszlással való össze- kapcsolásával.

Az 1880-as évektől azonban lényegesen fel- gyorsultak az események: az angliai ,,négyes- fogat" F. Galton, F. Y. Edgeworth, K.

Pearson és G. V. Yule tevékenységének köszönhetően ebben az időben születtek meg azok a módszerek _ a korreláció- és reg- resszió-számítás, valamint a x—négyzet próba

—, amelyek a modern statisztikai elemzés magját alkotják. Ha az előző korszak be- tetőzéseként Gauss—Lap]ace-szintézisről be- széltünk, úgy erre a korszakra egy újabb, második szintézis tette fel a koronát: az, amelynek révén Yule a korreláció- és reg—

resszió-számítás terén elért eredményeket összekapcsolta a korábbi periódus nagy telje- sitményeivel: a legkisebb négyzetek mód- szerével és a hibák normális eloszlására vo- natkozó elképzelésekkel.

A statisztika történetének negyedik, a szá- zadfordulótól napjainkig tartó szakaszát a szerző csupán az 1950-es évekig követi nyo- mon. Ennek a mintegy fél évszázadnak az angol R. Fisher és a lengyel J. Neyman voltak meghatározó személyiségei. Mindkettőjük munkássága két rendkívül fontos területet foglalt magába: egyrészt a hipotézisek ellen- őrzésének, a szignifikancia-tesztnek a kérdé- sét, másrészt pedig a randomizálás, vagyis a

(3)

STATISZTIKAI IRODALMI FIGYELő

183

véletlen elvén alapuló kísérletezés, illetve a véletlenszerű kiválasztás, a mintavétel problémáját. Ez utóbbi témakörben tevé- kenységük forradalmi újszerűsége abban rej- lett, hogy a véletlen elemét a kutatás- tervezésen keresztül vitték be a statisztikai elemzésbe. A hagyományos felfogás szerint — s ezt a felfogást tükrözte a Gauss—Laplace- szintézis is —— a véletlen a természet sajátos- sága; a Fisher és Neyman által kidolgozott módszerekben ezzel szemben a véletlen tuda—

tos emberi beavatkozás eredménye. A rando- mizálás, illetve a véletlen mintavétel segít- ségével a kutató mintegy mesterségesen idézi elő azt, amit a korábban eredendően meg- levőnek, a természet szerves részének tartot- tak.

A tanulmány legvégén Fienberg visszatér a szorosan vett könyvbírálathoz, s egyenként értékeli a korábban említett hét kötetet, s fel- állít egy —— a kötetek értékét tükröző —— fon- tossági sorrendet. Első helyen S. M. Stigler művét ajánlja egyrészt szakmai alapossága, másrészt a technikai részletek és a kortörté- neti háttér kiegyensúlyozott tárgyalása, har- madrészt pedig a szerző élvezetes stílusa

miatt. Ezt követi I. M. Porter munkája, a

lista végére pedig A. Hold könyve került.

(Ism.: Moksony Ferenc)

KISH, L.:

SÚLYOZÁS KÚLÖNBÖZÖ Pi—k KERETÉBEN

(Weighting for unegual Pi.) — Journal of Official Slatistics.

1992. 2. sz. 183—200. p.

A reprezentatív felvételek megfigyelt ada—

tainak súlyozása a becslések, az eredmények értékelése szempontjából kulcsfontosságú.

Bármilyen felvételről legyen is szó, mindenek- előtt az egyedileg megfigyelt adatok átlago- lását vagy felszorzását kell pontos módon elvégezni. A szerző véleménye szerint azonban e problémákat nem lehet egyszerűen megoldani. A tanulmányban a súlyozással kapcsolatos kérdések megválaszolásához kí- ván segítséget nyújtani igen bőséges szak- irodalommal, valamint azáltal, hogy rá- irányítja a figyelmet a legalapvetőbb kér- désekre.

Néhány súlyozással kapcsolatos tipikus kérdés: a nagysággal arányos valószínűségi

kiválasztás és az annak megfelelő súlyozás;

mikor kell, kell-e egyáltalán a megfigyelési adatokat súlyozni; figyelembe kell-e venni a nemválaszolási arányokat; mikor függ erősen a becslés eredménye a súlyozástól; hogyan határozhatók meg a megfelelő súlyok; hogyan alkalmazhatók a súlyok; hogyan végezhető el a súlyozás gyakorlatilag számítógépekkel.

A szakirodalom az egyenletes és független eloszlású valószínűségű változók kapcsán

általában szükségesnek tartja a súlyozás említését. A mintavételi módszerek ugyanakkor leginkább a kiválasztási eljárásokat ismertetik. A felvételi tervben azonban a kiválasztás és a becslés nem választható el egymástól. így a súlyozás megoldása valójá- ban része mind a kiválasztási, mind a becslési eljárásnak. A szakkönyvek azonban a súlyo- zást nem egy esetben csak bizonyos részleges összefüggéseiben tárgyalják, mint például a rétegzés, a nemválaszolás vagy a szórás csökkentése.

A súlyozással kapcsolatos irodalom több irányból közelíti meg ezt a kérdést. A szerző nagyon gyakorlati megközelítésből kiindulva segítséget próbál nyújtani a szakembereknek annak eldöntésében, hogy miért, mikor és hogyan kell a megfigyelési adatokat súlyozni.

Tökéletes, minden szempontból kielégítő megoldásokat természetesen nem lehet talál- ni, de azt végül is el kell dönteni, hogy nem egyenlő kiválasztási valószínűségek mellett miként súlyozzunk, illetve milyen modelleket használjunk.

A súlyozás szükségessége mellett két szem- pontot sorol fel a tanulmány. Ezek a követ—

kezők:

— nem azonos valószínűséggel történő kiválasztás a költ- ségek és a szórás csökkentése érdekében;

— a minta különböző területekhez, csoportokhoz történő allokációjának korrekciója;

— a mintavételi keret problémáinak csökkentése például olyan esetekben, amikor a kiválasztási egység kis klasztereket jelent, s a megfigyelési egység ezen belül kerül valamilyen módon kijelölésre (például háztartás, személy);

—- a nemválaszolás kiegyenlítése, ami néha a lefedés problémáival együtt oldható meg;

— a becslés javítása például utólagos rétegzés esetén;

— külső kontroll-lehetőségek is a súlyozás felülvizsgálatá- lioz vezethetnek: ilyenek például a célsokaság és a mintára vonatkozó információk, bizonyos megoszlások stb.;

— egyre gyakoribb a különböző minták együttes (kombi- nált) felhasználása, amely valamilyen módon hatással van, illetve kell, hogy legyen a súlyozásra.

A súlyozás gyakorlati megvalósítására négy különböző lehetőség kínálkozik:

-— az egyedi adatok súlyozása, anni különösen gyakori és flexibilis akkor, ha modern számítástechnika áll rendelkezésre (például a P! kiválasztási és az r, válaszolási arányok kombi- nációja); ez azonban nem mindig vezet torzítatlan becslések- hez, valójában célszerű a célsokaság ismert, a kiválasztásnál használt súlyait használni;

—- sok esetben egyes csoportok súlyozott adatainak hasz- nálata a célszerű és ad jó eredményt;

—- sokszor az elerni adatok többszöröse vezet jó súlyozat- lan becslésekhez, különösen a neinválaszolások korrekciójá- nál;

—— bizonyos esetekben indokolt lehet a minta csökkentése elhagyások segítségével, amikor egyes csoportoknál nagyon nagy a kiválasztási arány (ezt a módszert, amely végül is információveszteséggel jár, ritkábban alkalmazzák, de van létjogosultsága az ,,önsúlyozás" biztosítása érdekében).

A tanulmány felsorol néhány olyan esetet is, amelyek a súlyozás ellen szólnak. A súlyo—

zás ugyanis bonyolulttá teheti a számításo- kat még akkor is, ha nagy számítógépek áll—

nak rendelkezésre. A bonyolultság pedig híbaforrást is jelent. A súlyozás esetlegessége