A KEVÉS ELEMSZÁMÚ SOKASÁG STATISZTIKAI SZÁMBAVÉTELE
KERÉNYI GYULA
A tudományos és a gazdasági életben gyakran kell olyan jelenségeket statisz—
tikai módszerekkel értékelni és a megfigyelések eredményeit általánosítani, ame- lyekben a megfigyelési egységek (a statisztikai sokaság) száma kevés, általában 100 alatt van. Az ilyen helyzet gyakori például a szociológiai, pszichológiai, örök- léstani vizsgálatoknál. de szinte mindennapos az orvostudományokban. főként a di- agnosztikus és terápiás megfigyeléseknél, de nem ritka a pedagógiai kisérletek, tesztek értékelése terén sem.
A statisztikai módszerekkel értékelt kevés elemszámú mintára az is jellemző,
'hogy fősokaságuk (a népesség. az állatállomány, a növénymennyiség) gyakran mil—Iiós tételszámú és a választott minőségi osztályban (betegség. hajlam, kivételes
tulajdonság) is sok ezres az egyedszám. A reprezentativ adatfelvétel végrehajtó-
sához a statisztikai tudomány a minta kiválasztására, a mintasokaság nagyságá- nak a megállapítására, a véletlen és a szisztematikus kiválasztásra matematikailag igazolt módszerekkel áll a megfigyelő rendelkezésére (a torzítatlan becslés fogal—ma, a standard hiba fogalma, a konfidencia intervallum, becslés rétegzett mintá- ból stb.). amelyeket gyakorlatilag alkalmazniok kellene az érintett kutatóknak.
Ha a megfigyelési sorozatot következetesen azonos összetételű mintákkal vég—
zik, akkor az eljárás heurisztikusnak tekinthető és elfogadható. A következetesség ekkor azonban különösen fontos követelmény.
A kevés elemszámú statisztikai minták általában 3 elemnél többet tartalmaz—
nak, a felső határ bármely szám lehet, de a százalékos kiértékelés szempontjából mint sajátosat a IDO—at vehetjük. ugyanis ezen érték felett az egyes egyedek súlya a megoszlásban kisebb mint 1 egész, és a minta elemszámát növelve 0 felé kon—
vergál. Ezzel szemben a 100 elemnél kisebb mintáknál az egyedek súlya az össze- tételben - százalékban kifejezve -— 1 és 33,3 értékek közé esik. vagyis IDO-ból 1 elem 'I százalékkal, 3—ból 1 elem 33,3 százalékkal egyenlő. A minta nagysága ugyan a várható eredmények értékeit előre nem határozza meg, de az összetétel mini- mális megváltoztatásával is eltérő eredmények produkálhatók, amelyeknek bizo- nyításban és az állítások cáfolatában manipulációs tevékenységet lehet tulajdoní- tani.
Tanulmányommal azoknak az orvosoknak, szociológusoknak, etológusoknak.
pedagógusoknak és egyéb kutatóknak a figyelmét kívánom felhivni, akik a kor- Iátozott lehetőségek miatt (például anyagi—pénzügyi korlátok, a vizsgálatba be- vonható betegségtípus ritka előfordulása, a vizsgálati kapacitás szűk keresztmet- szete. az eredmények lassú lefolyása stb.) általában 3 és 99 közötti elemszámú
sokaságot figyelnek meg, főként hatáspróbáknál (tesztek) és az általános statisz- tika módszereivel kísérlik meg általánosítani a tapasztalati eredményeket. Fontos—
nak tartom továbbá azt is. hogy a kevés elemsza'mot tartalmazó kísérleti és meg—-
figyelési (kontroll-) minták publikált eredményeit az érintett tudományág szakem—berei is kellő fenntartással fogadhassák.
A CSOPORTKÉPZÉS PROBLÉMÁl
A megfigyelésre, kísérletre kerülő sokaság közös vagy nagy vonalaiban közös ismérveken alapuló összeválogatását statisztikai megfigyelés céljából csoportkép- zésnek nevezzük.
A gyakorlati megfigyelési cél többnyire valamilyen állítás igazolása a kutató vagy ennek objektív bírálata az ellenőrző kutató részéről. A kevés elemszámú min-
tákra általában jellemző. hogy az összetétel egyetlen elemének megváltozása vagy megváltoztatása a várttal ellentétes eredményeket is produkálhat. Az ellenőrzési céllal végzett utóvizsgálatoknál kétféle megfigyelési csoporttal van dolgunk.a) az eredeti vizsgálat csoportja, b) az ellenőrző vizsgálat csoportja.
A két csoportban azonos kísérletekre, tesztekre. próbákra kerül sor egyidejűleg vagy egymás után. A formális logika azonossági törvénye szerint követelmény. hogy az állítás és az ellenőrzése azonos bázison történjék. Ennek érdekében a kontroll- csoport elemei összes ismérvének azonosnak kell lennie az eredeti csoport összes ismérvével, ugyanis a megfigyelési csoportok gyakran több ismérvszintet is tartal—
mazhatnak. (Lásd az 1. táblát.)
1. tábla
Példák a többszintű ismérvekre
Ismérvszint .lel Megnevezés
1. szint (például betegség) 1. érszűkület 2.
stb.,
2. szint (például alanyok) 1.1. érszűkületes férfi 1.2. érszűkületes nő
stb.
3. szint (például az alanyok 1.1.1 szívbeteg érszűkületes férfi egyéb ismérvei) 1.1.2 tüdőbeteg érszűkületes férfi
1.2.1 szívbeteg érszűkületes nő
stb.
Az ismérvszlntek következetes alkalmazása lehetővé teszi. hogy az ellenőrző vizsgálatok csoportjai is hasonló minőségű egyedekből álljanak. Ez különösen fon—
tos. ha az eredeti megfigyelő az ismérvnek egy általános szintjét ismeri (például laikus feltalálók) mint általános jelenséget, miközben a további ismérvek a vizs—
A KEVÉS ELEMSZAMÚ SOKASAG 513
gálat eredményét ennek ismeretében (például a hivatásos kutatók) esetleg ellen-
tétesen befolyásolhatják.Az azonos elemszámú, de eltérő ismérveken alapuló eredeti és kontrollcsoport-
képzésére visszavezethető statisztikai értékeltérést a 2. tábla szerinti példa illuszt—rálja. Megállapítható, hogy az azonos vizsgálat céljára történt csoportképzés alap—
vető hibája az eltérő ismérvek figyelmen kívül hagyásából származik; a kontroll- csoportokat az eredeti csoport ismérvei szerinti hűséggel kellene összeállítani. A.
kontrollcsoportokat általában olyan elbíráló szervek állítják fel, melyeknek na- gyoBb és hatékonyabb tudás- és ismeretanyag áll rendelkezésükre, mint például az amatőr vagy laikus kutatóknak. így a különleges tudásra épített csoportkép- zéssel lényegesen befolyásolhatják, sőt előre meghatározhatják a kísérleti ered—
ményeket.
2. tábla
Az eredeti és a kontrollcsoport szervezése
Állít Cáfol
Eredeti csoport Kontrollcsoport
' L 'k - T d ( S k " —
Vám" meá'eál- 33233" 513555? 39532"- 132333"
zes ismérv zés
l
1.1.3.1. érszűkületl 30 1.1.3.1. 3
1.2.2.1 érszűkület 2 1.2.2.1. 15
12.22. 14
l Összesen 32 l Összesen. 32
Gyógyult 30 Gyógyult 3
Nem gyógyult 2 Nem gyógyult 29
l l
3. tábla
A kontrollcsoportihelyes kiválasztása
(példa)
Eredeti csoport Kontrollcsoport
Véletlen Laikus Megfigyelt Tudomá- Szakszerű Megfigyelt ismérv meg ')e' sokaság _ nyos meg ne— sokaság
vezes Ismerv vezes
1.1.3.1. érszűkület 30 1.1.1.1. 30
1.2.2.1. érszűkület 2 1.1.1.2. 30
1.1.2.1. 30
1.1.2.2. 30
1.1.3.1. 30
1.132. ! 30
1.2.2.1. * 30
12.22. 30
1.3.1.1. 30
1.3.1.2. 30
1.3.2.1. 30
1.3.2.2. 30
1.4.1.1. 30
1.4.1.2. 30
— l Összesen 32 — lÓsszesen 420
Gyógyult 30 Gyógyult 30
Nem gyógyult 2 Nem gyógyult 390
Nem közömbös. hogy a kontrollcsoport elemeinek kiválasztásában az orvosi,
találmányok körében különleges felelősség hárul a zsűrire: például a gyógyszer—, feltaláló a saját megfigyeléseihez olyan egyedeket választ ki —- általában ösztönö—
sen -, akik a gyógyítási módra kedvezően reagálnak, amig a kontrollt végző szerv.
szakemberei erre nincsenek tekintettel, vagyis több ismérvszint szerint választa-
nak ki egyedeket (,,objektiv hozzáállás"). vagy meghatározott ismérvekkel rendel- kező elemeket elhagyhatnak, túlsúlyban állíthatnak be ("szubjektív hozzáállás"),
esetleg az eredeti csoport ismérvei alapján egyáltalán nem helyeznek el egyede—_ket a kontrollcsoportban (.,előítéleten alapuló hozzáállás").
Mindezek ellenére a kutatások ellenőrző vizsgálata szükséges. mivel legalább akkora - ha nem nagyobb -— érdekek fűződhetnek az eredmények elfogadtatásár—
hoz. mint valamely ellenérdek folytán az alaptalan elutasitáshoz.
A helyes, objektív ellenőrző vizsgálathoz a 3. tábla szerint célszerű a mintához az egyedeket besorolni. Az ellenőrző vizsgálat ebben az esetben megerősíti, hogy a jelenség általánosítható—e, vagy csak egy meghatározott ismérvhez kapcsolódik.
A MINTÁK ÖSSZETÉTELÉNEK PROBLÉMA!
A 3—99 elemszómú csoportok képzésében különös jelentősége van az eltérő
"ismérvű elemek arányának. A páros—páratlan számú csoportok (azonos vagy el-
térő ismérvű alcsoportok) között százalékosan egész számú különbségek képezhe—
tők, ha a megoszlást vizsgáljuk. (llyen példát a 4. tábla tartalmaz.) Azonos elem—
szám esetén a megoszlás minden elemre nézve azonos (páros elemek esetén pe—
edig 50—50 százalék). Az egy egész számból ólló számszerű különbséghez kapcso—
lódó megoszlási viszonyszám különbsége - két csoport között — a 0 felé konvergál.
de 100 elemszám alatt l-től a J;— oo -ig tart. konkrétan: 49Jr50299 százalék: 1.010
százalék. 71—8215 esetében: 6.667 százalék. Ez 0 százalékban kifejezett megosz—lási eltérés az elemek valóságos súlyát is jelzi: a kapott tényadatokat legalább ilyen mértékben kell korrigálni, hogy helyes eredményt kapjunk.
4. tábla
Az eggyel eltérő, páros—páratlan elemszámú csoportok megoszlása
Mennyiség Megoszlás (százalék)
a b o—t—b' a b
7 8 15 46.667 53.334
9 10 19 47.368 52,632
11 12 23 47326 52.174
13 14 27 48.143 51.852
15 16 31 48387 51.613
19 20 39 48.718 51.282
29 30 59 49.153 50.847
39 40 79 49.367 50.633
49 50 99 49.495 50505
' a—i—bmlGO százalék.
E százalékosan kimutatható korrekcióra a szociológiai, genetikai. orvosi, bio—
flógiai kutatásoknál feltétlenül szükség van. Nem közömbös ugyanis, hogy a meg—
A KEVÉS ELEMSZAMÚ SOKASAG 515
'figyelt egyedek — az ismérvek alapján — milyen súllyal szerepelnek a vizsgálatok- ban, például az öröklődési vizsgálatokhoz felállított 35 elemszámú mintában a pá- ros—páratlan eltérés (férfi és nő alcsoportok) mintegy 3 százalékos hibahatárt hor- doz magában úgy. hogy a vizsgálat kimeneti értékei csak az egyedek ismérvei (fér—
"fi. nő) egyetlenegy számszerű különbsége esetén legalább i3 százalékkal vál—
toznak.
További hibát jelentenek a csoport elemszámainak meghatározásakor (kije- lölésekor) a kerekítések. százalékos értékelésekor (: két csoport között 099 száza- lékos rést jelenthetnek a megoszlásban. Például a 17 és 18 elemszámú csoportok elemeinek a megoszlásában (: kerekítés a következő:
"17
"_ : O,4857. . . 0.49 és —1—8— : 0.5142. . .
35 35 051
A kerekítési kényszer minden olyan esetben fennáll, ha az egyik csoport elem- száma páratlan.
A kerekítés (: százalékban kifejezett értékeknél általában 2-es értékű rést okoz, amelyből 1-1 jut az egyes hányadokra, ellentétes előjellel. Ebben az esetben arról van szó, hogy jelentős százalékos eltérések is magyarázhatók (: kerekítésekkel, de a jelentősnek látszó eltérések sem tekinthetők szignifikánsnak.
A megoszlási viszonyszámok alakulását a 100 alatti számtartományban egyet—
len elem eltérése is több százalékkal változtatja meg. Az ilyen mintákra fontos az azonos minőségi osztályok felállítása, de egyetlen osztályban kismértékű eltérést alkalmazva jelentős százalékos különbségek is képezhetők. (llyen példát tartalmaz
az 5. tábla.)
5. tábla
Azonos minőségi osztályú,
de eltérő elemszómú csoportok megoszlása
(példa)
Eredeti csoport Kontrollcsoport
Minőségi Elemszám Megoszlás Minőségi Elemszám Megoszlós
osztály (darab) (százalék) osztály (darab) (százalék)
1. A . 8 47,1 A 8 44,4
B . 8 47,1 B 8 44,4
C . __ 1 5.8 C 2 112
Összesen 17 100,0 Összesen 18 100,0
2. A . 8 47,1 A 8 44,4
B . 8 47,1 B 9 50.0
C . 1 5.8 C 1 546
Összesen 17 100,0 Összesen 18 100,0
Az összetételnek általában az állítások és a cáfolatok adatokkal történő be—
mutatásakor a hatásvizsgálatok leírásában van különös jelentősége. A jelenség a 100-nál kevesebb elemszámú mintáknál jelentős. 100 elem esetén 1 elem súlya 1
százalék. 100 fölött a 0 felé konvergál.
A leírt esetekben nem történik más, mint a valószínűségi változók eloszlásá-
nak konkrét előírása, vagyis valamely esemény bekövetkezésének valószínűsége egy meghatározott értéken áll (állandó), és ezen értéket kell a mintában — (: cso—port súlyával — eltéríteni, a másik eseménynek nagyobb vagy kisebb értéket biz-_
tosítva. Általában a 100 százalékosan valószínű eredményt biztosító elemek esetén lehet hibázni.
Ezt a problémát a következőképpen lehet felirni. Legyen két esemény -— A és B -
bekövetkezésének valószínűsége 0.5 és 0.6. A C esemény valószínűsége legyen
0.1. A három esemény átlagos valószínűsége:O,5—l—O.6—'l—O,1
P(A—i—B—l—C) : ————-3— : 0.4
Ha a C elemből kettőt veszünk, súlyozott átlagos valószínűséghez jutunk:
o ,,er0ó—l-z 5;1-
P(A—l—Bá—ZC)——————3————É— : O,4
Ezzel szemben. ha a súlyozott C-t helytelenül szerepeltetik, az eredmény:
O.S—l—O,6—l—O,2
4
: 0.325
Nyilvánvaló, hogy az azonos összetételű mintákban az egyik valószínűségi
változó súlyának megváltoztatása a végső eredményt is lényegesen megváltoztatja,de alapvetően számbavételi, szemléleti oka is van az eltérésnek.
SZÁNDÉKOLT EREDMÉNYEK KÉPZÉSÉNEK LEHETÖSÉGE
A kevés elemszámú mintát tartalmazó vizsgálati csoportok — logikus következ- tetés alapján -- lehetőséget nyújtanak az esetleges szándékoltságra, vizsgálati val .,igazolni lehet" —- legalábbis kis eltéréssel — o kísérletekkel, megfigyeléssel
alá nem támasztott ún. generált adatokat.
Az ilyen manipulációkra a kevés elemszámú mintán alapuló publikációk ön—
magukban is lehetőséget biztosítanak, ugyanis az ilyen vizsgálatokra az is jellemző., hogy a megfigyelések. tesztek munkaráfordításoi egyetlen kutató munkaidejébe be—
leférnek. Az ily módon vétett —- általában nagyon ritkán előforduló —- hibát az il—
lető tudományágban a szakemberek előbb-utóbb felfedezik. A gondot valójában azok az esetek okozzák. amikor a vizsgálat alapját képező megfigyelések nehezen ismételhetők meg. mint például az expedíciókban végzett vagy évekig tartó megfi-
gyelések esetében.
A személyes elvégezhetőség keretén belül az ellenőrző vizsgálatok eredménye is kérdéses lehet. (Erre a 6. tábla mutat be egy példát.)
Az eredeti publikációban a közlés lényege, hogy a B ismérvű egyedeknél ugyanolyan hatást váltott ki az alkalmazott terápia, mint az A—, C- és Dgnél. Az ..ellenpublikációban" (: IB ismérvű egyedek nagyobb hányadánál váltott ki az al—
kalmazott terápia kedvezőbb hatást, mivel kiegészitő terápiát is végeztek, de a C—- nél hatástalan volt stb. Az eltérő eredményhez elégséges volt 1-gyel növelni a ,B' és 1—gyel csökkenteni a C csoport elemeit. A manipulációra kizárólag a kevés elem—
szám nyújt lehetőséget.
A nagy elemszámú minták megfigyelése munkaigényes. ezért kutatótársro, se- gédszemélyzetre van szükség. amely az esetek többségében önmagában is bizto-—
síték lehet a valósághű adatrögzítésre.
A KEVÉS ELEMSZÁMÚ SOKASÁG 517
6. tábla
Eredménygenerálás kísérlet nélkül
(kis szómtartomónyban; példa)
l l
E Publikált adatok ] Generélt adatok
lsmérvosztóly l ;
; darab százalék l darab százalék
, l
i i §
A 12 l 25.0 l 12 25.0
B 12 l 25.0 l 13 27,1
C . i 12 ; 25,0 ] 11 22,9
D . l 12 ; 25,0 12 l 25.0
1oo,o l 48 ; 100,o
Összesen % 48 :
' !
Nagy elemszómú minták esetében a tévedés vagy a szóndékoltsóg kiszűrésére
módszertani lehetőségként az összetételvóltozós hatását kimutató statisztikai elem- zési eljórósok a legkézenfekvőbbek. Ugyanis a készen kapott eredményeket az ösz—szetételvóltozós hatásával korrigálva kapjuk meg a helyes értékeket. Ha a korri- gált adatok megegyeznek az eredeti vizsgálat csoportjának az adataival. akkor a szóndékoltsóg vagy a jóhiszemű tévedés nyilvánvalóan fennáll, és így a korrigólat—
lan adatokhoz fűzött értékelések tévesek.
TÁRGYSZÓ : Statisztikai mintavétel.
PE3iOME
Aarop ykasuaaer Ha OTAeanble HCTOHHHKH oumőox cramcwuecxux BHBOAOB, nony—
uaeme s one Hay—mux Mccnegosauuü, onupaioumxca Ha .nem-me 100 mm meHee Ha- Önt-OAaeMle egunuu.
B meronax orőopa BhlőOpOHHbIX oőcnenoaanuü, nonyuemibix cramcmuecxumn mero- .naMi—i c HeÖOl'IbLuHM uucnoM anemem'os cymecrsyer HőAoőHOCTb a knaccmtmxaum npn- :makoa omenbnbix enm—mu, " anemenros, HTOÖH "menace aosmomuocrb noatopwrb 3KCI'IepH—
Mem, l'iOCKOI'IbKY Ann noaropem—m oőcnepoaanun rpeőye'rcn rakas me caman no sem—tunne HCprKType rpynna. Llenecooőpaai-io crpoun, l'pyni'lbl Ha ocnoaam—m MHOTOKpaTHbIX 2-oro uncna, HTOÖH usőema'rb ncxameHm, BOSHHKBIOLUME Ha nouae oxpyrneumá.
CneAyer nsőerarb oőpaaosauue rnaaHbix u napuuanbnsix rpynn c HeanHblM uncnoM anememos onnrb-Taku H3-3a oupyrnenun. B cnyuae CpaBHHTeanbiX oőcnenoaauuü cneAyer yuurbiaarb Takme " annmue nameuenuü CTpYKTYpbi w KoppeKTHpoaaTb nonyuem—me p.aH- Hble Haőmerm—iü ao uaőemanue nonoepemm : neuamepennoű omuőxe mm coauarenb- HOM aoaneűcram Ha peSanTaTbi.
SU M MARY
The author directs attention in this paper to certain sources of erroneous conclusions derived from scientific analyses based on observations covering 100 or less statistical units.
ln taking samples consisting of a small number of elements it is necessary to classify and publish individual characteristics of certain elements with the purpose of eventual re—
peating the experiment. since repetition reauires a sample of the same composition and size. It is expedient to construct groups by using integral multiples of the number two in
order to avoid bias due to the rounding of division results.
The construction of sets and subsets consisting of uneven number of elements is also to be avoided on account of rounding errors. ln comparative analyses the effects of struc—
tural changes should also be taken into consideration as well as observation data have to be corrected in order to avoid suspicion of errors committed in good faith or of intentional manipulation.