A statisztikai hipotézisvizsgálat logikája

A STATISZTIKAI MEGKÖZELÍTÉS

4. A statisztikai hipotézisvizsgálat logikája

Mint láttuk, kutatási kérdéseink rendszerint két ismérv közötti kapcsolatra vagy összefüggésre vonatkoznak (például a nemi hovatartozás és a szabadságvesztés büntetés súlyossága közötti kapcsolat). E kapcsolat erősségét mérőszámokkal jellemezzük (a két szabadságvesztés-átlag különbsége), és a vizsgálatból pontbecsléssel és a hozzá kapcsolódó megbízhatósági intervallummal becsüljük.

36 Statisztikusok meg tudják becsülni a vizsgálat tervezési szakaszában, mekkora mintanagyság lesz szükséges a kívánt intervallumhossz eléréséhez. Például pártpreferencia-kutatások 3-4 százalékpont széles megbízhatósági intervallumokat célozva ezer fő megkérdezésével szoktak készülni. Bővebben lásd Rudas (2006).

0 1 2 3 4 A börtönbüntetések hosszának átlagos különbsége (paraméter = 2,3)

0 20 40 60 80 100Megbízhatósági intervallum

1. ÁBRA  A megbízhatósági intervallum viselkedése ismételt vizsgálatok esetén

Tehát a 95%-os megbízhatósági intervallum a kutatások várhatóan 95%-ában tartalmazza az ismeretlen paramétert, 5%-ában azonban téves intervallumot fogunk adni. Ez a hiba-valószínűség a statisztikai vizsgálat velejárója, nem eliminálható. Ha a 95%-os helyett nagyobb szintet, például 99%-ost választunk, akkor bár csökken a hibavalószínűség, a megbízhatósági intervallum szélessége fog nőni, azaz amit nyerünk a réven, elvesztjük a vámon.

Vigyázat: gyakori téves interpretáció az, amely a paramétert képzeli véletlenszerűen mozgó pontnak, és arról tételezi fel, hogy véletlen mozgásának 95%-ában a fix megbízha-tósági intervallumon belül van. A helyzet valójában éppen fordított: a paraméter nyilván fix, és a megbízhatósági intervallum mozog attól függően, hogy éppen milyen mintát vet-tünk a populációból.

Mitől függ a megbízhatósági intervallum szélessége? A szélesség alapvetően a pont-becslés változékonyságának függvénye, amely pedig annál nagyobb, minél változéko-nyabb maga a becslésben érintett jellemző (a szabadságvesztések hossza) és minél kisebb a mintánk. Ezek közül a második tényező áll a befolyásunk alatt, tehát ha szűk megbízha-tósági intervallumot szeretnénk kapni, akkor érdemes nagyobb mintát venni.⁴ Itt előre-utalnánk a Statisztikai elemzések című fejezetre, amely pontos matematikai megközelítés-ben tárgyalja a pontbecslés „változékonyságát”, a bevett statisztikai elnevezés (standard hiba) alatt.

A kutatási eredmények közlésekor a pontbecslést annak megbízhatósága jellemzése céljából ajánlott mindig ezzel a 95%-os megbízhatósági intervallummal együtt közread-ni. Keskeny intervallum megbízható, széles intervallum megbízhatatlan becslésre utal, ám a „szélesség” megítélése nem matematikai, hanem szakmai kérdés. A fenti példánk-hoz visszatérve, a férfiak és nők szabadságvesztés büntetésének különbségét becsülve két hónapos pontbecslés mellett (0,5; 3,5) hónapos, négy egység széles, 95%-os szin-tű megbízhatósági intervallum inkább megbízhatatlan becslést mutat: arra utal, hogy mintabeli adataink kompatibilisek egy olyan populációval is, amelyben csupán két hét a két csoport szabadságvesztés büntetésének különbsége, de olyannal is, amelyben több mint negyedév – az előbbi enyhébb, az utóbbi meglehetősen súlyos szankcioná-lási különbségnek ítélhető. Ezzel szemben férfiak és nők keresetátlaga különbségének becslésekor az 50 000 forintos pontbecslést (48 000; 52 000) forintos, 2000 egység széles megbízhatósági intervallummal inkább megbízhatónak ítéljük: a valódi paramé-ter 95%-os valószínűséggel e két érték között van, s e két szélső érték vásárlóereje nem különbözik nagyon egymástól.

4 Statisztikusok meg tudják becsülni a vizsgálat tervezési szakaszában, mekkora mintanagyság lesz szükséges a kívánt intervallumhossz eléréséhez. Például pártpreferencia-kutatások 3-4 százalékpont szé-les megbízhatósági intervallumokat célozva ezer fő megkérdezésével szoktak készülni. Bővebben lásd Rudas, 2006.

A STATISZ TIK AI MEGKÖZELÍTÉS n 85

n 4. A STATISZTIKAI HIPOTÉZISVIZSGÁLAT LOGIKÁJA

Mint láttuk, kutatási kérdéseink rendszerint két ismérv közötti kapcsolatra vagy össze-függésre vonatkoznak (például a nemi hovatartozás és a szabadságvesztés büntetés sú-lyossága közötti kapcsolat). E kapcsolat erősségét mérőszámokkal jellemezzük (a két szabadságvesztés-átlag különbsége), és a vizsgálatból pontbecsléssel és a hozzá kapcsoló-dó megbízhatósági intervallummal becsüljük.

A becslés alternatívája, hogy azt próbáljuk megválaszolni, milyen erős bizonyítékot szolgáltat a vizsgálatunk az ellen a feltételezés ellen, hogy A és B közötti kapcsolat nagy-sága egy adott, kitüntetett érték. Ezt a következtetési eljárást nevezzük statisztikai hipoté-zisvizsgálatnak. Ha a kitüntetett érték zérus (vagyis ha azt tesszük fel, hogy A és B között nincs kapcsolat), akkor a statisztikai szignifikanciateszt is bevett elnevezés.

Itt fontos hangsúlyozni, hogy ebből az egyszerű vizsgálatból nyilván nem következ-tethetünk az ítélkezési gyakorlatban meghúzódó nemi diszkriminációra. Itt visszautalunk Az okság és a bizonyítás a társadalomtudományokban és a jogtudományban című fejezet oksággal kapcsolatos megfontolásaira: két ismérv között megfigyelt kapcsolatból nem tudunk a köztük levő oksági összefüggésre következtetni. Oksági kapcsolat megállapítá-sához fontos lenne figyelembe venni nemcsak az elkövető nemét, hanem a cselekmény jellegét, súlyát, az elkövető előéletét és más, jogi szempontból jelentőséggel bíró szemé-lyes tulajdonságait, továbbá komplex statisztikai modelleket kellene alkalmazni. (Az ok-ság statisztikai megközelítése túlmutat e kötet körén, az érdeklődőknek ajánlható forrás Angrist–Pischke, 2009.)

Tegyük fel tehát, hogy a mintánkba került férfiak átlagos szabadságvesztés büntetése hosszabb, mint a mintánkba került nőké. Kérdés: a különbség létezik-e a valóságban a populációban is, vagy csupán a mintavételi ingadozás okozta a mintabeli eltérést? A hipo-tézisteszt egy valószínűségi eljárás ennek megválaszolására. A hipotézisvizsgálat menete a következő:

1. A matematikai alap az indirekt bizonyítás sémája. Tegyük fel, hogy a kutatási hipoté-zis nem igaz, azaz a férfiak és a nők átlagos büntetése megegyezik a populációban, vagyis különbségük 0. Ezt a hipotetikus állítást nevezzük statisztikai nullhipotézis-nek. Az ellenhipotézisünk, hogy a mintánkban tapasztalt különbség a valóságban is létezik. Érdemes megjegyezni, hogy éppen az „ellenhipotézis” az, amit bizonyítani akarunk, vagyis indirekt következtetési sémát alkalmazunk.

2. Számítsuk ki a mintánkban a férfiak és nők átlaga közötti különbséget, vessük össze ezt az eredményünket azzal, amit a nullhipotézis teljesülése esetén várnánk, vagyis a 0 ér-tékkel. Mi okozhatja az eltérést? Vagy a mintavételi ingadozásból fakadó puszta véletlen, vagy az, hogy a két nem büntetésének súlyossága valóban eltér, tehát a nullhipotézis megalapozottan támadható. Nyilván minél nagyobb a tapasztalt eltérés a mintából szá-molt érték és a nullhipotézis fennállása esetén várható érték között, annál nehezebb azt a véletlennel magyarázni, annál inkább a második magyarázatot fogadnánk el. Kétnapos eltérés gyenge bizonyíték a nullhipotézis ellen, négy hónapos eltérés erősebb.

3. Valamilyen módon kvantifikálni kell, hogy a mintából számolt különbség mennyire erős bizonyíték a nullhipotézis ellen. Számítsuk ki, mi a valószínűsége annak, hogy a megfigyelt vagy annál még szélsőségesebb eredményt kapjunk akkor, ha fennáll a nullhipotézis. E valószínűség jele p (az angol probabilityből), ezt a mutatót p-értéknek nevezzük. Minél szélsőségesebb az eltérés a nullhipotézis alapján várttól, annál kisebb a p-érték. Tehát minél kisebb a p-érték, annál inkompatibilisebbek az adatok ezzel a világgal. Ha nagyon kicsi – a megegyezéses küszöb szerint 5% alatti⁵ – a p-érték, akkor

„statisztikailag szignifikánsnak” (jelentősnek) ítélve az eltérést elvetjük a nullhipoté-zist. Vagyis – a példánkhoz visszatérve – ilyenkor arra a következtetésre jutunk, hogy elég erős a bizonyítékunk a szabadságvesztés büntetés egyenlősége ellen. Ha a pérték legalább 5%, akkor azt mondhatjuk, hogy nincs elég bizonyosságunk elvetni a null-hipotézist, az eredmény statisztikailag nem szignifikáns. Röviden: a p a nullhipotézis elleni bizonyíték erősségének a mértéke – mégpedig minél kisebb a p, annál erősebb ez a bizonyíték.⁶ A megegyezéses döntési küszöböt szignifikanciaszintnek nevezzük.

Az 5%-os szignifikanciaszint mellett néha 1%-os vagy 0,1%-os szintet is alkalmaznak, az ilyen szint mellett szignifikánsnak minősülő eredményeket pedig a rövidség kedvé-ért rendre csillagokkal jelölik: *, ** vagy ***. Tudományos publikációkban a követke-ző rövidítések megszokottak: „eredményeink szerint a férfiak átlagosan 4 hónappal hosszabb szabadságvesztést kaptak, mint a nők (p<5%)”, vagy „vizsgálatunkban a fe-ketékre átlagosan 6**, az ázsiaiakra pedig 2* hónappal hosszabb büntetést szabtak ki, mint a fehérekre”.

Például ha szabadságvesztéses példánkban a p értéke 0,3, akkor azt mondhatjuk, hogy olyan adatok, mint a mieink, vagy még extrémebbek viszonylag gyakran, 30%-os valószí-nűséggel bekövetkezhetnek abban a világban, ahol a férfiak és a nők között nincsen elté-rés a szabadságvesztés büntetés átlagos tartamát tekintve. Ellenben ha p = 0,002-t ka-punk, a nullhipotézis valószerűtlennek tűnik, mert az adatainkból számolttal megegyező (vagy annál nagyobb) férfi/nő különbség csak nagyon kicsi, két ezrelékes valószínűség-gel jelenik meg abban a világban, ahol a nemek között nincsen eltérés. (Csak a mintavétel ingadozása miatt ezer esetből kétszer volna várható.)

Láttuk: a teszt indirekt bizonyítási sémát követ, valójában az ellenhipotézist akarjuk bizonyítani. Ezért a p>5% nem értelmezhető a nullhipotézis bizonyítékaként⁷ – ugyanis az eltérés bizonyítékának hiánya nem bizonyíték az eltérés hiányára. Hasonlóan ahhoz, ahogy a bíróság előtt sem bizonyul a vádlott ártatlannak csupán azért, mert nem sikerült a bűnösségét bizonyítani.

5 A fent jelzett szokásos 5%-os döntési küszöbnek elméleti alapja nincsen, ezért nem érdemes hozzá minden helyzetben ragaszkodni. Nyilván nem észszerű például p = 0,045 és p = 0,055 értéket adó két vizs-gálat között különbséget tenni.

6 A p gyakori félreértelmezése az, hogy a nullhipotézis valószínűségét adná – ez nem igaz, sőt ebben a keretben egyáltalán nincs rá mód, hogy meghatározzuk, milyen valószínűséggel igaz a nullhipotézis.

7 Ha tényleg az azonosságot akarjuk bizonyítani, ellentétes logikájú ún. ekvivalenciatesztet kell alkal-mazni, ahol a nullhipotézis az, hogy az eltérés meghalad egy szakmailag releváns értéket.

A STATISZ TIK AI MEGKÖZELÍTÉS n 87 A bevett döntési séma tehát az, hogy 5%-nál kisebb p-értéket látva elvetjük a null-hipotézist, egyébként elfogadjuk azt. Ez a döntésünk azonban (ahogy a 95%-os megbíz-hatósági intervallumnál is láttuk), valószínűségalapú lévén, hibalehetőséggel terhelt. Két-fajta hibát véthetünk: vagy elvetjük a nullhipotézist, pedig igaz, vagy elfogadjuk, pedig hamis (1. táblázat).

1. TÁBLÁZAT  A hipotézisvizsgálat lehetséges döntései

Aktuális helyzet

A nullhipotézis igaz Az ellenhipotézis igaz Döntés Elfogadjuk a nullhipotézist Helyes döntés Másodfajú hiba

Elvetjük a nullhipotézist Elsőfajú hiba Helyes döntés

Az eljárás megítéléséhez fontos tudatában lenni a döntéshez kapcsolható hibavalószínű-ségeknek. Az elsőfajú hibavalószínűség, vagyis annak a valószínűsége, hogy szignifikáns-nak ítéljük az egyébként a populációban nem fennálló eltérést, a szignifikanciaszinttel egyenlő, vagyis 5%-on rögzített. Emlékezzünk vissza: ha világunkban nincs különbség a büntetést tekintve férfi és nő között, akkor azok a döntések, amelyek az ilyen világban kis (kisebb mint 5%) valószínűségű eseteket felmutató minták elutasításával járnak, mind hibásak, de ezek definíció szerint csak az esetek 5%-át adják.

A másodfajú hibavalószínűség, vagyis annak a valószínűsége, hogy nem találjuk szig-nifikánsnak a populációban egyébként meglévő eltérést, nincs rögzítve, értéke vizsgálatról vizsgálatra változik. Így változik a hipotézisvizsgálat ereje is, amely a másodfajú hiba el nem követésének valószínűségeként, vagyis a meglévő különbség kimutatásának valószínűsége-ként definiálható. Pedig (az indirekt sémából adódóan) épp a vizsgálat ereje az, ami fontos nekünk! Hiszen nemi különbségre / a bírókijelölési gyakorlat ítélkezésekben megnyilvá-nuló hatására / a hosszabb szabadságvesztések visszatartó erejére stb. gyanakszunk, és sze-retnénk az kimutatni. Vagyis az erő a kutatási praxisban alapvető fontosságú mutató.

Az erő tehát azt mutatja meg, mekkora a valószínűsége, hogy elvetjük a nullhipoté-zist, amikor az ténylegesen hamis. Az erő függ a mintanagyságtól; nagyobb mintáknál nyilván kisebb a mintavételi ingadozás, ezért kisebb a hibavétés valószínűsége is. A ku-tatástervezés során a mintanagyságot érdemes úgy megválasztani, hogy erőelemzést is végzünk előtte. Függ továbbá az erő attól, hogy a nullhipotézistől vett mekkora eltérést szeretnénk tudni kimutatni, más szóval mekkora hatásnagyságot (a két nem között a sza-badságvesztés büntetés mekkora különbségét) ítélünk szakmailag relevánsnak. Nyilván minél nagyobb ez a küszöb, annál valószínűbb, hogy sikerül kimutatni, azaz annál erő-sebb a vizsgálat.

Az és másodfajú hibát tekintve tehát egyfajta aszimmetria figyelhető meg: az első-fajú hibát fixáljuk alacsony (5%-os) szinten, a másodelső-fajú hiba nincs rögzítve. Ez is a bizo-nyítás indirekt voltával függ össze, és arra mutat rá, hogy a „téves jelzés” rizikóját akarjuk minimalizálni, ennek van nagyobb költsége valamilyen szempontból. Ha nemi különbséget kiáltunk, de nincs, az nagyobb baj, mintha van, de nem tudjuk kimutatni. Ahogyan inkább a bűnösöket engedjük szabadon, mint hogy ártatlanokat megbüntessünk.

n 5. A STATISZTIKAI HIPOTÉZISVIZSGÁLAT HASZNÁLATI ELVEI Az alábbiakban a hipotézisvizsgálat gyakorlati alkalmazásának néhány elvét vesszük sor-ra. (Részletesebb és matematikai háttérrel megtámogatott összefoglaló Bárdits–Né-meth–Terplán, 2016.)

5.1. A kis, nem szignifikáns minták problémája

A teszt ereje elsősorban a mintanagyságtól függ. Kis (~500 fő alatti) mintáknál számol-nunk kell azzal, hogy az erő kicsi, így akár szakmailag releváns eltérések sem kimutatha-tók. Úgy is fogalmazhatunk, hogy a kis minta kevéssé informatív. A nem szignifikáns eredmény kis minta mellett más interpretációt kíván, mit nagy minta mellett. Kis minta mellett csak azt mondhatjuk, hogy nincs elég erős bizonyítékunk az eltérés hiánya ellen, s ha van rá forrásunk, megfontolhatjuk a vizsgálat megismétlését egy nagyobb mintán.

Ugyanakkor nagyon nagy (több tízezres elemszámú) minta mellett kapott nem szignifi-káns eredmény tulajdonképpen kizárja, hogy a populációban eltérés legyen.

5.2. A nagy szignifikáns minták problémája

Nagy minta alatt több tízezres elemszámot értünk, mint amilyen a Bűnügyi Statisztikai Rendszer szabálysértésekre vonatkozó, évi több tízezres adatbázisa vagy a Központi Sta-tisztikai Hivatal harmincezer háztartást érintő munkaerő-felmérése. Aki nagyon nagy mintán végez szignifikanciavizsgálatot, az a társadalomtudományi jelenségekben mindig meglévő zajfaktor (azaz az emberi viselkedés nem determinisztikus volta miatt megjele-nő véletlen ingadozások) miatt borítékolhatóan szignifikáns eredményt talál, akkor is, ha a kimutatott eltérés (a zaj jellegéből fakadóan) parányi. Ugyanis a nagy minta nagy sta-tisztikai erővel jár, azaz nagy valószínűséggel fogunk tudni kimutatni szakmailag irrele-vánsan kicsi eltéréseket is. Kis minta esetén viszont csak nagyon erős eltérés tud statiszti-kailag is szignifikáns lenni.

Tehát szignifikáns eredmény nagy minta mellett más interpretációt kíván, mint kis minta mellett. Nagy minta esetén elkerülhetetlenül fontos az – elmondottak alapján itt tulajdonképpen nem informatív – p-érték mellett a szakmai relevancia megítélése is. En-nek egy példáját látjuk majd a Statisztikai elemzések című fejezetben, ahol kereszttábla elemzése során, a hipotézisvizsgálatnál a kevésbé informatív p-érték mellett a szakmai szignifikancia megítélésére alkalmas hatásnagyság-mutatót is ismertetünk.

A STATISZ TIK AI MEGKÖZELÍTÉS n 89 5.3. Statisztikai és szakmai szignifikancia, hatásnagyság-mutatók

A hipotézisvizsgálat az eltérést tehát a mintavétel véletlen ingadozásából adódó, termé-szetes módon várható mérési hibához viszonyítja. Ennek meghaladása azonban nem vonja maga után, hogy az összefüggés tartalmi szempontból jelentős lenne (tartalmi vagy szakmai szignifikancia). A szakmai szignifikancia megítéléséhez további fogódzó, egy jól megválasztott hatásnagyságmutató kell – fenti példánkban ilyen mutató lehet egyszerűen a mintából számolt statisztika, azaz a férfiak és nők közötti eltérés nagysága és annak meg-bízhatósági intervalluma. A megmeg-bízhatósági intervallum ismertetése azért célszerű, mert a leegyszerűsítő kérdés (kisebb-e a p, mint 5%?) helyett a hatás tényleges megítélése, a szakmai mérlegelés felé irányítja a gondolkodást: releváns eltérés-e a férfiak-nők szabad-ságvesztés büntetése között megfigyelt háromhetes átlagos különbség? Szakmailag is je-lentős-e Tabarrok és Helland statisztikailag szignifikánsnak ítélt eredménye a kinevezett, illetve választott bírák által az államon kívüli alperes kárára megítélt átlagos összeg 268 000 dolláros különbsége? Releváns változás-e, ha 2015 és 2016 között hét nappal (258-ról 251 napra) csökkent a hazai munkaügyi perek átlagos hossza?

Az előbbiekhez hasonló kutatási kérdésekben az átlagok különbsége adja azt a ha-tásnagyság-mutatót, amely a szakmai szignifikancia megítélését támogatja. Más típusú, például nem átlagokat involváló kutatási kérdésekben más hatásnagyság-mutató ajánlott, lásd a Statisztikai elemzések című fejezet kereszttábla-elemzéseinél például a Cramer-féle V-mutatót.

5.4. Eltérő kutatási konklúziók a p-értékek, mintanagyságok és hatásnagyság-mutatók függvényében

Az előbbiek illusztrálása és összefoglalása céljából három hipotetikus kutatási eredményt értelmezünk az alábbiakban. A cél annak szemléltetése, hogy eltérő kutatási konklúzió-hoz jutunk nemcsak eltérő pértékek, de eltérő mintanagyságok vagy hatásnagyságok mellett is, vagyis utóbbiak figyelembevétele is megkerülhetetlen. A 2. táblázat ugyanarra a kutatási kérdésre, a férfiak és nők átlagos szabadságvesztés büntetés időtartamának elté-résére vonatkozik, három különböző országban végzett kutatás eredményeit prezentálva.

2. TÁBLÁZAT  Három hipotetikus kutatás különböző statisztikai következtetései

Kutatás Mintanagyság p A büntetés hosszának

különbsége (férfi-nő, hónapban)

Megbízhatósági intervallum

A ország 80 0,54 2 (–4,5; 8,5)

B ország 8 000 0,54 0,2 (–0,5; 0,9)

C ország 10 000 0,012 0,5 (0,1; 0,9)

Ha a konklúziót csak a p-értékre alapoznánk, akkor azt mondhatnánk, hogy csak a har-madik országban kaptak statisztikailag szignifikánsan súlyosabb büntetést a férfiak. Ám érdemes az utolsó két oszlopot is figyelembe venni. Az A országban a megbízhatósági intervallum azt mutatja, hogy a férfiak nagy (8,5 hónapos) hátránya, de nagy (4,5 hóna-pos) előnye is kompatibilis az adatokkal. Vagyis bizonytalan a kis minta nyújtotta infor-máció. Ez a kutatás a korábban tárgyalt kis, nem szignifikáns minták alesete. Ilyenkor a kis mintanagyság miatt alacsony a vizsgálat bizonyító ereje, így a szakmailag egyébként je-lentős, két hónapos pontbecslést nem ítéljük statisztikailag szignifikánsnak. Ezzel szem-ben a B országban a nagy minta lehetővé tette, hogy szűk konfidenciaintervallummal megbízhatóan becsült, de statisztikailag jelentéktelen (p>5%) hatásra következtethes-sünk. A 0,2 hónapos hatás itt szakmailag sem jelentős, akárcsak a C ország esetében, de utóbbinál a nagyobb mintanagyság miatt ez a viszonylag kicsi (0,5 hónapos) hatás meg-haladja a statisztikai hibát, vagyis 5%-nál kisebb p-t eredményez. A 10 000-es mintanagy-sággal tervezett harmadik vizsgálat a nagy szignifikáns minták problémájához tartozik:

a nagy minta miatt statisztikailag szignifikánsnak találtuk a szakmailag nem feltétlenül jelentős fél hónapos büntetési eltérést.

n 6. ÖSSZEGZÉS

A jogtudományi kutatásokban a statisztika szerepe az empirikus következtetéseinkben rejlő bizonytalanság, véletlen ingadozás kvantifikálása.

Statisztikai következtetéseink valószínűségi jellegűek, sosem adnak biztos bizonyíté-kot vagy cáfolatot.

A kutatott paraméterre vonatkozó pontbecslést mindig a megbízhatóságát jellemző megbízhatósági intervallummal együtt kell megadni, illetve interpretálni.

A megbízhatósági intervallum 95%-os valószínűségének értelemzése a kutatás sok-szori hipotetikus megismétlésén alapszik.

Az intervallum szélességének, a becslés megbízhatóságának megítélése nem statiszti-kai, hanem szakmai kérdés.

A megbízhatósági intervallum szűkebb, ha nagyobb a mintanagyság.

A p a nullhipotézis elleni bizonyíték erősségének a mértéke – mégpedig minél kisebb a p, annál erősebb ez a bizonyíték.

Ha 5% alatti a p-érték, akkor statisztikailag szignifikánsnak ítélve az eredményt arra a következtetésre jutunk, hogy elég erős a bizonyítékunk a nullhipotézis ellen.

A p<5% nem értelmezhető a nullhipotézis bizonyítékaként – ugyanis az eltérés bizo-nyítékának hiánya nem bizonyíték az eltérés hiányára.

A statisztikai szignifikancia nem von maga után szakmai szignifikanciát. A szakmai szignifikancia megítéléséhez további fogódzó kell egy jól megválasztott hatásnagy-ság-mutató megadásával. Ezért a p<5% közlése sosem elég, a megalapozott döntéshez a p konkrét értéke, a hatásnagyság-mutató és annak megbízhatósági intervalluma is szük-séges.

A STATISZ TIK AI MEGKÖZELÍTÉS n 91 Az elsőfajú hiba valószínűsége 5%-ban rögzített. A másodfajú hiba valószínűsége vizsgálatról vizsgálatra változik, és annál kisebb, minél nagyobb a mintanagyság.

Kis mintáknál számolnunk kell azzal, hogy az erő kicsi, ezért szakmailag releváns elté-rések sem feltétlenül mutathatók ki. Ugyanakkor nagyon nagy minta mellett kapott nem szignifikáns eredmény tulajdonképpen kizárja, hogy a populációban eltérés legyen.

Nagy minta mellett nagy valószínűséggel fogunk statisztikailag szignifikánsnak mi-nősíteni szakmailag irreleváns eltéréseket is. Kis minta esetén viszont csak nagyon erős eltérés tud statisztikailag is szignifikáns lenni.

A fentiekben egyetlen példán, egy numerikus ismérv (a szabadságvesztés büntetés tartama) nemek közötti különbségének példáján mutattuk be a statisztikai következte-téseket; pontbecslésként és hatásnagyság-mutatóként is a két csoport átlagának különb-ségét véve. Más kutatási kérdések más összevetéseket implikálnak; például ha régiókat hasonlítanánk össze az elítéltek nemi megoszlása szempontjából, akkor nem két, hanem több csoportot (a régiókat) kellene összevetni, s nem egy numerikus ismérv, hanem a nemi hovatartozás gyakorisági megoszlása szempontjából. Így más becslések, más hipo-tézisvizsgálati eljárás, más hatásnagyság-mutatók definiálandók, de a statisztikai követ-keztetés logikája és a követkövet-keztetések interpretációja változatlan, ezért reményeink sze-rint olvasóink ezekben a kontextusokban is értő konklúziók levonására lesznek képesek.

A Statisztikai elemzések című fejezetben több kutatási kérdés mentén „élesben” látjuk majd a statisztikai következtetések működését, valós adatokon, tényleges kutatási kérdés-re vonatkozó vizsgálatban, a kutatás minden lépésének végigkövetésével.

Babbie, Ernst (2003): A társadalomtudományi kutatás gyakorlata [ford. Kende Gábor, Szaitz Mariann]. Budapest, Balassi (6. kiadás).

Bárdits Anna – Németh Renáta – Terplán Győző (2016): Egy régi probléma újra elő-térben: a nullhipotézis szignifikanciateszt téves gyakorlata. Statisztikai Szemle, vol.

94, no. 1, 52–75.

Epstein, Lee – Martin, Andrew D. (2014): An Introduction to Empirical Legal Research.

Oxford, Oxford University Press.

Green, Peter (2002): Letter from the President to the Lord Chancellor regarding the use of statistical evidence in court cases. Royal Statistical Society, bit.ly/36H0OjK.

Rudas Tamás (2006): Közvéleménykutatás. Értelmezés és kritika. Budapest, Corvina (2. kiadás).

n AJÁNLOTT IRODALOM

In document Empirikus jogi kutatások (Pldal 83-93)