A JOGI SZÖVEGEK MINT BIG DATA - Empirikus jogi kutatások

n 1. A BIG DATA KUTATÁSOK ÁLTALÁNOS JELLEGZETESSÉGEI 1.1. A big data típusai

Big data alatt az adatképződés sokféle módját és formáját értik. Adatok keletkezhetnek tudatos emberi cselekvés eredményeképp. Ilyen adathalmazok a közösségi hálózatokon közölt információk vagy a cégek és a kormányzatok által az interneten közzétett doku-mentumok. Keletkezhetnek ugyanakkor nem tudatosan, spontán módon is. Ilyenek pél-dául a szenzorokból: mobiltelefonokból, ipari kamerákból, online pénztárgépekből, tőzs-dei kereskedői szoftverekből vagy járművek tachográfjaiból stb. származó adatok (Schön-berger–Cukier, 2014). A végeredmény pedig lehet numerikus, szöveges, képi vagy hangzó adat. A big data jellemzője, hogy szemben a statisztikai adatokkal, amelyeket elő-re meghatározott módszertan szerint gyűjtenek, általában nem azzal a céllal keletkezik, hogy azt később elemezzék.

Mielőtt a jogi big data kutatásokra rátérnénk, meg kell jegyezni, komoly vita folyik a tudósközösségen belül, hogy a big data megközelítés egyáltalán jelent-e bármilyen újdonsá-got a korábbi statisztikai megközelítésekhez képest. Hiszen az adat csak adat (Adar, 2015), és a big data kutatása első látásra valóban csak abban különbözik a korábbi adatalapú kuta-tásoktól, hogy több, heterogénebb, és eredetileg nem kutatási céllal létrehozott adatot ele-meznek. Az bizonyos, hogy a big data elemzések módszertana alapvetően a statisztikából ismert módszertan. Ugyanakkor egy dologban biztosan van különbség: a big data kutatá-sok egy sor olyan összefüggést tártak fel különböző adathalmazok közt, amelyekre a hagyo-mányos adatfelvételen alapuló statisztikai elemzések nem lettek volna képesek. Másrészt azt is gyakran kiemelik, hogy a big data körébe sorolható adatok gyakran nem reprezentatív mintavételen alapulnak, hanem egy adott sokaság által termelt adatok vonatkozásában telje

sek (tehát például egy adott területen bonyolított összes telefonhívás vagy egy adott témá-hoz kapcsolódó összes Facebook-poszt adatait tartalmazzák). A jogi szövegek tekintetében ennek a vitának nem sok relevanciája van, mivel itt a szövegeket adatként kezelő kutatások lényegében csak 2010 után jelentek meg, és már eleve a big data narratíva keretében.

A big data kutatások szorosan érintkeznek három olyan területtel, amelyekkel ez a kö-tet is foglalkozik. Az első érintkező terület a számítógépes szövegnyelvészet, ezen belül is az ún. korpusznyelvészet. A számítógépes korpusznyelvészet felhasználásáról alább részle-tesen szó lesz, itt csak annyit érdemes megjegyezni, hogy a szövegbányászat (text mining, lásd a Kvantitatív szövegelemzés és szövegbányászat című fejezetet) ennek a módszertannak az egyik alkalmazott ága. A második érintkező terület a statisztikáé. A statisztika is numeri-kus adatokká alakított társadalmi jelenségekkel foglalkozik, és matematikai eszköztárának jelentős részét a big data világában is lehet alkalmazni (lásd A statisztikai megközelítés és a Statisztikai elemzések című fejezetet). Végül a harmadik érintkező terület a hálózatkutatás (lásd a Hálózatkutatás című fejezetet). A jogi szövegekben fellelhető speciális hálózat, a hi-vatkozások (elsősorban a jogesetekben korábbi jogesetekre történő hihi-vatkozások) hálóza-ta több évtizede létező kuhálóza-tatási terület, amelynek új lendületet adott a hálózattudomány megjelenése, annak új eredményei és matematikai módszerei.

A JOGI SZÖVEGEK MINT BIG DATA n 95 1.2. Big data a jogban, jogi szövegkorpuszok

A szövegek statisztikai alapú kutatásának alkalmazása a jogban azért kézenfekvő, mert a jog nagyrészt nem más, mint szövegek halmaza. A jogi big data kutatások alatt a szakirodalom jelenleg többféle dolgot ért, mind a jog területeit, mind az adatok forrását és típusait, mind az alkalmazott módszereket tekintve. A jog területeinek aspektusából a big data módszerek használhatók a jogalkotás, a jogalkalmazás és a jogtudomány területén is. A forrásadat típu-sát nézve elemezhetünk jogszabályokat és egyéb jogi dokumentumokat, vagy a jogi jelensé-gekkel kapcsolatban álló nem szöveges állományokat, például a közösségi médiából szár-mazó posztokat vagy bármilyen más – így numerikus vagy képi – adatot is. Végül a módszer, amellyel feldolgozzuk ezeket az adatokat, ugyan mindig gépi, de szövegeket inkább szöveg-bányászati vagy korpusznyelvészeti módszertannal, hálózatokat (például hivatkozási háló-zatokat) hálózatelemzési módszerekkel, míg például a túlnyomórészt numerikus adatokat inkább „klasszikus” statisztikai módszerekkel elemezhetünk.

Mindezek miatt ebben az írásban – a címmel összhangban – leszűkítjük a vizsgálódá-sok fókuszát a jogtudomány és a jogalkalmazás bizonyos szféráira, és ezen belül is a szö-veges adatok egy speciális típusára, a jogi dokumentumokon végzett big data kutatásokra és gyakorlati alkalmazásokra. A továbbiakban a big data kutatás említésekor a kifejezést ebben a szűk értelemben használjuk.

Nem érintjük tehát az olyan elemzéseket, amelyeket a jogalkotás támogatására vagy bizonyos jogalkotói megoldások visszamérésére használnak (Fagan, 2015). Nem lesz szó továbbá a big data alapú prediktív rendészet (predictive policing) kérdésköréről sem (ahol sokféle nem szöveges adatot, például arcfelismerést és képi adatokat is használnak; Fer-guson, 2015) vagy egyes nagy (relációs) adatbázisok jogi kutatásban történő használatá-ról (például Ohm, 2010).

A big data kutatásokat a jogban elsősorban az tette lehetővé, hogy az interneten nagy mennyiségben hozzáférhetővé váltak jogi dokumentumok. A jogrendszer sajátosságai miatt a jogesetek szövege a common law jogrendszerű országokban évszázadok óta nyil-vános, az utóbbi időben pedig több digitalizációs projekt is indult, hogy ezeknek a szö-vegeknek a géppel olvasható szövegei is felkerüljenek az internetre. Ezenfelül a 2000-es évek elejétől, általában a Freedom of Information (információszabadság, FOI) projektek keretei között, csaknem minden országban elkezdtek egyre több hivatalos dokumentu-mot hozzáférhetővé tenni, így kormányzati és közigazgatási dokumentumokat, különbö-ző közigazgatási szervek normatív és egyedi döntéseit. Például az amerikai szövetségi fel-lebbviteli, körzeti és csődbíróságok teljes iratanyaga hozzáférhető a PACER-rendszeren keresztül, vagy magyar példát hozva a Nemzeti Adatvédelmi és Információszabadság Ha-tóság (NAIH) állásfoglalásai, a Gazdasági Versenyhivatal és az Alkotmánybíróság dönté-sei is hozzáférhetők lényegében teljes egészében.

Magyarországon a big data kutatásokhoz leggyakrabban használt adatbázis a birosag.

hu-n található Bírósági Határozatok Gyűjteménye. Jogi hátterét a bíróságok szervezetéről és igazgatásáról szóló 2011. évi CLXI. törvény jelenti, amely szerint a Kúria, az Ítélőtáblák, a közigazgatási és munkaügyi bíróságok – bizonyos kivételekkel – az előttük lefolytatott

ügyekben hozott „érdemi” határozatokat (azaz például a permegszüntető végzéseket nem) az ügyek előzményeivel együtt közzéteszik. Az adatbázis 2007 óta épül, évente át-lagosan 14 000 ítélet került bele, így jelenleg kb. 170 000 bírósági ítélet szövege található meg benne. Ezek az ítéletek a magyar bíróságok mindennapjairól, a bíróságok érveléséről elég jó képet adnak.

1.3. A big data kutatás módszertana, fázisai

A big data kutatások ugyanúgy négy fázisra bonthatók, mint minden más adatalapú kuta-tás: az első a kutatási hipotézis vagy kérdés definiálása, a második az adatgyűjtés és elő-készítés (tisztítás, rendezés, esetleg annotálás, kinyerés) fázisa, a harmadik a tényleges – mindig gépi – elemzés elvégzése, a negyedik pedig a kiértékelés (értelmezés, interpretá-ció) fázisa. Itt röviden ismertetjük ezeket a lépéseket, a jogi korpuszépítés specialitásaira később térünk ki.

E kutatások egyik jellegzetessége – szemben más empirikus kutatással –, hogy nem feltétlenül kell hipotézist megfogalmazni, olykor elegendő egy „exploratív” jellegű kérdés feltétele (például „milyen mintázatokat mutat A adatállomány és milyen összefüggései vannak B adatállománnyal”, lásd például Macey–Mitts, 2015; Bainbridge, 2001). Olykor azonban a kutatás valódi hipotézissel indul el, amelyet azután operacionalizálni kell, azaz értelmes kutatási lépésekké alakítani, ami az ilyen kutatásoknak mindig a legnehezebb és a legtöbb hibalehetőséget rejtő fázisa. Ennek a fázisnak a része magának a kutatásnak a megtervezése is, beleértve azt a nagyon fontos mozzanatot, hogy inkább statisztikai, szövegbányászati vagy hálózatelemzési módszereket akarunk-e alkalmazni.

A 2011-es magyar bírósági ítéleteken végzett kutatás célja például annak a közkeletű vélekedésnek az igazolása vagy cáfolása volt, hogy a magyar jog „precedensjogi” jelle-ge erősödik, a bíróságokon egyre inkább szükséjelle-ges nemcsak jogszabályokra, hanem korábbi felsőbírósági döntésekre is hivatkozni, és ez egyfajta közeledést jelent az an-golszász jogrendszerek felé. A következők voltak az előzetes kérdések: 1. Milyen gyak-ran idéznek a bírósági ítéletek korábbi ítéleteket? 2. Vannak-e különbségek a) az egyes bírósági szintek, b) az egyes ügyszakok, c) az egyes ügytípusok között? 3. Milyen ko-rábbi bírósági dokumentumokat és dokumentumfajtákat idéznek a bíróságok? 4. Vál-tozik-e (emelkedik-e) időben a hivatkozások száma? 5. Milyen tipikus szövegkörnye-zetben találhatók a hivatkozások (van-e érdemi, hosszú elemzése a korábbi ítélet-nek) és kimutathatók-e ebből olyan tényezők, amelyek befolyásolják az idézést (például hogy a peres felek „erőltetik” a korábbi jogesetet vagy a pertárgyérték be-folyásolja az idézést)? A kutatást részletesen lásd Ződi, 2014a.

A JOGI SZÖVEGEK MINT BIG DATA n 97 Az adatgyűjtési fázis jelentőségét aligha lehet túlbecsülni, hiszen ha nincsen jó adatunk (itt: jó minőségű dokumentumaink), akkor minden erőfeszítésünk hiábavaló, és semmi-lyen eredményt nem fogunk elérni. Ebben a fázisban egyrészt megkeressük, alaposan ele-mezzük, kiválogatjuk, letöltjük és eltároljuk, majd tisztítjuk és esetleg annotáljuk (kézzel kiegészítjük adatokkal) azokat a jogi szövegeket, amelyekkel dolgozni szeretnénk (példa-ként az idézett 2014-es kutatáshoz lásd az 1. táblázatot). Fontos részlet az adatgyűjtési fázison belül, amikor a jogi szövegek már rendelkezésre álló (hivatalos) metaadatait számba vesszük, legyűjtjük és eltároljuk. Ezután még bizonyos kutatások esetén géppel nyerünk ki egyes további információkat.

1. TÁBLÁZAT  A 2011-es hivatkozásstatisztikai kutatás korpuszának adatai; ítéletek (dokumentumok) darabszáma

Kúria Ítélőtáblák Törvényszékek Járásbíróságok Összesen

Polgári 4873 9907 10 705 1396 26 881

Gazdasági 867 3548 4297 314 9026

Munkaügyi 1465 0 1588 0 3053

Közigazgatási 5496 1172 7934 0 14 602

Büntető 1166 2704 3066 1014 7950

Összesen 13 867 17 331 27 590 2724 61 512

Forrás: Ződi, 2014a, 26. alapján

A tényleges elemzési fázis részben szoftverek (iteratív, azaz ismétlődő) futtatását, részben pedig a részeredmények áttekintését, illetve korrekcióját jelenti. A big data kutatások egyik jellegzetessége, hogy a sok adat miatt gyakran kényszerül a kutató az adatok vizua-lizálására. Ez a vizualizáció nem feltétlenül csak grafikonok rajzolását vagy rajzoltatását jelenti, hanem az egyébként áttekinthetetlen nagyságú adathalmazok „elképzelhetővé té-telét”. A másik speciális módszer, amely a big data kutatásokat gyakran jellemzi, hogy az adatokból prediktív (előrejelző) elemzés is készíthető. Gyakran magának a big data kuta-tásnak ez az elsődleges célja: hogy valamilyen társadalmi vagy jogrendszerbeli jelenség (bűncselekmények, bírósági ítéletek) jövőbeli előfordulását, végeredményét megjósolja.

A jóslás természetesen nem az egyedi esemény pontos bekövetkezésére vonatkozik, ha-nem legtöbbször valamilyen százalékos valószínűség formáját ölti.

Végül a vizualizációval és a predikcióval már részben összemosódó utolsó fázis az in-terpretáció vagy értelmezés fázisa. Mivel a big data kutatások gyakran exploratívak, azaz a kutatás kezdetén csak az van meg, hogy milyen adatállományokat fogunk milyen mód-szerrel elemezni, az elemzési fázis végén keletkező adatok gyakorta értelmezést, magya-rázatot, egy „hagyományos mesébe” történő visszaillesztést igényelnek.

A 2011-es kutatás legfontosabb eredménye azt volt, hogy egyértelművé vált: a felső-bírósági irányítási instrumentumokra (döntvényekre, „precedensekre”, azaz jogegy-ségi határozatokra, kollégiumi véleményekre, BH-kra, EBH-kra,

magán-döntvény-gyűjtemények döntvényeire) történő ítéleti hivatkozások száma egyértelmű növeke-dést mutat (1. ábra). Ugyanakkor a kutatás részét képező kvalitatív vizsgálat, amely a hivatkozások szövegkörnyezetét is vizsgálta, azt mutatta, hogy ez nem a precedens-jog irányába tolja a magyar precedens-jogot, inkább csak egyszerű mennyiségi növekedés (Ződi, 2014a).

n 2. JOGI BIG DATA KUTATÁSOK, JOGI KORPUSZNYELVÉSZET

Mivel a jogi szövegek vonatkozásában a korpusznyelvészetet és a szövegalapú big data kutatásokat a szakirodalom is lényegében szinonimaként kezeli (Hamann–Vogel, 2017, 1475, 1487; Fagan, 2016), itt is így teszünk. A jogi korpusznyelvészet nem túl hosszú múltra tekinthet vissza, jóllehet a jogi nyelvi korpuszok voltak szinte az első szisztemati-kusan digitalizált, a nagyközönség számára ebben a formában is hozzáférhető szövegek.

Bizonyos statisztikák természetesen már ekkor is készültek (például a bírósági ítéletek hivatkozásstatisztikái az 1950-es évekig nyúlnak vissza, lásd a Hálózatkutatás című feje-zetet), azonban a kutatások akkor kaptak lendületet, amikor könnyen és legfőképp in-gyen hozzáférhetővé váltak jogi szövegek nagy mennyiségben. Ennek magyarázata az, hogy a jogi szövegek digitalizált változataival az internet előtt jellemzően kereskedelmi kiadók bírtak, akik nem vagy nem szívesen adták ki ezeket a digitalizált állományokat külső kutatóknak.

Mielőtt bemutatnánk a jogi korpusznyelvészetet mint a big data kutatások elsődleges terepét a jogban, az első alfejezetben röviden általában a korpusznyelvészetről lesz szó.

A második alfejezetben pedig a jogi szövegek „adatszerűségével” mint a kutatásokat meg-alapozó jellegzetességgel foglalkozunk.

20%

25%

30%

35%

40%

45%

2007 2008 2009 2010 2011 2012

Kúria Tábla Törvényszék

1. ÁBRA  „Precedensre” való hivatkozást tartalmazó rendes bírói ítéletek száma, 2007–2012 között Forrás: Ződi, 2017

A JOGI SZÖVEGEK MINT BIG DATA n 99 2.1. A számítógépes nyelvészet és a korpusznyelvészet

A szövegalapú jogi big data kutatások tehát a számítógépes nyelvészet, ezen belül is az ún.

korpusznyelvészet eszköztárát használják, ezért érdemes röviden megismerkedni előbb ezekkel a területekkel.

A számítógépes nyelvészet szinte a számítógéppel egy időben született, és közpon-ti problémája hosszú ideig a természetes nyelv számítógépes feldolgozása (natural lan

guage processing, NLP), ezen belül is olyan gyakorlati problémák megoldása volt, mint a különböző nyelvekről történő gépi fordítás, a számítógépes információkinyerés (infor

mation retrieval), valamint az ember-gép érintkezés (interfészek) fejlesztése, amelyek az-után olyan elméleti problémák számítógépes kutatásáig vezettek, mint a nyelvi megértés számítógépes modellezése vagy a tudásreprezentáció (az emberi tudás gépi ábrázolása;

Grishman, 1986). Egy viszonylag friss munka (Clark–Fox–Lappin, 2010) a számítógé-pes nyelvészet területeiként a beszédfelismerést, a statisztikai alapú szövegstrukturálást (parsing), a szöveg szegmentációját és morfológiai elemzését, a számítógépes szeman-tikát (a jelentés számítógépes rekonstruálása), a dialógusok számítógépes modellezését és a számítógépes pszicholingvisztikát (a nyelvhasználat pszichológiájának modellezése) azonosítja, míg felhasználási területként az információextrakciót, a gépi fordítást, a ter-mészetes nyelv számítógépes generálását, a diskurzusfeldolgozást és a kérdések megvála-szolását (például chatbotok építése) említi.

A korpusznyelvészet a számítógépes nyelvészeten belül a nyelvészeti kutatások vi-szonylag új ága (Szirmai, 2005) Lényege, hogy tudatosan kiválogatunk (vagy véletlensze-rű kiválasztással összegyűjtünk) egy – általában reprezentatív – szöveghalmazt („nyelvi adatokat”), majd a nyelvészeti vizsgálatokat ezen a szöveghalmazon végezzük el számító-gép segítségével. A korpuszok általában olyan szöveghalmazok, amelyek legalább egy-millió szót tartalmaznak, de nem ritkák a százegy-millió szövegszót tartalmazó adatbázisok sem. (A később ismertetendő Miskolc Jogi Korpusz mintegy 2,4 millió szövegszót tartal-mazott a vizsgálat időpontjában.)

Az általános korpusznyelvészet két legegyszerűbb elemzési módszere a szövegben ta-lálható szavak és a szövegben tata-lálható mondatok különböző szempontú elemzése (Szir-mai, 2005, 38–43). Ahhoz, hogy ezt a két legegyszerűbb korpusznyelvészeti feladatot végre lehessen hajtani, a szövegekben a szavakhoz és a szövegekhez magukhoz is ún. an-notációkat (címkéket, metaadatokat) kell fűzni. A kétféle elemzési módszerhez egyfelől a szófaji (ige, főnév stb.), másfelől a mondattani szerepet mutató (alany, állítmány stb.) címkézést kell elvégezni. A címkézés (a metaadatok, az adatokról szóló adatok) hozzá-adása történhet teljes egészében kézzel, géppel vagy vegyes módszerrel, amikor egy ki-sebb, kézzel feldolgozott mintát mutatunk meg a gépnek, amely ezután az abban található szabályok alapján végzi el a teljes korpusz annotálását.

Biber és Reppen szerint a korpusznyelvészet mint módszertan segítségével szin-te minden nyelvészeti kutatási kérdés tanulmányozható, de a korpusznyelvészet maga is inspirál újfajta kérdések felvetésére (Biber–Reppen, 2015). A jogi korpusznyelvészet jó példát nyújt erre, hiszen a hagyományos korpusznyelvészethez képest a nagy méretű

szöveges jogi adatbázisok (például hatósági és bírósági határozatok) korpusznyelvészeti elemzésével prima facie jogtudományi (jogdogmatikai és jogszociológiai) jellegű kérdé-seket is lehet vizsgálni inspirálóan újfajta szemszögből.

A big data kutatások érintkeznek a statisztikával is. Amellett, hogy az adatok fel-dolgozásakor természetesen használják az olyan egyszerű statisztikai fogalmakat, mint a statisztikai átlag, a szórás, a trend vagy a medián, két módszerrel igen gyakran élnek:

a korreláció és a regresszióanalízis eszközével. Mindkét módszerre jellemző, hogy bizo-nyos tényezők, változók közötti kapcsolat mérésére szolgál. A korreláció két adat közötti kapcsolat számszerűsített mutatója, a regresszióanalízis pedig „olyan statisztikai eszköz, amely megkísérli előrejelezni egy változó értékeit egy vagy több másik változó segítségé-vel” (Allen, 2015, 3).

2.2. A jogi szövegek adatszerűsége: kontrollált nyelv, metaadatok és struktúrák

A korpusznyelvészet általában „hétköznapi” vagy „irodalmi” szövegekkel dolgozik, és a célja nyelvészeti jellegű kérdések megválaszolása. A szövegek, amelyekkel dolgozik (pél-dául hétköznapi beszélgetések, irodalmi művek), legtöbbször gyengén strukturáltak.

Ezek esetében is van relevanciája a szövegekhez kapcsolódó adatoknak (például ki a szer-ző, milyen helyzetben hangzott el a beszélgetés stb.) és a belső struktúrának, azonban ennek szerepe korántsem akkora, mint a jogi szövegek esetében.

A jogi szövegek több szempontból is különlegesek, és igen jó alapanyagot szolgál-tatnak a big data jellegű kutatásokhoz, hiszen erősen strukturáltak, eleve rengeteg kísé-rőadatot tartalmaznak, és nyelvileg viszonylag homogének. Úgy is mondhatnánk, hogy bizonyos szempontból eleve adatként jönnek létre. Másrészt a jogi szövegek legtöbbje erősen strukturált, tagolt szöveg: olyan szerkezeti egységek különülnek el benne, amelye-ket a big data kutatások során igen jól lehet használni. Például szinte minden jogi doku-mentumnak van címe, amely eleve hordoz egy sor adatot. A bírósági ítéletekben például mindenhol megtalálható – függetlenül a keletkezési országtól – a felek neve, az ügy szá-ma, az eljáró bíró neve, a per tárgya, maga az érdemi döntés, és valamiféle szöveges indo-kolás, amely azután szintén tagozódhat további alegységekre (például a tényállás, a meg-előző eljárás, a jogi alapot adó jogszabályok és a jogi indokolás). További jellegzetessége a szövegeknek, hogy igen gyakran tartalmaznak hivatkozást más szövegekre, méghozzá szerencsére egységes formátumban.

A jogi szövegek nyelvezete is kontrollált, azaz több szempontból is kötött, és ezt a jogi korpusznyelvészet ki is használja. Ha a jogi szöveg egy adott jogi szakkifejezést használ, akkor nem fogja ennek a szinonimáit alkalmazni még akkor sem, ha ez szóismétléshez, így stilisztikailag szegényes szöveghez vezet. Ehhez hasonlóan a bírák az ítéletekben kon-zekvensen ugyanazokat a szófordulatokat használják egy ítélet indokolásában: az egyszer már bevált megoldásokat nemcsak takarékos, hanem célszerű is újra felhasználni. Végül, de nem utolsósorban, a jogi szövegeken belül jól felismerhető szabályok vannak,

A JOGI SZÖVEGEK MINT BIG DATA n 101 ket igen könnyű algoritmizálni, azaz a számítógép számára is hozzáférhetővé, felismerhe-tővé tenni.

Összefoglalóan tehát a jogi szövegek erősen strukturált szövegek, amelyek kontrollált nyelven íródtak, azaz voltaképpen átmenetet jelentenek a szöveg és az adat közt, így jól elemezhetők géppel. Azokat az adatokat, amelyeket fentebb felsoroltunk, azaz a jogi szö-veget leíró adatokat, a szöveg „belsejének” struktúráját, a struktúrán belüli elemek hely-zetét, a hivatkozásokat stb. leíró adatokat összefoglalóan metaadatoknak nevezzük. A jogi szövegkorpuszokkal foglalkozó korpusznyelvészet jellegzetessége az, hogy igen sok ilyen típusú adattal dolgozik (ettől válik jogi korpusznyelvészetté, és nem egyszerű szövegnyel-vészeti kutatás), továbbá az, hogy ezeknek az adatoknak egy jelentős része az eredeti kor-puszokban (például az interneten) eleve hozzáférhető.

n 3. A JOGI BIG DATA ALAPÚ KORPUSZNYELVÉSZET KUTATÁSI IRÁNYAI

A jogi big data kutatásokat többféleképpen lehet csoportosítani. Fagan szerint a big data kutatások a jog területén annyiban hasonlítanak a hagyományos dogmatikai kutatásokra, hogy egyszerre van leíró deskriptív (pozitív) és előíró (normatív) mozzanatuk (Fagan, 2016). Háromféle paradigmát különbözet meg a leíró kutatások körében. Az elsőben a big data szövegelemzés célja valamilyen „taxonómia” felállítása, azaz a bírói gyakorlat csoportosítása (a szövegből rekonstruálható) tényállási elemek és érvelési mintázatok alapján. A második vizsgálati tárgykör a „realista tanulmányok” csoportja, amely a bírói személyiséget, a döntéséhez vezető nem jogi okokat – így például az amerikai Legfelső Bíróság ítéleteinek szövegét elemezve a politikai nézeteket – igyekszik az indokolások szövegéből feltárni. Végül a harmadik terület a jogalkotás bírói ítéletekben történő lecsa-pódását méri.

Ami pedig a normatív célokat illeti, a big data kutatásoknak Fagan szerint három cél-juk lehet: tisztázni a bírói gyakorlatból leszűrhető „doktrínát”, azaz a valódi dogmatikai érveket, összehasonlítani az egyes bíróságok (államok, területek stb.) joggyakorlatát a jogegység, a kiszámíthatóság céljából, valamint a jobb jogalkotást elősegíteni.

Fagan csoportosításával némileg összecsengő módon itt a big data jogi korpusznyel-vészet három (jelenlegi) területét különböztetjük meg: 1. Nyelkorpusznyel-vészeti súlypontú (első-sorban inkább a nyelvészet terrénumára tartozó) kutatások. 2. A hagyományos dogmati-kai tudomány, illetve a bírósági érvelésekben elrejtett dogmatika feltárását és kontrollját megvalósító dogmatikai kutatások. 3. Azok a kutatások, amelyek már – továbblépve az egyszerű leíráson – a bírósági ítéletek „jóslásával”, azaz predikcióval próbálkoznak. A to-vábbiakban erről a három kutatási irányról lesz szó példák segítségével, a 2. és 3. témakört egy alfejezetben tárgyalva.

3.1. Jogi nyelvészeti kutatások

A nyelvészeti súlypontú kutatások tehát a jogi szöveg nyelvtani, nyelvészeti jellegzetessé-geit igyekeznek feltárni. Ezek közül a Miskolci Egyetemen régebb óta folyó „jog és nyelv”

kutatások részeként nemrég befejeződött korpusznyelvészeti kutatást hozzuk fel röviden példaként.

A kutatás egy magyar jogi szaknyelvi korpusz (Miskolc Jogi Korpusz, MJK) felállí-tásával kezdődött. A mintegy 2,4 millió szót tartalmazó korpusz hat – nagyjából egyen-lő nagyságú – részkorpuszt tartalmazott: a jogrendszer „magját” reprezentáló kódexjog („a jogászok joga”), az egyéb jogszabályok, bírósági ítéletek, magyarázó jellegű szövegek (jogszabályok hivatalos indokolásai, jogtudományi/tankönyvi szövegek), a jogról szóló beszélgetések (internetes jogi fórumokról származó szövegek), végül a jogi eljárásban ke-letkezett kihallgatások és bírósági tárgyalások leiratai részkorpuszát. A kutatás elsősorban a MAGYARLANC elnevezésű nyelvi elemző szoftvert használta, amely szófaji és szintak-tikai összefüggések felismerésére és kigyűjtésére alkalmas, és a MJK-ból kinyert statiszti-kákat, értékeket egy köznyelvi korpusszal vetette össze: a cél annak feltárása volt, hogy a jogi nyelv miben különbözik a hétköznapi nyelvtől.

A teljes kutatást itt nem tudjuk ismertetni, csak néhány érdekes összefüggést villan-tunk fel. A kutatás például nem támasztotta alá azt a közkeletű vélekedést, hogy a jog extrém hosszú mondatokkal dolgozna: a jogi dokumentumokban található mondathossz nem volt átlagosan nagyobb, mint a köznyelvben. Meglepő eredménye a kutatásnak, hogy az érthetőséget befolyásoló tizenegy tényező alapján – például a mondathossz, a beágyazások mennyisége, a személytelen szerkezetek (például „átadásra kerül”) haszná-lata – a bírósági ítéletek és a jogászoknak szánt magyarázó szövegek érthetők a legke-vésbé. A jogszabályok szövege ezen a listán sokkal jobb minősítést kapott. Ugyanakkor alátámasztotta a kutatás azt a megfigyelést, hogy az igék előfordulása sokkal ritkább a jogi korpuszban, mint a köznyelvben, míg a főneveké sokkal gyakoribb. A közvélekedést támasztotta alá az is, hogy közbevetések, alárendelések jóval gyakrabban fordulnak elő a jogi szövegekben, rontva ezek érthetőségét.

Az írott jog érthetőségével kapcsolatos jellegzetességek összefoglalását a 2. táblázat mutatja be, amely a nyelvi szempontból nehézségeket okozó jellegzetességeket tartal-mazza az egyes részkorpuszokban (a kihallgatások leiratai mint beszélt nyelvi szövegek nem szerepelnek ebben az összegzésben). Ha a jellegzetesség jelen van, 1, míg ha nin-csen, akkor 0 értéket kapott, majd az értékeket összesítették az ún. Jaccard-számban.

A táblázatból kitűnik, hogy nem a jogszabályok szövege a legérthetetlenebb, hanem az ítéleteké és a „hivatalos” jogi magyarázó szövegeké.

3.2. Dogmatikai kutatások

A big data kutatások egyik fő sodrát azok a kutatások képezik, amelyek valamilyen dog-matikai konstrukció, jogtudományi megállapítás valódi, a bírói gyakorlatban való

A JOGI SZÖVEGEK MINT BIG DATA n 103

fordulását vizsgálják. Ez a vizsgálat többféleképpen is történhet. A legegyszerűbb az, ami-kor bizonyos szavak, kifejezések vagy épp valamilyen jogi instrumentumra való hivatko

zások előfordulásait vizsgáljuk. Egy friss kutatás annak próbált utánamenni, hogy a rendes bíróságok milyen gyakran idézik az Alaptörvény szövegét, annak mely szövegré-szeit (milyen szakaszokat), milyen ügytípusokban és milyen területi eloszlásban. Az anyagot egy kereskedelmi célú jogi adatbázis forgalmazója szolgáltatta Excel-táblázat for-májában, amely az Alaptörvényre és/vagy AB határozatokra hivatkozó rendes bírósági ítéleteket tartalmazta az adott ítélet metaadataival együtt (eljáró bíróság, az ügy tárgya, a döntés meghozatalának éve stb.). Az egyik részeredménye ennek a kutatásnak, hogy a legnépszerűbb alaptörvényhelyek a bírói gyakorlatban a következők: 28. cikk (az

objek-2. TÁBLÁZAT  Az érthetőséget befolyásoló nyelvi jellemzők a Miskolc Jogi Korpusz alkorpuszaiban

Kódexjog Jogszabály Ítéletek

Magyarázó szöve-gek (jogsza-bály-indokolás, jogi tankönyvek)

Jogi

fórumok Korpusz összesen A köznyelvinél több ige

nélküli mondat 1 1 1 1 1 1

A köznyelvinél

keve-sebb egy igés mondat 1 1 1 1 1 1

A köznyelvinél több

összetett mondat 0 0 0 0 0 0

A köznyelvinél több

retrokondicionális 1 1 1 1 0 1

A köznyelvinél hosz-szabb mondatok

(szó-szám) 1 0 1 1 0 0

A köznyelvinél

keve-sebb központozás 0 0 0 1 0 0

A köznyelvinél

keve-sebb funkciószó 0 1 1 0 1 1

A köznyelvinél több vonatkozó mellék-

mondat 0 0 0 0 0 0

A köznyelvinél

hosz-szabb szavak 1 1 1 1 0 1

A köznyelvinél hosz-szabb mondatok

(karak-terszám) 1 0 1 1 0 1

A köznyelvinél több terpeszkedő szerkezet

(„-ra/-re kerül”) 1 1 1 1 1 1

Pontszám összesen 7 6 8 8 4 6

Jaccard-index 0,63 0,54 0,72 0,72 0,36 0,55

Forrás: Vincze, 2018, 34. alapján saját szerkesztés

tív teleologikus értelmezés szabálya, 483 idézés), IX. cikk (szólásszabadság, 385 idézés) és XXVIII. cikk (a tisztességes eljáráshoz való jog, 259 idézés; Ződi–Lőrincz, 2017, 18).

Az ítéletekben szereplő hivatkozások számát a 3. táblázat foglalja össze.

3. TÁBLÁZAT  Rendes bírósági ítéletek hivatkozásai az Alaptörvény egyes helyeire Hely Darab hiv.

Alap-törvény 591

A) cikk 1

B) cikk 178

C) cikk 14

E) cikk 37

F) cikk 1

G) cikk 1

H) cikk 3

I) cikk 7

L) cikk 5

M) cikk 36

N) cikk 6

O) cikk 4

P) cikk 2

Q) cikk 50

R) cikk 20

T) cikk 10

I. cikk 197

II. cikk 121

III. cikk 24

IV. cikk 37

V. cikk 3

VI. cikk 255

VII. cikk 19

VIII. cikk 25

IX. cikk 385

X. cikk 10

XI. cikk 5

XII. cikk 32

XIII. cikk 104

XIV. cikk 15

XV. cikk 102

XVI. cikk 9

XVII. cikk 5

XVIII. cikk 7

Hely Darab hiv.

XIX. cikk 23

XX. cikk 57

XXI. cikk 11

XXIII. cikk 13

XXIV. cikk 114

XXV. cikk 18

XXVI. cikk 9

XXVII. cikk 11

XXVIII. cikk 259

XXIX. cikk 1

XXX. cikk 7

1. cikk 41

2. cikk 22

3. cikk 14

4. cikk 16

5. cikk 8

6. cikk 61

7. cikk 5

8. cikk 6

9. cikk 24

10. cikk 19

11. cikk 2

12. cikk 10

13. cikk 11

14. cikk 9

15. cikk 21

16. cikk 5

17. cikk 17

18. cikk 5

19. cikk 4

20. cikk 7

21. cikk 2

22. cikk 1

24. cikk 88

25. cikk 123

Hely Darab hiv.

26. cikk 76

27. cikk 1

28. cikk 483

29. cikk 3

30. cikk 9

31. cikk 6

32. cikk 16

33. cikk 6

34. cikk 6

35. cikk 2

36. cikk 3

37. cikk 7

38. cikk 37

39. cikk 114

40. cikk 1

41. cikk 11

43. cikk 6

45. cikk 2

46. cikk 2

47. cikk 10

49. cikk 3

51. cikk 12

52. cikk 2

53. cikk 1

54. cikk 3

Összesen 4187

Forrás: Ződi–Lőrincz, 2017, 17–18.

A JOGI SZÖVEGEK MINT BIG DATA n 105 Ennél jóval komplikáltabb kutatást végzett a korábban már hivatkozott Frank Fagan a tár-sasági jogutódlás során alkalmazott felelősség (successor liability) kérdéskörében. A kiin-duló probléma és kérdés az volt, hogy mind a bírósági gyakorlat, mind a jogtudomány (a dogmatikai tudomány, a „doctrine”) bizonytalannak tűnt a jogintézmény, a felelősségi konstrukció alkalmazását illetően. Ebben az esetben a kutató előtt két út áll: vagy nekiáll elolvasni sok ezer ítéletet és megpróbálja ezeket csoportokba rendezni, vagy számítógé-pes szövegelemzést végez. Utóbbinak, mondja Fagan, nemcsak az az előnye, hogy időt lehet vele spórolni, hanem az óhatatlan szubjektivitást is ki tudja küszöbölni, hiszen az ember rendszerint már eleve valamilyen elméleti, módszertani vagy doktrinális szemüve-gen keresztül olvassa az ítéleteket (Fagan, 2015, 404). Az elemzés ennél a kutatásnál há-rom lépcsőben történt, a már tisztított adatbázison: előbb emberi kódolással tanítóadatot hoztak létre, majd a teljes mintát bekódolták gépileg az eredmények (a perek kimenetele) szempontjából, majd ún. topikmodellezést hajtottak végre a bekategorizált ítélethalma-zon. Ennek leegyszerűsítve az a lényege, hogy a gép kiválogatja a leggyakrabban együtt előforduló szavakat (még pontosabban ennél a kutatásnál kettős szavakat, ún. bigramo-kat, például „unjust enrichment”, itt összesen 17 500 darabot), és ez alapján besorolja a dokumentumokat a kutatás vezetője által megadott számú csoportba. Természetesen egy dokumentum soha nem fog kizárólag egy topikba tartozni, mindig csak százalékos ará-nyokról beszélhetünk. Világos, hogy ennek a módszernek az az előnye, hogy nincsen semmiféle előzetes szemüveg, kategóriarendszer, már a dokumentumok csoportosítása is a gépre van bízva. Ezután az egyes topikokon belül megnézték, hogy mely szópárok jel-zik a legjobban előre az eredményt, a per kimenetelét. Ez alapján a szerző a bevett tudo-mányos felosztás (a felelősségmegállapítást eredményező okok) helyett egy új, már az adatokon nyugvó felosztást javasolt.

Végül illusztrációként egy olyan kutatásról essék szó, amelynek már kifejezetten az volt a célja, hogy olyan modellt állítson fel, amelynek segítségével az Emberi Jogok Eu-rópai Bírósága ítéletei jó arányban előrejelezhetők (Aletras et al., 2016). Ez a kutatás alapgondolatát tekintve ugyan nem tért el a Fagan-féle kutatástól, amennyiben a szavak együttes előfordulásaiból igyekezett következtetést levonni, és a topikmodellezést is fel-használták, azonban a részleteket illetően több ponton is komolyan továbbfejlesztették a fenti modelleket. Egyrészt itt nem a szakirodalomból ismert elméletek és csoportosítá-sok kontrollja volt a cél, hanem kifejezetten előrejelzés, predikció adása, azaz ezt inkább lehetne kísérletnek, mint empirikus kutatásnak nevezni.

A kutatásnak több meglepő és több kevésbé meglepő következtetése volt. A meglepő, hogy az ítéletek szövegéből csaknem 80%-ban ki lehet következtetni a végeredményt.

A kevésbé meglepő, hogy az ítéleteknek bizonyos részei jobban előrejelzik a végered-ményt, mint más helyei, így például az „eset körülményei” rész igen jó előrejelző erővel rendelkezik, míg más elemek nem vagy alig bírnak ilyennel.

A dogmatikai irányú big data kutatások hasznát, funkcióját illetően konszenzus lát-szik kialakulni abban a tekintetben, hogy ezek nem leváltani fogják a hagyományos dog-matikai jogtudományt, hanem inkább kiegészíteni, kontrollálni képesek azt (Goanta, 2017; Šadl–Olsen, 2017).

n 4. GYAKORLATI ÉS TÖRVÉNYSZÉKI ALKALMAZÁSOK

A tudományos célok mellett a big data módszertant, a korpusznyelvészet eredményeit ma már nemcsak a tudomány, hanem részben piaci alapú szolgáltatások és szoftverek is használják, részben pedig a törvényszéki nyelvészet (forensic linguistics) eszköztárába is bekerültek. Némelyek igen lelkesek ezekkel az új módszerekkel kapcsolatban, és a jelen-legitől radikálisan különböző jogrendszert vizionálnak (Katz, 2013). Ebben az alfejezet-ben először a gyakorlati, piaci alkalmazásokkal ismerkedünk meg, a második részalfejezet-ben a törvényszéki alkalmazásokkal.

4.1. Big data alapú elemző szolgáltatások gyakorló jogászok számára

A bírósági ítéletek és iratok elemzése, ezekből statisztikák, kimutatások készítése valószí-nűleg a jogászi munka egyik legunalmasabb része, pedig gyakran lehet rá szükség. Ami-kor a big data módszertanok szélesebb körben ismertek lettek, az USA-ban több olyan szolgáltatás is elindult, amely a jogi forráskutatást segítő szokásos funkcióknál (keresés) többet próbált nyújtani (a három legismertebb a Lex Machina, a Ravel és a Premonition, 2. ábra).

Ez a többlet alapvetően kétféle lehet. Egyrészt részben a már meglevő metaadatok felhasználásával (például az ítéletekben található ügytípusok és az ügyeket tárgyaló bí-rák, ítéletek egymásra történő hivatkozásai) mindenféle, addig nem használt statisz-tikákat vagy éppen vizualizációt képesek készíteni. Például az ügytípusok és a bírák összekombinálásából statisztika készíthető a bíró „portfóliójáról”, azaz arról, hogy mi-lyen ügyeket tárgyalt addigi karrierje során, vagy a hivatkozásokból látványos hálózat rajzolható.

Másrészt az ügyekből részben kézi (annotáció), részben gépi módszerekkel olyan adatok is kinyerhetők, amelyeket az eredeti metaadatok nem tartalmaznak, és ezekből is készíthetők statisztikák. Ha mindez kiegészül egy – fentebb ismertetett – big data ala-pú gépi szövegelemzéssel, akkor ítéletek csoportjairól vagy az eljárásban szereplő szemé-lyekről (ügyvéd, alperes, felperes, bíró) is lehet elemzést adni. Ha pedig a szövegelemzés módszereit nemcsak ítéletekre, hanem más dokumentumokra (például beadványokra) is alkalmazzuk (itt emlékeztetünk arra, hogy az USA-ban ezek is hozzáférhetők), akkor mondjuk egy ügyvédről még részletesebb és mélyebb profil készíthető.

A big data módszertanok másik gyakorlati felhasználási területe a nagy méretű (cé-ges, szervezeti) jogi dokumentumhalmazok gépi, automatizált átkutatása, elemzése. Két tipikus oka van, hogy ilyenre kényszerülhet egy cég, szervezet vagy annak jogi csapata:

vagy mert pereskednie kell, és kénytelen elektronikus dokumentumfeltárást végezni (ez az ún. eDiscovery szoftverek világa), vagy egy cégfelvásárlás kapcsán kell a jogi dokumen-tumok teljes körű átvizsgálását elvégeznie. Ez az ún. legal due diligence (tranzakciókat megelőző jogi átvizsgálás) vagy a virtual data rooms (virtuális adatszoba) szoftverek vilá-ga. Mindkét esetben dokumentumok százezreit kell átnézni, és adott esetben nemcsak

A JOGI SZÖVEGEK MINT BIG DATA n 107

tematikusan kiválogatni belőle egyes dokumentumokat, hanem például a jogi átvizsgá-láskor az is kérdés, hogy milyen szerződések térnek el a megszokott mintáktól (például tartalmaznak-e másfajta felelősségi vagy felmondási rendelkezést).

Mindkét területre igaz, hogy szoftverek tucatjai állnak már rendelkezésre (Capterra Data Discovery Software 2019, Capterra Virtual Data Rooms Software 2019). Ezek logikája általában hasonló, statisztikai alapú, a korábban megismert módszereket alkalmazó gépi tanulási fázis után képesek az automatikus klasszifikációra, dokumentumkiválasztásra vagy statisztikák készítésére. Mivel ezek kereskedelmi, üzleti célokat szolgálnak, további jellemzőjük, hogy igencsak borsos az áruk, cserébe viszont teljes körű támogatással ren-delkeznek és sokféle lehetőséggel arra, hogy egy cég, ügyvédi iroda többi szoftveréhez integrálhatók, összekapcsolhatók legyenek.

4.2. Törvényszéki korpusznyelvészet

A big data módszertanok gyakorlati alkalmazásának másik ága a pereskedés során, a jogi eljárásokban alkalmazott big data alapú felhasználások. Ezek közül csak hármat említünk meg: a szerzőazonosítást, a plágiumellenőrzést és a jelentésrekonstrukciót.

A szerzőazonosítás, azaz ismeretlen eredetű szöveges üzenetek szerzőhöz kötése mint nyelvészszakértői tevékenység korábban is létezett, de a fentebb említett korpusznyelvé-szeti módszerekkel – különösen akkor, ha azoktól a személyektől, akikre vonatkozóan szeretnénk a vizsgálatot lefolytatni, kellő mennyiségű szöveg áll rendelkezésre – nagyon nagy bizonyossággal beazonosítható egy szöveg szerzője. Ennek alapja egyrészt az a tény, hogy az emberek nyelvhasználata hasonlóan egyedi, mint az ujjlenyomatuk vagy a DNS-ük, ráadásul hosszabb távon, nagyobb szövegkorpuszokban szinte lehetetlen eltérni tőle, mert a spontán nyelvhasználati mintázatok visszatérnek. Ugyanakkor van,

2. ÁBRA  A Premonition nevű amerikai big data jogi elemzőszoftver reklámja

In document Empirikus jogi kutatások (Pldal 93-111)