• Nem Talált Eredményt

2. Interdiszciplináris eszköztár

2.2. A tartalmi elemzés elméleti háttere

2.2.2. Szövegbányászat

A szövegbányászatra szöveges adatbányászatként (text data mining) is szoktak hivatkozni, illetve a kezdetekben elterjedt volt még a szöveg analízis (text analytics) terminus is. Kialakulása az üzleti intelligenciához (business intelligence) köthető és 1950-es évek végére tehető: az adatfeldolgozó gépek használhatóak dokumentumok referálására és auto-kódolására (Luhn, 1958). A számítógépes infrastruktúra, a mesterséges intelligenciakutatás és a gépi tanulóalgoritmusok fejlődésének hatására az 1990-es években kezdtek el újra komolyabban foglalkozni a szövegbányászattal, az adatbányászat egy speciális aleseteként, például Hearst számítógépes nyelvészeti megközelítésű cikkét érdemes említenünk (Hearst, 1999), illetve ebben az időszakban szintén elkezdődött egy „Szeged Treebank” elnevezésű korpusz kialakítása, ami bizonyítja, hogy nemzetközi viszonylatban a hazai kutatók egyáltalán nem voltak lemaradva.

A módszer számtalan alkalmazási területét lehetetlen bemutatni, azonban néhány példát mégis kiragadnánk. Számos elemzés származik az orvosbiológia (Cohen & Hersh, 2005;

Vincze, Szarvas, Farkas, Móra, & Csirik, 2008), az üzleti informatika (Ghosh, Haider, & Sen, 2015), a számítógépes nyelvészet (Schneider, 2014), vagy a könyvtártudomány (Nagarkar, 2015) területéről. Összességében elmondható, hogy szinte minden olyan diszciplína esetén lehetne példát találni a használatára, ahol nagyobb mennyiségű szövegek fordulnak elő, emiatt magától értetődő, hogy az oktatási terület és az azt kutató neveléstudomány sem jelent ez alól kivételt.

A szövegbányászat és az előző fejezetben bemutatott klasszikus tartalomelemzés közös tulajdonsága, hogy mindkettő vizsgálati tárgyát a szöveges dokumentumok képezik.

Ugyanakkor, míg a tartalomelemzés általában különböző manuális módszerekre épít (melyek során természetesen felhasználják az informatika által nyújtott lehetőséget is), addig a

szövegbányászat előszeretettel használ különböző automatizált, algoritmizált megoldásokat. Ez nem véletlen, hiszen az informatika oldaláról fejlődött ki, valójában annak szöveges dokumentumok elemzésével foglalkozó részterületét jelenti, a mostanában megannyi területen alkalmazott adatbányászatból alakult ki. A legfőbb különbség a két terület között, hogy amíg az adatbányászat (data mining) legalább valamilyen szinten organizált adatokkal dolgozik, (amelyek sok esetben numerikusak), addig a szövegbányászat (text mining) inputjaként bármilyen szöveges dokumentum szóba jöhet.

A szövegbányászatot mint modern informatikai módszert legalaposabban tárgyaló, összefoglaló jellegű magyar nyelvű forrás Tikk Domonkos nevéhez köthető. A szerző informatikus, így egyértelműen a gyakorlati alkalmazás kerül előtérbe, egészen a módszer keretében felhasználható konkrét algoritmusok szintjéig (Tikk, 2007). A szövegbányászat a klasszikus tartalomelemzést lehetőségeiben meghaladó módszer, így elsősorban erre alapozott megoldásokat használtunk kutatási projektünkben. Meg kell azonban jegyezni, hogy minden különbözőség ellenére valamelyest mégis rokon eljárásoknak tekinthetőek, emiatt vált szükségessé a klasszikus tartalomelemzési előzmények bemutatása. Annál is inkább, mert a klasszikus kvantitatív tartalomelemzésnek komoly pedagógiai hagyományai vannak, ahogyan az kiderült az előző fejezetből.

A szövegbányászatot általánosan tárgyaló angol nyelvű szakirodalomból elsősorban a témával foglalkozó kézikönyveket érdemes kiemelnünk, hiszen a módszer túl összetett ahhoz, hogy egy-egy konkrét kutatást, kísérletet, implementációt részletesebben, egy-egy említésen túl bemutassunk egy disszertáció szabta terjedelmi keretek között. Több másik kötet mellett ilyen alapműnek tekinthetőek a Text Mining: Predictive Methods for Analyzing Unstructured Information (Weiss, Indurkhya, Zhang, & Damerau, 2005), illetve a Mining Text Data című kézikönyvek (Aggarwal & Zhai, 2012).

Az eljárás lényege abban áll, hogy nagy mennyiségű, természetes nyelvű szöveg automatikus gépi elemzésével próbálunk olyan következtetéseket levonni a szöveget illetően, amelyek esetében akár az is elképzelhető, hogy azok explicit módon nincsenek benne a szövegben, vagy csak rejtetten, esetleg az óriási mennyiségű szövegkorpuszokban elvesznek ezek az egyébként lényeginek tekinthető információk. A szövegbányászat különböző lépések, eljárások, algoritmusok felvonultatásával rejtett mintázatokat próbál találni a szövegekben, amelyekből azután a módszert alkalmazó hozzáértő kutató különféle tudományos következtetéseket tud levonni (Tikk, 2007). Természetesen ezt az innovatív informatikai megoldást nem csak tudományos célra használják, sokkal inkább a tudomány emelte át saját

eszköztárába a gazdasági életből, azonban kutatásunk kapcsán relevancia hiányában nem tartjuk szükségesnek az üzleti alkalmazás gyakorlatának tárgyalását.

Mivel a szövegbányászat az adatbányászatból alakult ki, ezért mindenképpen szükséges a két terület viszonyának a tisztázása, annál is inkább, mert mindkét kutatási eljárást használják a pedagógiai kutatásokban a későbbiekben ismertetésre kerülő Educational Data Mining szubdiszciplína keretei között (Hung, 2012; Romero, Ventura, Pechenizkiy, & Baker, 2010;

Ueno, 2004). A legfőbb különbség a két terület között, hogy míg az adatbányászat strukturált adatokkal dolgozik, addig a szövegbányászat strukturálatlan szövegeket használ input alapanyagként, ezért tehát elmondhatjuk, hogy a szövegbányászat az informatika szöveges dokumentumok elemzésével foglalkozó ága. Esetünkben a folyóirat-hivatkozások ugyan hordoznak egyfajta struktúrát, szabályosságot, lásd az American Psychological Association (2010) vagy a Magyar Pedagógia korábbi publikációs stílusát, azonban a hivatkozások feldolgozása a textuális dominancia miatt már egyértelműen a szövegbányászat területe.

Tikk (2007) definíciója egészen pontosan így határozza meg a szövegbányászatot:

strukturálatlan, vagy kis mértékben strukturált szöveges adatokon végzett feldolgozási és elemzési tevékenység, melynek célja a dokumentumokban rejtetten meglévő információk feltárása, azonosítása és elemzése. A szövegbányászat interdiszciplináris, alkalmazásorientált szakterület, amelynek általános modellje a 3. ábrán látható.

3. ábra

A szövegbányászat általános modellje (Forrás: Tikk, 2007, p. 22)

Bevett alkalmazási technikákat képvisel a kategorizálás, a klaszterezés, a kivonatolás (összefoglalás), az információ kinyerés, a trendkövetés, a szemantikus elemzés és a vizualizáció (Feldman & Sanger, 2007). Mivel ezek közül több eljárást is felhasználtunk munkánk során, így részletesebb bemutatásuk is szükséges Tikk (2007) munkája nyomán:

 Osztályozás, kategorizálás: Az osztályozás célja szöveges dokumentumok előre definiált halmazból vett tematikus kategóriacímkékkel való ellátása.

 Csoportosítás, klaszterezés: Az osztályozás és a csoportosítás között a leglényegesebb különbség, hogy az utóbbi esetben nem áll rendelkezésre tematikus kategóriarendszer,

amelybe a dokumentumokat be lehetne sorolni, ezt a szöveg feldolgozása során a gépi tanulás útján kell megteremtenünk a kiinduló szövegből.

 Trendkövetés: Egy kutatás során kibontakozó témacsoportok tárgyalásának végigkövetése és a felbukkanó új fogalmak vizsgálata. Ez tulajdonképpen a szövegbányászat hagyományos vizsgálati módszereivel kapott eredmények időtengelyre való kivetítése. Az eredmények túlzott elaprózódásának elkerülése végett fontos lépés az időskála helyes megválasztása.

 Vizualizáció: A nagyméretű szöveges kutatási anyagok miatt az eredmények megfelelő prezentálása nem mindig egyszerű feladat, és általában szükség van valamilyen, a mindennapos, konzervatív vizualizációs megoldásokat (hisztogram, vonalgrafikon, stb.) meghaladó, innovatívabb vizualizációs eszköztár felvonultatására, például tematikus hőtérkép, címkefelhő, dendrogram, vagy egy-egy egyedi infografika, de akár saját fejlesztésű megjelenítési környezet adaptálására is (Börner & Polley, 2014).

A szegedi kutatók (Számítógépes Algoritmusok és Mesterséges Intelligencia Tanszék és MTA-SZTE Mesterséges Intelligencia Kutatócsoport és ezek elődei) már az 1990-es évek vége óta jelen vannak a területen: „Szeged Treebank” néven építettek korpuszgyűjteményt, melyet számtalan szövegbányászati és számítógépes nyelvészeti kutatás felhasznált (Csendes, Csirik, Gyimóthy, & Kocsor, 2005). Mellettük az utóbbi időszakban Szegeden Farkas Richárd és kollégái foglalkoztak még behatóbban a témával és váltak a terület elismert, sokat publikáló szerzőivé (Farkas, Szarvas, & Ormándi, 2007; Farkas, Vincze, & Schmid, 2012;Berend, 2016).

A szöveg- és adatbányászat tudománymetriai vonatkozású felhasználása külön értekezést érdemelne, ennek részletes bemutatására jelen keretek között nem törekedhetünk, a kapcsolat (és főleg annak mélységének) megállapítása azonban elengedhetetlen az általunk alkalmazott módszer elméleti alátámasztottsága érdekében. A modern, informatikai alapokon nyugvó tudománymetria elképzelhetetlen lenne a hatalmas adatmennyiség észszerű feldolgozását lehetővé tévő automatizált megoldások nélkül. Egyszerűen nem létezhetnének a hivatkozásokat szinte valós időben nyomon követő tudománymetriai adatbázisok és professzionális elemzőeszközök, legalábbis a jelenlegi nagyságrendben és minőségben semmiképpen.

Professzionális módon tárgyalja napjaink lehetőségeit és összetett ökoszisztémáját a két terület vonatkozásában Katy Börner (2010, 2015) rendkívül tartalomgazdag és igényesen illusztrált könyveiben. A bloomingtoni Indiana Egyetem professzorának teljes munkássága a tudománymetria és az információtudomány találkozási pontjának nagyszerű eredményeiről ad tanúbizonyságot.

2.2.3. A szövegbányászat és a neveléstudomány találkozási pontja: Educational Data