8. Tartalmi elemzés
8.1. A tartalmi elemzés kiindulási alapjai és kezdeti fázisa
8.1.2. Vizualizálási kísérletek
Már a projekt elején számoltunk azzal, hogy a hatalmas adattömeg grafikus prezentálása nem lesz egyszerű feladat, ezért a szóba jöhető vizualizálási megoldásokat minél szélesebb körűen megpróbáltuk felderíteni a szakirodalom alapján (Börner, 2010, 2015; McCandless, 2010; Yau, 2011; Börner & Polley, 2014), választ keresve az előttünk álló kihívásokra. A számtalan konvencionális diagramtípus (oszlop, sáv, vonal, kördiagram) mellett olyan további, ritkábban használt, ám a speciális információtartalom megjelenítésére alkalmasabb eszközöket vizsgáltunk, mint a hőtérkép, a címkefelhő, a dendrogram, a 100%-ig halmozott területdiagram, a szórásdiagram (más néven pontfelhődiagram), kategóriadobozok és gráfok.
Mindezek mellett további opcióként felmerült különböző dinamikus vagy mozgóképes megoldások használata is, mint a bemutatható adatmennyiséget egységnyi képernyőn növelni tudó időbeli kiterjesztés. Több kísérleti próbálkozás is elkészült ebből a műfajból, de nyilvánvalóan egy ilyen dimenzióbeli kiterjesztést nem lehet bemutatni a klasszikus disszertáció állította statikus formai keretek között.
A 2. mellékletben több példát is közlünk a nyers, XML fájlokban tárolt szövegekről, melyek tulajdonképpen a tartalmi elemzések kiindulópontját jelentették. Amíg ezekből a tisztán szöveges oldalakból a későbbiekben bemutatott színes ábrák elkészültek, számos lépésen kellett keresztülmenniük. A folyamat során alkalmazott eljárásokat a kutatási módszerek között mutattuk be. Az elvégzett tevékenységek közül az egyik legnehezebb, egyben utolsó lépés, a kapott eredmények minél áttekinthetőbb, értelmezhetőbb és esztétikus formában történő megjelenítése volt. A tartalmi elemzések vizualizálása összetett és nehéz feladatot állított elénk, ezért röviden ismertetjük a teljes eljárást és az alkalmazott módszereket, beleértve a
kísérletezési fázist is, hiszen ennek a kezdeti szakasznak is voltak előremutató tanulságai, továbbá az esetleges hasonló megközelítésű, jövőbeli kutatások számára potenciálisan megfontolandó kimenetei. Az alább közölt ábrák (3336. ábra) a kezdeti fázis kísérletezésének eredményei, amelyek ugyan már eredményeket tartalmaznak és közvetítenek, de itt elsősorban még nem ezért szerepelnek, hanem mint a leendő grafikus megjelenítés lehetséges megoldásai még az előkészítő, tervezési fázisból. A hosszú kísérletezés és útkeresés bizonyítékaiként állnak itt, így információtartalmukat bővebben nem magyarázzuk.
Biztos kiindulási alapként természetesen megvizsgáltuk a triviális grafikontípusok, mint a sáv és vonaldiagram alkalmazhatóságát is. A 33. ábrán egy ilyen próbálkozás eredménye látható az „eugenika” szó vízszintes oszlopdiagramon ábrázolt példáján keresztül. Az előzetes pilot kísérletek során elég hamar felléptek az egyszerűbb diagramtípusok korlátai, mivel ezek egyegy szó vonatkozásában többékevésbé ugyan még elégségesnek bizonyultak, azonban amint a problématér növekedett (mivel egyszerre több szót és kifejezést szerettünk volna párhuzamosan vizsgálni azok összehasonlíthatósága miatt) nehézségekkel találtuk szembe magunkat. Nem könnyített a helyzeten a hosszú, összesen 123 évet felölelő vizsgálati időablak sem.
33. ábra
Az eugenika kifejezés évenkénti előfordulása 1892-2014 között sávdiagramon
A kezdeti kísérletező fázisban – az előző bekezdés fényében – áttekintve a klasszikus grafikonoknál általában használt dimenziókat és tipikusan előforduló tengelyeket, az adatsűrűség fokozása érdekében a mátrix típusú elrendezés előremutató alternatívaként merült fel a vizuális megjelenítés optimalizálása érdekében. Ebből fakadóan a hőtérképes (heat map) ábrázolási mód már a kezdetektől fogva potenciális megjelenítési lehetőségként vetődött fel, hiszen ezt a típusú diagramot általában kifejezetten nagymennyiségű adat vizuális bemutatására használják, mivel az információtartalom sűrűsége igen magas szintű ennél a grafikontípusnál.
Ez főként abból adódik, mert a hőtérkép által lefedett terület teljes egésze kihasználásra kerül, szinte egyáltalán nem jelentkezik üres, fehér térrész, ahogyan például egy pontdiagram vagy egy vonaldiagram esetében gyakran tapasztalható, hiszen ezeknél a diagramtípusoknál sokszor a lefedett terület 90% fölötti részaránya üres, ezáltal semmilyen információt nem közvetít.
A hőtérképek és a belőlük származtatott színképes skálák kiindulási alapját a korábban előállított gyakorisági táblázatok jelentették. A hőtérkép jellegű ábrák létrehozásához a Microsoft Excel 2013as szoftvercsomagjának „Feltételes formázás/Színskálák” funkcióját használtuk fel. A gyakorisági értékek egymáshoz való viszonyítása és a színértékek automatikus hozzárendelése mindig az adott soron belül történik az Excel megfelelő algoritmikus szabályai szerint. A 34. és 35. ábrán egyegy ilyen típusú ábra látható a kísérletezés időszakából.
34. ábra
Az egyes szavak évenkénti előfordulását mutató tematikus hőtérképes megjelenítés*
* Jelmagyarázat: zöld-sárga-piros színek – alacsony-közepes-magas gyakoriság
35. ábra
Egyes szakkifejezések évtizedenként aggregált előfordulását mutató tematikus hőtérkép* Az eddig bemutatott vizualizálási kísérletek fő fókuszát a gyakoriság, a trendszerűség és az időbeli változás tettenérése, illetve láttatása jelentette. Az eredmények alternatív szempontú vizualizálása miatt szükséges volt megtalálni azt a megoldást, amely elsődlegesen a tartalmat állítja a középpontba, míg az időbeli változásra egyáltalán nem, vagy csak kevésbé koncentrál.
Ennél a típusú ábrázolásnál az időbeliség csupán a statikus ábrák egymásutánisága miatt érhető tetten. A hosszabb szövegek tartalmi leképezésének egyik legelemibb vizuális módszerét a címkefelhő vagy szófelhő módszer jelenti napjainkban (Heimerl, Lohmann, Lange, & Ertl, 2014; Cui, Wu, Liu, Wei, Zhou, & Qu, 2010). Emiatt már a kezdeti terveink között megjelent az ezzel kapcsolatos kísérletezés, mint potenciális alternatíva. A 36. ábrán egy ilyen próbálkozás eredménye látható. Több hasonló program és online szolgáltatás megvizsgálása után a szófelhő típusú ábrák létrehozásához végül a WordArt.com szolgáltatását használtuk fel.
Mivel az egyes szavakhoz kapcsolódó gyakorisági értékek CSV táblázatokban a rendelkezésünkre álltak, ezért kézenfekvő módon a program CSV import funkciójával volt érdemes dolgoznunk. A szavak ismétlését kikapcsoltuk, formának a klasszikus felhő alakot választottuk, betűtípusként az ékezetes karaktereket is helyesen kezelő Heuristica fontcsaládot, a színeket illetően ugyanabból a hat, jól elkülönülő színből áll palettát használtuk az ilyen típusú ábráknál.
* Jelmagyarázat: zöld-sárga-piros színek – alacsony-közepes-magas gyakoriság
196x 197x 198x 199x 200x 201x
mastery learning 0 20 8 4 11 14
önszabályozó tanulás 0 0 0 1 44 11
proszociális 0 0 3 22 23 17
kognitív 8 23 152 314 920 359
értékelés 643 1092 871 631 910 441
36. ábra
Egy véletlenszerűen kiválasztott cikk (Pásztor, 2014) korai szófelhős megjelenítése A vizualizálási kísérletek során bizonyosságot nyertünk arról, hogy a szófelhős ábrázolási mód alkalmas lesz az egyes cikkek tartalmi reprezentációjára és az évtizedekre bontott tematikus válogatások könnyen értelmezhető, befogadható megjelenítésére. További vizualizálási megoldásokról a 8.7es pontban, az egyéb próbálkozások között fog szó esni.