• Nem Talált Eredményt

8. Tartalmi elemzés

8.1. A tartalmi elemzés kiindulási alapjai és kezdeti fázisa

8.1.2. Vizualizálási kísérletek

Már a projekt elején számoltunk azzal, hogy a hatalmas adattömeg grafikus prezentálása nem lesz egyszerű feladat, ezért a szóba jöhető vizualizálási megoldásokat minél szélesebb körűen megpróbáltuk felderíteni a szakirodalom alapján (Börner, 2010, 2015; McCandless, 2010; Yau, 2011; Börner & Polley, 2014), választ keresve az előttünk álló kihívásokra. A számtalan konvencionális diagramtípus (oszlop­, sáv­, vonal­, kördiagram) mellett olyan további, ritkábban használt, ám a speciális információtartalom megjelenítésére alkalmasabb eszközöket vizsgáltunk, mint a hőtérkép, a címkefelhő, a dendrogram, a 100%-ig halmozott területdiagram, a szórásdiagram (más néven pontfelhődiagram), kategóriadobozok és gráfok.

Mindezek mellett további opcióként felmerült különböző dinamikus vagy mozgóképes megoldások használata is, mint a bemutatható adatmennyiséget egységnyi képernyőn növelni tudó időbeli kiterjesztés. Több kísérleti próbálkozás is elkészült ebből a műfajból, de nyilvánvalóan egy ilyen dimenzióbeli kiterjesztést nem lehet bemutatni a klasszikus disszertáció állította statikus formai keretek között.

A 2. mellékletben több példát is közlünk a nyers, XML fájlokban tárolt szövegekről, melyek tulajdonképpen a tartalmi elemzések kiindulópontját jelentették. Amíg ezekből a tisztán szöveges oldalakból a későbbiekben bemutatott színes ábrák elkészültek, számos lépésen kellett keresztülmenniük. A folyamat során alkalmazott eljárásokat a kutatási módszerek között mutattuk be. Az elvégzett tevékenységek közül az egyik legnehezebb, egyben utolsó lépés, a kapott eredmények minél áttekinthetőbb, értelmezhetőbb és esztétikus formában történő megjelenítése volt. A tartalmi elemzések vizualizálása összetett és nehéz feladatot állított elénk, ezért röviden ismertetjük a teljes eljárást és az alkalmazott módszereket, beleértve a

kísérletezési fázist is, hiszen ennek a kezdeti szakasznak is voltak előremutató tanulságai, továbbá az esetleges hasonló megközelítésű, jövőbeli kutatások számára potenciálisan megfontolandó kimenetei. Az alább közölt ábrák (33­36. ábra) a kezdeti fázis kísérletezésének eredményei, amelyek ugyan már eredményeket tartalmaznak és közvetítenek, de itt elsősorban még nem ezért szerepelnek, hanem mint a leendő grafikus megjelenítés lehetséges megoldásai még az előkészítő, tervezési fázisból. A hosszú kísérletezés és útkeresés bizonyítékaiként állnak itt, így információtartalmukat bővebben nem magyarázzuk.

Biztos kiindulási alapként természetesen megvizsgáltuk a triviális grafikontípusok, mint a sáv­ és vonaldiagram alkalmazhatóságát is. A 33. ábrán egy ilyen próbálkozás eredménye látható az „eugenika” szó vízszintes oszlopdiagramon ábrázolt példáján keresztül. Az előzetes pilot kísérletek során elég hamar felléptek az egyszerűbb diagramtípusok korlátai, mivel ezek egy­egy szó vonatkozásában többé­kevésbé ugyan még elégségesnek bizonyultak, azonban amint a problématér növekedett (mivel egyszerre több szót és kifejezést szerettünk volna párhuzamosan vizsgálni azok összehasonlíthatósága miatt) nehézségekkel találtuk szembe magunkat. Nem könnyített a helyzeten a hosszú, összesen 123 évet felölelő vizsgálati időablak sem.

33. ábra

Az eugenika kifejezés évenkénti előfordulása 1892-2014 között sávdiagramon

A kezdeti kísérletező fázisban – az előző bekezdés fényében – áttekintve a klasszikus grafikonoknál általában használt dimenziókat és tipikusan előforduló tengelyeket, az adatsűrűség fokozása érdekében a mátrix típusú elrendezés előremutató alternatívaként merült fel a vizuális megjelenítés optimalizálása érdekében. Ebből fakadóan a hőtérképes (heat map) ábrázolási mód már a kezdetektől fogva potenciális megjelenítési lehetőségként vetődött fel, hiszen ezt a típusú diagramot általában kifejezetten nagymennyiségű adat vizuális bemutatására használják, mivel az információtartalom sűrűsége igen magas szintű ennél a grafikontípusnál.

Ez főként abból adódik, mert a hőtérkép által lefedett terület teljes egésze kihasználásra kerül, szinte egyáltalán nem jelentkezik üres, fehér térrész, ahogyan például egy pontdiagram vagy egy vonaldiagram esetében gyakran tapasztalható, hiszen ezeknél a diagramtípusoknál sokszor a lefedett terület 90% fölötti részaránya üres, ezáltal semmilyen információt nem közvetít.

A hőtérképek és a belőlük származtatott színképes skálák kiindulási alapját a korábban előállított gyakorisági táblázatok jelentették. A hőtérkép jellegű ábrák létrehozásához a Microsoft Excel 2013­as szoftvercsomagjának „Feltételes formázás/Színskálák” funkcióját használtuk fel. A gyakorisági értékek egymáshoz való viszonyítása és a színértékek automatikus hozzárendelése mindig az adott soron belül történik az Excel megfelelő algoritmikus szabályai szerint. A 34. és 35. ábrán egy­egy ilyen típusú ábra látható a kísérletezés időszakából.

34. ábra

Az egyes szavak évenkénti előfordulását mutató tematikus hőtérképes megjelenítés*

* Jelmagyarázat: zöld-sárga-piros színek – alacsony-közepes-magas gyakoriság

35. ábra

Egyes szakkifejezések évtizedenként aggregált előfordulását mutató tematikus hőtérkép* Az eddig bemutatott vizualizálási kísérletek fő fókuszát a gyakoriság, a trendszerűség és az időbeli változás tettenérése, illetve láttatása jelentette. Az eredmények alternatív szempontú vizualizálása miatt szükséges volt megtalálni azt a megoldást, amely elsődlegesen a tartalmat állítja a középpontba, míg az időbeli változásra egyáltalán nem, vagy csak kevésbé koncentrál.

Ennél a típusú ábrázolásnál az időbeliség csupán a statikus ábrák egymásutánisága miatt érhető tetten. A hosszabb szövegek tartalmi leképezésének egyik legelemibb vizuális módszerét a címkefelhő vagy szófelhő módszer jelenti napjainkban (Heimerl, Lohmann, Lange, & Ertl, 2014; Cui, Wu, Liu, Wei, Zhou, & Qu, 2010). Emiatt már a kezdeti terveink között megjelent az ezzel kapcsolatos kísérletezés, mint potenciális alternatíva. A 36. ábrán egy ilyen próbálkozás eredménye látható. Több hasonló program és online szolgáltatás megvizsgálása után a szófelhő típusú ábrák létrehozásához végül a WordArt.com szolgáltatását használtuk fel.

Mivel az egyes szavakhoz kapcsolódó gyakorisági értékek CSV táblázatokban a rendelkezésünkre álltak, ezért kézenfekvő módon a program CSV import funkciójával volt érdemes dolgoznunk. A szavak ismétlését kikapcsoltuk, formának a klasszikus felhő alakot választottuk, betűtípusként az ékezetes karaktereket is helyesen kezelő Heuristica fontcsaládot, a színeket illetően ugyanabból a hat, jól elkülönülő színből áll palettát használtuk az ilyen típusú ábráknál.

* Jelmagyarázat: zöld-sárga-piros színek – alacsony-közepes-magas gyakoriság

196x 197x 198x 199x 200x 201x

mastery learning 0 20 8 4 11 14

önszabályozó tanulás 0 0 0 1 44 11

proszociális 0 0 3 22 23 17

kognitív 8 23 152 314 920 359

értékelés 643 1092 871 631 910 441

36. ábra

Egy véletlenszerűen kiválasztott cikk (Pásztor, 2014) korai szófelhős megjelenítése A vizualizálási kísérletek során bizonyosságot nyertünk arról, hogy a szófelhős ábrázolási mód alkalmas lesz az egyes cikkek tartalmi reprezentációjára és az évtizedekre bontott tematikus válogatások könnyen értelmezhető, befogadható megjelenítésére. További vizualizálási megoldásokról a 8.7­es pontban, az egyéb próbálkozások között fog szó esni.