• Nem Talált Eredményt

A kódolás és a válogatás szempontjai

In document HATÁRTALANul MAGYARul A (Pldal 67-72)

5. A kutatásban felhasznált korpusz

5.2. A kódolás és a válogatás szempontjai

Az adatfelvétel 2017. augusztus 27–30. között történt, ami a gyakorlatban azt jelenti, hogy ebben az időintervallumban a bejegyzésekről PDF másolat készült, majd a bejegyzésekhez kapcsolódó kommentek számát és jellegét is ebben az időpontban vizsgáltam meg.

A vizsgálatba bevont bejegyzésekről elsőként a PrintFriendly nevű weboldal (https://www.printfriendly.com/) segítségével közel megegyező másolatokat készítettem PDF-formátumban. Az említett internetes konverter – bár alapvetően nagyon jól használható blogbejegyzések mentésére és nyomtatására – bizonyos hibaszázalékkal működik. Alapelve szerint ugyanis a weboldalakon szereplő internetes tartalmakból kiszűri azokat a papíralapon nem működő vagy felesleges elemeket (például: a videó- és hangbeágyazásokat és a kommenteket), amelyek az olvasás során esetleg zavarhatják a felhasználókat. Emiatt a bejegyzések lementése után szükséges volt az ellenőrzés: a hiányzó adatok miatt összevetettem az online és a számítógépemen tárolt offline korpuszt (lásd a 9. ábrán).

A változók kvantitatív kódolásának művelete már ekkor megkezdődött: kézi kódolással az előre felvett változókat összeszámoltam, az adatokat az Excel 2013 programban rögzítettem.

9. ábra: Egy korpuszban szereplő bejegyzés online és offline (PDF-es) kinézete

Bejegyzések kvantitatív adattáblájának elkészítése után a blog főoldalán szereplő elérhetőségek kvantitatív adattábláját is manuálisan állítottam össze, online adatok segítségével.

Az adattáblák elkészítése közben került sor a bejegyzések kvalitatív tartalomvizsgálatára a MAXQDA 12.3.2 program segítségével. A kvalitatív kódolás során összesen 2963 kóddarabot rögzítettem a később kifejtendő kategóriákban (lásd a 10. ábrán). A MAXQDA program segítségével történt a helyesírási hibák, szponzorációs és promóciós elemek, rövidítések, szaknyelvi és személyes elemek kódolása. Az így megszülető adatokat exportáltam a programból, majd egyesítettem a blogbejegyzések kommentjeire vonatkozó adatokkal, amiket külön, kézi adatgyűjtéssel vettem fel a blogbejegyzésekből az adatfelvétel időpontjában. Mivel a blogbejegyzésekre elvileg a weben való jelenlétük minden pillanatában érkezhet komment, így a felvett adatok csak az adatfelvétel időpontjában voltak pontosnak tekinthetők, azonban gyakorlati szempontból rendkívül ritkának számít az, hogy valaki egy 2-3 hetes blogbejegyzéshez hozzászóljon.

MAXQDA 12.3.2 – az egyik legismertebb, kvalitatív kódolásra használt program – ennek ellenére véleményem szerint hiányossága, hogy a kijelölt kódelemek szószámát nem tudja megmutatni és összehasonlítani az alkorpuszokra vonatkozólag. A programról terjedelmi okokból nem szeretnék többet írni, a program korábbi verzióinak alapos bemutatását Juhász (2009) és Sántha (2012) tanulmányaiban olvashatjuk.

A kvantitatív elemzés során változóként vettem fel a blogban közreműködő bloggerek számát, amelyet a többszörös szerzőiség megfigyelésére alkalmaztam. A több szerzővel rendelkező blogokat csak abban az esetben használtam fel a kutatásban, ha íróik a blogban szereplő információk alapján megállapíthatóan azonos neműek voltak. Ha a blogot írók pontos számát nem találtam meg, az 5 blogbejegyzést jegyző bloggerek számát vettem fel értékként.

A bejegyzések publikálási dátumát a blogbejegyzések metaadatai alapján vettem lajstromba. Abban az esetben, ha mindez nem vezetett eredményre, erre az első kommentelő hozzászólásának dátuma alapján következtettem. Abban az esetben, ha nem voltak hozzászólások, valamint dátumra utaló adatok sem voltak feltüntetve, az adatot üresként vettem fel az adattáblába.

A bejegyzések szószámát a Word 2013 program szószámolója alapján számoltam ki, bár a konverzió során bizonyos, nem kódolható karakterek eltűntek a korpuszból. A szószámba nem vettem bele a PrintFriendly alkalmazás által a szövegbe iktatott oldalszámot és a bejegyzés internetcímét sem. Ezeket és a többszörös szóközt a kész változatban kézzel eltávolítottam a korpuszból. A szószámba beleértettem a bejegyzés címét is, de a hozzászólásokat nem. A blogbejegyzések elmentésekor kizárólag az egyéni munkával rendelkező elemeket mentettem el, így a bejegyzésekben szereplő, automatikusan a szövegbe illesztett tartalmak elemzésétől eltekintettem.

A bejegyzésekben szereplő videóbeágyazásokat nem sikerült az offline korpuszban reprodukálni, ezért az első, hibakereső összevetés során az online korpusz alapján közvetlenül a kvantitatív adattáblába rögzítettem a videóbeágyazások számát.

10. ábra: A női tartalomgyártó alkorpusz egyik blogbejegyzésének kvalitatív kódolása a MAXQDA 12.3.2 programban

A vizuális szemléltetők tulajdonképpen a bejegyzésekben szereplő képi, szigorúan statikus jellegű elemeket jelentik. A PrintFriendly alkalmazás nem tudta kódolni az ebbe a változóba tartozó emojit, mint az emotikonok egy speciális fajtáját, ezek utólagos szövegbe illesztésére nem találtam megoldást. Emiatt – bár a kutatás kezdeti szakaszában még terveztem – ki kellett hagynom az elemzésből a szövegben használt emotikonok gyakoriságának és jellegének vizsgálatát. Jelen kutatás továbbá nem tanulmányozza a képi elemek és a szöveg viszonyát sem.

A bejegyzésekben szereplő, a blogon belülre és kívülre mutató linkek (a továbbiakban: belső és külső link) számszerű adatát aszerint adtam meg, hogy a blogbejegyzésben szereplő linkek a blog saját bejegyzésére vagy egy külső oldalra mutatnak-e. A kutatás ebben a szakaszában még nem vizsgáltam a linkek tartalmi jellegét.

A bejegyzéseken kívül a blogok általános adatait is felvettem. Az érintett blogok főoldalán szereplő elérhetőségek (közösségi médiaprofilok) számát és jellegét az adott blog online megtekintése után kódoltam. E változó vizsgálatakor szigorúan a blogok főoldalának elemzésére szorítkoztam, nem foglalkoztam az elérhetőség menüpontok tartalmával.

A blog főoldalán szereplő, külső és belső linkek számának meghatározásában a bejegyzések kódolásánál már leírt alapelvek szerint jártam el.

A kvalitatív elemzés során, a blogbejegyzések részletekbe menő átolvasása után változóként vettem fel annak marketolingvisztikai jellegét, ami tulajdonképpen a bejegyzés profitorientáltságára vonatkozott.

Egy bejegyzést szponzoráltnak tekintettem, ha a tartalom elemzése arra engedett következtetni, hogy az egy szponzor felkérésére született. Tipikus szponzorált tartalom volt a bloggertől megrendelt termékteszt, vagy a blogger egyéni kuponjának hirdetése bizonyos termékek esetén. Ezzel szemben promóciósnak tekintettem a bloggerek ingyenes reklámját vagy a bizonyos mozgalmakat, alapítványokat népszerűsítő bejegyzéseket. Szintén ide soroltam az önpromóciót is, amikor a blogger saját bejegyzésében korábbi bejegyzéseit hirdette. A MAXQDA programban – elsősorban a szükséges időmennyiség hiánya miatt – nem kódoltam külön az önpromóció és a más weboldal promóciójának jelenlétét.

A blogbejegyzések tartalmi csoportosításában támaszkodtam a bejegyzésekhez kapcsolódó, úgynevezett tagekre. Ha nem voltak ilyen, a szerző által létrehozott tematikus címkék, a blogbejegyzés tartalmi elemei alapján döntöttem a tematikus besorolhatóságáról.

A kvalitatív elemzés során a bejegyzésekben szereplő személyes elemek számát a blogbejegyzésekben szereplő önreflexív szövegbeli utalások és tartalmi elemek alapján határoztam meg. Kvalitatív elemzésemben alapegységként a mondatot határoztam meg, azonban csak akkor kódoltam egy mondatot személyes vagy szaknyelvi elemként, ha legalább 2 azonos típusú elem volt benne. A hosszabb terjedelmű szövegegységek, a bekezdések esetén hasonlóan jártam el.

A szaknyelvi (a blog témájához kapcsolódó, speciális terminus technicusok) elemek számát a blogbejegyzésekben a közérthetőség alapján kódoltam. Ilyen esetekben azt tekintettem zsinórmértékül, hogy az adott elem értelemzavaró jelleg nélkül szerepelhet-e egy általános célú beszélgetésben, nem szakmai beszélők között.

A helyesírási hibák kódolását a bejegyzésekben nem teljes körűen végeztem el. Nem kódoltam a tagmondatok közötti vesszőhibákat, és az egybeírás-különírás, valamint a földrajzi nevek helyesírásának különleges eseteit (egy korpuszon kívüli példa: nem kódoltam volna helytelennek a „holt-tisza-bereki”

formát a helyesnek tekinthető „holt-Tisza-bereki” formával szemben). Ennek szociolingvisztikai okai voltak, hiszen a helyesírásunk e finomabb, szinte már csak értelmiségiek számára átlátható szegmenseit az átlagos nyelvhasználók legtöbbje saját véleményem és pedagógiai tapasztalatom szerint nem ismeri. Dr.

Bódi Zoltán opponensi véleményében felveti e kérdés kapcsán, hogy „miért van a köznevelésben, főként a nyelvtanórákon, a középiskolai felvételi eljárások során mégis annyira nyomatékos szerepe éppen ezeknek a helyesírási szempontoknak?” Véleményem szerint a közoktatás központi dokumentumaiban (NAT, Kerettanterv, tantervek) túlzón felülreprezentált az irodalmi magyar nyelv és a helyesírás. Ennek oka kettős.

Egyrészt jelenleg ez szociolingvisztikailag a legmagasabb presztízsű nyelvváltozatunk, másrészt ez tantárgypedagógiai okokkal is magyarázható, hiszen a tanulói helyesírás nagyrészt objektíven, szinte eszközök nélkül mérhető és értékelhető. Elemzésemben kizárólag a durva, értelemzavaró helyesírási hibákat kódoltam: például az igekötők és az j-ly helyesírását, a mondatvégi írásjelek meglétét, az elgépelést, szavak felcserélését.

Rövidítések esetében (mint az írott beszélt nyelv egyik fontos indikátora) kódoltam a közszavak és tulajdonnevek rövidített nyelvi alakjait, főleg, de nem kizárólag az internetes nyelvhasználattal kapcsolatos mozaikszavakat.

A bejegyzéshez kapcsolódó kommentek számát és jellegét kézi ellenőrzés után vittem fel az adattáblába.

A kommentárokat szintén manuálisan számoltam össze. A kommentekként nem csak a blogmotorra érkező hozzászólásokat kódoltam, hanem az összes kommentszámba beépítettem a közösségi oldalak integrált hozzászólási felületén érkező hozzászólásokat is. Korábbi tanulmányokban már leírt módon (Porkoláb, 2015c) ideális kommentnek tekintettem az olyan rövid, a felhasználó egyéni véleményét közlő megjegyzést, amely szerzője meggyőződését a bejegyzés tartalmához kapcsolódva, az adott közeg szabályainak megfelelő formában fejti ki.

Az internetes szociokultúrában a legtöbb, normarendszert („netikettet”) sértő kihágásnak létezik sajátos megnevezése a felhasználók között. Tipikus tematikus normaszegésnek tekinthető az első komment önreflexiója a kommentfolyamban („elsőzés”), valamint a témához nem illeszkedő megjegyzések posztolása („offolás”, „flood”), esetleg a más felhasználót szándékosan sértő ugratás („trollkodás” vagy

„ekézés”).

A kutatás kivitelezésének teljes folyamatát a 11. ábrán tüntettem fel.

11. ábra: A kutatás lefolytatása folyamatábrán ábrázolva

In document HATÁRTALANul MAGYARul A (Pldal 67-72)