Bevezető gondolatok a statisztika és informatika kapcsolatát elemző tematikus számhoz

(1)

a statisztika és informatika kapcsolatát elemzô tematikus számhoz

A statisztika és az informatika kapcsolatáról szóló tematikus szám két olyan tu- dományterület viszonyát vizsgálja, amely a mai gondolkodásunkban szorosan össze- kapcsolódik. Persze, az informatika nem régi tudomány, de korábban a statisztika sem az volt, ami ma. A kezdetekben a statisztika az állammal kapcsolatos tudomá- nyok összefoglaló nevét adta, és ha manapság, mint a számok (egyik) tudományára tekintünk rá, érdemes elgondolkodni azon, hogy kezdetben (a XVIII. században) az ún. leíró statisztika valóban leíró jellegű volt, számok nélkül (hiszen akkoriban a számoknak, a mérésnek, a számlálásnak messze nem lehetett olyan kultusza, mint manapság). Verbálisan, minőségileg jellemezte a leírandó objektumot, jellemző mó- don az állam egyes területeit, működését. Nem célunk itt a statisztika által bejárt utat követni, hiszen az Olvasó már csak a jelenkori értelemben vett statisztikával találko- zik. A mai statisztikát leginkább talán úgy lehetne meghatározni, hogy tömegjelensé- gekkel foglalkozó módszertudomány és a tőle elválaszthatatlan, ugyancsak a tömeg- jelenségeket vizsgáló gyakorlat, annak minden vonatkozásával együtt. És ez már találkozik a modern informatikával, amelynek őse alighanem a keleti népek primitív számológépei voltak, és bár fejlődését eredetileg a nagyhatalmak fegyverkezési ver- senye ösztönözte, széleskörű elterjedését jórészt az tette lehetővé, hogy az ember oly sok más napi tevékenysége mellett a számolási, számítási feladatait próbálta minél inkább egyszerűsíteni, algoritmusokkal és gépekkel segíteni. A korábban számítás- technika, majd számítástudomány, újabban az informatika néven egyre inkább önál- lóvá váló tudományterület, sőt a modern számítógépek robbanásszerű terjedésével megbecsült önálló tudományág lett.

Statisztikai folyóiratról lévén szó, ezt a kapcsolatot természetesen a statisztika ol- daláról vizsgáljuk, és alapkérdésünk az lesz, hogy milyen szerepet játszik a modern informatika a statisztikában, bár olykor a fordított kérdés is felmerülhet. Ha a statisztikai munka folyamatát próbáljuk követni, mindenképpen az adatgyűjtés, adatfeldol- gozás oldaláról kell kezdeni a vizsgálódást. A statisztikai munkának ez elengedhetet- len, lényegileg meghatározó, kiinduló mozzanata. Azt aligha kell hangsúlyoznunk, hogy az adatgyűjtésben, az adatok tárolásában, feldolgozásában milyen nagy szerepe van az informatikának. Manapság a primer adatgyűjtés egyre kisebb részben történik papíralapú kérdőívekkel, a gyűjtés egyre jellemzőbben az internetes csatornákon

(2)

keresztül valósul meg. Még abban az esetben is, ha személyes kérdezőbiztosi adat- felvétel vagy interjú az elsődleges módszer, akkor is egyre gyakoribb az, hogy a felvett adatok, információk papír megkerülésével, közvetlenül elektronikus informá- cióhordozóra kerülnek, ahol megfelelő szoftverek gondoskodnak a szakszerű és biz- tonságos tárolásról. Hasonlóan, amennyiben az adatokat elsődlegesen nem statisztikai, hanem adminisztratív célokra gyűjtik, szintén már az első pillanattól kezdve a megfelelő informatikai eszközök segítségével történik a felvétel.

Az adatfelvételekhez szorosan hozzátartozik az ellenőrzés, az adatjavítás, az adatok tárolása, átadása, a hiányzó adatok pótlása, illetőleg a hibás adatok javítása. Ezek a műveletek manapság már elképzelhetetlenek korszerű informatikai támogatás nél- kül. Mindehhez még azt is hozzá kell tennünk, hogy ezen műveletek némelyike egy- általán nem mechanikus, nem könnyen gépesíthető. Elegendő arra gondolni, hogy a nyers feldolgozás során milyen komoly problémát okozhat a hibás (rendellenes, ki- ugró, outlier) adatok detektálása, szűrése, illetőleg milyen komoly statisztikai elméle- tek állnak a hiányzó adatok pótlásának módszerei mögött. Ezek a kérdések már bele- nyúlnak a statisztikai modellezés nehezebb kérdései közé, és megoldásuk (informatikai megoldásuk) az elméleti megfontolások mellett jelentős szoftvertámogatást is igényel.

Az adatelőkészítés után következnek a statisztikai számítások, amelyek részben a meglevő nagymennyiségű adathalmazt teszik osztályozások, csoportosítások, sorok és táblázatok, információtömörítő mutatószámok és ábrák segítségével megközelít- hetővé, áttekinthetővé. A mai értelemben vett leíró statisztika ebben csúcsosodik ki:

a különböző információsűrítési és szűrési eljárások segítségével dolgozzák fel és teszik emészthetővé a nagy adattömegeket. Aligha kell hangsúlyoznunk azt, hogy ez a munkafolyamat manapság informatikai segítség, megfelelő hardver- és szoftver- eszközök, programok, programcsomagok nélkül egyszerűen elvégezhetetlen lenne.

(Érdemes azon elgondolkodni, hogy korábban, amikor ezek az eszközök nem álltak a statisztikusok rendelkezésére, de azért nagy adathalmazok már akkor is voltak, és azokat ilyen szellemben fel kellett dolgozni. Gondoljunk például a korai népszámlá- lásokra: hogyan oldották meg ezeket a feladatokat?)

A leíró statisztika mellett korábban is, de manapság kiváltképp nagy teret, egyre nagyobb teret kap a következtető statisztika, amelyben a megfelelően megtervezett és kiválasztott mintákból következtetünk a minták alapjául szolgáló sokaságok jel- lemzőire, és azokat kívánjuk elérhetővé, áttekinthetővé, érthetővé tenni. Ez merőben más jellegű feladat, mint az imént vázolt, hiszen ez esetben a kiinduló adatok (min- ták) nem olyan nagyszámúak, ám a számítások sokkal több megfontolást, gyakran matematikai meggondolásokat igényelnek. Az informatika szerepe ekkor sem kisebb, csak más, mint a leíró esetben. Ekkor – főként a hibaszámítások kapcsán – bonyolultabb, de általában kisebb volumenű számítás szükséges – legalábbis egyszerűbb fel- adatokban. Jellemző tendencia azonban az is, hogy bonyolultabb esetekben (összetett

(3)

mintavételi terv, komplikáltabb mutatók, a sokaságra tett gyengébb feltételezések esetén) a következtető (becslési és tesztelési) feladat matematikailag egyszerűen, analitikusan, zárt formákban nem oldható meg. Ilyenkor egyre gyakoribb az, hogy az elegáns matematikai megoldás helyett a lehetséges eloszlások szimulációjával, Mon- te-Carlo-módszerekkel lehet értékelhető eredményekre jutni, ami igen számításigé- nyes informatikai feladat. A statisztika ezen területének fokozatos megerősödése és előtérbe kerülése lehet az egyik alapja annak a véleménynek, miszerint ahhoz, hogy valaki a XX. században jó statisztikus lehessen, jó matematikusnak kellett lennie, ahhoz viszont, hogy a XXI. században valaki jó statisztikus legyen, alaposan járatos- nak kell lennie az informatikában.

Az egyszerű statisztikai számítások mellett a statisztika alkalmazásai messze ki- terjednek összetettebb modellek felé. Ezek közül csak említést teszünk a közgazda- ságtan, a gazdálkodás, a demográfia, a szociológia és persze az egyéb társadalomtu- dományok modelljeiről, amelyek bonyolult rendszerek kölcsönkapcsolatait, várható alakulásukat, a gazdaság és a társadalom különféle feltételezések melletti viselkedé- sét, alakulását írják le, szimulálják, prognosztizálják. Ezek alapjaikat tekintve a statisztika közismert regressziós modelljeire, a sokváltozós statisztika eljárásaira, valamint a különféle idősor-elemzési technikákra épülnek, és számszerű megvalósításuk, elemzésük, értékelésük elképzelhetetlen magas fokú informatikai támogatás nélkül.

Ezen a ponton kell megjegyeznünk, hogy az informatika statisztikai alkalmazása idővel komoly változásokon ment át: míg korábban az alkalmazás jórészt számítás- technikai, informatikai szakemberek kezében volt, mára ez a terület is egyre inkább

„demokratizálódik”. Ezen azt értjük, hogy az alkalmazás mindinkább átmegy az adott terület statisztikus és nem statisztikus szakemberei kezébe, akik számára az informatikusok már nem komplett szolgáltatásokat nyújtanak, hanem mind több és többet tudó, valamint szándékaik szerint egyre inkább felhasználóbarát szoftvereket készítenek, amelyek segítségével az adott terület szakemberei maguk végzik a statisztikai munkák nagy részét. Mára ezek a szoftverek (programok, programnyelvek, programcsomagok, célprogramok) jelentik a statisztika és az informatika között a fő összekötő kapcsot.

A statisztikai munka utolsó fázisa az eredmények tálalása, bemutatása, ábrázolá- sa, terjesztése, amelyben szintén nagy szerepet játszik az informatika. Elegendő arra utalni, hogy akárcsak az adatgyűjtés esetén, itt is az elektronikus közlés, az e-bookok adta lehetőségek és az interneten való terjesztés a modern kommunikáció fő eszkö- zei.

Azt az előzőkben már láttuk, hogy a statisztikai munka folyamatának minden szakaszába bekapcsolódik, sőt már-már pótolhatatlanul beépül az informatika. Sze- retnénk röviden kitérni arra a fontos tényre is, hogy a statisztikának egyre több olyan területe van, amelyik létezését, kialakulását az informatikának köszönheti, azaz egy

(4)

sor korszerű statisztikai elemzési módszer az informatika hatására jött létre, vagy legalábbis alkalmazásának elterjedését az informatika gyors fejlődésének köszönheti.

Ezek közül elsőnek említjük a bayesi elemzést, amely a szakértői információk és a mintabeli információk együttes felhasználására épül, s amely lehetővé teszi a mo- dellezés személyesebb, ember-gép kapcsolaton alapuló megközelítését. Elvben persze ez a módszercsalád nem a számítástudománynak köszönheti kialakulását, ám elterjedése valós feladatok megoldására feltételez jól kialakult informatikai környe- zetet. A másik sajátos elemzési mód a metaanalízis, melynek lényege az, hogy ösz- szehasonlítható (standardizált) feladatok esetén a különböző (időben és helyeken lefolytatott) kutatások eredményei összevethetők, azokból statisztikák készíthetők, amelyek alapján az egyes eredmények erősíthetik, illetve cáfolhatják egymás. Ennek folytán az egész feladat egy nagyobb mintás statisztikai vizsgálatként fogható fel.

Ebben az esetben az informatika elsősorban a gyors, hatékony és megbízható kom- munikációval (internet) segíti a statisztikát újabb módszerekhez. A minden korábbi- nál nagyobb és megbízhatóbb adattömegek megjelenése indukálta a statisztikában az adatbányászat, valamint a big data területeket, amelyek a statisztika új módszercsa- ládjának tekinthetők. Lényegük az, hogy a hatalmas és strukturálatlan adathalmazok- ban hatékony számítógépes eljárások segítségével eddig fel nem ismert összefüggé- seket, alakzatokat, formációkat találjanak, fedjenek fel, azonosítsanak és elemezze- nek. Végül – a teljességre való törekvés igénye nélkül – említjük az adatvizualizációt, amely lényege az, hogy különféle statisztika elemzések eredmé- nyeit – nemritkán az imént említett adatbányászat vagy big data kutatások eredmé- nyeit – a szakemberek és a szakmát kevéssé ismerő érdeklődők számára minél szem- léletesebben mutassa be számítógépes eszközökkel: a szokásos ábrázolási techniká- kon túlmenő képi és esetenként hangi eszközökkel.

A statisztika és az informatika kapcsolatában eddig azt az irányt jártuk be, mely- ben az informatika adott segítséget, illetve ösztönzést a statisztikának. Csak röviden említjük meg a kapcsolat másik irányát, hiszen a statisztika informatikája mellett létezik az informatika statisztikája is. Ez a terület talán kevésbé látványos, mint az előző, mégis fontos, hiszen amennyiben az informatika helyzetét, fejlődését, fő irányzatait, területi problémáit szeretnénk világosan látni, elengedhetetlenek a statisztikai eszközök. Éppen e terület kiemelkedő fontossága miatt a statisztikai hivatalok és szolgálatok rendszeres és egyre mélyülő adatfelvételekkel és elemzésekkel vizsgálják az informatika helyzetét. Meg kell említenünk azt is, hogy a nemzeti statisztikai hivatalok többnyire külön egységet üzemeltetnek ennek a területnek a szak- avatott követésére.

A statisztika és informatika kapcsolatának áttekintésében még egy területet sze- retnénk említeni, ez pedig az oktatás. Elsősorban persze a statisztika oktatásáról be- szélünk, ugyanis akárcsak maga a statisztika elmélete és gyakorlata szorosan össze- kapcsolódott az informatikával, az oktatásnak sem lehet más útja. Ugyanakkor ennek

(5)

kapcsán rengeteg kérdés merül fel, onnan kezdve, hogy az egyszerű statisztikai mód- szereket milyen informatikai háttérrel oktassák, illetőleg elegendő-e a statisztikai módszertan és a statisztikai gondolkodás elsajátításához a gépes módszerek biztos ismerete, egészen odáig, hogy a meglevő, népszerű szoftverek gyakran az intézmé- nyek számára megfizethetetlenek, illetőleg még a jobban felszerelt intézményekben is egyre több a hallgató, így kevés a hely és a lehetőség a teljesen gépesített oktatásra és számonkérésre. Van másik oldala is ennek a problémának, nevezetesen az, hogy a szoftverek használatát is oktatni kell, és ezt gyakran statisztikai példákon, de statisztikai előképzettség nélkül próbálják meg, ami oda vezethet, hogy a technikát megta- nulják ugyan, de a lényeg, a statisztikai szemlélet elvész. De hát ez már csak így van olyan esetekben, amikor két, egymást kölcsönösen feltételező tárgyat kell értelmesen oktatni.

Látjuk tehát, hogy a két diszciplína között milyen szoros, nehezen szétválasztha- tó, gyakran bonyolult kétirányú kapcsolat van, és voltaképpen ez a kapcsolat indo- kolja azt, hogy a Statisztikai Szemle egy egész számát e témának szenteljük. Termé- szetesen ennek minden elemét nem lehet egy néhány tanulmányra épülő tematikus számban sorra venni, de igyekszünk a különböző területekről válogatott elemzések- kel kitölteni a vázolt keretet. Sajnos, az adatfelvételek, adattárolás, adatmanipuláció és adatmozgatás területéről nem sikerült átfogó cikket beszerezni, de remélhetőleg a közeljövőben folyóiratunk pótolni tudja ezt a hiányt.

A tanulmányok sorát így Daróczi Gergelynek az R nyelvről szóló átfogó ismerte- tésével kezdjük. Az R nyelv egy szabad forráskódú, általános célú, statisztikai orien- táltságú programnyelv, amely az utóbbi években páratlan sebességgel nyomul előre, és mára a statisztikusok leginkább kedvelt informatikai eszközévé vált. Népszerűsé- gét annak köszönheti, hogy bárki számra kényelmesen, költségmentesen hozzáférhe- tő, segítségével némi programozási affinitást feltételezve, bármilyen statisztikai feladat hatékonyan elvégezhető, és emellett nagyszámú kész és hitelesen működő eljá- ráshoz is hozzáférést enged. Az R a mai online-világ jellegzetes eszköze, valódi közösségi nyelv, amit egy magasan képzett szakemberekből álló stáb folyamatosan felügyel, és gondoskodik arról, hogy a felhasználók kényelmesen, megbízhatóan használhassák a közvetlenül elérhető több ezer csomagot tartalmazó elektronikus könyvtárat. Megemlítendő, hogy az R népszerűségét az is elősegíti, hogy felhaszná- lói csoportok, klubok alakultak művelésére és a nyelvvel kapcsolatos ismeretterjesz- tésre, a kezdők segítésére.

Míg az R egy eszköz, amit a statisztikusok alkalmazhatnak elméleti és gyakorlati munkájuk során, az ezt követő cikk – Kruzslicz Ferenc, Kovács Balázs és Hornyák Miklós tanulmánya – egy statisztikai eljárást, egy vizuális klaszter-kiértékelési mód- szert mutat be. A klaszterezés, mint az automatikus osztályozás sokváltozós statisztikai módszere évtizedek óta ismert és használt. Az itt bemutatott eljárás az informatika statisztikai beépülésének eklatáns példája, hiszen a hagyományos klaszterezési

(6)

logikára építve, big data környezetben, adatbányászati és az ezzel rokon szövegbá- nyászati eszközökkel készít vizuális klaszterértékelési módszert. Az eljárás egyik sajátja az, hogy a klaszterek itt nem az elemzés átmeneti lépését, hanem végeredmé- nyét jelentik, aminél fogva különös jelentősége van a klaszterek mögött meghúzódó jelenségek minél plasztikusabb megnevezésére, körülírására. Ezt a szerzők látványos adatvizualizációval, szófelhők sajátos elrendezésű és szerkezetű bemutatásával old- ják meg.

Míg a most említett tanulmány módszerorientált volt, a következő – Fehér Péter, Kő Andrea és Szabó Zoltán tanulmánya – egy gyakorlati statisztikai modellezési feladatot mutat be és old meg. Ez a cikk több szálon is kapcsolódik a statisztika és informatika kapcsolatrendszerének témájához. Egyrészt tárgya egy internetbankos szolgáltatások biztosításáért felelős informatikai infrastruktúra kapacitásának terve- zése, modellezése, előrejelzése, azaz az informatika tárgya (is) a kutatásnak, amiről ez a cikk szól. Másfelől – és ez teszi számunkra kivételesen fontosnak ezt az írást – sajátossága az, hogy túl az üzleti elemzésekben megszokott statisztikai modelleken, a prediktív analitikához tartozó neurális hálózatokat is felhasználták. Erről most előze- tesen csak annyit említünk meg, hogy ez a modellezési technika is azok közé a statisztikai eszközök közé tartozik, melyek szorosan összekapcsolódnak a számítás- technikával, sőt, amelyek gyors és hatékony számítógépek nélkül nem is működné- nek, vagy másként szólva kifejlődésüket az informatika térnyerésének köszönhetik.

Vargha András cikke egy szoftvereszközt mutat be, ez a saját, illetőleg munkatár- sai által kifejlesztett ROPstat. Ez a szoftver alapvetően szociológus, pszichológus és más társadalomtudományi statisztikát alkalmazó kutatók számára nyújt segítséget statisztikai számításaik elvégzéséhez. Ennek a programcsomagnak az a specialitása, hogy menüvezérelt, nagyon sok, az adott területeken széles körben alkalmazható statisztikai módszer nagyon egyszerűen, lényegileg egy kattintással elérhető. Szem- ben az R-rel, ami profi statisztikusoknak ad lényegileg végtelen rugalmasságú esz- közt a kezükbe, a ROPstat (és persze más hasonló statisztikai csomagok) a statiszti- kát „csak” eszközként alkalmazó szakemberek munkáját támogatja, mentesítve azokat a programozás gyakran fáradságos, és sok hibalehetőséget is rejtő munkájától. A ROPstat jellemzője és fő előnye más hasonló programcsomagokkal szemben az, hogy készítője az ilyen (elsősorban társadalomtudományi) alkalmazások elismert szakértője, így a megszólított szakemberek többé-kevésbé biztosak lehetnek abban, hogy a saját kutatási feladataik megoldásához a legmegfelelőbb eljárásokat kényel- mesen és biztonságosan megkapják.

A statisztika oktatásáról korábban elmondtuk, hogy miként kapcsolódhat össze az informatikával. Ország Gáborné, Sugár András és Szobonya Réka két felsőoktatási intézmény felelős oktatói, akik személyesen is érdekeltek abban, hogy a statisztika oktatása minél inkább kihasználja azokat a lehetőségeket, amelyeket az informatika biztosít, ugyanakkor minél jobban felkészítsék a hallgatókat az informatikai eszkö-

(7)

zök statisztikai alkalmazására. Cikkükben bemutatják az elmúlt években e téren szerzett tapasztalatokat, a felmerült nehézségeket és kilátásaikat a jövőre vonatkozó- an.

Végül az összeállítás utolsó tanulmánya az információs és kommunikációs tech- nológiák elterjedésének vizsgálatát mutatja be statisztikai eszközök segítségével. Az információs és kommunikációs technológiák fejlődése ugyanis eddig soha nem látott mértékben teszik lehetővé az információ és tudás elérését egy globális rendszerben.

A fejlődés követéséhez nemzetközileg összehasonlítható, egységes definíciókat al- kalmazó mutatórendszer kialakítására van szükség. A közelmúltban beindult projekt kezdeti lépéseként az Európai Unió felmérte a tagállami szinten már begyűjtött muta- tókat. Ezt követően a meglevő mutatókat kellett azonos módszertani alapra helyezni, valamint további mutatókat kellett kidolgozni a politikai döntéshozatal részére. En- nek a munkának néhány elemét mutatja be Lieber Ildikó cikke.

Az itt felsorolt tanulmányok mellett folyóiratunk további szokásos elemei is igyekeznek ehhez a központi gondolathoz kapcsolódni. Így talán sikerül olyan szá- mot adni az Olvasó kezébe, amely a lehetőségekhez képest körbejárja ezt a fontos témát. Ám mivel egy ilyen összeállítás soha nem lehet teljes, és egyes olvasókban nyilván marad a témával kapcsolatban hiányérzet, a Statisztikai Szemle a későbbiek- ben is szeretne minél több tanulmányt közreadni ebből a kiemelkedően fontos téma- körből.

Hunyadi László,

a Statisztikai Szemle Szerkesztőbizottságának tagja