• Nem Talált Eredményt

Találkozzunk szombaton! Beszámoló az első satRday-konferenciáról

N/A
N/A
Protected

Academic year: 2022

Ossza meg "Találkozzunk szombaton! Beszámoló az első satRday-konferenciáról"

Copied!
5
0
0

Teljes szövegt

(1)

Találkozzunk szombaton!

Beszámoló az elsô satRday-konferenciáról

2016. szeptember 3-án, az MTA Termé- szettudományi Kutatóközpontjában rendezték meg az első satRday-konferenciát, melynek keretében közel húsz ország ipari szakemberei, kutatói és hallgatói gyűltek össze, hogy egy egész napos rendezvényen ünnepeljék az R nyelvet és az azt használó közösség sokszínű- ségét. A beszámoló bemutatja a konferencia hátterét és a nap legérdekesebb eseményeit Miből lett az R szombat?

Az SQLSaturday (SQL szombat) konfe- renciasorozat célja egy olyan fórum létrehozá- sa, ahol a technológiával még csak ismerkedők és az azt magas színvonalon művelő szakem- berek a lakóhelyük közelében találkozhatnak és tanulhatnak egymástól. A résztvevők cse- kély anyagi ráfordításával létrehozott „mini”

konferencia ötletének sikerességét az elmúlt évtizedben rendezvények százai bizonyították, így 2015-ben joggal merült fel az igény egy, az R közösséget célzó sorozat elindítására. Az ötlet megvalósítását az R Consortium (www.r- consortium.org/) támogatásával Daróczi Ger- gely és Stephanie Locke, a budapesti és cardiffi R felhasználókat tömörítő meetupok alapítói vállalták magukra. A szervezők célja a lebo- nyolító régió szakembereit célzó, azok anyagi helyzetéhez és érdeklődéséhez jól illeszkedő események szervezése volt.

A szervezés első lépéseként a felhasználók között felmérést végeztek a számukra legmeg- felelőbb helyszínről. A több száz online kitöl- tött kérdőív alapján Budapest nyerte el az első,

európai konferencia rendezésének jogát, ezzel kivételes lehetőséget biztosítva a magyaror- szági R felhasználóknak, akik a majdnem 200 regisztráló 70 százalékát tették ki.

Daróczi nyitóbeszédében hangsúlyozta a magyarországi R közösség lelkesedését, amit nemcsak a konferencia belföldi népszerűsége, hanem a szponzorok száma is jól mutat. A hazai támogatók és az R Consortium felajánlá- sai lehetővé tették, hogy a résztvevők 3 000- 10 000 forintos regisztrációs díj ellenében vehessenek részt a 6 reggeli workshopon és a 22 előadáson, amelyek előadói közül 17 kül- földről látogatott hazánkba. A megjelentek így a konferencia keretei között zajló adatvizuali- zációs verseny döntőjével és eredményhirdeté- sével együtt egy tizenkét órás, nívós szakmai programon vehettek részt.

A konferencia operatív lebonyolításában Tóth Dénes, az MTA kutatója segédkezett, aki a budapesti R felhasználókat jól ismeri, hiszen Daróczi mellett a budapesti R meetupok tapasz- talt szervezője. Az MTA Természettudományi Kutatóközpontjában zajló előadásokat a Ustream élőben közvetítette. Az előadások levetített fóliái és azok videofelvételei ingyenesen elérhetők a konferencia honlapjáról (budapest.satrdays.org/), így mindazok az érdeklődők, akik lemaradtak az eseményről, a szakmai anyagokhoz teljes terje- delemben hozzáférhetnek.

Reggeli workshopok

A konferencián remek lehetőség adódott mindazok számára, akik a reggelt – az előadá-

(2)

sok és az első kávé előtt – bemelegítésként némi R kódolással szerették volna eltölteni. A hat workshop kezdő és haladó témái között mindenki megtalálhatta az érdeklődéséhez legközelebb állót: kipróbálhatta a legújabb adattranszformációs és -tisztító csomagokat, tapasztalatot szerezhetett gépi tanulási model- lek nagyméretű adathalmazokon történő al- kalmazásában, megalapozhatta, illetve elmé- lyíthette vizualizációs tudását.

Az adattranszformációs témaköröket két igazán tapasztalt fejlesztő képviselte: Mark van der Loo és Arun Srinivasan. A Holland Statisztikai Hivataltól érkező van der Loo nevéhez számos adattisztítással kapcsolatos csomag kapcsolódik. Munkatársaival azon dolgozik, hogy egy teljes körű keretrendszert építsen az R-ben elemzők tisztítási lépéseinek megkönnyítésére és felgyorsítására. Srinivasan végzettsége szerint bioinformatikus, de az R közösség ma leginkább a data.table (https://github.com/Rdatatable) csomag fej- lesztőjeként tartja számon. A data.table napja- ink egyik legjobb adatmanipulációs csomagja, népszerűségét nemcsak a közepes méretű adathalmazok nagyon gyors beolvasási képes- ségének (néhány milliónyi rekord egy másod- perc alatt) és memóriahatékony transzformáci- ós függvényeinek, hanem a sokak által kedvelt SQL-szerű szintakszisának is köszönheti.

A hatékony gépi tanulás iránt érdeklődők közvetlenül Jo-fai Chowtól, az H2O szakem- berétől tanulhattak a népszerű keretrendszer- ről, amely napjaink két kulcsfontosságú témá- ját kapcsolja össze: a gépi tanulási módszere- ket és a nagyméretű adathalmazokat. A H2O (http://www.h2o.ai/) nemcsak az R-, hanem a Python- és a Scala-fejlesztőknek is lehetővé teszi a széles körben használt gép tanulási módszerek elosztott használatát, de az érdek- lődők egy egyszerű webes felületen is kipró- bálhatják, milyen érzés néhány másodperc alatt regressziós egyenest illeszteni egy egy-

milliárd rekordból álló adathalmazon. A workshop résztvevői megtudhatták, hogy a használhatóság javítása érdekében a keretrend- szert számos adatmanipulációs és vizualizációs funkcióval tervezik bővíteni.

Köztudott, hogy a kezdő R felhasználók többsége a nyelvet elsősorban inkább vizualizá- ciós mint statisztikai célokra használja. Nem meglepő, hogy a workshopok fele így vizuali- záció központú volt: míg Vincent Warmerdam a statikus megjelenítésre használt ggplot2 csomag (http://ggplot2.org/) hatékony használatáról beszélt, addig Kate Ross-Smith és Herman Sontrop a Shiny (http://shiny.rstudio.com/) interaktív vizualizációs keretrendszer haszná- latába vezette be a résztvevőket. Warmerdam és Sontrop holland adatelemző cégek képvise- letében érkeztek, míg Ross-Smith a brit Mango Solutions tanácsadói cégtől. Az elő- adók nemcsak a csomagok hatékony használa- táról beszéltek, hanem azt is bemutatták, ho- gyan használják mindennapi munkájuk során a különböző vizualizációs megoldásokat.

Meghívott előadások

Egy konferencia hangulatát a meghívott előadók alapjaiban határozzák meg. Ők kapják a legtöbb prezentációs időt és jóval azelőtt elköteleződnek az ügy iránt, mielőtt még a végső program vagy előadói lista nyilvánossá válik. Bizonyos értelemben tehát ők tekinthe- tők a konferencia arcainak és védnökeinek.

Ezúttal is különös figyelmet szenteltek a meg- hívott előadók felkérésére, hiszen nem kevésbé neves szakemberekre bízták a meghívott elő- adásokat, mint Csárdi Gábor és Jeroen Ooms.

Mindketten jelentős tudományos háttérrel rendelkeznek. Csárdi az ELTE-n szerzett PhD- fokozata után a Lousanne-i Egyetemen, majd a Harvardon folytatta munkáját; Ooms a Kalifor- niai Egyetem után jelenleg a Berkeley-n dolgo- zik tudományos munkatársként. Elméleti hátte-

(3)

rüket jól kiegészíti fejlesztői tapasztalatuk.

Ketten együtt több mint 70 CRAN-re publikált csomaggal büszkélkedhetnek, néhányan ezek közül hiánypótlók: Csárdi Igraph-ja (amelynek társfejlesztője a szintén magyar Nepusz Tamás) az R-ben történő hálózatelemzésre az első valóban működő és széles körben használt megoldás, Ooms Jsonlite- vagy Curl-csomagját a kezdő R felhasználók is ismerhetik.

Csárdi a maga 14 évnyi R fejlesztői ta- pasztalatával szeniornak számít a magyar közösségben, tanácsadói munkája mellett jelenleg az R Consortium Infrastrukturális Operatív Bizottságának (Infrastructure Steering Committee) tagja. Az R csomagok tündöklő múltja, jelene és jövője című remek előadásában kiemelte: a keretrendszer jelenlegi sikerének egyik alapköve a csomagok ún.

folytonos integrációja (a kódon végzett változ- tatások hatásának azonnali ellenőrzése, amely lehetővé teszi a csomagok közötti függőségek betartásának biztosítását). Csárdi jelenleg az R fejlesztők új platformjának kidolgozását célzó R-Hub projekt vezetője. Az R-Hub célja, hogy a CRAN mellett – amely nemcsak a meglehe- tősen szigorú feltételeket teljesítő R csomagok tárolásáért, hanem azok teszteléséért és kar- bantartásáért is felelős – egy rugalmas, a cso- magok fejlesztési folyamatait elősegítő szol- gáltatást biztosítson. Csárdi beszélt METACRAN projektjéről is, amely az egyes csomagok metaadatainak tárolásával és intelli- gens feldolgozásával lehetővé teszi, hogy a felhasználók a mára már több mint 9000 cso- magból egyszerűen megtalálják a számukra releváns függvényeket.

Ooms szakterülete az ún. beágyazott vég- rehajtás, amely az elemzési funkcióknak a környezet többi komponensétől történő teljes leválasztását jelenti. Ooms még doktori tanul- mányai során dolgozta ki a terület elméleti hátterét és készítette el OpenCPU nevű imp- lementációját: a keretrendszer lehetővé teszi,

hogy az elemzők R-ben írhassák meg elemzési számításaikat, amelyet a rendszer tetszőleges másik komponense (annak implementációs nyelvétől függetlenül) egy általános webes interfész segítségével tud meghívni. Ooms hangsúlyozta: az egyes funkciók szétválasztása számos esetben növeli egy csapat hatékonysá- gát, hiszen például egy adatelemzésre épülő webes alkalmazás fejlesztéséhez nem kell egy webfejlesztőnek semmilyen adatelemzési nyelvet megtanulnia.

Szekcióelőadások

A konferencián négy nagyobb témakörbe szervezték az előadásokat. A résztvevők dél- előtt az alacsony szintű technikai kérdéseket megvitató előadásokat hallhatták (konkrét csomagok vagy függvények használata), dél- után pedig az egészen általános esettanulmá- nyokat bemutató témák kerültek fókuszba (az R nyelv helye és megfelelő használata konkrét projektekben vagy intézményekben).

Az Infrastruktúra szekcióban az R na- gyobb rendszerbe történő integrálása került középpontba. Kiderült, hogyan néz ki ma egy tipikus, felhő megoldásokra épülő infrastruktú- ra és az is, milyen módon érdemes az R-t összekapcsolni Pythonnal vagy SQL Serverrel.

Az előadók hangsúlyozták, hogy a legtöbb esetben az adatelemzés egy nagyobb folyamat része, így az integráció más nyelvekkel vagy környezetekkel – néha pusztán a többi elem- zővel történő kommunikáció megkönnyítése miatt – kulcsfontosságú. Tajti András, az Andego fejlesztője arról beszélt, hogyan imp- lementált csapatával egy komplett csalásfelde- rítő rendszert kizárólag már létező R csoma- gok használatával. Előadása rávilágított arra, hogy a nyelv használhatóságát nemcsak adat- elemzői és vizualizációs képességei, hanem a helyben automatizálható részfeladatokat meg- oldó funkciók is nagyban meghatározzák: az

(4)

például sok esetben hasznos, ha olyan felada- tokat is egy homogén környezetbe lehet integ- rálni, mint például az e-mailek küldése.

A Csomagok szekcióban három jól ismert fejlesztő mutatta be az általuk karbantartott csomagok legújabb funkcióit és azok tervezett jövőjét. Így a validate és a data.table csoma- gokról azok is hallhattak egy magas szintű összefoglalót, akik más reggeli workshopot választottak, majd Romain François beszélt röviden az általa fejlesztett adatmanipulációs dplyr csomag használatáról.

A gépi tanulás a napi programban is helyet kapott: a leghosszabb szekcióban szó volt az H2O keretrendszerről, valamint konkrét mód- szerek és algoritmusok tudományos alkalma- zásáról is.

Török Ágoston, a Synetic adatelemzője bemutatta kutatását, ahol rejtett Markov- modellek segítségével szenzor adatok alapján végzik érzelmi állapotok detektálását, Thomas Levin kutató pedig sokdimenziós adathalma- zok hanggá – tehát a szokásostól eltérően nem vizuális formává – történő leképezéséről be- szélt.

Andrew Lowe részecskefizikus – aki ko- rábban a Higgs-bozont felfedező fizikus csapat tagjaként Genfben, most pedig a budapesti MTA Wigner Fizikai Kutatóközpontban dol- gozik – nemcsak a mindennapi munkájában használt dimenzió-kiválasztási és osztályozási technikákról beszélt, hanem az eredmények lehetséges interpretációjáról is: elmondása szerint elképzelhető például, hogy az elemzők által korreláltnak talált dimenziók valójában valamilyen közös, általunk még nem ismert fizikai jelenség más-más aspektusaira vezethe- tők vissza. Az R legfontosabb előnyei között a beépített, elérhető modulok minőségét és mennyiségét, az aktív fejlesztői és felhasználói közösséget, valamint a gyors prototipizáló képességet emelte ki. Utóbbi különösen fon- tos, hiszen számos esetben az adatelemzés

iteratív jellegéből adódóan az elemző kód megírásának gyorsasága és nem annak futás- ideje számít.

Az előadássorozat esettanulmányokkal zá- rult: kiderült például, milyen R csomagokat használnak IT logok elemzésénél, hogyan derítik fel a felhasználók viselkedési mintáit online vásárlásaikból, hogyan segíthet a Shiny a csalásdetektáló vagy a kockázat-felderítő pro- jektekben. A résztvevők azt is megtudhatták, hogyan érdemes az R használatát nagyvállalati környezetben bevezetni, szó volt a folyamatok technikai és pszichológiai buktatóiról is.

Villámelőadások

A konferencia teret engedett mindazoknak az előadóknak is, akik témájukat csak néhány percben szerették volna összefoglalni. A vil- lámelőadások műfaja egészen speciális, hiszen ezek formátuma kötött: az előadók 15 fóliával készülnek, ezeket egyenként húsz másodperc- ben foglalhatják össze (a váltás a fóliák között automatikusan történik). Az előadók felké- szültségét dicséri, hogy ilyen szűkre szabott keretek között is képesek voltak világosan bemutatni a sokszor meglehetősen mély tech- nikai vagy matematikai hátterű témaköröket.

Említették például, hogy az Eurostat is egy egységes, általános adatlekérő felületen dolgo- zik, és azt is, hogy az aktív politikusok által vezetett cégek közötti kapcsolati hálózat fel- térképezhető gépi tanulás segítségével. Szintén villámelőadásban volt szó a geológiai model- lek vizualizációjáról és helyi R közösségek építésének bevált módszereiről is.

Vizualizációs verseny

A BI Consulting számos alkalommal hir- detett vizualizációs versenyt adatelemző kon- ferenciák keretében. Az arany fokozatú támo- gató ezúttal arra volt kíváncsi, mik az R kö-

(5)

zösség által használt, tipikusnak mondható vizualizációs módszerek és keretrendszerek, így a versenykiírásban nemcsak az adathal- mazt rögzítették, hanem azt is, hogy az elem- ző-vizualizációs folyamat minden lépése R- ben kell történjen. A konferencia résztvevői már augusztusban hozzáférhettek a Liszt Fe- renc repülőtér 2007 és 2012 közötti, havi bontású légi forgalmi adataihoz, hogy vizuali- zációjukat a konferencia hetére elkészítsék.

(Mind az adatkészlet, mind a győztes megol- dásokat bemutató blog-bejegyzés elérhető a konferencia honlapjáról: budapest.satrdays.org /#datavizcompo.)

A beérkezett pályamunkák három percben történő bemutatása zárta a konferenciát, ahol a jelenlévők szavazhattak a nekik legjobban tetsző megoldásra. A legtöbb szavazatot be- gyűjtő vizualizáció a Quanopt Kft. fejlesztői csapatától érkezett, akik a Malév légitársaság csődjének Magyarország légi forgalmára gyakorolt hatását elemezték.

A pályamunkák bemutatásakor egyértel- művé vált, hogy az R közösség ma leginkább a statikus jelentés alapú, valamint a Shiny keret- rendszerre épülő interaktív vizualizációkat kedveli, ami valószínűleg a használt eszközök kiforrottságára és dokumentáltságára vezethető vissza.

Hogyan tovább?

Az eddig sem volt kérdés, hogy Magyaror- szág területét és népességét meghazudtoló méretű R közösséggel rendelkezik (a budapesti R-meetup több mint 800 tagot számlál:

http://rapporter.net/custom/R-ctivity/#score/5), ennek újabb bizonyítéka a konferencia elsöprő sikere is. A résztvevők egybehangzó vélemé- nye volt, hogy a budapesti rendezvény mintául szolgálhat a sorban következő konferenciák- nak, amelyeknek Cape Town és Puerto Rico adnak majd otthont.

Az előadások tematikáját elnézve érezhető, hogy bár az R eredetileg elsősorban statisztikai és vizualizációs keretrendszernek indult, a lelkes közösségnek köszönhetően a ma CRAN-en található csomagokat az általános célú nyelvekre jellemző funkciók dominálják. Ennek alapján valószínű, hogy az R a közeljövőben még széle- sebb körben használt elemzési nyelvvé válik mind az iparban, mind a tudományos világban.

Reméljük, hogy a sikeres konferencia so- rán összekovácsolódott magyar R közösség ennek a folyamatnak aktív katalizátora lesz.

Salánki Ágnes,

a Secret Sauce Partners adatelemzője E-mail: salanki.agnes@gmail.com

Hírek, események

Az ISI (International Statistical Institute – Nemzetközi Statisztikai Intézet) Tanácsá- nak tagjává választották Vukovich Gabriellát, a Központi Statisztikai Hivatal elnökét. Az intézet 81 taggal (köztük nyolc magyar statiszti- kussal) hivatalosan 1885-ben alakult meg Lon- donban, de a szervezet előfutárának tekinthető rendszeres nemzetközi statisztikai kongresszu- sokat már 1853 óta rendezik. Tagsága 100 or- szágból ma már több mint 5000 főt számlál.

A szervezet fő célkitűzése, hogy világszer- te elősegítse a statisztika jobb megértését, szakmai fejlesztését és a jó gyakorlatok elter- jedését. 1949 óta konzultatív státussal rendel- kezik az Egyesült Nemzetek Gazdasági és Szociális Tanácsában, amely lehetővé teszi, hogy részt vehessen az ENSZ Statisztikai Bizottságának éves tevékenységében.

Az ISI Tanácsa az intézet hosszú távú stra- tégiai terveinek és operatív programjainak a

Hivatkozások

KAPCSOLÓDÓ DOKUMENTUMOK

Érdekes mozzanat az adatsorban, hogy az elutasítók tábora jelentősen kisebb (valamivel több mint 50%), amikor az IKT konkrét célú, fejlesztést támogató eszközként

A helyi emlékezet nagyon fontos, a kutatói közösségnek olyanná kell válnia, hogy segítse a helyi emlékezet integrálódását, hogy az valami- lyen szinten beléphessen

Minden bizonnyal előfordulnak kiemelkedő helyi termesztési tapasztalatra alapozott fesztiválok, de számos esetben más játszik meghatározó szerepet.. Ez

A KOPI Online Plágiumkereső Portál egy egyedülálló, nyílt szolgáltatás az internetező közönség számára, amely lehetővé teszi, hogy a felhasználók saját

nem alakítható ki az ágazati kapcsolati mérlegek olyan egyetlen modellje, mely valamennyi igényt kielégítheti; mind az egyes országok sajátosságaitól, mind a

ján kiderült, hogy a munkanélküli családok háztar- tásának tartós javakkal való ellátottsága alig marad el azon családokétól, amelyekben nincs munkanél- küli. Az

A konferencián tizenkét párhuzamos szek- cióban összesen 116 ülésen mintegy 530 elő- adás hangzott el, miközben a benyújtott absztraktok száma 1063 volt.. Így a korábbi

Ez a protokoll teszi lehetővé, hogy a felhasználók olyan üzeneteket válthassanak, mint pl.