• Nem Talált Eredményt

Adatbányászati technikák 2. házi feladat

N/A
N/A
Protected

Academic year: 2022

Ossza meg "Adatbányászati technikák 2. házi feladat"

Copied!
2
0
0

Teljes szövegt

(1)

Adatbányászati technikák 2. házi feladat

Általános szabályok

• Az els® feladatot a Weka Explorerben oldjad meg. A lépésekr®l készíts képerny®képeket, és illeszd a dokumentumba. A képeket úgy méretezd, hogy a lényegi rész látható legyen rajta. Az algoritmusok beállításáról mindig készíts képet.

• A második és harmadik feladatban Python kódot kell írnod.

• A szöveges megoldásokat a képekkel pdf formátumban küldd el.

• A magyarázatokat olyan részletességgel add meg, hogy egy, az adatbányászattal alapszinten tisztában lev® ember megértse.

• A második és harmadik feladathoz írt programnál a .py le-okat vagy Jupyter notebookot küldd el.

• A kész feladatokat a kabodil@cs.bme.hu e-mail címre küldd. A levél tárgya kezd®djön "[adat- bányászati technikák]"-kal. A levélbe mindenképp írd bele a neved és neptun kódod. A megoldá- saidat egy tömörített (pl. zip) le-ként küldd.

• A beadási határid® a bemutatás el®tti vasárnap éjfél, azaz páratlan héten járóknak május 6-a, páros héten járóknak pedig május 13-a.

• Az utolsó gyakorlaton a házit meg kell védeni. Ez a megoldás értelmezését, és annak kisebb módosítását jelenti. Mindegyik feladatnál el®fordulhatnak a témához kapcsolódó más kérdések is.

• A feladatok értelmezésével kapcsolatban szintén a fenti e-mail címen kérdezhetsz.

1. feladat A feladatban a Weka programcsomag Explorer felhasználói felületén kell osztályozással kapcsolatos feladatokat elvégezni. A használt adathalmaz a http://cs.bme.hu/~kabodil/adatbanyaszat/

hf/weka/diabetes.arff címen érhet® el.

1. Töltsd be az adathalmazt a Weka Explorerbe! Melyik attribútum fölösleges? Miért? Hagyd el az adathalmazból! (0,5 pont)

2. Az adathalmaz cukorbetegségr®l szól. Mi a nagyobb hiba, egészséges embert cukorbetegnek nyil- vánítani, vagy cukorbeteg embert egészségesnek? Miért? (0,5 pont)

3. Készíts egy J48 fát. Állítsd át a levelenkénti minimális elemek számát 10-re. Osztálycímkének az utolsó attribútumot használd. Nézd meg a készült fát (és készíts róla képet) (1 pont)

4. Készíts mesterséges neurális hálót, ami két rejtett réteget tartalmaz, 50-50 neuronnal. A tanítás 400 iterációig tartson. Hasonlítsd össze az így kapott eredményt az el®bbi döntési fával. (1 pont)

1

(2)

5. Osztályozd az adatokat Adaboosttal. Az Adaboost által használt osztályozó Decision Stump legyen.

Az iterációk száma legyen 30. Hasonlítsd össze ezt az eredményt is a korábbiakkal. (1 pont) 6. Diszkretizáld a mass attribútumot öt kategóriára, amik egyenl® szélesség¶ek, és a skin attribú-

tumot szintén öt kategóriára, de ezekben a példányszámok legyenek egyenl®ek. Készíts err®l is J48 fát alapbeállítások mellett, és hasonlítsd össze az el®z® osztályozókkal. (1 pont)

2. feladat A feladatban egy map és egy reduce föggvényt kell megírni az órán is használt mapreduce.py- hoz. Az adatok és a python le-ok a http://cs.bme.hu/~kabodil/adatbanyaszat/hf/mapreduce/

mapreduce.zip címr®l tölthet®k le.

(Az adatok forrása: http://archivio-meteo.distile.it/tabelle-dati-archivio-meteo/.) Írj egy map és egy reduce függvényt, ami a data_2010.txt,. . ., data_2015.txt leokban tárolt dátum - h®mérséklet párokból hónap - átlagh®mérséklet párokat számol. Vagyis a feladat a sokéves átlag havi h®mérsékletek meghatározása. (Eredményül 12 kulcs-érték pár kell, hónaponként egy.) Csak a my_map.py és a my_reduce.py le-okba írj. (5 pont)

3. feladat A feladatban az órai sklearn-t használó programot kell kiegészíteni egy saját osztályozó- val. A b®vítend® forrás és a felhasznált adatok a http://cs.bme.hu/~kabodil/adatbanyaszat/hf/

sklearn/sklearn.zip címr®l tölthet®k le.

Készíts egy olyan osztályozót, ami az sklearn-ben található beépített osztályozókat használja, és azok eredményeit kombinálja egy saját jóslattá. Az eredmények kombinálása lehet egyszer¶ többségi szavazás alapján, vagy akár tetsz®leges súlyozással. A saját osztályozód legalább három beépített osztályozó ered- ményeit használja fel. Az osztályozót írja ki a kapott eredmények értékelését (sklearn.metrics.accuracy_score és sklearn.metrics.classication_report). (5 pont)

2

Hivatkozások

KAPCSOLÓDÓ DOKUMENTUMOK

A vándorlás sebességét befolyásoló legalapvetőbb fizikai összefüggések ismerete rendkívül fontos annak megértéséhez, hogy az egyes konkrét elektroforézis

(Véleményem szerint egy hosszú testű, kosfejű lovat nem ábrázolnak rövid testűnek és homorú orrúnak pusztán egy uralkodói stílusváltás miatt, vagyis valóban

Az akciókutatás korai időszakában megindult társadalmi tanuláshoz képest a szervezeti tanulás lényege, hogy a szervezet tagjainak olyan társas tanulása zajlik, ami nem

Az olyan tartalmak, amelyek ugyan számos vita tárgyát képezik, de a multikulturális pedagógia alapvető alkotóelemei, mint például a kölcsönösség, az interakció, a

A CLIL programban résztvevő pedagógusok szerepe és felelőssége azért is kiemelkedő, mert az egész oktatási-nevelési folyamatra kell koncentrálniuk, nem csupán az idegen

A pszichológusokat megosztja a kérdés, hogy a személyiség örökölt vagy tanult elemei mennyire dominán- sak, és hogy ez utóbbi elemek szülői, nevelői, vagy inkább

Nagy József, Józsa Krisztián, Vidákovich Tibor és Fazekasné Fenyvesi Margit (2004): Az elemi alapkész- ségek fejlődése 4–8 éves életkorban. Mozaik

A kötet második egysége, Virtuális oktatás címmel a VE környezetek oktatási felhasználhatóságával kapcso- latos lehetőségeket és problémákat boncolgatja, azon belül is a