Mesterséges intelligencia I

(1)

Mesterséges intelligencia I

11. Előadás

(2)

 Mi lenne a b legjobb választása? Statisztikai eljárásoknál az úgynevezett Fisher-féle

lineáris diszkriminancia függvény adja a legjobb szétválasztási lehetőséget - ha b-t jól

választjuk, ezt itt is megkaphatjuk. A levezetése elég hosszadalmas, nem adjuk meg.

 A Bayes döntéshez tart növekvő mintánál!

(3)

 A perceptron modell igazából csak az szétválasztható esetre működik jól, a legkisebb négyzetes pedig a nem

szétválaszthatóra.

 Ha a b-t is változónak tekintjük, eljutunk a Ho-Kashyap eljáráshoz, amelyik mindkét esetre alkalmazható.

(4)

 A kritérium-függvényünk:

J_s(a,b) = Ya - b ²

Az a szerinti gradienst már kiszámoltuk:

_aJ_s = 2Y^t(Ya-b) a b szerinti pedig:

_bJ_s = -2(Ya-b)

(5)

 Elindulhatunk az a szerinti gradiensekből (a=Y^†b) és a b > 0 feltételt megőrző

megoldáshoz juthatunk.

 Ehhez a _bJ_s pozitív kompenenseit nullának vesszük, és ezzel a

b(k+1) = b(k) - (k)[_bJ_s - | _bJ_s |]/2

összefüggéshez jutunk

(6)

Az előző eredmény gradienseit felhasználva kapjuk

b(1) > 0,

b(k+1) = a(k) + 2(k)e⁺(k), ahol

e(k) = Ya (k) - b (k) a hibafüggvény,

e⁺(k) = (e(k) + |e(k)| )/2 pedig ennek pozitív része, továbbá

a(k) =Y^†b (k).

 Ez a Ho-Kashyap eljárás

(7)

 Több osztály esete

 itt is lineáris diszkriminancia függvényeket keresünk,

és csak a szeparálható esettel foglalkozunk.

 Homogén koordinátákkal ez

g_i(x) = aity, i = 1, 2, …, c

alakú függvényeket jelent, és azt az _i osztályt választjuk, amelyre

gi(x) > gj(x), minden j  i -re.

(8)

Kessler módszere: kétosztályos esetre vezet vissza mindent (ezzel a dimenziókat c-szeresre növeli, de már ismert módszert fog tovább

használni).

Pontosabban: először az első osztályhoz tartozó pontokat választjuk el a többiektől a

a₁^ty_k - a_j^ty_k > 0, j = 2, 3, …, c segítségével.

(9)

 Ez tulajdonképpen c-1 egyenlőtlenséget jelent, amelyeket a korábbi eljárásokkal oldhatunk

meg.

 Vissza: agy működése (neuronhálók)

 Példák logikai függvényekre

 Többszintű hálók

(10)

Szintaktikus módszerek

Nem-numerikus adatok: például gyümölcsök osztályozásánál színek, méret, …

.Attribútumok listája.

Mit és hogyan lehet tanulni?

 Döntési fa: minden csúcsban két- vagy többértékű döntés. Levelek: osztályok.

(11)

Hogyan építsünk fel egy döntési fát?

Itt is adott egy minta (osztályzott példák halmaza).

Ezt szeretnénk kérdésekkel felosztani.

Ideális (tiszta) eset: egy kialakult részhalmazban minden elemnek azonos a címkéje.

Addig: döntés, leálljunk-e (kevert osztály), vagy

további kérdést fogalmazzunk meg (növeljük a fát).

(12)

Faépítés általános kérdései

- elágazási szám: bináris vagy többértékű?

- melyik csúcsnál milyen tulajdonság ellenőrzése?

- mi legyen levél?

- ha túl nagy a fa, hogyan csökkenthetjük?

- ha egy levélnél több címke, melyiket válasszuk?

- mi legyen hiányzó adatoknál?

(13)

Bináris eset.

 Mikor melyik kérdés? Tisztaságra törekvés.

Mérték? Tisztátlanság (i: impurity).

 Entrópia az N csúcsnál:

i(N) = - _j P(_j)log₂P(_j),

ez akkor nulla, ha minden elem egy osztályba tartozik.

 Másik (két osztályra): i(N) = P(₁) P(₂).

(14)

 Gini tisztátlanság (több osztályra):

i(N) = _ij P(_i)P(_j) = 1 - _j P²(_j),

 Hibás osztályozás tisztátlanság:

i(N) = 1 - max_j P(_j)

 Alapkérdés: egy adott csúcspontban melyik tulajdonság szerint döntsünk?

(15)

 Válasz: amelyik a tisztátlanságot a legjobban csökkenti:

 i(N) = i(N) - P_Li(N_L) - (1 - P_L)i(N_R),

valamelyik tisztátlanság-definícióval (vagy annak monoton függvényével).

 Elég sok számolással járhat.

(16)

 Többlépcsős eljárás - mohó módszer.

Szükség esetén szuper-osztályok létrehozása.

 Nagyobb elágazási faktor: a cél itt

 i(N) = i(N) - _Bk=1 P_ki(N_k) minimalizálása.

Könnyen hoz létre túl sok osztályt.

Még több számolás.

(17)

Mikor álljunk le a további kérdésekkel?

- tanítás -tesztelés eredménye elég jó,

- a következő kérdésnél a tisztátlanság csökkenése elég kicsi,

- kevés pont marad a leveleknél, - statisztikai módszerek.

(18)

 Vágás (nyesés): gyakran érdemes nagyon nagy fát felépíteni, és utána összevonni ágakat

(több információnk van, mintha korábban leállnánk).

 Címkék hozzárendelése a levelekhez:

“tiszta” osztályoknál triviális, egyébként a legtöbb elemet tartalmazó osztály.

(19)

Példa

(20)

 Számítási bonyolultság:

 jó esetben O(dn(log n)²),

 rossz esetben O(dn²log n).

 Tulajdonságok kiválasztása:

gyakran sokat segíthet egy jó előfeldolgozás.

(21)

 Példa.

(22)

 Leggyakoribb módszer: ID3. Nominális adatok

(ha numerikus is van, először rész-

intervallumokba osztjuk azokat), entrópia használata.

 Továbbfejlesztett (és leggyakrabban használt) változata: C4.5

(23)

 Minták (sztringek) illesztése.

Adott egy véges abc, fölötte szavak.

Minta, szöveg, faktor, részsorozat definíciója.

 Alkalmazási lehetőségek:

- keresés szövegekben,

- keresés DNS láncokban, - számítógépes grafika.

(24)

 Alapproblémák:

- minta keresése (faktora egy szövegnek?)

- szerkesztési távolság: a lehető legkevesebb

elemi művelettel (törlés, beszúrás, csere) való átvitel

- minta keresése hibával

- minta keresése “akármi” szimbólummal

(25)

 Szerkesztési távolság: dinamikus programozás. Alapképlet:

C(i,j) = min {C(i-1,j)+1, C(i,j-1)+1, C(i-1,j-1)+1-(x[i], y[j])}