Mesterséges intelligencia I
13. Előadás
Néhány probléma:
- Hogyan fordítanánk angolra?
- Hogyan érthetnénk meg egy rövid törénetet?
- Miként lehetne kigyűjteni az MTI hírekből a cégek egyesítéséről szólókat?
- Hogyan kezdenénk egy (magyarul kimondott) számokat felismerő program fejlesztéséhez?
Két nagyobb terület
Természetes-nyelv feldolgozás,
folyamatban levő projektek
Beszédfeldolgozás,
folyamatban levő projektek
Nyelvfeldogozás
Nagyon sok elektronikusan hozzáférhető szöveg (például a MEK, a Magyar Nemzeti Szövegtár),
sokféle formátum
Első lépés: szegmentálás
(eredmény: tagolt szöveg, mondatok, szavak, tokenek). Legfontosabb problémák
Morfo-szintaktikai elemzés (morfológia-alaktan).
Lexikon.
A magyar agglutináló (toldalékoló) nyelv, amelyben a szótőhöz
képzőket,
ragokat illeszthetünk
(az angolban szinte nincsenek ragok).
Feladat: szótövek+illesztések meghatározása.
Különböző kódrendszerek, általában fix pozíciókkal (MSD - ablak: Ncsn főnév, köznév, egyes szám,
alanyeset). 1984.
Egyértelműsítés: az előző címkézési eljárás nem egyértelmű - szótár, toldalékok.
Szeged korpusznál (1 millió szó) 52% többértelmű.
Hogyan válasszuk ki a megfelelő jelentést?
Kézzel, pontosan elemzett minta
tanuló eljárások.
Bayes döntés,
Markov láncok,
szabályok alkalmazása.
Legjobb eredmények: 3-4 % hiba marad.
Más nyelveknél is szükség van erre az
előfeldolgozásra, például angolban a Brown korpusz (1961) az első elkészült nagy anyag.
A szövegben további jelek kellenek - speciális formátumok: XML (Extensible Markup
Language, 1998), SGML (Standard Generalized
…) a leggyakoribb standard fogalmak. HTML.
Szintaxis (mondattan)
Kezdés: főnévi szerkezetek kijelölése (NP, noun phrase).
Pl. egy nagy piros ház
(főnév + balról jelzős szerkezet és determináns).
Névszói szerkezetek. Melléknevek, számnevek, névmások.
Igei vonzáskeretek
(magyar igéknek 0, 1, 2, 3, 4 bővítménye lehet).
Teljes szintaktikus elemzés.
Mondatfa. mondat(Láttam tárgy(fn-csoport(egyigei-csop(tárgy(fn- csoport(hordó tokaji)t) hordó tokaji)t).
Általában szabályokat keresünk, azokat próbáljuk alkalmazni morfológiailag már egyértelműsített szövegen.
Chomsky: generatív grammatikák.
Alulról felfelé, felülről lefelé elemzés.
A mondatok jelentése: atomi jelentések,
kombinálási szabályok. Montague nyelvtanok.
Szematika (jelentéstan). Fogalmi hálók, wordnet. Keretek.
A Szeged korpusz szintaktikai feldolgozása.
Gazdasági hírek szemantikus feldolgozása.
Vissza: tudásábrázolás
Szabályalakú rendszerek: ha A akkor B alakú mondatok.
Példa: nyolcas kirakós játék.
Előre haladó (adatvezérelt).
Visszafelé haladó (célvezérelt).
Szemantikus (vagy asszociatív) hálók
Formálisan címkézett irányított gráfok, ahol
a gráfok csúcsai fogalmakat vagy objektumokat reprezentálnak,
az élek pedig a közöttük meglevő viszonyok, kapcsolatok
tagja (eleme) (instance of),
ekvivalens (is equivalent of),
tulajdonságú (has property of, színe, mérete),
részosztálya (subclass of),
ez egy (típusa) (is a ),
részhalmaza (has part of).
Nincs szabványos szintaxis, szemantika.
Példa.
A szemantikus háló felépítése.
Öröklődés.
Előnyök (explicit és tömör ábrázolás),
hátrányok (nagy méretnél nehéz áttekinteni, nehéz szabványosítani a keresést).
Következtetések a szemantikus hálón: tényháló, célháló.
Kivételek és ellentmondások kezelése, prioritások.
(Tudás)keret (frame): valamely fogalom vagy objektum strukturált modellje.
A tulajdonságokat (attribútumokat) a keret rekeszei vagy bejegyzései nevezik meg
szemantikus háló továbbfejlesztése
(érték megadása, alapértelmezése, forrása, a változáskor végrehajtandó eljárások (démonok))
Keretnyelv.
Példa.
Lényegesnek tűnő különbség a szemantikus hálókhoz képest: formális leírás létezik (keretnyelv).
Valójában nem sok eltérés.
Legegyszerűbb: a szemantikus háló átírása az adott keretnyelvre.
Példa.
Osztályok (legfelső szint) és példányok.
Öröklődés.
Attribútumok megadása relációkkal.
Bejegyzések:
domain (ért. tart.),
range (ért. készl.),
constraint (megszorítás az értkészl-re),
default (alapértelmezés),
inverse,
inheritance.
Gráfos ábrázolás mellett további lehetőségek, például űrlappal (adatbázissal).
Előnyök: esemény-vezérelt végrehajtás (démonok), világos, áttekinthető szerkezet,
deklaratív és
procedurális ismeretek
együttes ábrázolása lehetséges.
Hátrányok:
prototípustól való eltérés, bővítés nehéz lehet.
Beszédfelismerés
Fonéma: a legkisebb olyan részlet, amiben két szó eltérhet egymástól (gép-kép).
- fonetikai változatosság - akusztikai változatosság
- beszélők közötti változatosság
- adott beszélő esetén levő változatosság
Beszédértelmezés szintjei
fonetika
fonológia
morfológia (lexika)
szintaktika
szemantika
pragmatika
Felismerők csoportosítása
beszédjel minősége
beszéd módja
Beszélőfüggőség
szótár mérete
nyelvi kötöttség foka
Általános struktúra
Előfeldolgozás
Szegmentálás
Címkézés
lexikális elemzés (szótár)
nyelvi elemzés (szintaxis)
szemantikai elemzés
Szegedi alkalmazások
számjegyek felismerése
halláskárosult gyerekek tanítása
beszédszintézis