Mély neuronhálós beszédfelismer®k
GMM-mentes tanítása
GrószTamás
1
,GosztolyaGábor
1,2
, TóthLászló
2
1
Szegedi Tudományegyetem,InformatikaiIntézet
2
MTA-SZTEMesterségesIntelligeniaKutatósoport
e-mail:{groszt,ggabor,tothl}inf.u-szeged.hu
Kivonat Azutóbbi pár évben a beszédfelismer®kben használt rejtett
Markov modellekben (hidden Markov model, HMM) az ún. Gauss-ke-
verékmodell (gaussian mixture model, GMM) komponenst leváltották
amély neuronhálók(deep neuralnetwork, DNN).Ugyanakkorezek az
új,neuronálókra épül® hibrid HMM/DNN felismer®kszámos olyanal-
goritmustmegörököltek,melyeketeredetileg GMM-alapúrendszerekhez
fejlesztettekki,ésígyoptimalitásukazújkörnyezetbennemgarantált.A
HMM/DNNmodellek`GMM-mentes'tanításához kétrészfeladatra kell
újmegoldástadnunk.Azegyik,hogyamélyhálókid®benillesztetttaní-
tóímkéketigényelnek,amásikpedigakörnyezetfügg®állapotokel®állí-
tása,amelyreaklasszikusmegoldásegyGMM-alapúklaszterezésialgorit-
mus.BáraHMM/DNNhibridektanítására léteznekteljesmondatokon
dolgozóún.szekvenia-diszkriminatívtanítóalgoritmusok,ezeketjellem-
z®en sak a tanítás legutolsó fázisában, a modellek nomhangolására
szoktákbevetni,mígatanításelejénHMM/GMM modellekelel®állított
ésillesztettímkékb®lindulnakki.Jelenikkünkbenviszontmegmutat-
juk,hogymegfelel®odagyelésselaszekveniatanulóalgoritmusokata-
nításlegelejét®lhasználhatóak.Azállapotklaszterezésilépésrekorábban
márjavasoltunkegy GMM-mentes megoldást, így a ímkeillesztési fel-
adatmegoldásávalegyteljesenGMM-mentestanításisémáhozjutottunk.
Kísérletieredményeinkaztmutatják,hogyajavasoltmegoldásnemsak
gyorsabb,mintahagyományostanítási módszer,hanemvalamiveljobb
felismerésipontosságotiseredményez.
Kulsszavak:mélyneurálishálók,szekvenia-diszkriminatívtanítás
1. Bevezetés
Abeszédfelismerésbenamélyneuronhálók(deepneuralnetwork,DNN)áttörésé-
velahagyományos,Gauss-keverékmodelleken(gaussianmixture model,GMM)
alapuló rejtett Markov-modellek (hidden Markov model, HMM) helyett most
márazún.HMM/DNNhibridekszámítanakasústehnológiának.Ezenmodel-
lekbetanításaazonbanjelenlegmégtöbbpontonisahagyományosHMM/GMM
modellhez kidolgozott tanítási algoritmusokon alapul. Jelenleg a neuronhálós
GrószTamástazEmberiEr®forrásokMinisztériumaÚNKP-16-3kódszámúÚjNem-
zetiKiválóságProgramjatámogatta.
HMM/DNNmodelltanításátegyhagyományosHMM/GMMrendszerbetanítá-
sávalkellkezdeni.Ebb®larendszerb®lnyerjükki azutánazokat akeretszinten
illesztett,környezetfügg®állapotímkéket,amelyekaDNNbetanításasoránta-
nításiélkéntszolgálnak.Ezazeljárásegyrészter®forrás-pazarló(aHMM/GMM
rendszertatanítóímkékkinyeréseutáneldobjuk),másrésztsemmisemgaran-
tálja,hogyaGMMhasználatávalkialakítottésillesztettímkékaDNNszámára
isoptimálisaklesznek.Akétfeladatazállapotímkékid®beliillesztéseéskör-
nyezetfügg®ímkékkévaló konvertálásaközülaz utóbbira korábban márad-
tunkegyGMM-mentesmegoldást[1℄,ígyebbenaikkbenamásikproblémára,
azazazállapotímkékkezdetiid®beliillesztésérekonentrálunk.
A HMM/DNN modellek DNN komponensének betanítása legegyszer¶bben
úgy történhet,ha rendelkezésreállnakid®benillesztett tanítóímkék, ekkor u-
gyanis a tanulás során használhatunk olyanklasszikus hibafüggvényeket,mint
példáulakeresztentrópia(ross-entropy,CE).A legtöbbszörazonbanatanító-
adatokhozsak mondatszint¶átiratokatkapunk, abeszédhangok id®beli illesz-
tésenemállrendelkezésre.AHMM/GMMmodelleknekmegvanatenhológiája
az id®beliillesztésekel®állítására,melyet gyakran `atstart' tanításkéntemle-
getnek [2℄.Ezazösszesbeszédhang-modelltazonosparaméterekkeliniializálja,
ami lényegébenmegfelel ahanghatárok id®ben egyenletes felosztásának.Innen
kiindulvaaHMM-ekklasszikusBaum-Welhtanítóalgoritmusaiteratívantanítja
ésújraillesztiamodellímkéit.Hasonló,iteratívtanításonésújraillesztésenala-
pulóproedúráttermészetesenkilehetalakítaniaDNN-tanításhozis,akárajól
bevált CE-hibafügvényreépítkezve.Senioréstsai.példáulvéletlenszer¶eninii-
alizáltneuronhálóvalteszikezt [3℄,míg Zhangés tsai.kiindulásként egyenletes
beszédhang-szegmentálástalkalmaznak[4℄.Ezekamegoldásokm¶köd®képesek,
demintlátnifogjuk,relatívelassankonvergálnak,azazsoktanítási-újraillesztési
iklustigényelnek.
A fenti eljárásokmegoldják ugyana ímkék illesztését, de továbbra is egy
adatkeretekszintjéndeniálthibafüggvénythasználnak.Eznemoptimális,mivel
afelismerésésakiértékelésismondatszintentörténik. AHMM/GMM-ekköré-
ben számos mondatok szintjén deniált, más szóval szekvenia-diszkriminatív
hibafüggvényt javasoltak, és ezek jó részét adaptálták is HMM/DNN hibri-
dekre [5,6,7℄. A legismertebb ilyen tanítási kritérium a kölsönös informáió
maximalizálásán alapuló `maximum mutual information', vagy röviden MMI-
hibafüggvény[5℄.Alegtöbbszerz®azonbanaszekvenia-diszkriminatívtanítást
sakatanítási folyamat legvégén,amárbetanított modelleknomhangolására
alkalmazza.Magyarul,az els®lépésmindigegy CE-hibafüggvényenalapulóta-
nítás(pl.[5,6,8,9,10,11℄).
Az ún. `neuronhálósid®beli osztályozás' (onnetionist temporal lassia-
tion, CTC) az utóbbi néhányévben vált népszer¶véDNN-ek sorozatokonvaló
tanításáraolyanesetben,amikor id®ben illesztettímkéknem állnakrendelke-
zésre [12℄. Rao és tsai. javasoltak is egy `at start' tanítási eljárást, amely a
CTC-n alapul [13℄. A CTC tehnológiának azonban több hátránya is van az
MMI-tanításhoz képest. El®ször is, aCTC aszokványos állapotímkék mellett
üresímkéketiselhelyez,amelyekkelaztánvalamitkezdenikellkés®bb,akörnye-
zetfügg®állapotokkialakításasorán.Másodszor,aCTC maganem szekvenia-
diszkriminatív módszer, ígyalegjobberedményeketakkor adja, ha ilyen hiba-
függvényekkelkombinálvahasználják[12,13℄.
A korábbi szerz®kkel ellentétben mi egy olyan tanítási eljárásra teszünk
javaslatot, amely a tanítás legelejét®l kezdve szekvenia-diszkriminatív hiba-
függvényt használ. Ehhez a szokványos alkalmazáshoz képest több apró mó-
dosításra lesz szükség, amelyeket részletesen bemutatunk. A kísérletek során
az általunk javasolt megoldást a Zhang és tsai. ikke alapján megvalósított,
CE-hibafüggvényen alapuló iteratív újratanítási-újraillesztési megoldással vet-
jük össze [4℄. Eredményként azt kapjuk, hogy ami megoldásunk gyorsabb, és
az elértszószint¶hibaarányis valamivelkisebb. Tanításimódszerünket kombi-
náljukakorábban javasolt állapotklaszterezésialgoritmusunkkal[1℄, ígyavég-
eredményként kapott tanítási eljárás összes lépése mentes lesz a GMM-alapú
tehnológiától.
2. HMM/DNN felismer®k `at start' tanítása
A HMM/DNN felismer®ktanításael®tt egy HMM/GMM rendszert szokás be-
tanítani,ésezzelállíthatóak el®aDNNtanításáhozszükséges,id®benillesztett
állapotímkék.A ikkben két olyanmódszertfogunk összehasonlítani,amelyek
GMM használata nélkül képesek ugyanezt a feladatot elvégezni. Összehason-
lítási alapként egy olyan algoritmus fog szolgálni, amely iteratívan ismétl®d®
tanítási-újraillesztési iklusokat végez a HMM/DNN modellel, melynek DNN
komponenséthagyományos,keretalapúCE-hibafüggvénnyeltanítja.Sajátmeg-
oldási javaslatunk ezzel szemben a DNN tanítására szekvenia-diszkriminatív
hibafüggvényt fog használni, mégpedig a talán legismertebb ilyet, a korábban
már említett MMI-hibafüggvényt [5℄. Az MMI-hiba `at start' tanításra való
használatatöbb aprómódosítástfogigényelni,ezeketa3.fejezetben be fogjuk
mutatni.
2.1. Iteratív CE-tanításésújraillesztés
AzösszehasonlításialapkéntszolgálómegoldásaCEtanulási kritériumothasz-
náljaaDNNtanításáraolymódon,hogyaímkéketid®nkéntújrailleszteni,majd
atanítástmegismétli.AzalgoritmusimplementálásasoránZhangéstsai.ikkét
próbáltukkövetni[4℄:
1. Ahangfájlokhozaímkéketegyenletesid®közökrebontássalrendeljükhozzá,
majdbetanítjukaDNN-t.
2. Az aktuális DNN-t használva újraillesztjük a ímkéket aHMM/DNN mo-
dellel.
3. A régiDNN-teldobvaújhálóttanítunkazújímkehatárokkal.
4. A 23lépéseket konvergeniáigismételgetjük.
Afentieljárás végénkapott DNN-t használjukaímkékid®beliillesztésére,
ez alapján a környezetfügg® modellek kialakítására, majd ezek segítségével a
véglegesDNNbetanítására.
Afentismertetetteljárásel®nye,hogyaszokványosCE-hibafüggvénymellett
nemigényliújhibafüggvényimplementálásátatanításhoz,azújraillesztéstpedig
standard beszédfelismerési eszközökkelmeg lehet oldani. A módszer hátránya,
hogy az újratanítás-újraillesztésismételgetése elég id®igényes,amint majd azt
a6.fejezetbenlátnifogjuk.
2.2. Szekvenia-diszkriminatív tanítás az MMI-hibafüggvénnyel
A hagyományos HMM/GMM modellek szekvenia-diszkriminatívtanítása ma
már sztenderdnek számít. Többféle hibafüggvényt is javasoltak eélra [14℄, és
ezeket már a HMM/DNN modellekre is átültették [5,6,10,15℄. A legrégebbi és
legegyszer¶bbilyenhibakritérium amaximáliskölsönösinformáió(maximum
mutual information, MMI) hibafüggvény. Az MMI függvény a jellemz®vektor-
sorozatésahozzárendeltallapotsorozatkölsönösinformáiójátméri.Ajellem-
z®vektoroksorozatáraaz
O u = o u1 , . . . , o uT u, azu
mondathoz tartozószósoro-
zatra pedig a
W u jelölést használva, az MMI-hibafüggvényt az alábbi módon formalizálhatjuk:
F M M I = X
u
log p(O u |S u ) α p(W u ) P
W p(O u |S) α p(W ) , (1)
ahol
S u = s u1 , . . . , s uT u aW u-hoztartozóállapotsorozat,α
pedigazakusztikus
α
pedigazakusztikusmodell súlya. A nevez®ben található összegzés az
u
mondatra felismerési ki- menetkéntkapottlegvalószín¶bbbeszédhang-sorozatokattartalmazzaeztúgykaphatjuk meg,hogy egyetlen kimenet helyett ún. szóhálót(lattie) generálta-
tunkafelismer®vel.Az(1)egyenletetderiválvaa
log p(o ut |r)
log-likelihoodérték szerintr
állapotbanést
id®pillanatban,aztkapjuk,hogy∂F M M I
∂ log p(o ut |r) = αδ r;s ut − α P
W :s t =r p(O u |S) α p(W ) P
W p(O u |S) α p(W ) (2)
= α δ r;s ut − γ ut DEN (r) ,
ahol
γ ut DEN (r)
at
id®pillanatbanazr
állapotbanvalótartózkodásvalószín¶sége anevez®höztartozófelismerésiszóhálónszámolvaamitaHMM-ekszokványos`el®re-hátra' algoritmusával kaphatjuk meg , a
δ r;s ut pedig a Kroneker-delta függvény(ezadjamega0-1jelleg¶tanításiélvektorokat).
3. Flat start tanítás az MMI-hibakritériummal
A szekvenia-diszkriminatívtanítási kritériumokat, így például az MMI hiba-
függvénytmostanramárszéles körben használjákaHMM/DNN hibridektaní-
tására. Tapasztalatunkszerintazonban atanítástminden szerz®aCE-hibakri-
tériummal kezdi el,ésaszekvenia-diszkriminatívhibakritériumotsak ataní-
tás végs® fázisában vetik be, pusztán a modellek nomhangolására használva
azt[6,10℄.EzesetbenviszontaCE-tanításmiattmindenképpenszükségvanva-
lamilyen módszerre az id®illesztetttanítási élvektorokel®állítására.Ezekkel a
szerz®kkelszembenmiaztállítjuk,hogyaz MMIélfüggvénytrögtönatanítás
elejét®l kezdvelehet használni, ígya CE-tanulás,illetveezáltal az ehhez szük-
séges illesztettímkékel®állítása kihagyható. A módszerünk m¶köd®képessége
érdekébenazalábbiapróváltoztatásokatkellettelvégeznünk.
Els®ként,a(2)egyenletszámlálójábana
δ r;s utértékekhelyettaγ ut N U M (r)
ér-
tékeketfogjukhasználni,amitazel®re-hátraalgoritmussalszámolunkki.Ennek
el®nye,hogybináris értékekhelyett0-1 közötti valószín¶ségiértékekkeldolgoz-
hatunk,ígykihagyhatjuka(szokásosanGMM-alapú)ímkeillesztésilépést. Ezt
a megoldási lehet®séget több tanulmányban is említik (pl. [6,15℄), de egyedül
Zhouéstsai.ikkébentaláltuknyomát,hogyvalakimegisvalósította[8℄.Azon-
banatanítási folyamatot®kisCE-tanítássalindítják,azazazáltalunkjavasolt
atstartMMI-tanítástnempróbáljákki.
Mivel a szekvenia-diszkriminatív tanítási kritériumot a kész rendszer -
nomítására szokták használni, az MMI-élfüggvényt a teljes felismer®vel, azaz
környezetfügg®beszédhang-modellekésszószint¶nyelvi modellmellettszámol-
ják ki. A (2) egyenlet nevez®jének kiszámolása a teljes felismerési proedúra
lefuttatását igényli, ami ateljes modell használata mellettnagyon lassú.Emi-
attaszámlálóhozésnevez®hözszükségeshálókleszámolásátsakegyszerszok-
ták elvégezni, méghozzá az MMI-tanítás elindítása el®tt. Ezzel szemben mi a
szekvenia-diszkriminatívtanulástszószint¶helyettpusztánfonetikaiszint¶szó-
tárralvégezzük,ráadásulkörnyezetfügg®helyettkörnyezetfüggetlenbeszédhang-
modellekkel.Ekétváltoztatásnagyongyorsdekódolástteszlehet®vé,ígyaszám-
lálótésnevez®tmindenegyesmondatutánújratudjukszámolni.Ezamódosítás
kulsfontosságúazeljárásunk gyorskonvergeniájaszempontjából.A szószint¶
átiratokfonetikaiátirattákonvertálásáraaHTKrendszerbenjavasolttehnikát
használtuk,azazels® körbenahangsorozatotaz egyesszavakfonetikaiátiratát
behelyettesítvekapjukmeg,aszavakközéseholsemrakunksendet.Azesetleges
kiejtésvariánsokat,illetveaszavak közti sendetnéhányiteráió utánillesztjük
be,újraillesztéstvégezveamárrelatíveelfogadhatószintenbetanultmodellel[2℄.
További nomítás, hogy a fonetikaidekódolás során nem használjuk sem a
hangokapriorivalószín¶ségét,sembigramotvagyegyéb,összetettebbnyelvimo-
dellt,emiatta(2)egyenletb®laz
α
tagiselhagyható.Emellett,aszámításiigény továbbisökkentéseérdekébenaγ ut DEN (r)
értékközelítéséreahálózatösszesút- vonalánakgyelembevételehelyett sakalegvalószín¶bb felismerésiútvonalathasználtukfel (eztaközelítéstjelölia
γ ˆ ut DEN (r)
formula).Ezekkelamódosításokkalaélfüggvénygradienseazalábbimódonalakul:
∂F M M I
∂a ut (s) = X
r
∂F M M I
∂ log p(o ut |r)
∂ log p(o ut |r)
∂a ut (s)
(3)= γ ut N U M (s) − γ ˆ ut DEN (s),
amit pedig már közvetlenül tudunk használni aDNN tanításasorán. Neuron-
hálók tanításánáljól ismerttehnika,hogy atanítóhalmazegy kisrészétfélre-
tesszükvalidálási élra.Ha azaktuális tanításiiteráió utánahibanövekedne,
(1) Akeretektanítási élértékét(
γ ut N U M (r)
-t) azel®re-hátra algoritmussal hatá- rozzukmeg.(2) Beszédhang-szint¶ átiratokkaléskörnyezetfüggetlen beszédhang-modellekkel
dolgozunk.
(3) Nemhasználunkapriorivalószín¶ségeket,semnyelvimodellt.
(4)
γ DEN ut (r)
értékét a legvalószín¶bb felismerési útvonal valószin¶ségével (ˆ γ ut DEN (r)
)közelítjük.(5) Atanítás hibáját avalidáiós halmazonmérjük,éshaez ahiba növekedne,
akkor visszatérünk az iteráió el®tti paraméterekhez, viszont sökkentjüka
tanulásirátát.
1.táblázat.A `atstart MMI'tanításhozjavasolt módosításainkösszegzése.
akkor asúlyokat viszaállítjukaziteráió el®ttire,ésatanítástinnenfolytatjuk
egykisebbtanulásirátával.Ezamódszerszekvenia-diszkriminatívtanításese-
tén is természetes módon alkalmazható [5℄, s®t, úgytaláltuk, hogya at-start
tanításimódszerünkstabilitásábanennekalépésneknagyonfontosszerepevan,
mivelsegítelkerülniaz elakadásokat.
AzMMI-kritériumhasználatáhozjavasoltmódosításainkata1.táblázatban
öszszegezzük. Az(1)-(4) módosítási javaslatok egyrésztgyorsítjákafelismerési
folyamatot, másrészt növelik annak hibákkal szembeni robusztusságát. A (2)
pont kulsfontosságúszerep¶ abban,hogy aszekvenia-diszkriminatívtanulást
a tanulási folyamat elejét®l, még a környezetfügg® modellek kialakítása el®tt
alkalmaznitudjuk. Végezetül,az (5)pont segítaz elakadási problémákkikerü-
lésében,feloldásában.
4. KL-divergenia alapú állapotkapsolás
Amikor a at start tanítás konvergált, azaz megkaptuk a környezetfüggetlen
(ontext-independent,CI)modelleklegjobbid®beliillesztését,következhetakör-
nyezetfügg®(ontext-dependent,CD) modellekkialakítása. Jelenlegerre aleg-
elterjedtebbmegoldásazún.döntésifa-alapúállapotklaszterez®algoritmus[16℄.
Ez az algoritmus összegy¶jti az egyes beszédhang-állapotok összes, különböz®
kontextusokbanel®fordulópéldányát, majdmindenegyessomópontbanketté-
osztvaeztahalmazt,felépítegydöntésifát,bizonyosel®redeniáltkérdéseketkö-
vetve.AkettéosztáshozGauss-görbétillesztazaktuálisadatokeloszlására,majd
az alapjána kérdés alapján osztjakettéa somópontot, amelyikalegnagyobb
növekedést eredményezi aGauss-görbékilleszkedésében (likelihood-értékében).
Habárez azalgoritmusremekülm¶ködikGMM-alapúakusztikusmodellekese-
tén, megkérd®jelezhet®, hogy aGauss-görbékilleszkedése mennyire alkalmasa
mélyneuronhálókkalvalómegtanulhatóságmérésére.
A fentiek miatt javasoltunk egy olyan alternatív megoldást, amely Gauss-
görbék illesztése helyett betanít egy segéd-neuronhálót, majd ennek kimeneti
értékeialapján végzi el adöntési fa felépítését. Mivel a neuronháló-kimenetek
egydiszkrétvalószín¶ségieloszlásbólvettmintáknaktekinthet®k,ezenkimeneti
vektorokösszehasonlításáratermészetesmódon adódikaz ún.Kullbak-Leibler
(KL)divergenia.Ígyazállapotklaszterezésialgoritmustvezérl®,Gauss-görbékre
felírttávolságfüggvénytleseréltükegyKL-divergeniánalapulódöntésikritéri-
umra, Imseng és társainakikkét követve[17℄. A döntési függvényleserélésén
túladöntésifa-építésimehanizmusváltozatlanmarad,ígyakorábbiimplemen-
táiókkönnyenmódosíthatók.EzzelamegoldássalnemsakelimináltukaGauss-
görbéket az állapotklaszterezésifolyamatból, de még
4%
relatív javulástis el-értünkaszószint¶hibában.Azalgoritmusrészleteitkorábbanmárpublikáltuk,
lásd[1℄.
5. Kísérleti beállítások
Kísérleteinkparaméterezése lényegébenmegegyezikakorábbiikkeinkbenleír-
takkal[1℄.Akusztikusmodellkéntegyötrejtettréteg¶mélyneuronhálóthasznál-
tunk,melynekmindenrétege1000`egyenirányított'(retier)neuronttartalma-
zott[18℄,mígakimenetirétegbensoftmaxaktiváiósfüggvénytalkalmaztunk.A
modellsajátneuronhálóssomagunkraépült,mellyelkorábbankiemelked®ered-
ményeketértünkeltöbbkülönböz®feladatonis([19,20,21,22℄).Jellemz®készlet-
ként egy 40-sávos mel-sz¶r®készletenergiakimeneteit használtuk, aszokványos
els® és második derivált értékeivel kiegészítve. A felismerést és kiértékelést a
HTKprogramsomagmélyhálókhozigazítottverziójávalvégeztük [2℄.
Beszédkorpuszkénta`Szeged'híradósbeszédadatbázisthasználtuk,amely28
órányi híradófelvételttartalmaz nyol tévésatornárólrögzítve[23℄. Tanítóhal-
mazként egy kb. 22 órányi részt különítettünk el, míg 2 órányi adatot hasz-
náltunk validáiós avagyfejlesztési (development)halmazként,4 órányitpedig
tesztelésre. Nyelvi modellkéntegy sztenderd trigram modell szolgált, a kiejtési
szótár sz¶k ötszázezer szóalakot tartalmazott. Az állapotklaszterz® algoritmus
paramétereit úgyállítottuk be, hogya különböz® kísérletekbennagyjából 600,
1200,1800,2400,3000,illetve3600kapsoltállapototkapjunk.
Abeszédhang-modellekkezdeti illesztésére négyfélemódszert próbáltunkki
éshasonlítottunkössze.Els®kéntegyhagyományos,GMM-alapúrendszerttaní-
tottunkbe,ésezzelállítottukel®azid®benillesztettCIímkéket.Ezutánazígy
kapottállapotímkékenbetanítottunkegyszimpla(azaznemmély)neuronhálót
aCE-kritériummal,ésazígykapotthálóvalújraillesztettükaímkéket(korábbi
tanulmányunkbanazt kaptuk, hogyszimpla helyett mély hálót használvanem
javulnakazeredmények[1℄).AtáblázatokbanerreamódszerreGMM+ANN
jelöléssel fogunk hivatkozni. Az újraillesztés után a CD modellek el®állítására
mindaGMM-alapú,mindaKL-kritériumalapúmegoldástkipróbáltuk,aholaz
utóbbiesetbentermészetesenaneuronhálókimeneteszolgáltinputként.
MígafentimegoldásegyGMM-alapúrendszerb®lindultki, `GMM-mentes'
megoldásként a 2. és 3. fejezetekben ismertetett algoritmusokat vetettük be.
Ezekbenakísérletekbenaneuronhálómindigmélyhálóvolt,ötrejtettréteggel.
AziteratívCE-tanításonésújraillesztésenalapulómódszeresetében(atáblázat-
600 1200 1800 2400 3000 3600 Állapotszám
16 16.5 17 17.5 18
GMM + ANN Iteatív CE MMI MMI + CE
1. ábra. Szószint¶ hibaarány a KL-klaszterezéssel kapott állapotok számának
függvényében,afejlesztésihalmazon.
ban Iteratív CE) négy tanítási-újraillesztésiiklust futtattunk, az ezt követ®
állapotklaszterezéssoránpedigaKL-divergeniaalapúmódszerthajtottukvégre
avégs®neuronhálóáltaladottillesztésen.AzMMI-tanításesetén(atáblázatban
MMI)szinténvéletlensúlyokkaliniializáltmélyhálóbólindultunkki,melyeta
korábbanismertetettmódontanítottunk.Avégeredménykéntel®állóDNNszol-
gáltattaaz inputot arákövetkez®,KL-divergeniaalapú klaszterezésilépéshez.
Végezetül, a negyedik kísérletben a szekvenia-diszkriminatív MMI-tanítással
kapott illesztett ímkékenlefuttattunk mégegy CE-tanítást, ésennekkimene-
tén végeztük el aKL-kritériumalapú klaszterezést(MMI + CE). Tettük ezt
azért,mertazt tapasztaltuk,hogyaCE, illetveazMMIkritérium eléggéeltér®
valószín¶ségi eloszlásokat eredményez, ezért kívánsiak voltunk, hogy vajon a
klaszterezéstezhogyanbefolyásolja.
Cikkünkf®éljaa`at-start'lépés,azazakezdetiímkeillesztéseketel®állító
lépéskülönböz®változatainakösszehasonlításavolt.Ezértazállapotklaszterezés
után el®álló CD-modelleket már sak az egyszer¶bb CE-kritériummal tanítot-
tuk.Természetesenezeketamodellekettanításutántovábblehetnenomítania
szekvenia-diszkriminatívtanításbevetésével. Ezzel vélhet®enkisit jobbered-
ményeket kapnánk ugyan, de mivel ez egy sztenderd eljárás, ezért ett®l jelen
ikkbeneltekintettünk.
6. Kísérleti eredmények
Akülönböz®módszerekkelkapottszószint¶hibaarányokalakulásátafejlesztési
halmazon az 1. ábra mutatja, különböz® állapotszámok esetére. Mint látható,
a GMM-alapú módszer messze a legrosszabbul teljesített, míg az MMI-alapú
Flatstart Állapotkapsolási Szóhiba(%) Iteráiók
módszer módszer Dev. Teszt száma
GMM+ANN GMM 18.83% 17.27%
GMM+ANN KL 17.12% 16.54%
IteratívCE
KL
16.81% 16.50% 48
MMI 16.50% 15.96% 13
MMI+CE 16.36% 15.86% 29
2. táblázat. Szószint¶ hibaarány a különféle `at start' illetve állapotkapsolási
stratégiákesetén.
at start eljárás minden esetben kissé jobb eredményeket adott, mint az ite-
ratív megoldás. Habár az MMI-t követ® CE tanítás (az `MMI+CE'-vel jelölt
modell) kisebb állapotszám mellett némileg jobberedményeket adott, ez aja-
vulás nem jelent®s annyira, hogy megérje a többletid®t. Mindez azt mutatja,
hogy a szekvenia-diszkriminatívtanítás egyarántpontos id®illesztéseket ésjó
valószín¶ségibesléseketeredményez.
A 2. táblázat összesíti a különböz® konguráiókkalelért legjobb szóhiba-
arányokat a fejlesztési és teszthalmazokon. Az állapotklaszterezési módszerek
közül aKL-divergenia alapú megoldás minden esetben egyértelm¶en túlszár-
nyaltaaGMM-alapúmódszert.Azillesztésitehnikákatösszevetveaztláthatjuk,
hogy aHMM/GMM rendszerretámaszkodómegoldás bizonyultalegrosszabb-
nak,aminaneuronhálósújraillesztéssemsegített.AziteratívCE-alapútanítási
módszer kisivel rosszabb lett a két MMI alapú megoldásnál. E módszer ese-
ténsajnos elégnehézmegmondani azoptimálisiteráiószámot.Zhangéstársai
20 lépésen át végezték az iteráiót [4℄, míg mi sak 4 lépésig futtattuk. Emi-
att érdemesafutási id®ket isösszevetni, melyértékeka2.táblázat jobbszéls®
oszlopábanláthatók(atanításiiteráiókszámátaGMM+ANN rendszerese-
tében nem tüntettük fel, mivel ott atanítás egy radikálisaneltér® proedúrán
alapult). Az iteratív CE-tanítás 4iteráiót igényelt, összesen48 DNN-tanítási
iklusteredményezve,mígazMMI-tanításenneksakkb. anegyedét.Habáraz
utóbbihozaz el®re-hátraalgoritmuslefuttatásának költségétis hozzákelladni,
ezzelegyüttisegyértelm¶,hogyazMMI-tanításm¶veletigényejóvalkisebb.
Haafutásiid®tDNN-tanításiiklusokhelyettegyszer¶enCPU/GPUid®ben
mérjük, akkor még nagyobb különbségeket kapunk az MMI módszer javára (3
óra 16-tal szemben). Ennek oka, hogy a CE-tanítás során 100-as minibath-
méretethasználtunk,mígazMMI-tanítássoránakötegméretazegyesfelvételek
méretévelegyezettmeg,amiátlagosan1000körülibath-méretet,ésígyaGPU-k
struktúrájamiattgyorsabbvégrehajtásteredményezett.
Álláspontunkszerintmódosításainkközülkett®kulsfontosságúajavasoltal-
goritmusunksebessége ésfutásideje szempontjából.Az els®módosítás, hogyaz
illesztést környezetfüggetlen beszédhang-modellekkel, nyelvi modell nélkül vé-
gezzük. Ez teszi lehet®vé agyors számítást, és ígya élfüggvényben található
szóhálók frissítését minden egyes mondat feldolgozása után. Az irodalomban
egyetlen olyat ikket találtunk,amelynem sakatanulásiiteráiók végén fris-
síti ezeket ahálókat, ebben aikkben azonban egy masszívanpárhuzamosított
arhitektúrátírnakle,aminagyonnehezenösszevethet®amiszekveniálisalgo-
ritmusunkkal[24℄.
Astabilitástillet®enközismert,hogyaszekvenia-diszkriminatívmódszerek
er®sen hajlamosak a túltanulásra. Az állapotímkék és azok illesztésénekegy-
idej¶ tanulása gyakran vezet az ún.run-awaysilene model esetéhez, amikor
ahosszúsendszakaszokmiattasendheztartozókimenetegyredominánsabbá
válik,majdazillesztéstiselrontva`megeszi'abeszédhang-szakaszokatis[25℄.A
hasonlóesetekelkerüléséreegyfüggetlenvalidáióshalmazonmértükaneuron-
hálóhibáját,éshaahiba azaktuálisiteráió utánmegugrott,akkorakorábbi
súlyok visszaállításautánegy kisebb tanulási rátávalújrapróbáltukatanulást.
Tapasztalatunk szerint ez az egyszer¶trükk sokat segített a hasonló elakadási
jelenségekmegakadályozásában.
7. Konklúzió
Cikkünkben megmutattuk, hogy aHMM/DNNmodellekszekvenia-diszkrimi-
natív tanítását a tanítás legels®, ún. `at start' fázisában is sikeresen lehet
használni. E élra a szokványos MMI tanítási kritériumot alkalmaztuk, míg a
tanítási folyamatban néhány apró módosítást vezettünk be. Kísérleti eredmé-
nyeink azt mutatták, hogy a CE tanítási kritériumon alapuló újratanítás-
újraillesztés stratégiával összevetve az általunk javasoltmegoldás lényegesen
gyorsabb,ésmégaszóhiba-aránytissökkentivalamelyest.Akorábbanjavasolt
KL-divergenia alapú állapotklaszterezési megoldást is bevonva, összességében
egyolyanHMM/DNNtanításialgoritmustadtunk,amelyegyáltalánnemigényli
ahagyományosHMM/GMMmodellekhasználatát.
Hivatkozások
1. Gosztolya,G.,Grósz,T., Tóth,L.,Imseng,D.: Buildingontext-dependentDNN
aousit modelsusing Kullbak-Leiblerdivergene-basedstate tying. In:Proee-
dingsofICASSP.(2015)45704574
2. Young,S.,Evermann,G.,Gales,M.J.F.,Hain,T.,Kershaw,D.,Moore,G.,Odell,
J.,Ollason,D.,Povey,D.,Valthev,V.,Woodland,P.:TheHTKBook.Cambridge
UniversityEngineeringDepartment,Cambridge,UK(2006)
3. Senior, A.,Heigold,G., Bahiani,M.,Liao,H.: GMM-freeDNNaousti model
training. In:ProeedingsofICASSP.(2014)56395643
4. Zhang, C.,Woodland,P.: Standalonetrainingofontext-dependentDeepNeural
Networkaoustimodels.In:ProeedingsofICASSP.(2014)56345638
5. Kingsbury, B.: Lattie-based optimization of sequene lassiation riteria for
neural-networkaoustimodeling. In:ProeedingsofICASSP.(2009)37613764
6. Veselý,K.,Ghoshal,A.,Burget,L.,Povey,D.:Sequene-disriminativetrainingof
deepneuralnetworks. In:ProeedingsofInterspeeh.(2013)23452349
7. Grósz,T.,Gosztolya,G.,Tóth,L.: AsequenetrainingmethodforDeepRetier
Neural Networks inspeeh reognition. In:Proeedings ofSPECOM, NoviSad,
Serbia(2014)8188
8. Zhou,P.,Dai,L.,Jiang,H.: SequenetrainingofmultipleDeepNeuralNetworks
for better performane and faster training speed. In: Proeedings of ICASSP.
(2014)56645668
9. Saon, G., Soltau,H.: A omparisonof two optimizationtehniquesfor sequene
disriminative training of Deep Neural Networks. In: Proeedings of ICASSP.
(2014)56045608
10. Wiesler,S.,Golik,P.,Shüter,R.,Ney,H.: Investigationsonsequenetrainingof
neuralnetworks. In:ProeedingsofICASSP.(2015)45654569
11. Chen, D., Mak,B., Sivadas,S.: Joint sequenetrainingof phoneand grapheme
aoustimodelbasedonmulti-tasklearningDeepNeuralNetworks.In:Proeedings
ofInterspeeh.(2014)10831087
12. Graves,A.,Mohamed,A.R.,Hinton,G.E.:SpeehreognitionwithDeepReurrent
NeuralNetworks. In:ProeedingsofICASSP.(2013)66456649
13. Rao,K.,Senior, A.,Sak,H.: Flatstart trainingofCD-CTC-SMBRLSTMRNN
aoustimodels. In:ProeedingsofICASSP,Shanghai,China(2016)54055409
14. He, X., Deng, L.: Disriminative Learning for Speeh Reognition. Morgan &
Claypool,SanRafael,CA,USA(2008)
15. Yu,D.,Deng,L.:Chapter8:Deepneuralnetworksequene-disriminativetraining.
In:AutomatiSpeehReognitionADeepLearningApproah.Springer(2014)
16. Young,S.J.,Odell,J.J.,Woodland,P.C.: Tree-basedstatetyingforhighauray
aoustimodelling. In:ProeedingsofHLT.(1994)307312
17. Imseng,D., Dines, J.: Deision tree lustering for KL-HMM. Tehnial Report
Idiap-Com-01-2012,IDIAPResearhInstitute(2012)
18. Glorot,X.,Bordes,A.,Bengio,Y.:Deepsparseretiernetworks. In:Proeedings
ofAISTATS.(2011)315323
19. Tóth,L.: Convolutionaldeepmaxoutnetworksforphonereognition. In:Proee-
dingsofInterspeeh.(2014)10781082
20. Grósz, T., Busa-Fekete,R.,Gosztolya,G., Tóth,L.: Assessingthe degree ofna-
tiveness and Parkinson's ondition using GaussianProesses and DeepRetier
NeuralNetworks. In:ProeedingsofInterspeeh.(2015)13391343
21. Tóth,L.,Gosztolya,G.,Vinze,V.,Homann,I.,Szatlózki,G.,Biró,E.,Zsura,
F., Pákáski, M., Kálmán, J.: Automati detetion of mildognitive impairment
from spontaneous speeh using ASR. In: Proeedings of Interspeeh, Dresden,
Germany(2015)26942698
22. Kovás,Gy.,Tóth,L.: Joint optimizationofspetro-temporalfeatures andDeep
NeuralNetsforrobustautomatispeehreognition. AtaCybernetia22(2015)
117134
23. Grósz, T., Tóth, L.: A omparison of Deep Neural Network training methods
for LargeVoabularySpeehReognition. In:ProeedingsofTSD,Pilsen,Czeh
Republi(2013)3643
24. Bahiani,M., Senior,A.,Heigold,G.: Asynhronous,online,GMM-free training
ofaontextdependentaousti modelfor speehreognition. In:Proeedingsof
Interspeeh,Singapore,Singapore(2014)19001904
25. Su, H., Li, G., Yu,D., Seide, F.: Error bak propagation for sequene training
of ontext-dependentdeep networks for onversational speehtransription. In:
ProeedingsofICASSP.(2013)66646668