• Nem Talált Eredményt

Kiértékelés

In document MSZNY 2016 (Pldal 158-164)

TBSM ABSM

5. Kiértékelés

A jelen cikkünkben bemutatott módszer érzeti hatásait szövegfelolvasó rendsze-rekben párösszehasonlításos meghallgatásos teszttel (Comparison Mean Opin-ion Score, CMOS) értékeltük ki. A teszt során egymástól függetlenül vizsgáltuk meg a férfi és női beszélőket. A meghallgatásos tesztben a korábban bemutatott három-három rendszer vett részt: NOSM, TBSM és az ABSM. A tesztalanyok-nak az egyes rendszerek által generált mondatokat páronként kellett összeha-sonlítaniuk, aszerint, hogy mennyire találják természetesnek azok prozódiáját.

Három lehetőség közül lehetett választani: (1) az első mondat természetesebb hangzású; (2) azonos a két mondat hangzása; (3) a második mondat természete-sebb hangzású. Minden mondatpárban a két mondat két különböző rendszerrel lett elkészítve (NOSM vs. TBSM, NOSM vs. ABSM és TBSM vs. ABSM). Egy tesztalany összesen 18 mintapárt hasonlított össze. A mintapárok sorrendjét, és a mintán belül a rendszerek sorrendjét álvéletlen módon alakítottuk ki az eset-leges memóriahatások elkerülése céljából. Összesen 21 alany (9 férfi, 12 nő) vett részt a meghallgatásos tesztben, akik összesen 378 mintapárt értékeltek. Min-den alany magyar anyanyelvű volt. A legfiatalabb tesztelő 22, a legidősebb 70 éves volt. A tesztalanyok átlagéletkora 34 év volt. A meghallgatásos tesztet az interneten keresztül lehetett kitölteni. A meghallgatásos teszt eredményeit a 4.

és az 5. ábra mutatja be. Az eredményeket megvizsgálva a hangsúly-információt nem tartalmazó rendszer (NOSM) mindkét beszélő esetében jobban teljesített, mint a fonetikus átirat alapú hangsúlymodell (TBSM). Bár elsőre meglepő ez az eredmény, a 3. ábrán látottak fényében egybecseng korábbi megállapításainkkal, hogy a beszédkorpuszban ténylegesen megjelenő hangsúlyok és a szöveg alapján becsült hangsúlyok között kevés átfedés lehet. A beszédjel alapú hangsúlymodell (ABSM) férfi beszélő esetén több szavazatot kapott, mint a NOSM, valamint

Szeged, 2016. január 21-22. 151

ABSM

ABSM TBSM

TBSM NOSM

NOSM

0% 25% 50% 75% 100%

21 26 19

26 24 16

13 29 24

4. ábra. A meghallgatásos teszt eredményei férfi beszélő esetén.

mindkét beszélő esetén jobban teljesített, mint a TBSM. A szignifikanciát egy-mintás t-teszttel vizsgáltuk α= 0,05 mellett. Szignifikáns eltérést találtunk a férfi beszélő esetén a NOSM (hangsúly-információ nélküli) és az ABSM (beszéd-jel alapú hangsúlymodell) rendszer összehasonlítása során, az utóbbi javára. A női beszélőnél nem sikerült szignifikáns eltérést igazolni, de a szavazatok meg-oszlásából látható, hogy a hangsúlymodell nélküli rendszer és a beszédjel alapú hangsúlymodell szinte egyenlő szavazatokat kapott a két rendszer prozódiáját azonosnak értékelő hallgatók magas aránya mellett.

6. Összegzés

Cikkünkben automatikus hangsúlycímkézést, illetve hangsúlymodellezést vizs-gáltunk a szöveg, valamint a beszédjel alapján magyar nyelvű HMM-TTS rend-szerben. A két eljárást az explicit hangsúlyjelölés nélküli esettel és egymással is összehasonlítottuk, páronkénti szubjektív meghallgatásos teszttel. A hangsúly-modellezés hatása csak a tanult HMM-TTS modelleken keresztül érvényesül-het, szintézisidőben ugyanis mindig a szöveg alapján becsültük a hangsúlyokat.

Az eredményekből fontos következtetéseket vonhatunk le: a korpuszon végzett, fonetikus átirat alapú hangsúlycímkézésnél előnyösebb, a meghallgatásos teszt alapján történő hangsúlymodellezés nélküli eset, hiszen jobb eredményt ad. A beszédjel alapú hangsúlycímkézés, illetve az ezen a címkézésen végzett modelle-zés a férfi beszélő esetén szignifikáns javulást eredményezett a beszéd természe-tességének szubjektív megítélésében, míg a női beszélőnél nem volt szignifikáns különbség a hangsúlymodellezés nélküli esethez képest (α= 0,05mellett). Fon-tos megjegyezni, hogy a tesztalanyoknak kizárólag a prozódia természetességének megítélése volt a feladatuk, de eközben elkerülhetetlenül befolyásolta döntésü-ket az érzeti általános beszédminőség is. Az eredmények, beleértve a szöveg és a beszédjel alapján generált hangsúlyok közötti csekélynek mondható átlapolást

ABSM

ABSM TBSM

TBSM NOSM

NOSM

0% 25% 50% 75% 100%

25 19 22

26 18 21

19 30 17

5. ábra. A meghallgatásos teszt eredményei női beszélő esetén.

is, felvetik annak a lehetőségét, hogy az emberi percepció a hangsúlyozásban nem a prozódia szintaxist megerősítő szerepét várja, hanem bizonyos tűrésha-tárral „megengedi” a hangsúlyos helyek váltakozását ugyanazon közlésben, és a hangsúlyra járulékos információforrásként tekint. Ezt a felvetést jelen munkában azonban nem vizsgáltuk, a jelentésbeli percepciós eltérések és a hangsúlyozás kapcsolatáról tehát nem tudunk ennél biztosabb következtetést levonni a ren-delkezésünkre álló adatokból. Eredményeink alapján fontosnak találjuk a téma további vizsgálatát, a beszédjel és a hangsúlyok kapcsolatának egzaktabb meg-határozását, és a hullámformán alapuló, pontosabb hangsúlymodell gépi beszéd természetességére gyakorolt hatásának elemzését.

Köszönetnyilvánítás

A szerzők köszönetüket fejezik ki Bartalis István Mátyásnak, a meghallgatásos teszt megtervezésében és kialakításában nyújtott segítségéért;

a Nemzeti Kutatási, Fejlesztési és Innovációs Hivatalnak, amely a PD-112598 projekt keretében a kutatást támogatta;

a Swiss National Science Foundationnak (Svájci Államszövetség), amely az „SP2:

SCOPES project on speech prosody” (SNSFNoIZ73Z0-152495/1) számú projekt keretében a kutatásunkat támogatta.

Hivatkozások

1. Pitrelli, J.F., Beckman, M.E., Hirschberg, J.: Evaluation of prosodic transcription labeling reliability in the ToBI framework. In: Proceedings of the 1994 International Conference on Spoken Language Processing. Volume 1. (1994) 123–126

2. Beke, A., Szaszák, Gy.: Combining NLP techniques and acoustic analysis for se-mantic focus detection in speech. In: Proceedings of the 5th IEEE International Conference on Cognitive Infocommunications. (2012) 493–497

Szeged, 2016. január 21-22. 153 3. Heggtveit, P.O., Natvig, J.E.: Automatic prosody labelling of read Norwegian. In:

Proceedings of Interspeech. (2004) 2741–2744

4. Wightman, C., Syrdal, A., Stemmer, G., Conkie, A., Beutnagel, M.: Perceptually based automatic prosody labeling and prosodically enriched unit selection improve concatenative speech synthesis. In: Proceedings of International Conference on Spoken Language Processing. Volume 2. (2000) 71–74

5. Levelt, W.J.M.: Speaking: From Intention to Articulation. MIT Press, Cambridge (1989)

6. Szaszák, Gy., Beke, A.: Exploiting prosody for syntactic analysis in automatic speech understanding. Journal of Language Modelling0(1) (2012) 143–172 7. Vicsi, K., Szaszák, Gy.: Folyamatos beszéd szó- és frázisszintü automatikus

szeg-mentálása szupraszegmentális jegyek alapján: II. rész: Statisztikai eljárás, finn-magyar nyelvű összehasonlító vizsgálat. In: III. Magyar Számítógépes Nyelvészeti Konferencia. (2005) 360–370

8. Olaszy, G., Németh, G., Olaszi, P., Kiss, G., Zainkó, Cs., Gordos, G.: Profivox – a Hungarian TTS system for telecommunications applications. International Journal of Speech Technology3-4(2000) 201–215

9. Selkirk, E.: The syntax-phonology interface. In: International Encyclopaedia of the Social and Behavioural Sciences. Oxford: Pergamon (2001) 15407–15412 10. Ghahremani, P., BabaAli, B., Povey, D., Riedhammer, K., Trmal, J., Khudanpur,

S.: A pitch extraction algorithm tuned for automatic speech recognition. In:

Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing. (2014) 2494–2498

11. Olaszy, G.: Precíziós, párhuzamos magyar beszédadatbázis fejlesztése és szolgálta-tásai,. Beszédkutatás (2013) 261–270

12. Ananthakrishnan, S., Narayanan, S.: Automatic prosodic event detection using acoustic, lexical, and syntactic evidence. IEEE Transactions on Audio Speech and Language Processing16(1) (2008) 216–228

13. Tóth, B., Németh, G.: Improvements of Hungarian Hidden Markov Model-based Text-to-Speech Synthesis. Acta Cybernetica19(4) (2010) 715–31

Mély neuronhálós akusztikus modellek gyors adaptációja multi-taszk tanítással

Tóth László, Gosztolya Gábor

MTA-SZTE Mesterséges Intelligencia Kutatócsoport e-mail: {tothl, ggabor}@inf.u-szeged.hu

Kivonat A környezetfüggő mély neuronhálós akusztikus modellek gyors adaptációja különösen nehéz kihívás, mivel egy kis méretű adaptáci-ós mintában a környezetfüggő állapotok többségére nincs tanítópélda.

Nemrégiben egy olyan új mély neuronhálós tanítási séma bukkant fel, amely a hálózatot egyszerre tanítja környezetfüggő és környezetfügget-len példákon. Ez az ún. multi-taszk technológia felveti annak a nagyon egyszerű adaptációs módszernek a lehetőségét, hogy az adaptáció során csak környezetfüggetlen címkéken tanítsunk. Jelen cikkben ezt a mód-szert próbáljuk ki, kombinálva egy KL-divergencia alapú regularizációs technikával. Kísérleteinkben a multi-taszk tanítási séma már önmagá-ban 3%-os hibacsökkenést hoz egy híradós beszédfelismerési feladaton.

A kombinált adaptációs módszert is bevetve további 2-5% hibaredukciót sikerült elérnünk az adaptációs minta méretének függvényében, ami 20-tól 100 másodpercig terjedt.

Kulcsszavak: mély neuronháló, akusztikus modellezés, beszédfelisme-rés, adaptáció

1. Bevezetés

Az utóbbi években a rejtett Markov-modellek (hidden Markov model, HMM) hagyományos Gauss-keverékmodellje (Gaussian mixture model, GMM) helyett egyre inkább a mély neuronhálókat (deep neural network, DNN) kezdik alkal-mazni. Az évtizedek alatt azonban a GMM-alapú modellezésnek számos olyan finomítását találták ki, amelyek nem vihetők át triviális módon a HMM/GMM rendszerekből a HMM/DNN rendszerekbe. Az egyik ilyen finomítás a környezet-függő (context-dependent, CD) modellek készítése és betanítása. Jelen pillanat-ban a HMM/DNN rendszerek környezetfüggő állapotait ugyanazzal a jól bevált technológiával szokás előállítani, mint a HMM/GMM rendszerekben. Ez azt je-lenti, hogy egy mély neuronhálós felismerő készítésének első lépéseként lényegé-ben be kell tanítani egy hagyományos GMM-alapú felismerőt [3,7,12]. Habár születtek javaslatok arra nézve, hogy a GMM-eket hogyan lehetne kihagyni a folyamatból, ezek egyelőre inkább csak kísérleti próbálkozások [1,5,14,20]. Ami a mély neuronhálók környezetfüggő állapotokkal való betanítását illeti, Bell és

A jelen kutatás során használt TITAN X grafikus kártyát az NVIDIA Corporation ajándékozta csoportunknak.

Szeged, 2016. január 21-22. 155 társai nemrégiben bemutattak egy új megoldást. Az ún. multi-taszk tanítás lé-nyege, hogy a környezetfüggő címkékkel párhuzamosan környezetfüggetlen (con-text-independent, CI) címkékkel is tanítjuk a hálózatot [2]. Technikailag ezt úgy lehet megvalósítani, hogy a hálózatba két kimenő réteget veszünk fel, ahol egyi-kük a CD, másikuk pedig a CI címkék megtanulására törekszik [13]. A CI címkék párhuzamos tanítása egyfajta regularizációs hatást fejt ki a CD címkék tanulása során. Bell és tsai. módszerét mi is kipróbáljuk hamarosan, ami 3% hibacsökke-néshez fog vezetni a szószintű hibában.

A DNN akusztikus modellek adaptálása során a modell regularizációja ki-emelt fontossággal bír. Mivel a mély neuronhálók jellemzően sok paraméterrel (réteg, ill. neuron) rendelkeznek, nagyon hajlamosak a túltanulásra, kiváltképp ha az adaptációs minta mérete kicsi. Talán a legelterjedtebb megoldás a túlta-nulás ellen, amikor a hálózatot kiegészítik egy lineáris réteggel, és az adaptá-ció során csak ezt a lineáris réteget engedik tanulni [4,16]. Hasonló megoldás a (túl)tanulás korlátozására, ha az adaptáció során csak a rétegek és/vagy súlyok csak egy kis részét engedjük tanulni [9,10]. Egy további megoldási lehetőség, ha csak a neuronok bias értékeit [17], vagy a rejtett neuronok aktivációs amplitú-dóját [15] engedjük adaptálódni. A megoldások egy másik csoportja a túltanulás kockázatát valamilyen regularizációs megszorítás alkalmazásával csökkenti. Li és tsai. olyan L2-regularizáció alkalmazását javasolták, amely bünteti az adaptáció előtti és utáni hálózati súlyértékek nagy eltérését [8]. Gemello az ún. ‘konzer-vatív tanítást’ javasolta, melynek lényege, hogy az adaptációs mintában nem szereplő osztályokra az adaptálatlan hálózat kimeneteit használjuk a tanítás so-rán célértékként [4]. Yu és tsai. egy olyan megoldást vetettek fel, amelyben a tanulási célértékek az adaptálatlan modell kimenete és az adaptációs minta cím-kéi közötti lineáris interpolációval állnak elő. Matematikailag ez a megoldás a Kullback-Leibler divergencia regularizációjaként formalizálható [18].

A környezetfüggő modellek használata jelentősen megnöveli a túltanulás koc-kázatát az adaptáció során, hiszen az állapotszám megnövelése lecsökkenti az egy állapotra eső tanítópéldák számát. Price és tsai. erre egy olyan hálózati struktúrát javasoltak, amelyben két kimeneti réteg épül egymásra, ahol az alsó a CD, a felső pedig a CI címkéknek felel meg [11]. Ezzel a megoldással betanítás és felismerés során a CD címkéket lehet használni, míg a CI kimeneti réteggel dolgozunk az adaptáció során, amikor kevés a címkézett tanítóadat.

Ebben a cikkben egy olyan megoldást javasolunk, amely alapötletében ha-sonlít Price és tsai. megoldásához, de az alkalmazott hálózati topológia teljesen más. Míg ők a CD és CI címkéknek megfelelő kimeneti rétegeket egymás fölé helyezték, mi egymás mellé rakjuk azokat, hasonlóan a multi-taszk tanítás során alkalmazott elrendezéshez. Ezzel a struktúrával az adaptáció módja triviálisan adódik: míg a (multi-taszk) betanítás során mind a CD, mind a CI kimeneti réteg kap mintákat, adaptáció során csak a CI kimenetet tanítjuk. Hogy tovább csökkentsük a túltanulás kockázatát, a tanítás során a Yu-féle KL-regularizációs technikát is alkalmazni fogjuk [18]. Kísérleteink azt mutatják, hogy ennek a regularizációnak kritikus szerepe van, főleg amikor az adaptációs mintahalmaz nagyon kicsi. A kombinált módszert egy felügyelet nélküli adaptációs feladaton

Bemenõ jellemzõk CD címkék

(1233 állapot)

CI címkék (52 beszédhang)

1. ábra. A multi-taszk neuronháló struktúrája.

fogjuk kipróbálni, ahol az adaptációs minta mérete 20 és 100 másodperc között ingadozik. E hossz függvényében 2% és 5% közötti relatív hibacsökkenést sikerült elérni.

In document MSZNY 2016 (Pldal 158-164)