• Nem Talált Eredményt

Tulics Miklós Gábriel

5. A diszfónia automatikus osztályozása

A bináris osztályozásnak számos megközelítése van az egészséges és a valamilyen rendelle-nességgel rendelkező hangok automatikus szétválasztására. Az első kérdés az, hogy melyik, a hanganyagból számolt akusztikai jellemzőket használjuk fel a felügyelt osztályozási model-lünk tanítására. Továbbá, kitartott (önmagukban hosszan ejtett) magánhangzókat vagy folya-matos beszédet használjunk az osztályozásra?

A kutatók ígéretes eredményeket értek el az egészséges beszéd és a valamilyen rend-ellenesség által érintett beszéd szétválasztása során, kitartott magánhangzókat felhasználva (Al-Nasheri 2017; Orozco-Arroyave et al. 2015; Teixeira – Fernandes – Alves 2017;

Zhang – Jiang 2008). A kitartott magánhangzók használatának megvannak az előnyei, mivel könnyen használhatók, hiszen nincs szükség erőforrás-igényes és nyelvfüggő szeg-mentálásra. A kutatók jelentős része azonban folyamatos beszédet használ kutatásai során (Cordeiro – Meneses – Fonseca 2015; Guedes et al. 2019; Vicsi – Imre – Mészáros 2011).

Vicsi, Imre és Mészáros (2011) is rámutattak, hogy magasabb osztályozási pontosságokat lehet elérni folyamatos beszédet használva. A folyamatos beszédnek számos előnye van a ki-tartott magánhangzók elemzéséhez képest, mivel alapvető frekvenciaváltozásokat, szüneteket tartalmaz, és lehetővé teszi, hogy több fonémát és fonémakapcsolatot lehessen elemezni.

A kutatási eredmények várhatóan jobban alkalmazhatóak a gyakorlati munkában, mivel folya-matos beszédet használunk a mindennapokban is. Így a hangprodukciónak a természetesebb módja vizsgálható.

Számos hangképzési rendellenességet tartalmazó beszédadatbázis létezik kutatási célokra, amelyek kitartott magánhangzókat tartalmaznak, ilyen például az arab nyelvű Arabic Voice Pathology Database (AVPD) (Messalam et al. 2017), a német nyelvű Saarbrücken Voice Database (SVD) (Martínez et al. 2012) vagy az angol Massachusetts Eye and Ear Infirmary (MEEI) beszédadatbázis (Dibazar – Narayanan – Berger 2002). Folyamatos beszédet tar-talmazó beszédadatbázisokat azonban nem könnyű találni. Olyan gondosan tervezett magyar nyelvű diszfóniás beszédadatbázisra is szükség van még, amely folyamatos beszédet tartalmaz.

Érdemes megjegyezni, hogy a Parkinson-kór diszfónikus hanghoz vezethet (de nem feltétlenül rekedt hanghoz), ezért vannak olyan tanulmányok, amelyekben a diszfóniás kutatásokban hasz-nálatos akusztikai jellemzőket hasznosítják a Parkinson-kór felismerésében. Ilyen akusztikai jellemzők például a jitter /ʤitːɛr/ (a zönge periódusidejének ingadozása), a shimmer /ʃimːɛr/

(a zönge periódusonkénti amplitúdóingadozása), a harmonikus-zaj arány (Harmonics-to-Noise Ratio, HNR, a beszédjelben lévő harmonikus komponensek és zajkomponensek arányának jel-lemzője) vagy a zaj-harmonikus arány (Noise-to-Harmonics Ratio, NHR). Ezeket az akusztikai jellemzőket a diszfónia mértékeként is számontartják, az egyéb akusztikai jellemzők mellett (Lahmiri – Dawson – Shmuel 2018).

További kérdés lehet, hogy milyen jellemzőket számoljunk a hanganyagokból, amelyeket aztán az osztályozó algoritmus bemenetére illeszthetünk egy vektor formájában (bemeneti

vektor). A bemeneti vektor felépülhet az előbb említett akusztikai jellemzőkből vagy más előfeldolgozási eljárással kinyert jellemzők alapján, például x-vektorokból és i-vektorokból (Botelho et al. 2020), glottális jellemzőkből (Gidaye et al. 2020), autokorrelációs értékek-ből és különböző frekvenciasávokban mért entrópiajellemzőkértékek-ből (Al-Nasheri et al. 2017), automatikus beszédfelismerők (Automatic Speech Recognition, ASR) kimeneteként kapott fonéma-valószínűségekből (Liu et al. 2017) vagy ezek kombinációjából.

A legmegfelelőbb osztályozási algoritmus kiválasztása újabb kihívást jelent. A mély neurális hálózatok tanítására általában nagyok sok adatra van szükség, viszont találunk a szakirodalomban példát kisebb adathalmazokon sikeresen használt mély neurális hálózatra is. Tipikusan ilyenek az orvosi kutatásokban, esetünkben az egészséges és a hangképzési rendellenességgel rendelkező személyek hangjának szétválasztására, alkalmazott neurális hálók (Fang et al. 2019; Guedes et al. 2019; Rueda – Krishnan 2019; Wu et al 2018). Kisebb adatbázisokban azonban érdemes lehet kipróbálni más osztályozókat, amelyek jó általánosí-tási képességgel rendelkeznek kisebb mennyiségű adathalmazokon, ilyen például a szupport-vektorgép (Support Vector Machine, SVM) (Al-Nasheri et al. 2017; Bothelo et al. 2020;

Cordeiro – Meneses – Fonseca 2015; Vicsi – Imre – Mészáros 2011).

A kutatások főként az egészséges és a valamely rendellenességgel jellemezhető beszéd közötti bináris osztályozásra összpontosítanak (Gidaye et al. 2018). Az osztályozási eredmé-nyek nagymértékben függenek a kutatásokban vizsgált diszfónia típusától, a beszédadatbázis méretétől, a felhasznált hanganyag típusától (kitartott magánhangzók vagy folyamatos be-széd), a választott előfeldolgozási módszerektől és az alkalmazott osztályozótól. A kitartott magánhangzók használata általában nagyobb pontossághoz vezet. Ali, Talha és Alsulaiman (2017) tanulmányában a kutatók a hangképzési rendellenességgel rendelkező személyek hang-jait is tartalmazó MEEI-hangadatbázist használták fel egészségügyi szoftverük tesztelésére, melynek célja hangképzési rendellenességek felismerése volt nem periodikus beszédjelben.

Az osztályozást SVM-mel végezték, és a maximálisan elért pontosság (a helyesen prediktált minták száma osztva a kísérletben felhasznált összes minta számával) 96,21% volt. A ku-tatásban diszfóniás betegek és egészséges emberek kitartott magánhangzókat tartalmazó hanganyagát használták fel. Al-Nasheri és munkatársai (2017) tanulmányában a MEEI-, az SVD és az AVPD beszédadatbázisokon végeztek osztályozásokat, és a pontosságok 99,54%, 99,53% és 96,02% voltak az egyes adatbázisokon. Az osztályozásokat SVM-mel végezték, és /a/ kitartott magánhangzókat tartalmazó hangfájlokkal dolgoztak. A MEEI-adatbázison vég-zett tanulmányok egy része nagyon magas osztályozási pontosságot mutat, emiatt a kutatók megkérdőjelezték az adatbázis hasznosságát. Muhammad és munkatársai (2017) azt állították, hogy az egészséges és kóros hangfelvételeket két különböző környezetben rögzítették ebben az adatbázisban, ezért nehéz kikövetkeztetni, hogy az osztályozó a hangmintákat a hangképzési rendellenesség szerint (egészséges vagy beteg személy hangfelvétele) vagy a rögzítési kör-nyezetek szerint osztályozza-e. Ebből kifolyólag a MEEI-adatbázison kapott eredményeket fenntartásokkal kell kezelni. Ez a munka rámutat a megfelelő beszédadatbázis létrehozásának fontosságára is, hogy ilyen osztályozási kísérleteket egyáltalán elvégezhessünk. Huiyi Wu és

munkatársai (2018) a Saarbrücken-hangadatbázison vizsgálta 482 egészséges és 482 organikus diszfóniával rendelkező személy kitartott /a/ magánhangzóit. Konvolúciós neurális hálózatot (Convolutional Neural Network, CNN, a mély neurális hálózatok egy fajtája, amelyet elsősor-ban képek esetén alkalmaznak) használtak a jellemzők kinyerésére, valamint az egészséges és az organikus diszfónia tüneteit mutató beszéd elkülönítésére. 88,5%, 66,2% és 77,0%-os osztályozási pontosságot értek el a tanító, a validáló és a tesztelő adathalmazokon.

A folyamatos beszéd használatával az osztályozási feladat sokkal nehezebb, de ezek az eredmények várhatóan jobban alkalmazhatóak a gyakorlatban. A Guedes és munkatársai (2019) által bemutatott munkában a kutatók a német Saarbrücken-hangadatbázisban szereplő Guten Morgen, wie geht es Ihnen? című rész hanganyagát használták a diszfóniás és az ép beszéd-minták osztályozásához. 66%-os értéket értek el az LSTM (Long-Short-Term-Memory) és CNN mély neurális hálózatukkal. A kutatók rámutattak arra, hogy a mély tanulás (Deep Learning) használata a kóros beszéd felismeréséhez hatalmas adatmennyiséget igényel. Vicsi, Imre és Mészáros (2011) munkájukban 26 egészséges és 33 diszfóniás személy magyar nyelvű beszédét osztályozták folyamatos beszédükből kinyert akusztikai jellemzők alapján. Az osztályozási pontosságuk 86% és 88% között volt.

Tulics és munkatársai (2020) tovább gyűjtötték ezeket a hangfelvételeket, létrehozva a már nemzetközi viszonylatban is nagy mintaszámúnak tekinthető „Magyar Diszfóniás és Egészséges Felnőtt Beszédadatbázis”-t. A hangadatbázis felvételei közeltéri mikrofonnal (Monacor ECM-100), alacsony zajszintű külső hangkártyával (Creative Soundblaster Audigy 2 NX), jó minőségű A/D konverterrel (kódolás: PCM, mintavételezési frekvencia: 16 kHz, kvantálás: 16 bit) kerültek rögzítésre, csendes irodai környezetben (orvosi szobában). Minden páciens Aiszóposz Az északi szél és a nap című meséjét olvasta fel, amely szöveg gyakran használt a foniátriai kutatásokban. Az adatbázis fonémaszintű szegmentálása automatikus fonémaszegmentáló programmal történt, amit a Beszédakusztikai Laboratórium munkatársai fejlesztettek ki (Kiss – Vicsi 2017), majd szükség esetén kézileg történt ezek javítása. A hang-adatbázis felvételei között számos hangképzési rendellenességgel rendelkező beteg hangja fordul elő: funkcionális diszfónia, hangszalagbénulás (rekurrens parézis), a hangképző szerv-rendszer különböző pontjain előforduló tumorok, gasztroözofageális reflux (GERD), krónikus gégegyulladás, agyideggyulladás (bulbar paresis), amiotrófiás laterálszklerózis (ALS), leu-koplakia, spazmodikus diszfónia stb. A leggyakoribb betegségek a funkcionális diszfónia (FD) és a hangszalagbénulás (rekurrens parézis, RP). Az adatbázis összesen 450 felvételt tartalmaz, 257 diszfóniában szenvedő páciens hangját (156 nő és 101 férfi) és 193 ép beszéddel rendelkező adatközlő felvételét (108 nő és 85 férfi). Tulics és munkatársai kimutatták, hogy a diszfóniás és egészséges hangok bináris osztályozása a magyar beszédre vonatkozóan is lehetséges. 88%-os osztályozási pontosság érhető el akusztikai jellemzőkből álló bemeneti vektorral, mély neu-rális hálózat alkalmazásával, a „Magyar Diszfóniás és Egészséges Felnőtt Beszédadatbázis”-t használva (Tulics 2020; Tulics et al. 2019; Tulics et al. 2020).

A legtöbb esetben a kutatások az egészséges beszéd és néhány specifikus betegség elkü-lönítésére összpontosítanak, de néhány tanulmány a többosztályos osztályozásra összpontosít

(Guedes et al. 2019). Például Kazinczi és munkatársai (2015) munkájukban először azt mutatták be, hogy egy SVM-alapú osztályozó képes automatikusan elkülöníteni az egészséges és kóros hangokat, viszonylag nagy, 87%-os pontossággal. Ezek után egy többosztályos osztályozást vé-geztek az egészséges, a funkcionális diszfóniával (FD) diagnosztizált és a hangszalag- bénulásos (RP) csoportok között, 60%-os pontossággal. Ezeken kívül egy kétosztályos osztályozás során 85%-os pontosságot értek el az egészséges és az RP-csoport között, 78%-os pontosságot az FD- és az RP-csoport között, az egészséges és az FD-csoport között pedig 66%-os pontosságot.

Egy másik, hasonló jellegű kutatást végeztek Muhammad és munka társai (2011). A kutatók csak formánsfrekvencia-értékeket (energiacsúcsok a hangspektrumban) alkalmaztak bemeneti jellemzőként az osztályozó számára, hogy több hangképzési rendellenességet különítsenek el automatikusan egymástól, egy többosztályú forgatókönyvben (tehát kettőnél több célcímkét használtak, és nem csak egészséges vs. diszfónia címkéket). Ezek az organikus eredetű beteg-ségek a következők voltak: ciszta, GERD, bénulás, polip és sulcus. Az osztályozási pontosság 67,86% volt a nők és 52,50% a férfiak esetében.

Érdekes kutatási kérdés, hogy szét lehet-e automatikusan választani egymástól a funkcio-nális és az organikus diszfóniát. Ha a funkciofunkcio-nális diszfóniát nagy valószínűséggel meg lehetne határozni egy diagnosztikát segítő rendszerrel, akkor a pácienseket gyorsan foniáterhez vagy logopédushoz lehetne irányítani. Ha viszont a rendszer organikus diszfóniát észlel, a beteget otolaringológushoz vagy onkológushoz lehetne irányítani. Egy ilyen rendszer sok időt taka-ríthatna meg.

A funkcionális diszfónia (FD) és az organikus diszfónia (OD) meghatározása és szétvá-lasztása körül vita van, a két kategória nem mindig zárja ki egymást. Természetes, hogy a két csoport jobban osztályozható egy olyan beszédadatbázison, ahol a rekedtség súlyosságának eloszlása statisztikailag eltérő a két csoport között, például, ha az OD-csoport hangfelvételei statisztikailag szignifikánsan magasabb fokú rekedtségi súlyosságot mutatnak, mint az FD-csoportban lévő hangfelvételek. Ilyen módon az osztályozó a hangfelvételeket a betegség típusa helyett a rekedtség súlyossága szerint osztályozhatja alacsony és magas rekedtségi osztályba.

Azonban a célunk valójában az, hogy a diszfóniában szenvedő emberek hangfelvételeit funk-cionális és organikus diszfóniacsoportokba soroljuk. Ennek érdekében Tulics és munkatársai (2020) létrehozták a „Kiválasztott Diszfóniás Beszédadatbázis”-t (ami a „Magyar Diszfóniás és Egészséges Felnőtt Beszédadatbázis” egy szűrt változata), amelyben a rekedtség súlyosságának megoszlásában az OD- és az FD-csoportok között nem volt szignifikáns különbség. Munkájuk során bemutatták, hogy az organikus és a funkcionális diszfónia automatikus elválasztása akusztikus jellemzők felhasználásával lehetséges 71%-os osztályozási pontossággal, lineáris kernelű SVM használatával.