• Nem Talált Eredményt

Az alkalmazott akusztikai-fonetikai jellemzők

Kiss Gábor

2. Az alkalmazott akusztikai-fonetikai jellemzők

Az emberi beszéd gépi elemzéséhez szükséges a beszédminta digitalizálása, vagyis a beszéd amplitúdó–idő függvényének (hullámforma) meghatározása. A nyers amplitúdó–idő függvény azonban önmagában nem vagy nem megfelelően alkalmazható a gépi tanulóeljárások beme-neteként, elsősorban azért, mert az így kapott jellemzővektor hossza függ a felvétel hosszától, másrészt túl nagy lenne a bemeneti jellemzővektor, emiatt célravezetőbb olyan származtatott akusztikai-fonetikai jellemzők kiszámolása és megadása, amelyek egyetlen adott értékekkel jellemzik a teljes vizsgált beszédmintát. Természetesen a beszéd összetettsége, változatossága miatt számos ilyen akusztikai-fonetikai jellemző nyerhető ki, amelyek mind releváns információt hordoznak a beszédproduktumról. Ebben a fejezetben az akusztikai-fonetikai jellemzők olyan részhalmazát mutatjuk be, amelyeknek az értékei igazolhatóan megváltoznak a depressziós álla-pot hatására, és könnyebben összekapcsolhatók a beszéd érzeti leíró jellemzőivel.

2.1.

Alapfrekvencia

Az emberi beszédkeltéskor, az egyes beszédhangok kiejtése során, a hangszalagok kvázi-periodikus szétnyílása és összezáródása következtében, az adott hang amplitúdó–idő függvé-nye is kváziperiodikus lesz. Az ilyen beszédhangokat nevezzük zöngés hangoknak. Az alap-frekvencia (f0) alatt a zöngés hang periódusidejének a reciprokát értjük, mértékegysége a Hz.

Az alapfrekvencia értéke a beszédkeltés során folyamatosan változik, ez a variabilitás (és annak mértéke) adja a beszéd dallamoságának érzetét. Az alapfrekvencia értékét széles tartomány-ban képes változtatni az ember, azontartomány-ban az alapfrekvencia átlagos értéke jellemző a gyerekek (200–300 Hz), a nők (180 Hz) és a férfiak (100 Hz) esetében is (Olaszy 2010a).

2.2. Jitter

A beszédjel-feldolgozás során jitter /ʤitːɛr/ alatt a zöngés szakaszok periódusidejének kis elemzési ablakában (néhány periódus) vett átlagos ingadozását értjük, általában százalékban kifejezve (Horii 1982). Olvasott beszéd esetében 2–6% közötti értékek a legtipikusabbak.

2.3. Shimmer

A beszédjel-feldolgozás során shimmer /ʃimːɛr/ alatt a zöngés szakaszok periódusonkénti amp-litúdóértékeinek kis elemzési ablakában (néhány periódus) vett átlagos ingadozását értjük, általában százalékban kifejezve (Horii 1982). Olvasott beszéd esetében 10–20% közötti értékek a legtipikusabbak.

2.4. Formánsfrekvenciák

A zöngés hangok felharmonikusszerkezettel (az alapfrekvencia egész számú többszörösei) is rendelkeznek. Ez a felharmonikusszerkezet jut az artikulációs csatornába, ahol az artikulációs csatorna által kialakított rezonanciafrekvenciákon és környékükön erősítés figyelhető meg.

Az ilyen felerősödött felhangcsoportokat nevezzük formánsoknak. A formánsfrekvencián pedig a rezonanciafrekvencia-tartomány burkológörbéjének maximum amplitúdóhelyét ért-jük, mértékegysége a Hz. Zöngés hangok esetében több formánsfrekvencia is megfigyelhető, azokat a frekvenciaértékük szerinti növekvő sorrendben nevezzük első (F1), második (F2) stb.

formánsfrekvenciáknak (Vicsi 2010a).

2.5. A formánsfrekvenciák sávszélessége

A beszédjel-feldolgozás során a formánsfrekvencia sávszélessége alatt a jelfeldolgozásban értendő általános sávszélességet értjük, vagyis az alsó és felső határfrekvencia tartományát, ahol a határ-frekvencia alatt azt az alsó és felső határ-frekvenciaértéket értjük, ahol 3 dB-es csökkenés figyelhető meg a formánsfrekvenciánál mért erősítéshez viszonyítva. Mértékegysége a Hz. Az adott formáns-frekvencia sávszélességét a formánsfrekvenciákhoz hasonlóan B1, B2 stb. rövidítéssel jelöljük.

2.6. Intenzitásszint

A hangintenzitás az egységnyi felületen merőlegesen átáramlott hangenergia [W/m2] mennyi-ségét jelenti adott időegység alatt. Az intenzitásszint alatt az aktuális hangintenzitás és egy adott referencia-hangintenzitás decibelskálán történő ábrázolását értjük. A beszédjel-feldolgozás

során a referenciaértéknek a hallásküszöböt használják, ami 10-12 [W/m2]. Az intenzitás szint nagysága a hangerősség érzeti jellemzőt határozza meg. A beszéd során a magánhangzók intenzitás szintje a legnagyobb, így azok bírnak meghatározó jelleggel egy hosszabb beszéd-szakasz esetében (Vicsi 2010a).

2.7. Mel-sávos energiaértékek és MFCC

Az emberi hallásnak jól meghatározható frekvenciafelbontó-képessége van. A mel-skála az emberi fül felbontóképességét követi. A skála mértékegysége a mel, amely értékének a duplá-zódása a hangmagasságérzetet is duplázza. A mel-sávos energiaértékek a beszédjel sávszű-résével számíthatók ki, amelyet adott frekvenciaértéktől (például 60 mel), adott frekvencia-tartományokkal (például 100 mel-enként) szokás elvégezni, és dB-ben kifejezni. Érdemes megjegyezni, hogy a mel mértékegységben megadott fix tartományok frekvenciaértékben vizsgálva eltérő méretű tartományokat határoznak meg. Alacsony frekvenciákon ezek közel 100 Hz szélesek, míg a magasabb frekvenciaértékek esetében ennél jelentősen nagyobbak.

Beszédjel-feldolgozás során általában elégséges 8 kHz-ig vizsgálni a beszéd frekvenciatarto-mányát (spektrumát). 8 kHz-ig 27 darab mel-sávos energiaértéket lehet a fent bemutatott para-méterek mellett kiszámítani. Ha a kiszámított mel-sávos energiaértékeken diszkrét koszinusz transzformációt hajtunk végre, akkor kapjuk az MFCC együtthatókat (Vicsi 2010b), aminek tömörítő és lényegkiemelő hatása van, így ennek használatával jobb eredmények érhetők el kis méretű beszédadatbázisok esetében.

2.8. Artikulációs sebesség

Az artikulációs sebesség (AS) alatt az egy másodperc alatt kiejtett beszédhangok számát értjük, mértékegysége pl. hang/s. Az artikulációs sebesség változik a beszéd során, és átlagos értéke nagyban függ a beszélő stílusától, illetve a beszéd típusától (olvasott vagy spontán beszéd).

A túl magas artikulációs sebesség érthetetlenül gyors beszédhez vezethet, míg ha túl lassú az artikuláció, a beszéd folytonossága sérülhet (Olaszy 2010b).

2.9. Relatív szünethossz

A beszédproduktum természetes részét képzik a bennük található szünetek (csendes szakaszok).

A szünetek adnak lehetőséget a levegővételre, gondolkodásra és beszédtervezésre, továbbá különböző információkat is közvetíthetnek, így segítve például a párbeszédben a beszélőváltás gördülékeny megvalósítását. A ritka és rövid szünetek tagolatlan, összefolyó beszédérzetet kel-tenek, míg a hosszú és gyakori szünetek akadozó beszédet eredményeznek. Relatív szünethossz

(RSZH) alatt a vizsgált beszédszakaszban található szünetek teljes hosszának arányát értjük a vizsgált beszédszakaszhoz viszonyítva, százalékban kifejezve (Kiss 2019).

2.10. Tranziensarány

Normál beszéd esetében a beszédjel felbontható változó (tranziens) és közel állandó (kvázistacio-ner) részek egymásutánjaira. A közel állandó részeket általában a beszédhangok közepén találhat-juk, míg a változó részek a beszédhangok határainál jellemzőek (összetett beszédhangok esetében azok belső akusztikai határainál is megjelenhetnek tranziens szakaszok). Ebből kifolyólag, ha a hangok rövidek, és emellett gyors és nagy változások figyelhetők meg a beszéd produktumban, akkor kevés lesz az adott szakaszon belül a közel állandó szakasz, míg a lassú és monoton beszéd esetében több. A tranziensarány alatt (ratio of transients – RoT) a vizsgált beszéd szakaszban található tranziens szakaszok teljes hosszának arányát értjük a vizsgált beszédszakasz teljes hosszához viszonyítva, százalékban kifejezve (Kovács et al. 2015; Kiss 2019).

3. Depresszió

A depresszió igen gyakori pszichiátriai betegség, amely a súlyosságának függvényében je-lentősen befolyásolja az ettől szenvedő egyén életminőségét. Friedrich (2017) tanulmánya rámutat, hogy a depresszió a jelenleg ismert egyik leggyakoribb gyógyítható betegség, ám gyakoriságának pontos meghatározását nehezíti, hogy diagnosztizálása szaktudást igényel.

A World Health Organization 2002-es jelentése alapján a depresszió a negyedik leggyakoribb betegség világszerte (Mathers – Loncar 2006), a világszervezet 2012-es felmérése alapján már a harmadik leggyakoribb betegség (Preiss – Leah – David 2013), és a szervezet előrejelzései alapján 2030-ra a második leggyakoribb betegség lehet (Mathers – Loncar 2006).

Depresszióról akkor beszélhetünk, ha a vizsgált személy legalább két héten át szenved le-vertségtől, mély szomorúságtól, szeretetképtelenségtől. Ezek mellett a következő tünetek közül legalább négy jellemző rá, úgymint a pszichomotoros gátlás vagy remegés, csökkent kognitív állapot vagy megnövekedett határozatlanság, ájulás vagy energiaveszteség, kóros álmatlanság vagy kóros álmosság, jelentős súlyveszteség vagy súlygyarapodás, jelentős negatív önértéke-lés vagy alaptalan túlzott bűntudat, gyakori gondolatok a halálról vagy gyakori öngyilkossági gondolatok (Klein 2008).

Jelenleg nem ismertek a depresszió pontos kiváltó okai (Dwivedi et al. 2003), de a betegség meghatározható úgy, mint a kortikális limbikus rendszer egyfajta működési zavara (diszfunk-ciója). A depressziós állapot kialakulásában a genetikai hajlam mellett szerepet játszanak még a környezeti tényezők, mint például a stressz, traumatikus életesemény, bezártság, elszigeteltség.

A depressziós állapot megjelenésének következtében, illetve az állapot súlyosbodásával le-csökken az ettől szenvedő egyének kezdeményezőképessége, önbizalma, motiváltsága, ami akár a mindennapos tevékenységük elvégzésében is komoly akadályt jelenthet. Emiatt a depresszió jelentős terhet jelent a gazdaság számára. Olesen és munkatársai (2012) tanulmánya rámutat, hogy Európa 30 országát vizsgálva 2010-ben a depresszió által okozott károk elérték a 92 milliárd eurós veszteséget, melyből 54 milliárd euró a depressziótól szenvedő egyének munkájukból való kiesése következtében keletkezett. Azonban talán még ennél is fontosabb, hogy a depressziós állapot következtében és súlyosbodásával jelentősen megnő az öngyilkosság kockázata. Hawton és munkatársai (2013) tanulmánya rámutat, hogy az öngyilkosságok felében komoly szerepet játszik a depressziós állapot megléte.

Mivel nem ismert a depressziós állapotot meghatározó megfelelő érzékenységgel bíró ob-jektív biomarker (biológiai jelző), így a betegség felismerése a pszichiáterekre hárul. Figyelembe véve a depresszió társadalomban előforduló gyakoriságát, súlyosságát, a depressziós emberek di-agnosztizálása komoly kihívás elé állítja az egészségügyi ellátórendszert. Emiatt napjaink fontos kutatási területének számít a depresszió diagnosztizálásának automatikus támogatása, a betegség esetleges jelenlétének automatikus jelzését megvalósító rendszerek kutatása, olyan nem invazív biomarkerek (mérésük nem igényel behatolást az emberi testbe) keresése, amelyek alkalmasak a depresszió gyors, lehetőség szerint költséghatékony felismerésére. A beszéd az egyik ilyen ígéretes biomarker (Cummins et al. 2015; Kiss 2019; Low – Bentley – Ghosh 2020).

3.1. A depressziós beszéd jellemzése

Az emberi beszédkeltés igen bonyolult, összetett folyamat, a beszéd előállítása során számos izom összehangolt, precíz együttes működtetésére, irányítására van szükség. A depressziós állapot hatással bír az izmok működtetésére, ezáltal megváltoznak a beszéd egyes akusztikai- fonetikai jellemzőinek átlagos értékei, így megfigyelhető az alapfrekvencia átlagos értékének és variabilitásának csökkenése, megnő a beszéd érdessége, levegőssége (enyhe növekedés figyel hető meg a jitter- és shimmerértékekben). Emellett mivel a depresszió hatással bír az ettől szenvedő egyén kognitív képességeire, így a depressziós emberek beszéde meglassul, több és hosszabb szünetet tartanak, a beszédükben gyakoribbak a különböző artikulációs és fonációs hibák, és beszédük monotonabbá válik (Kiss 2019).

Kiss (2019) tanulmánya magyar anyanyelvű beszélők olvasott beszédét vizsgálva számos akusztikai-fonetikai jellemző átlagos értéke esetében mutatott ki szignifikáns (99%-os szignifi-kanciaszint mellett) eltérést egészséges és depressziós személyek beszédmintáit összehasonlít-va. Ilyen jellemzők voltak: a shimmer megnövekedése; az első és második formáns frekvencia-értékének csökkenése és azok sávszélességeinek emelkedése; illetve a beszéd színképének megváltozása (a spektrális meredekség csökkenése). A tanulmány nemcsak azt mutatja be, hogy a depressziós személyek és az egészséges személyek beszéde között szignifikáns eltérés mutatható ki, hanem arra is rávilágít, hogy a depresszió súlyossága és az adott akusztikai- fonetikai jellemzők értéke között szignifikáns korreláció is kimutatható.

3.2. A depresszió súlyosságának mérése

A depressziót súlyossága alapján leggyakrabban 4 kategóriába szokás sorolni, úgymint mi-nimális depresszió (nem depressziós állapot), enyhe depresszió, közepes depresszió és súlyos depresszió. A depressziós állapot súlyosságának automatikus becsléséhez azonban ennél részletesebb skálára, vagyis a súlyosság számszerű leírására van szükség.

A depressziós állapot súlyosságának számszerű jellemzésére a két leggyakrabban használt skála a Beck Depression Inventory-II (BDI) (Beck et al. 1996) és a Hamilton Rating Scale for Depression (HAM-D) (Hamilton 1986). Mindkét skáláról elmondható, hogy széles körben el-fogadottak, és a klinikai gyakorlatban is gyakran alkalmazzák ezeket. Mindkét skála (HAM-D és BDI) alkalmas a depresszió súlyosságának pontos, számszerű leírására, ugyanakkor néhány fontos különbség van köztük. Míg a HAM-D-értéknek a megállapításához pszichiáter részvé-tele szükséges, addig a BDI-értéket egy önkitöltős kérdőív segítségével bárki megállapíthatja, ebből kifolyólag a HAM-D-érték tekinthető az objektívebb értéknek a kettő közül. Emellett a HAM-D- érték megállapításához több időre van szükség, szemben a BDI-kérdőív kitöltésével, ami 5–10 perc alatt elvégezhető. Az itt bemutatott eljárás esetében a BDI-értékek álltak rendel-kezésre a depresszió súlyosságának jellemzéséhez.

A BDI-érték meghatározása 21 kérdés megválaszolásával lehetséges, ahol az egyes kér-désekre minden esetben 4 válaszlehetőség közül azt az egyet kell kiválasztania a vizsgált sze-mélynek, ami a legjobban jellemzi az aktuális állapotát. Minden válasznak 0-tól 3-ig adott az értéke. Az összes válasz értékét összegezve, a vizsgált személy depresszió szerinti súlyossá-gának jellemzése 0 és 63 között valósul meg, ahol a 0 érték a teljesen egészséges állapot, a 63 pedig a skála által mérhető legsúlyosabb depressziót jelenti. A BDI-skála és a fentebb említett 4 kategória összekapcsolhatósága az 1. táblázatban látható.

1. táblázat

A BDI-skála értékei és a depresszió súlyosságának kategóriái közti kapcsolat

Kategória BDI-érték

Minimális depresszió (nem depressziós) 0–13

Enyhe depresszió 14–19

Közepes depresszió 20–28

Súlyos depresszió 29–63