Prozódiai szerkezet és mondattípusok vizsgálata nagy beszédadatbázisokon mély tanulási támogatással
Támogató intézmény: Nemzeti Kutatási, Fejlesztési és Innovációs Hivatal
Vezető kutató: Mády Katalin
A magyar nyelv szerkezetére irányuló kutatások fontos előfeltétele, hogy álljon rendelkezésre nagy mennyiségű spontán beszédből származó adat. Az ilyen adatok kézi feldolgozása időigényes és drága. Ezért mély neurális hálókon alapuló modelleket fejlesztünk, amelyek megkönnyítik a jelenlegi és későbbi beszédadatok automatikus feldolgozását. Az adatfeldolgozás magában foglalja a beszéd automatikus felismerését, és lehetővé teszi a lejegyzések időbeli azonosítását a hanganyagokon belül. Az ezzel párhuzamosan fejlesztett prozódiai címkerendszer célja, hogy feltárja a magyarra jellemző beszéddallam egységeit és szerkezetét. Az automatikusan feldolgozott magyar beszédadatbázisokhoz kapcsolódó fő kutatási kérdések a következők: mik a tagmondatok kombinációjának kommunikatív funkciói, és hogyan lehet jellemezni a magyar beszéddallamot. A projekt során használt adatbázisok és nyelvi modellek kutatási célokra szabadon hozzáférhetővé váltak, és ezzel hozzájárulnak a magyar nyelvi források jobb felhasználhatóságához. A munkában részt vesz két mérnökinformatikus (Dobsinszky Gergely, Kádár Máté) és két kutatási asszisztens (Csényi Péter, Hegyi Flóra).
Futamidő: 2020-2024