2022. Nov. 23. 16:00 - 18:00
MTA Székház, Díszterem

A mesterséges intelligencia és a magyar nyelv

ELőadás és bemutató a magyar nyelvtechnológiai legújabb eredményeiről

A modern társadalmakban a kommunikáció döntő módon digitális eszközökkel, digitális módon történik. Az elmúlt néhány évben elterjedt egy új technológia, amely látványos fejlődést eredményezett a digitális világ szinte minden területén: a neurális hálók megjelenésével a nyelvtechnológia is megkérdőjelezhetetlenül a digitális kommunikáció mindennapi eszköztárának részévé vált. A rohamosan fejlődő kutatási háttérnek hála a tudományág lehetőségei még messze nincsenek kimerítve. Mivel a fejlesztési trendeket főként a globális technológiai cégek (Google, Microsoft, Amazon stb.) szabják meg, és ezek elsősorban az angol nyelvet célozzák, ennélfogva a digitális szolgáltatások, amelyek egyébként az okostelefon jóvoltából tömegekhez jutnak el, nyelvi támogatás hiányában nem használhatók a magyarra.

Másfelől az új kutatási paradigma számos új alkalmazási és kutatási lehetőséget rejt magában. Így a NYTK Nyelvtechológiai kutatócsoportjában zajló munkálatok során egyszerre célunk a már meglévő eszközök és módszerek adaptálása a magyarra és az új kutatási lehetőségek feltérképezése is. Az új paradigmát egyértelműen a neurális nyelvmodellek alapozzák meg. Ezek a nyelvmodellek nagymennyiségű adaton tanított mély neurális hálók, amelyek számos nyelvi jelenséget illetően rendelkeznek általános tudással. Ezek továbbtanításával pontosabb nyelvtechnológiai alkalmazásokat kaphatunk.

A NYTK szuperszámítógépének segítségével sikerült létrehoznunk az első magyar nyelvű szöveggeneráló GPT-3 modellt, ami képes emberekhez hasonló módon mondatokat generálni. A humán nyelvtudás mérésének a mintájára a nyelvmodellek nyelvtudását is tudnunk kell értékelni és összehasonlítani. Erre szolgálnak az úgynevezett benchmark adatbázisok, amelyekben változatos tematikájú és nehézségű nyelvi feladatokon mérjük a nyelvmodellek teljesítményét.

A Nyelvtudományi Kutatóközpontban folyamatosan dolgozunk a modellek magyar nyelvtudását tesztelő korpuszok létrehozásán. Előadásunkban röviden ismertetjük ezeket. Egy másik kiemelt kutatási irány a gépi fordítás területe amely az utóbbi években szintén nagy fejlődésen esett át. A neurális hálózatok minőségben a statisztikai modellek felé kerekedtek, és elérték, hogy az emberi fordítóknak is hatékony segítséggé váljanak. A Google 2017-ben publikálta Transformer nevű neurális architektúráját, amit alapvetően gépi fordítás céljából hozott létre. Ez mára mind a nyelvtechnológia, mind a beszédtechnológia piacvezető technológiájává vált, és a transzformer-alapú alkalmazások beépültek szinte az összes okosnak nevezett eszközbe.

Munkánk során a magyar nyelv fordítási támogatására összpontosítottunk, és több magyar-centrikus fordítórendszert is létrehoztunk, amelyeknek minősége meghaladja a Google fordító motorjait – elsősorban az angoltól eltérő nyelvekről történő fordítás esetén. Az előadást Prószéky Gábor, a Nyelvtudományi KUtastóközpont főigazgatója, Váradi Tamás tudományos főmunkatárs, a Nyelvtechnológiai és Alkalmazott Nyelvészeti Intézet igazgatója, illetve Laki László, Ligeti-Nagy Noémi és Yang Zijian Győző, a Nyelvtechnológiai kutatócsoport tudományos munkatársai tartják.