Nyelvtechnológiai kutatócsoport
Research area

A Nyelvtechnológiai kutatócsoport jogelődje a Korpusznyelvészeti Osztály 1997-ben alakult, az akkor már néhány éve zajló nyelvtechnológiai kutató-fejlesztő munka formális elismeréseként. A kutatócsoport azóta jelentős kutatási és fejlesztési tapasztalatot halmozott fel a nyelvtechnológia számos területén: kiemelkedő eredményeket ért el nyelvi erőforrások építésében, nyelvtechnológiai eszközök fejlesztésében és újabban nyelvmodellek tanításában is.

A nyelvi erőforrások tekintetében ki kell emelnünk a Magyar Nemzeti Szövegtár első változatát: a 2005-ben elkészülő 187,6 millió szavas, reprezentatív, határon túli nyelvváltozatokat is tartalmazó annotált szövegkorpusz volt az első nagyobb ilyen jellegű adatbázis a magyarra. A 2014-ben közre adott MNSZ2, az MNSZ továbbfejlesztett változata, nemcsak majdnem tízszer több szövegszót tartalmaz (1.5 Mrd), hanem új, fontos szövegtípusokat is lefed, mint például a közösségi média. Továbbá a nyelvi elemzés minősége is sokat javult elődjéhez képest.

A kutatócsoport munkatársai az évek során számos eszközt is kifejlesztettek. Ezek közül az egyik legjelentősebb a helyesírás.mta.hu – Helyesírási tanácsadó portál, amely azért jött létre, hogy a magyar helyesírás bizonyos területein automatikus eszközökkel segítse az írásukra igényes érdeklődőket. De meg kell említeni az e-magyar nyelvi elemzőláncot illetve ennek továbbfejlesztett, modularizált utódját, az emtsv-t is, amelyek természetes nyelvi szövegek széleskörű elemzését teszik lehetővé.

A WordNet lexikai adatbázis magyar változata a másik fontos erőforrás, amely a kutatócsoport közreműködésével jött létre. A HuWordNet három éves munka eredményeként készült el, és a magyar szóállományt térképezi fel jelentéstani szempontból: a szinonim szavakat és a köztük lévő relációkat egyaránt tartalmazza.

A 2013-ban majd 2018-ban bekövetkező tudományági paradigmaváltások komoly hatással voltak a kutatócsoportban folyó munkálatokra is. A meghatározó nemzetközi kutatásokat követve létrehoztuk az elsősorban angolra kifejlesztett neurális nyelvmodellek magyar változatait. Ez kezdetben statikus szóbeágyazásokat jelentett, ám mostanra már rendelkezünk számos transzformer-alapú kontextuális nyelvmodellel is. Ilyen többek között például a HILBERT, amely egy BERT-Large nyelvmodell, valamint a PULI-GPT-3SX (7 milliárd paraméter), GPT-3 magyar verziója. A kutatócsoport jelenlegi tevékenységének egyik fontos eleme a nyelvmodellekhez kapcsolódó új tanítási paradigmák feltérképezése, mint például a zero-shot és a few-shot learning vagy a prompt programming. További kitüntetett kutatási irány a gépi fordítás minőségének javítása transzformer-alapú neurális hálókkal. A nyelvmodellekhez kapcsolódó specifikus alkalmazásaink kipróbálhatók ezen a demóoldalon.

Másik kiemelt törekvésünk, hogy olyan magyar nyelvű teszt-adatbázisokat, ún. benchmark-korpuszokat hozzunk létre, amelyek egy webszolgáltatásba ágyazva lehetővé teszik a neurális háló alapú technológiák egyszerű, ugyanakkor többszempontú kiértékelését, valamint ezen eredmények összehasonlítását és közzétételét. Ebből a célből elkészült a Hungarian Language Understanding Evaluation Benchmark Kit (HuLU), az angol nyelvre kidolgozott GLUE és SuperGLUE teszt-adatbázis infrastruktúra mintájára.

Héja EnikőKutatócsoport-vezető:

Héja Enikő, PhD
E-mail: urwn.ravxb@alghq.uh
Telefon: +36 (1) 3429372 / 6043
Folyó hazai pályázatokKezdete – vége
A magyar nyelv digitális fenntarthatóságának támogatása2020.12.01. – 2026.11.30.
A magyar nyelv digitális támogatása a magyar
tudományosság szolgálatában
2020.12.01. – 2026.11.30.
Fontosabb lezárult nemzetközi pályázatokKezdete – vége
CURLICAT: Curated Multilingual Language Resources for CEF AT2020.06.01. – 2022.11.30.
MARCELL: Multilingual Resources for CEF.AT in the Legal Domain2018.10.01. – 2021.03.31.
Közösségimédia-tartalmak valós idejű, nagyléptékű trendfigyelése
és összegzése (TrendMiner)
2013 – 2014
Innovative Networking in Infrastructure for Endangered Languages (INNET)2011 – 2013
European Media Monitor – magyar modul2012
Central and South-East European Resources (CESAR)2011 – 2013
Internet Translators for all European Languages (iTranslate4)2010 – 2012
Fontosabb lezárult hazai pályázatokKezdete – vége
e-magyar.hu: Nyílt, integrált magyar nyelvtechnológiai kutatási
infrastruktúra építése.
2015.01.01. – 2016.06.30.
helyesírás.mta.hu – Helyesírási tanácsadó portál2008 – 2013
A BUSZI-2 közzététele2008 – 2012
Magyar igei szerkezetek szótára2008 – 2010
Magyar Ontológia építése és alkalmazása információkinyerő rendszerekben (Magyar WordNet)2005 – 2007

*A befejezett pályázatok egy részletesebb listája itt található.

Nyelvtechnológiai kutatócsoport
Staff

Dodé Réka
tudományos segédmunkatárs

Nyelvtechnológiai és Alkalmazott Nyelvészeti Intézet

Ferenczi Gergő
informatikai vezető

Nyelvtechnológiai és Alkalmazott Nyelvészeti Intézet

Héja Enikő
kutatócsoport-vezető, tudományos munkatárs

Nyelvtechnológiai és Alkalmazott Nyelvészeti Intézet

Jelencsik-Mátyus Kinga
tudományos munkatárs

Nyelvtechnológiai és Alkalmazott Nyelvészeti Intézet

Laki László János
tudományos munkatárs

Nyelvtechnológiai és Alkalmazott Nyelvészeti Intézet

Ligeti-Nagy Noémi
tudományos munkatárs

Nyelvtechnológiai és Alkalmazott Nyelvészeti Intézet

Prószéky Gábor
főigazgató, tudományos tanácsadó

Nyelvtechnológiai és Alkalmazott Nyelvészeti Intézet

Vadász Noémi
tudományos segédmunkatárs

Nyelvtechnológiai és Alkalmazott Nyelvészeti Intézet

Váradi Tamás
főigazgató-helyettes, igazgató, tudományos főmunkatárs

Nyelvtechnológiai és Alkalmazott Nyelvészeti Intézet

Yang Zijian Győző
tudományos munkatárs

Nyelvtechnológiai és Alkalmazott Nyelvészeti Intézet

Nyelvtechnológiai kutatócsoport
Research

Adatinfrastruktúra építése gondozott szövegek OCR-hibáinak javításával

A nyelvmodellek előállításához sokmilliárd szavas tanítókorpusz szükséges, melynek legkézenfekvőbb forrása az internet. Az itt elérhető szövegek zöme azonban bizonytalan eredetű és minőségű sokszor kevés metaadattal. Az Arcanum Adatbázis Kiadóval folyó együttműködés keretében rendelkezésünkre áll egy kb. kilencmilliárd szavas gondozott szöveggyűjtemény, amely a kiadó több éves OCR-szkennelő (Optical Character Recognition) tevékenységének eredménye. A OCR-technológia azonban nem 100%-os pontosság ...

Benchmark-korpuszok építése és közzététele

Az élvonalbeli NLP követésének egyik előfeltétele a magyar nyelvű fejlesztési eredmények szabványos mérése. Ehhez a szigorú módszertan szerint készített teszt-adatbázisok, úgynevezett benchmark-korpuszok egész sora szükséges, amelyek referenciaként szolgálnak az új technológiák és eszközök fejlettségi szintjének megállapításához.A benchmark-adatbázisok azonban nemcsak azt a célt szolgálják, hogy a különböző nyelvmodellek teljesítményét összemérjék. Fontos új szerepük annak feltérképezése, hogy e ...

Gépi fordítás

A nyelvtechnológia egyik fontos szakterülete a gépi fordítás. Napjaink piacvezető technológiájának számító transzformer-alapú nyelvi reprezentációt elsőként a gépi fordítás területén hozták létre, amely  innen kiindulva vált nemcsak az NLP legmeghatározóbb, de a beszédfeldolgozás vagy akár a képfelismerés tudományának meghatározó eszközévé.A kutatás célja a saját angol-magyar nyelvpárra létrehozott transzformer-alapú gépifordító-rendszer továbbfejlesztése többnyelvű irányba, hogy az ne csak két ...

Nyelvközpontú mesterséges intelligencia (nyelvmodellek) fejlesztése

Az utóbbi évtizedben uralkodóvá vált neurális nyelvi modellek paradigmaváltást hoztak a nyelvtechnológia egészében. Ezen általános célú nyelvmodellek létrehozásához rendkívüli számítástechnikai kapacitás és óriási adatmennyiség szükséges. Fő feladatunk, hogy a világszínvonalat jelentő nyelvmodelleket rövid követéssel a magyar nyelvre is kidolgozzuk, és elérhetővé tegyük a magyar nyelvtechnológiai szakma számára.A legújabb típusú, nagyméretű nyelvmodellek már egy jelentős lépést tettek meg a fela ...

Nyelvtechnológiai kutatócsoport
News

1 result
1 result
Elérhetővé vált a március 8-i “ChatGPT: tömegek használják, de senki sem érti (meg)” c. NYTK-kerekasztal felvétele
Médiamegjelenés

Elérhetővé vált a március 8-i “ChatGPT: tömegek használják, de senki sem érti (meg)” c. NYTK-kerekasztal felvétele

2023. Márc. 16.

Nyelvtechnológiai kutatócsoport
Events

2 results
2 results
2023. Márc. 09. 11:00
Nyelvtudományi Kutatóközpont (1068 Budapest, Benczúr u. 33.), fszt-i előadóterem és online
2023. Márc. 09. 11:00
Nyelvtudományi Kutatóközpont (1068 Budapest, Benczúr u. 33.), fszt-i előadóterem és online
ChatGPT: tömegek használják, de senki sem érti (meg)
2023. Márc. 09. 11:00
Nyelvtudományi Kutatóközpont (1068 Budapest, Benczúr u. 33.), fszt-i előadóterem és online
Előadás

ChatGPT: tömegek használják, de senki sem érti (meg)

Előadásunkban röviden bemutatjuk NYTK-s kollégáink és minden más érdeklődő számára, hogyan működik egy generatív nyelvmodell, majd konkrét példákkal illusztrálva igyekszünk választ adni arra, hogy mit tud(hat), és mit nem tud(hat) a ChatGPT; hogy hogyan kell jól megszólítani.
PresentersPrószéky GáborVáradi TamásLaki László JánosYang Zijian GyőzőLigeti-Nagy Noémi
2022. Nov. 23. 16:00 - 18:00
MTA Székház, Díszterem
2022. Nov. 23. 16:00 - 18:00
MTA Székház, Díszterem
A mesterséges intelligencia és a magyar nyelv
2022. Nov. 23. 16:00 - 18:00
MTA Székház, Díszterem

A mesterséges intelligencia és a magyar nyelv

ELőadás és bemutató a magyar nyelvtechnológiai legújabb eredményeirőlA modern társadalmakban a kommunikáció döntő módon digitális eszközökkel, digitális módon történik. Az elmúlt néhány évben elterjedt egy új technológia, amely látványos fejlődést eredményezett a digitális világ szinte minden területén: a neurális hálók megjelenésével a nyelvtechnológia is megkérdőjelezhetetlenül a digitális kommunikáció mindennapi eszköztárának részévé vált. A rohamosan fejlődő kutatási háttérnek hála a tudomán ...

Nyelvtechnológiai kutatócsoport
Contacts

Partner institutions

European Federation of National Institutions for Language

Váradi Tamás 2010 óta az EFNIL szervezet titkára, az intézet pedig 2010 óta látja el a titkársági feladatokat az EFNIL-ben.

European Language Resource Coordination (ELRC)

Az European Language Resource Coordination (ELRC) workshop keretein belül a magyar nyelvtechnológia helyzetéről és kilátásairól folytatunk párbeszédet az ipari és az állami szereplőkkel. A nyelvtechnológia fejlesztői, mind felhasználói megosztják tapasztalataikat, igényeiket és ötleteiket azt illetően, miként lehet nyelvtechnológiai megoldásokkal segíteni a többnyelvű Európa digitális interakcióit. Megvitatjuk azt is, hogy a nyelvi adatok, azaz a szövegek és a hanganyagok miként segíthetik a

Pécsi Tudományegyetem Alkalmazott Adattudományi és Mesterséges Intelligencia Központja

A HILANCO egy természetes nyelvi feldolgozó konzorcium (NLP) Magyarországon, a NYTK és a PTE között. A Konzorcium küldetése, hogy új NLP-technológiákat és erőforrásokat biztosítson az intelligens nyelvi alkalmazások AI célokra való kiépítéséhez. Élvonalbeli megoldásokat kínálunk az innováció teljes spektrumának kiszolgálására a kutatástól és fejlesztéstől a piacképes üzleti termékekig.