Mentális konstrukciók adatorientált azonosítása korpuszban a Mozaik módszer és kapcsolódó eljárások segítségével

Az ember fejében számos nyelvi mintázat van jelen valamilyen formában, amelyeket nyelvtanuláskor tudatosan próbálunk bővíteni explicit konstrukciók segítésével. Az ilyen mintázatok korpuszból történő kinyeréséhez jelenleg két fő megközelítés adódik: a nyelvészek az elméleti hipotéziseikhez manuális keresésekkel gyűjtenek bizonyítékokat, míg a nagy nyelvmodellek statisztikai eljárásokkal kódolt összefüggések segítségével képesek egyre emberszerűbb kimenetet generálni. Ugyanakkor e módszerek gyengesége, hogy a nyelvmodellek nyelvi tudása nem interpretálható, tisztán statisztikai megközelítésre épül, ezért nem összeegyeztethető a nyelvtudomány eddigi eredményeivel. A manuális keresések adatai pedig a kutató intuíciójával terheltek, így statisztikailag nem jól formáltak.
A Mozaik módszer kiterjesztéseként létrejött modell célja, hogy csökkentse a kutató intuíciójának szerepét és így a manuális munkát a korpuszbeli minták keresésekor. A megközelítés moduláris természete miatt nyelvi jelenségek széles skálája vizsgálható vele, és ezáltal a nagy nyelvmodellekhez hasonló képességekkel bíró, interpretálható modell jön létre, amely tovább tudja építeni a nyelvről alkotott ismereteinket, hidat képezve a két megközelítés között.
Az előadásomban különböző nyelvtudományi irányzatok felől közelítve ismertetem a motivációt a modell mögött. Bemutatom a rendszer alapját képező Mozaik módszer működését, valamint esettanulmányokon keresztül az egész eljárás jelenlegi állását, működését és relevanciáját. Végül pedig kitekintést adok a további fejlesztési és alkalmazási lehetőségekre.
Az előadó által ajánlott irodalom
Bajzát Tímea, Indig Balázs, Kalivoda Ágnes (2024): “A fatens felelt pedig…” – A Történeti Magánéleti Korpusz igei szerkezeteinek mozaik n-gram alapú feldolgozása. In: Berend Gábor, Gosztolya Gábor, Vincze Veronika (szerk.): XX. Magyar Számítógépes Nyelvészeti Konferencia. Szeged: Szegedi Tudományegyetem TTIK, Informatikai Intézet. 43–58.
Indig Balázs, Bajzát Tímea (2024): Compressing Noun Phrases to Discover Mental Constructions in Corpora – A Case Study for Auxiliaries in Hungarian. In: Mika Hämäläinen, Flammie Pirinen, Melany Macias, Mario Crespo Avila (eds.): Proceedings of the 9th International Workshop on Computational Linguistics for Uralic Languages. Helsinki: ACL. 96–103.
Zoom-link: https://us06web.zoom.us/j/85250575838?pwd=M21okObuBY0UjWZgED4b18ms2O4JXr.1
Előadó
