Lexikai tudásreprezentáció kutatócsoport•Kutatási terület
A Lexikai tudásreprezentáció kutatócsoport középtávú célja a 21. századi elvárásoknak és lexikográfiai szempontoknak megfelelő, döntő részben gépi automatikus módszerekkel egy olyan online értelmező szótár készítése, amely által bekapcsolódhatunk a nemzetközi lexikológiai kutatásokba is. A szótár alapját egy nagyméretű, egymilliárd szavas reprezentatív korpusz képezi, amelyet 2001 és 2020 közötti időszakban keletkezett magyar nyelvű szövegekből állítunk össze. A papíralapú szótárakhoz képest ezzel az új szakmódszertani és korszerű technológiával gyors eredményt érünk el.
A korpuszépítés során felmérjük az összegyűjtött szövegállományok kategorizálási lehetőségeit, és a különböző nyelvi regiszterek arányát a Magyar nemzeti bibliográfia 2001 és 2020 közötti adatainak feldolgozásával állapítjuk meg. A digitális szövegeknek, amelyekkel dolgozunk, különleges tulajdonságaik vannak: a karakterfelismerő programok betűtévesztései mellett előfordul, hogy egy-két-három mondatnyi szövegek több százszor vagy több ezerszer karakterről karakterre megegyező módon fordulnak elő. De sokszor találkozunk olyan széttöredezett szóalakokkal is, amelyekben a szót alkotó betűk közé szóközök ékelődnek. 2022-ben mintegy 400 000 000 szónyi anyagon végezzük el a duplumok és az idegen nyelvű szövegek szűrését, az ékezettelen és „töredezett” szóalakokat tartalmazó egységek leválogatását. A munkálatok részét képezi az egyes optikai karakterfelismerő programok megbízhatóságának tesztelése is.
Az automatizált szótárkészítéshez szükséges a magyar igék és bővítményeik vizsgálatára szolgáló lekérdezőeszköz továbbfejlesztése, így nem csupán az igék, hanem főnevek és melléknevek vizsgálata is lehetővé válik. Az adatbázis rövidebb válaszidővel fog működni, és a szóra vonatkozó grammatikai információk tára is bővülni fog. Ez a lekérdezőeszköz a fejlesztéseket követően az effajta jellemzők automatikus feltárására is alkalmassá válik szabadon elérhető, nyílt forráskódú formában.
Hasonlóképpen az igekötős szerkezettípusok 41,5 millió korpuszpéldát tartalmazó adatbázisa abban segít a szócikkírásban, hogy az igekötős igék összes adatát megkapjuk egy egyszerű kereséssel. Ezért az adatbázison a következő fejlesztéseket végezzük el: 1. bővítés a Magyar Nemzeti Szövegtárban elérhető metaadatokkal (stílusregiszter, régió, publikálás éve), 2. a meglévő anyag hibáinak szisztematikus javítása pontosabb szűrőszabályokkal, 3. az adatbázis kereshetővé tétele a nyelvtechnológiában nem vagy kevésbé jártas felhasználók számára. Az adatbázis fejlesztése egyúttal hozzájárul egy olyan algoritmus megalapozásához, amely hatékonyan azonosítja az elvált igekötős szerkezeteket, jelentősen egyszerűsítve az igekötős igék adatainak a korpuszban való keresését.
A hazai és nemzetközi romani nyelvű szótárakkal foglakozó szakirodalmakban megfogalmazott kritikai észrevételek, ajánlások alapján a fentiek mellett egy kétnyelvű szótár megalkotását tűztük ki célul, amely elsősorban a hazai lovári nyelvű szótárakra alapozva kívánja a nyelv fejlesztését, művelését, megmaradását szolgálni. Az újonnan megalkotott szótár számtalan példamondattal, kontextuális jelentéssel kívánja bővíteni a már meglévő lexikai elemeket; új, eddig szótárakban még meg nem jelent szavakkal, szócikkel kívánja gazdagítani a deskriptív nyelvészet lexikográfiai ágát; nyelvújító szándékkal javaslatokat tesz a romani nyelvben fel nem lelhető szavak ekvivalensének megalkotására.
Kutatócsoport-vezető: Simon László E-mail: simon.laszlo@nytud.hun-ren.hu Telefon: +36 (1) 342-9372/6095 |