Lexikai tudásreprezentáció kutatócsoport
Kutatási terület

A Lexikai tudásreprezentáció kutatócsoport középtávú célja a 21. századi elvárásoknak és lexikográfiai szempontoknak megfelelő, döntő részben gépi automatikus módszerekkel egy olyan online értelmező szótár készítése, amely által bekapcsolódhatunk a nemzetközi lexikológiai kutatásokba is. A szótár alapját egy nagyméretű, egymilliárd szavas reprezentatív korpusz képezi, amelyet 2001 és 2020 közötti időszakban keletkezett magyar nyelvű szövegekből állítunk össze. A papíralapú szótárakhoz képest ezzel az új szakmódszertani és korszerű technológiával gyors eredményt érünk el.

A korpuszépítés során felmérjük az összegyűjtött szövegállományok kategorizálási lehetőségeit, és a különböző nyelvi regiszterek arányát a Magyar nemzeti bibliográfia 2001 és 2020 közötti adatainak feldolgozásával állapítjuk meg. A digitális szövegeknek, amelyekkel dolgozunk, különleges tulajdonságaik vannak: a karakterfelismerő programok betűtévesztései mellett előfordul, hogy egy-két-három mondatnyi szövegek több százszor vagy több ezerszer karakterről karakterre megegyező módon fordulnak elő. De sokszor találkozunk olyan széttöredezett szóalakokkal is, amelyekben a szót alkotó betűk közé szóközök ékelődnek. 2022-ben mintegy 400 000 000 szónyi anyagon végezzük el a duplumok és az idegen nyelvű szövegek szűrését, az ékezettelen és „töredezett” szóalakokat tartalmazó egységek leválogatását. A munkálatok részét képezi az egyes optikai karakterfelismerő programok megbízhatóságának tesztelése is.

Az automatizált szótárkészítéshez szükséges a magyar igék és bővítményeik vizsgálatára szolgáló lekérdezőeszköz továbbfejlesztése, így nem csupán az igék, hanem főnevek és melléknevek vizsgálata is lehetővé válik. Az adatbázis rövidebb válaszidővel fog működni, és a szóra vonatkozó grammatikai információk tára is bővülni fog. Ez a lekérdezőeszköz a fejlesztéseket követően az effajta jellemzők automatikus feltárására is alkalmassá válik szabadon elérhető, nyílt forráskódú formában.

Hasonlóképpen az igekötős szerkezettípusok 41,5 millió korpuszpéldát tartalmazó adatbázisa abban segít a szócikkírásban, hogy az igekötős igék összes adatát megkapjuk egy egyszerű kereséssel. Ezért az adatbázison a következő fejlesztéseket végezzük el: 1. bővítés a Magyar Nemzeti Szövegtárban elérhető metaadatokkal (stílusregiszter, régió, publikálás éve), 2. a meglévő anyag hibáinak szisztematikus javítása pontosabb szűrőszabályokkal, 3. az adatbázis kereshetővé tétele a nyelvtechnológiában nem vagy kevésbé jártas felhasználók számára. Az adatbázis fejlesztése egyúttal hozzájárul egy olyan algoritmus megalapozásához, amely hatékonyan azonosítja az elvált igekötős szerkezeteket, jelentősen egyszerűsítve az igekötős igék adatainak a korpuszban való keresését.

A hazai és nemzetközi romani nyelvű szótárakkal foglakozó szakirodalmakban megfogalmazott kritikai észrevételek, ajánlások alapján a fentiek mellett egy kétnyelvű szótár megalkotását tűztük ki célul, amely elsősorban a hazai lovári nyelvű szótárakra alapozva kívánja a nyelv fejlesztését, művelését, megmaradását szolgálni. Az újonnan megalkotott szótár számtalan példamondattal, kontextuális jelentéssel kívánja bővíteni a már meglévő lexikai elemeket; új, eddig szótárakban még meg nem jelent szavakkal, szócikkel kívánja gazdagítani a deskriptív nyelvészet lexikográfiai ágát; nyelvújító szándékkal javaslatokat tesz a romani nyelvben fel nem lelhető szavak ekvivalensének megalkotására.

Kutatócsoport-vezető:

Simon László
E-mail: simon.laszlo@nytud.hun-ren.hu
Telefon: +36 (1) 342-9372/6095

Lexikai tudásreprezentáció kutatócsoport
Munkatársaink

Kalivoda Ágnes
tudományos munkatárs

Lexikológiai Intézet

Lakatos Péter
tudományos munkatárs

Lexikológiai Intézet

Lipp Veronika
igazgató, tudományos munkatárs

Lexikológiai Intézet

Pethő Gergely
tudományos munkatárs

Lexikológiai Intézet

Prószéky Gábor
főigazgató, tudományos tanácsadó

Lexikológiai Intézet

Sass Bálint
tudományos főmunkatárs

Lexikológiai Intézet

Simon László
kutatócsoport-vezető, tudományos munkatárs

Lexikológiai Intézet

Vadász Noémi
tudományos segédmunkatárs

Lexikológiai Intézet

Lexikai tudásreprezentáció kutatócsoport
Hírek

2 találat
2 találat
Ösztöndíj-pályázat EMLex-képzésre (European Master in Lexicography) jelentkező diákok számára
Pályázati és álláslehetőség

Ösztöndíj-pályázat EMLex-képzésre (European Master in Lexicography) jelentkező diákok számára

2023. Ápr. 06.
Kollégánk, Kalivoda Ágnes kapta meg a 2021. évi Bárány Róbert-díjat

Kollégánk, Kalivoda Ágnes kapta meg a 2021. évi Bárány Róbert-díjat

2021. Nov. 02.