A magyar nyelv digitális támogatása a magyar tudományosság szolgálatában
Támogató intézmény: Magyar Tudományos Akadémia
A magyar nyelv mint ezeréves kultúránk hordozója és nemzeti identitásunk központi eleme bizonyította életképességét a századok során. Azonban a globalizáció és a mindent átszövő digitális érintkezés korában anyanyelvünk új kihívások elé néz. A fenyegetettséget nem nyelvünk kihalása jelenti, hanem az, hogy technológiai támogatás hiányában a magyar nyelv kiszorulhat a digitális térből: ha például a mobil eszközökön bizonyos szolgáltatások magyarul nem elérhetőek, akkor a magyar emberek kénytelenek idegen nyelvet használni a magyar helyett. A magyar nyelvhasználat bizonyos mérvű visszaszorulását máris tapasztalhatjuk egyes nyelvhasználati területeken. Ezek közé tartozik a tudományos élet is, amely alapvetően függ a tudományos eredmények gyors és széleskörű disszeminációjától. Óhatatlan és feltartóztathatatlan fejlemény a globális tudományos élet számára egy lingua franca használata, amelyet jelenleg az angol nyelv képvisel. Emellett azonban nem mondhatunk le arról, hogy a tudományos eredmények közvetítése, illetve a tudományos képzés az anyanyelven történjék.
A NYTK már nagy tapasztalattal rendelkezik mind a szövegkorpuszok építése, mind pedig a dokumentumok digitálisan feldolgozása terén. A korpuszépítések között jelentős a Magyar Nemzeti Szövegtár 1, 2 és a MARCELL projekt is. Jelen programnál azonban a korpuszépítés klasszikus korpuszépítéstől (mint reprezentativitás, jól kiegyensúlyozottság) eltérő aspektusai kerülnek a középpontba, mint például a metaadatok kinyerése és rendszerezése, a megfelelő struktúrák kidolgozása és felépítése. A korpuszépítéshez felhasznált szövegek tekintetében egyre nagyobb figyelmet kapnak a közgyűjteményekben található anyagok (lásd például a külön erre a témára fókuszáló eseményt: Clarin and Libraries Workshop, The Hague, 2022 May 9/10.) A hazai szöveges dokumentumtárak közül az MTA Könyvtárának repozitóriuma, a REAL előkelő helyet foglal el mind a tartalmazott szövegek mennyiségében, mind a gyűjtőkör (tudományos jellegű, lektorált szövegek) tekintetében. Az MTA Könyvtár és Információs Központ (MTA KIK) az elsők között látott hozzá a hazai repozitórium építéshez, és az anyagok gyűjtésében, gondozásában is nagy tapasztalattal rendelkezik. E tekintetben részt veszünk különböző nemzetközi együttműködésekben (pl. Confederation of Open Access Repositories, European Open Science Cloud). A projektben fejlesztendő eszközök alkalmazását tekintve relevánsak az MTA KIK tapasztalatai az egyedi azonosítók (Persistent Identifiers) alkalmazásában, és a nemzeti bibliográfiai adatbázisok fejlesztésében. A pályázat szempontjából fontos előzmény a NYTI MATRICA projektje, amely tudományos folyóirat- cikkek korpuszából hivatkozások kinyerését célozta. A tudományos kommunikáció fejlett formáinak kutatásában releváns előzmény Holl András munkája az Information Bulletin on Variable Stars technikai fejlesztésében.
A jelen javaslat kettős célú: egyrészt általában segíti a tudományos kommunikációt szövegbányászati módszerekkel, másrészt ezen belül komoly támogatást nyújt a magyar nyelvű tudományosság számára a magyar nyelvű tudományos közlések feldolgozásával és elérhetővé tételével. A szemantikus keresési lehetőségeket illetően említhetjük a tulajdonnevekre való keresés fejlesztését. Terveinkben olyan eljárások fejlesztése szerepel, melyek újszerűek, vagy új megközelítésűek, és eddig egyáltalán nem, vagy tudományos szolgáltatásokban nem valósultak meg. A projekt keretében első sorban modern, born digital, lektorált tartalmak kinyerését tervezzük, amelyek jól használhatóak tanító anyagnak. A megfelelő számítógépes nyelvészeti eszközök betanítása (amely várhatóan iteratívan, egyre szélesebb körű tartalmak bevonásával működik majd) lehetőség nyílik a kifejlesztett eszközök felhasználására az MTA KIK adatbázisainak javítására, gazdagítására. Tervezzük a szövegek szemantikus szegmentálását, szakterület megállapítását, metaadatok kinyerését és javítását, szöveghibák javítását, terminológia-kinyerést és széles értelemben vett szövegbányászatot, és intelligens, szemantikus kereső eszközök létrehozását. A projekt keretében kifejlesztett nyelvtechnológiai eszközök így lehetővé teszik majd a REAL repozitórium tartalmának javítását, gazdagítását, és a felhasználók (kutatók) számára nyújtott repozitóriumi szolgáltatások javítását. Az MTA KIK anyagát nyelvtechnológia alkalmazásával tennénk a jelenleginél hatékonyabb módon kutathatóvá az NYTK és az MTA KIK közötti együttműködés keretében. Igen fontos eredménye lehet a projektnek az MTMT hazai folyóiratokban megjelent, az adatbázisból eddig hiányzó hivatkozásokkal való bővítése.