CURLICAT: Curated Multilingual Language Resources for CEF AT
Támogató intézmény: Innovation and Networks Executive Agency
A CURLICAT a konzorcium által megcélzott hét nyelven (bolgár, horvát, magyar, lengyel, román, szlovák és szlovén) összeállítja a kurált egynyelvű adatkészleteket az európai digitális szolgáltatási infrastruktúrák (DSI) szempontjából releváns területeken a CEF AT fejlesztése érdekében. Az elsődleges adatforrás a fent említett nyelvek nemzeti/referenciakorpusai.
Az akció legalább 14 millió mondatot fog közölni (a becslések szerint legalább 140 millió szót tartalmaz) olyan területekről, mint a tudomány, a kultúra, az egészségügy, a gazdaság és a pénzügy.
Ezen túlmenően a fellépés orvosolni fogja a gépi fordítási technológia hiányosságait, amely döntően attól függ, hogy ezekhez a közepesen erőforrásokkal rendelkező nyelvekhez biztosítják-e a tartományspecifikus minőségi nyelvi erőforrásokat.
Résztvevő kutatók
Halász Dávid
Nyelvtudományi Intézet
Nyéki Bence
Nyelvtudományi Intézet