CURLICAT: Curated Multilingual Language Resources for CEF AT
Támogató intézmény: Innovation and Networks Executive Agency

A CURLICAT a konzorcium által megcélzott hét nyelven (bolgár, horvát, magyar, lengyel, román, szlovák és szlovén) összeállítja a kurált egynyelvű adatkészleteket az európai digitális szolgáltatási infrastruktúrák (DSI) szempontjából releváns területeken a CEF AT fejlesztése érdekében. Az elsődleges adatforrás a fent említett nyelvek nemzeti/referenciakorpusai.
Az akció legalább 14 millió mondatot fog közölni (a becslések szerint legalább 140 millió szót tartalmaz) olyan területekről, mint a tudomány, a kultúra, az egészségügy, a gazdaság és a pénzügy.
Ezen túlmenően a fellépés orvosolni fogja a gépi fordítási technológia hiányosságait, amely döntően attól függ, hogy ezekhez a közepesen erőforrásokkal rendelkező nyelvekhez biztosítják-e a tartományspecifikus minőségi nyelvi erőforrásokat.
Résztvevő kutatók









Halász Dávid
Nyelvtudományi Intézet

Nyéki Bence
Nyelvtudományi Intézet
Közreműködő intézmények

Institute for Bulgarian Language "Prof. Lyubomir Andreychin"

University of Zagreb, Faculty of Humanities and Social Sciences

Institute of Computer Science, Polish Academy of Sciences

Institutul de Cercetari pentru Inteligenta Artificiala, Academia Romana

Jazykovedný ústav Ľ. Štúra Slovenskej akadémie vied
