Adatforrások
Magyar nyelvű neurális modelleken alapuló megoldások
A magyar nyelvre készített generatív PULI rendszerünk mellett itt az ún. enkóderekre épülő neurális modelljeink demóalkalmazásai találhatók, melyek gépi fordítást, szövegekből összefoglaló-készítést, szentimentelemzést, névelemek felismerését, szövegosztályozást és ékezet nélküli szövegek ékezetekkel való ellátását végzik.
PULI, az első teljesen magyar nyelvű GPT-3
A PULI család a HUN-REN NYTK nagy magyar nyelvmodellje nyers (pre-trained), illetve utasításvégző (instruct) változatainak demói. A nyers modell csak a szöveg folytatására alkalmas, az utasításkövető viszont válaszol kérdésekre, fordít vagy éppen kivonatot készít ‒ aszerint, hogy milyen instrukciót adunk neki.
Hanti adatbázis
Az adatbázis a hanti nyelv keleti ágához tartozó szurguti nyelvjárás megismeréséhez visz közelebb. A honlapon feldolgozott harminc szöveg stílusa és szókincse változatos: vannak köztük egyszerű, ábécéskönyvi olvasmányok, iskolai fogalmazások, mesék, újságcikkek, szépirodalmi igényességű írások és folklór alkotások is. A szövegeket mondatokra bontva morfológiai és szófaji elemzéssel, valamint magyar és angol fordítással láttuk el.
Magyar Nemzeti Szövegtár
A Magyar Nemzeti Szövegtár az első olyan magyar nyelvi korpusz, amely a magyarországiak mellett a határon túli magyar nyelvváltozatokat is felöleli.
Magyar történeti szövegtár (A magyar nyelv nagyszótárának korpusza)
Az MTSz. jelenleg 30 millió szövegszónyi anyagot tartalmaz az 1772–2010-ig terjedő majd 240 évből. A kibővített korpuszhoz 2016-ban új lekérdezőfelületet készítettünk, amely szabadon hozzáférhető kutatási célra és a nagyközönség számára is.
A magyar nyelv nagyszótára
A magyar nyelv nagyszótára a magyar nyelvtudomány eddigi legnagyobb szótári vállalkozása, amely a magyar lexikográfiai gyakorlatból még hiányzó, új műfajt képvisel. Történeti jellegű értelmező szótárként legfontosabb feladata a szavak jelentéstartalmának kibontása és e jelentések viszonyrendszerének ábrázolása.
Az uráli nyelvek mondattanának változása
A projekt egyik célja egy annotált adatbázis létrehozása volt udmurt, tundrai nyenyec, szinjai és szurguti hanti nyelvű, írott és beszélt nyelvi szövegekből, amely lehetővé teszi az uráli–orosz kontaktushatás kutatását.
Magyar szerkezettár
A nyelv valójában nem szavakból, hanem szerkezetekből áll, nem szavak sora, hanem szerkezetek szövedéke. Innen ered a projekt alapgondolata, hogy talán nem is a szavakat érdemes számbavenni (vö: „szótár”), hanem a szerkezeteket. Erre tesz kísérletet a „Magyar szerkezettár”.
Mazsola – a magyar igei bővítményszerkezet vizsgálata
Megtudhatja, hogy adott ige melletti adott (esetrag vagy névutó által meghatározott) bővítményi pozícióban milyen jellegzetes szavak jelenhetnek meg, legyen az vonzat vagy szabad bővítmény vagy az igével idiomatikus szerkezetet alkotó szó.
Moldvai magyar nyelvjárási szövegek Tánczos Vilmos gyűjtéséből
Tánczos Vilmos moldvai gyűjtése páratlan kincs nemcsak a néprajztudomány, hanem a magyar nyelvészeti kutatások számára is, hiszen a magyar nyelvészet régi adóssága a moldvai magyar nyelvjárások kutatására alkalmas, megfelelő pontossággal lejegyezett szövegkorpusz létrehozása
Ó- és középmagyar történeti magánéleti korpusz
A Történeti magánéleti korpusz (TMK) az 1772 előtti magánlevelekből és peres eljárások jegyzőkönyveiből épül fel. Elsősorban a történeti morfológiai és szociolingvisztikai kutatásokhoz kínál anyagot, de segítséget nyújt a történeti mondattani, pragmatikai és lexikológiai vizsgálatokhoz is.
Ómagyar korpusz
A korpusz tartalmazza az összes fennmaradt ómagyar kori (896–1526) és néhány középmagyar kori (1526–1772) szövegemléket, valamint számos középmagyar bibliafordítást. A feldolgozott anyag 47 ómagyar kódexet, 24 rövidebb ómagyar szövegemléket, 244 misszilist (elküldött levelet), valamint 5 középmagyar kori bibliafordítást foglal magában, vagyis mindösszesen 3,2 millió szövegszót.
Új magyar etimológiai szótár
ÚESz. a mai magyar köznyelv minden szavát tartalmazza. Továbbá megtalálható benne minden olyan kihalt, illetve elavult szó, amely nyelvi vagy művelődéstörténeti szempontból fontosnak számít; a tájszók közül azok, amelyek nagy területen használatosak és a már meghonosodott nemzetközi szók közül azok, amelyek a leginkább beépültek a magyar szókészletbe. A szótár szerkesztés alatt áll.
Párhuzamos Bibliaolvasó
A Párhuzamos Bibliolvasó mögött levő adatbázis a Párhuzamos Bibliakorpusz, amely egyrészt a magyar nyelv különböző korszakaiból tartalmaz bibliafordításokat, másrészt egyéb uráli nyelvek bibliafordításai is belekerülnek, ami hasznos segítség lehet az uráli nyelveket és a magyar nyelv történetét kutatók számára is.