Adatforrások

19 találat
19 találat
Szoftveralkalmazás

Magyar nyelvű neurális modelleken alapuló megoldások

A magyar nyelvre készített generatív PULI rendszerünk mellett itt az ún. enkóderekre épülő neurális modelljeink demóalkalmazásai találhatók, melyek gépi fordítást, szövegekből összefoglaló-készítést, szentimentelemzést, névelemek felismerését, szövegosztályozást és ékezet nélküli szövegek ékezetekkel való ellátását végzik.

Szoftveralkalmazás

PULI, az első teljesen magyar nyelvű GPT-3

A PULI család a HUN-REN NYTK nagy magyar nyelvmodellje nyers (pre-trained), illetve utasításvégző (instruct) változatainak demói. A nyers modell csak a szöveg folytatására alkalmas, az utasításkövető viszont válaszol kérdésekre, fordít vagy éppen kivonatot készít ‒ aszerint, hogy milyen instrukciót adunk neki.

Adatbázis

Hanti adatbázis

Az adatbázis a hanti nyelv keleti ágához tartozó szurguti nyelvjárás megismeréséhez visz közelebb. A honlapon feldolgozott harminc szöveg stílusa és szókincse változatos: vannak köztük egyszerű, ábécéskönyvi olvasmányok, iskolai fogalmazások, mesék, újságcikkek, szépirodalmi igényességű írások és folklór alkotások is. A szövegeket mondatokra bontva morfológiai és szófaji elemzéssel, valamint magyar és angol fordítással láttuk el.

Szövegkorpusz

Magyar Nemzeti Szövegtár

A Magyar Nemzeti Szövegtár az első olyan magyar nyelvi korpusz, amely a magyarországiak mellett a határon túli magyar nyelvváltozatokat is felöleli.

Szövegkorpusz

Magyar történeti szövegtár (A magyar nyelv nagyszótárának korpusza)

Az MTSz. jelenleg 30 millió szövegszónyi anyagot tartalmaz az 1772–2010-ig terjedő majd 240 évből. A kibővített korpuszhoz 2016-ban új lekérdezőfelületet készítettünk, amely szabadon hozzáférhető kutatási célra és a nagyközönség számára is.

Adatbázis

Uralonet

Az Uralonet egy olyan, kutatásra és oktatásra egyaránt alkalmas adatbázis és kérdezőfelület, melynek az uráli etimológiákat tartalmazó hagyományos, német nyelvű szótár, az Uralisches Etymologisches Wörterbuch, (=UEW, Akadémiai Kiadó 1986–1989) anyaga képezi az alapját.

Szövegkorpusz

A magyar nyelv nagyszótára

A magyar nyelv nagyszótára a magyar nyelvtudomány eddigi legnagyobb szótári vállalkozása, amely a magyar lexikográfiai gyakorlatból még hiányzó, új műfajt képvisel. Történeti jellegű értelmező szótárként legfontosabb feladata a szavak jelentéstartalmának kibontása és e jelentések viszonyrendszerének ábrázolása.

Adatbázis

Az uráli nyelvek mondattanának változása

A projekt egyik célja egy annotált adatbázis létrehozása volt udmurt, tundrai nyenyec, szinjai és szurguti hanti nyelvű, írott és beszélt nyelvi szövegekből, amely lehetővé teszi az uráli–orosz kontaktushatás kutatását.

Adatbázis

Budapesti Szociolingvisztikai Adatbázis (BUSZI)

A BUSZI nagyszabású felmérés, amely megbízható adatokat és elemzéseket szolgáltat a magyar nyelv Budapesten beszélt változatairól.

Szövegkorpusz

Csángó korpusz

A 2013 márciusában a Nyelvtudományi Intézetben kákovai (forrófalvi) és klézsei adatközlők részvételével tartott csángó mondattani szeminárium hanganyaga és átirata.

Adatbázis

Magyar orvosi nevezettár

A szótár az orvosi-biológiai magyar és idegen nevezetek, valamint az orvoslással, egészségüggyel kapcsolatos olyan köznyelvi szavak, szószerkezetek gyűjteménye, amelyeknek lényeges orvosi-biológiai vonatkozásai is vannak.

Adatbázis

Magyar szerkezettár

A nyelv valójában nem szavakból, hanem szerkezetekből áll, nem szavak sora, hanem szerkezetek szövedéke. Innen ered a projekt alapgondolata, hogy talán nem is a szavakat érdemes számbavenni (vö: „szótár”), hanem a szerkezeteket. Erre tesz kísérletet a „Magyar szerkezettár”.

Adatbázis

Mazsola – a magyar igei bővítményszerkezet vizsgálata

Megtudhatja, hogy adott ige melletti adott (esetrag vagy névutó által meghatározott) bővítményi pozícióban milyen jellegzetes szavak jelenhetnek meg, legyen az vonzat vagy szabad bővítmény vagy az igével idiomatikus szerkezetet alkotó szó.

Szövegkorpusz

Moldvai magyar nyelvjárási szövegek Tánczos Vilmos gyűjtéséből

Tánczos Vilmos moldvai gyűjtése páratlan kincs nemcsak a néprajztudomány, hanem a magyar nyelvészeti kutatások számára is, hiszen a magyar nyelvészet régi adóssága a moldvai magyar nyelvjárások kutatására alkalmas, megfelelő pontossággal lejegyezett szövegkorpusz létrehozása

Szövegkorpusz

Ó- és középmagyar történeti magánéleti korpusz

A Történeti magánéleti korpusz (TMK) az 1772 előtti magánlevelekből és peres eljárások jegyzőkönyveiből épül fel. Elsősorban a történeti morfológiai és szociolingvisztikai kutatásokhoz kínál anyagot, de segítséget nyújt a történeti mondattani, pragmatikai és lexikológiai vizsgálatokhoz is.

Szövegkorpusz

Ómagyar korpusz

A korpusz tartalmazza az összes fennmaradt ómagyar kori (896–1526) és néhány középmagyar kori (1526–1772) szövegemléket, valamint számos középmagyar bibliafordítást. A feldolgozott anyag 47 ómagyar kódexet, 24 rövidebb ómagyar szövegemléket, 244 misszilist (elküldött levelet), valamint 5 középmagyar kori bibliafordítást foglal magában, vagyis mindösszesen 3,2 millió szövegszót.

Adatbázis

Új magyar etimológiai szótár

ÚESz. a mai magyar köznyelv minden szavát tartalmazza. Továbbá megtalálható benne minden olyan kihalt, illetve elavult szó, amely nyelvi vagy művelődéstörténeti szempontból fontosnak számít; a tájszók közül azok, amelyek nagy területen használatosak és a már meghonosodott nemzetközi szók közül azok, amelyek a leginkább beépültek a magyar szókészletbe. A szótár szerkesztés alatt áll.

Adatbázis

Párhuzamos Bibliaolvasó

A Párhuzamos Bibliolvasó mögött levő adatbázis a Párhuzamos Bibliakorpusz, amely egyrészt a magyar nyelv különböző korszakaiból tartalmaz bibliafordításokat, másrészt egyéb uráli nyelvek bibliafordításai is belekerülnek, ami hasznos segítség lehet az uráli nyelveket és a magyar nyelv történetét kutatók számára is.

Egyéb

Nemzeti korpuszportál

A Nemzeti Korpuszportál célja a szóalapú online keresővel rendelkező magyar nyelvű korpuszok összegyűjtése, és távlatilag az elemzőeszközök és a korpuszkeresési funkciók elérhetővé tétele minden korpusz számára.