Keressen ómagyar szövegekben ön is!

Nyelv és politika Természettudomány Nyelvtudomány Oktatás LEITERJAKAB

Cikkfolyam

Kövessen, kérem!

Nem lát minket a Facebookon?

Kenyérpirítón szeretné?

Legutolsó hozzászólások

ganajtúrós bukta: @Sándorné Szatmári: Amúgy nincs kedved kalandmesternek jelentkezni a legközelebbi m.a.g.u....
2025. 07. 09, 18:00 Mi bizonyítja, hogy a magyar nyelv finnugor?
szigetva: @Sándorné Szatmári: Egyetlen konkrétum van a hosszú szövegedben: a magyarban E3-ban nincs ...
2025. 07. 09, 11:17 Mi bizonyítja, hogy a magyar nyelv finnugor?
Sándorné Szatmári: @ganajtúrós bukta: Idézet a cikkből: "...erősen kritizálják a nyelvcsalád fogalmát. Ennek ...
2025. 07. 09, 10:23 Mi bizonyítja, hogy a magyar nyelv finnugor?
ganajtúrós bukta: @Sándorné Szatmári: Az alapszókincs az olyan szavak amiket nap mint nap folyamatosan haszn...
2025. 07. 08, 23:12 Mi bizonyítja, hogy a magyar nyelv finnugor?
Sándorné Szatmári: @szigetva: Igen, feltételezem, hogy nem véletlenül maradtak fenn.. Nem ki, hanem rátalálta...
2025. 07. 08, 11:17 Mi bizonyítja, hogy a magyar nyelv finnugor?

Összes hozzászólás >>

A nyelvész majd megmondja

Kálmán László nyelvész, a nyest szerkesztőségének alapembere, a hazai nyelvtudomány és nyelvi ismeretterjesztés legendás alakjának rovata volt ez.

Kálmán László korábbi cikkeit itt találja.

A legnépszerűbb anyagok

Szamojéd erkölcsök a magyar ugaron Ismerjük vagy használjuk? Elhunyt Kálmán László, a Nyelvész, aki megmondja Amikor az értelem legyőzi a nyelvtant A nyitás tárgya

Írjon! Nekünk!

nyest.hu

Ha legutóbb kimaradt, most itt az új lehetőség!

Őrizze meg Ön is agylátását!

Ha csak egyetlen cikket töltesz fel az Academia.edu-ra a plágiumról, akkor az mindenképp plagizált cikk legyen!

Ha ma csak egyetlen nyelvészeti kísérletben vesz részt, mindenképp ez legyen az!

Finnugor nyelvrokonság: hazugság

Hunok legyünk vagy magyarok?

A határozott névelő, ami azt jelenti, hogy ‘te’

*kota a Bölcsész Napokon

MTA: elítéljük a listákat

Az oroszok már a fejünkön vannak!

egueguegueguegu-eguegueguegueguegu...

Már baklövést is lehet véteni

Ó- és középmagyar korpuszok fejlesztése

Keressen ómagyar szövegekben ön is!

Mindig is tudni szerette volna, hányszor szerepel az ómagyar szövegekben az, hogy „útelágadozás”? Érdekelné, hogy ó- és középmagyar nyelvemlékeinkben hányszor és milyen összefüggésben említették az „adó” szót? Az MTA Nyelvtudományi Intézete jóvoltából most minden kérdésére választ kaphat.

Simon Eszter | 2010. március 29.

A cikk a hirdetés után folytatódik

Képzeljük el, hogy a 21. században a nyelvtörténészek ha egy nyelvi jelenségre szeretnének példát találni, még mindig úgy keresnek, hogy felnyúlnak a polcra mondjuk a Jókai-kódexért, és kézzel-szemmel keresik ki benne a megfelelő szöveghelyet. Az évek, évtizedek alatt összegyűjtött nyelvtörténeti tudásukat mozgósítják olyankor, amikor például a határozott névelő első megjelenését szeretnék detektálni. De mi van azokkal a szerencsétlen földi halandókkal, akik mögött nem áll évtizedes kutatómunka, az olyan magyartanárokkal, akik nem annyira járatosak a területen, de érdekes példákkal szeretnének szemléltetni valamilyen történeti változást a magyarban? Vagy mit tegyen az az elméleti nyelvész, akit különböző magyar mondatszerkezetek kialakulása foglalkoztat? Ők nem feltétlenül tudják kapásból, hogy melyik nyelvemlékünkben említették először mondjuk a zsálya szót, vagy hogy melyik kódexben keressenek elváló igekötőket, melyikben nem érdemes, mert még nem alakult ki. Többek között nekik lehet nagyon hasznos segédeszköz a most készülő ó- és középmagyar szövegemlékek elektronikus adatbázisa.

A Jókai-kódex 1440 tájékáról
(Forrás: MTI/Honéczy Barnabás)

A projekt 2009. április elsején, vagyis éppen egy éve indult az MTA Nyelvtudományi Intézetében. A 4 éves munka egyik vállalt célja egy olyan elektronikus adatbázis felépítése, amely tartalmazza a teljes ómagyar anyagot, és válogat a szövegekben jóval gazdagabb középmagyar kor anyagaiból. A nyelvtörténeti korszakok időhatárai a magyar történelem kiemelkedő pontjaihoz kapcsolódnak: az ómagyar kor a honfoglalástól Mohácsig, a középmagyar kor Mohácstól 1772-ig, vagyis Bessenyei György művének, az Ágis tragédiájának megjelenéséig, a magyar felvilágosodás kezdetéig tart. A projekt vállalásai között csak az összefüggő szövegemlékek feldolgozása szerepel, vagyis az ún. szórványemlékeket, amelyek csak egyes magyar szavakat tartalmaznak elszórva a szövegben, nem digitalizálnak. Eszerint az adatbázis 28 rövidebb ómagyar szövegemléket és 47 kódexet fog tartalmazni, ha elkészül.

A Bécsi-kódex egy lapjának másolata
(Forrás: Wikimedia)

Szövegemlékek a világban

Az elmúlt években világszerte egyre fontosabb szerepet kap az írott kultúrkincsnek a digitális korba való átmentése. Ebben (is) jelentős segítséget tudnak nyújtani az automatikus szövegfeldolgozás látványosan javuló minőségű technológiái. Az OSZK elektronikus könyvtárában számos kódex beszkennelt változata olvasható. A régi magyar szövegemlékek beolvasása önmagában azonban még nem teszi hozzáférhetővé a bennük lévő szöveget, szükséges a szöveg kinyerése, automatikus morfológiai és szintaktikai elemzése is. Ez biztosítja a szövegek olyan részletes keresését és elemzését, amilyenre a nyelvtörténészeknek, kutatóknak valójában szükségük van, és amelynek elkészülte a magyar nyelvtörténet kutatásának hatalmas lendületet adhat. Hasonló értékmentő, az adott nyelv történeti korpuszának megépítését célzó projektek a világ minden táján folynak, lásd például a Penn-Helsinki korpuszt, a spanyol nyelv történeti korpuszát vagy a walesi történeti korpuszt.

A Birk-kódex részlete
(Forrás: Molnár József-Simon Györgyi: Magyar nyelvemlékek. Tankönyvkiadó)

Korpuszoknak a nyelvészetben a nagy és strukturált szöveghalmazokat nevezzük, melyek elektronikusan tárolhatóak és feldolgozhatóak. Segítségükkel egyszerűen és gyorsan juthatunk információhoz az adott nyelvről, dialektusról, vizsgált nyelvi jelenségről – attól függően, hogy a korpusz milyen típusú szöveget és információkat tartalmaz. Vagyis itt nem csak a szövegek számítógépen való olvashatóvá tételéről van szó, hanem azok különféle nyelvészeti információval való ellátásáról is. Jelen projektben az adatbázis minden szövege többszintű, azaz a korpuszban minden egyes szövegszó mellett szerepelni fognak a következő adatok:

az eredeti, betűhű szóalak, pl.: adÿad
egy egyszerűsített alak, amely a mai magyar olvasó számára könnyebben olvasható: adyad
az ún. normalizált alak, amely követi a mai magyar helyesírás szabályait: adjad
a szóalak töve: ad
a szóalak morfológiai elemzése: ad[V.Sub.S2.Def] (felszólító módú, egyes szám második személyű, határozott tárgyú ige)

A betűhű szöveg elektronikus változatának előállítása többféleképpen történhet. A legegyszerűbb, ha már megvan, mert már valaki begépelte – ez a legritkább eset. Az elektronikusan nem elérhetőeket a számítógép által olvasható és feldolgozható formára kell hozni: ez vagy úgy történik, hogy begépeljük, vagy – hosszabb szövegek esetében – optikai karakterfelismerő (Optical Character Recognition, OCR) szoftver segítségével a kódex nyomtatott kiadásának beszkennelt változatából kinyerjük a szöveget. A betűhű változatból készül egy egyszerűsített átirat, melynek az a célja, hogy a mai magyar olvasó számára könnyebben befogadható legyen az amúgy elég nehezen olvasható ómagyar szöveg. A normalizálás során két fő alapelvet tartunk szem előtt: először is elhagyunk minden fonológiai és helyesírási esetlegességet, és egységes, a mainak megfelelő helyesírásra törekszünk, másrészt viszont megtartunk minden ma már nem létező szót, toldalékot, morfológiai konstrukciót. Erre azért van szükség, mert az ómagyar korban korántsem volt egységes a helyesírás, az egyes korszakokban különféle helyesírási rendszereket követtek a kódexek másolói, a szkriptorok, és sokszor a saját dialektusuk jellemzőit is belevitték a szövegbe. A Müncheni kódex másolója például erősen ö-zik: "Jézus Krisztus Dávid fia Ábrahám fia születetének könyvö". A morfológiai elemzés automatikusan készül, a mai magyarra már létező alkalmazás ómagyarra való adaptálásával.

A kívánt információk lekérdezéséhez készült egy grafikus felület, amelynek egy tesztváltozata már elérhető és kipróbálható ezen az oldalon. A lekérdező lényege, hogy bármely szinten meg lehet fogalmazni a kérdésünket. Ha arra vagyunk kíváncsiak, hogy például a Bécsi-kódexben használtak-e mellékjeles betűket, akkor a betűhű szinten kell keresnünk. Ha gyakorisági listát szeretnénk készíteni a korpusz egy részéből, például arról, hogy hányszor szerepel a Mária vagy a picsa, akkor a szótövek szintjéhez kell fordulnunk. (Egyébként 12-1...) Ha nyelvészként azt szeretnénk vizsgálni, hogy egy igealak és a hozzá tartozó igekötő között milyen szavak szerepelhetnek, akkor ehhez már szükségünk van a szavak szófajára is, vagyis a morfológiai elemzés szintjén kell megfogalmaznunk a lekérdezésünket.

Az adatbázis jelenleg 3 kódexet (Bécsi, Birk, Jókai) és 18 kisebb ómagyar szövegemléket tartalmaz. A fejlesztők minden konstruktív hozzászólást szívesen vesznek.

Hirdetés

Címkék: Nyelvtudomány, Tech, Keresőmotor, Korpusz, Kódex, Könyv, Számítógépes nyelvészet, Szövegfeldolgozás

Követem a cikkhozzászólásokat (RSS)

Hozzászóláshoz lépjen be vagy regisztráljon.

Még nincs hozzászólás, legyen Ön az első!

Hirdetés