-
nasspolya: @Sándorné Szatmári: Miért pont ez a két nyelv? Az illírből főleg csak tulajdonnevek és pár...2024. 10. 10, 07:37 Ál- és Tudomány
-
Sándorné Szatmári: @szigetva: A szer szó sokoldalú jelentése a MAI magyar nyelvben amire gondoltam és amiről ...2024. 10. 06, 20:07 Ál- és Tudomány
-
szigetva: @Sándorné Szatmári: Azért inkább a tudományos forrásokat ajánlanám: uesz.nytud.hu/index.ht...2024. 10. 06, 14:26 Ál- és Tudomány
-
Sándorné Szatmári: @Sándorné Szatmári: 18 Kiegészítés:" Szerintem pontos magyarázatot kaphatunk a "szer" szó ...2024. 10. 06, 14:20 Ál- és Tudomány
-
Sándorné Szatmári: Ezt a Wikipédia oldalt hu.wikipedia.org/wiki/Eraviszkuszok úgy vélem érdemes megtekinteni....2024. 10. 04, 08:19 Ál- és Tudomány
Kálmán László nyelvész, a nyest szerkesztőségének alapembere, a hazai nyelvtudomány és nyelvi ismeretterjesztés legendás alakjának rovata volt ez.
- Elhunyt Kálmán László, a Nyelvész, aki megmondja
- Így műveld a nyelvedet
- Utoljára a bicigliről
- Start nyelvstratégia!
- Változás és „igénytelenség”
Kálmán László korábbi cikkeit itt találja.
Ha legutóbb kimaradt, most itt az új lehetőség!
Ha ma csak egyetlen nyelvészeti kísérletben vesz részt, mindenképp ez legyen az!
Finnugor nyelvrokonság: hazugság
A határozott névelő, ami azt jelenti, hogy ‘te’
Az oroszok már a fejünkön vannak!
Mindig is tudni szerette volna, hányszor szerepel az ómagyar szövegekben az, hogy „útelágadozás”? Érdekelné, hogy ó- és középmagyar nyelvemlékeinkben hányszor és milyen összefüggésben említették az „adó” szót? Az MTA Nyelvtudományi Intézete jóvoltából most minden kérdésére választ kaphat.
Képzeljük el, hogy a 21. században a nyelvtörténészek ha egy nyelvi jelenségre szeretnének példát találni, még mindig úgy keresnek, hogy felnyúlnak a polcra mondjuk a Jókai-kódexért, és kézzel-szemmel keresik ki benne a megfelelő szöveghelyet. Az évek, évtizedek alatt összegyűjtött nyelvtörténeti tudásukat mozgósítják olyankor, amikor például a határozott névelő első megjelenését szeretnék detektálni. De mi van azokkal a szerencsétlen földi halandókkal, akik mögött nem áll évtizedes kutatómunka, az olyan magyartanárokkal, akik nem annyira járatosak a területen, de érdekes példákkal szeretnének szemléltetni valamilyen történeti változást a magyarban? Vagy mit tegyen az az elméleti nyelvész, akit különböző magyar mondatszerkezetek kialakulása foglalkoztat? Ők nem feltétlenül tudják kapásból, hogy melyik nyelvemlékünkben említették először mondjuk a zsálya szót, vagy hogy melyik kódexben keressenek elváló igekötőket, melyikben nem érdemes, mert még nem alakult ki. Többek között nekik lehet nagyon hasznos segédeszköz a most készülő ó- és középmagyar szövegemlékek elektronikus adatbázisa.
(Forrás: MTI/Honéczy Barnabás)
A projekt 2009. április elsején, vagyis éppen egy éve indult az MTA Nyelvtudományi Intézetében. A 4 éves munka egyik vállalt célja egy olyan elektronikus adatbázis felépítése, amely tartalmazza a teljes ómagyar anyagot, és válogat a szövegekben jóval gazdagabb középmagyar kor anyagaiból. A nyelvtörténeti korszakok időhatárai a magyar történelem kiemelkedő pontjaihoz kapcsolódnak: az ómagyar kor a honfoglalástól Mohácsig, a középmagyar kor Mohácstól 1772-ig, vagyis Bessenyei György művének, az Ágis tragédiájának megjelenéséig, a magyar felvilágosodás kezdetéig tart. A projekt vállalásai között csak az összefüggő szövegemlékek feldolgozása szerepel, vagyis az ún. szórványemlékeket, amelyek csak egyes magyar szavakat tartalmaznak elszórva a szövegben, nem digitalizálnak. Eszerint az adatbázis 28 rövidebb ómagyar szövegemléket és 47 kódexet fog tartalmazni, ha elkészül.
(Forrás: Wikimedia)
Szövegemlékek a világban
Az elmúlt években világszerte egyre fontosabb szerepet kap az írott kultúrkincsnek a digitális korba való átmentése. Ebben (is) jelentős segítséget tudnak nyújtani az automatikus szövegfeldolgozás látványosan javuló minőségű technológiái. Az OSZK elektronikus könyvtárában számos kódex beszkennelt változata olvasható. A régi magyar szövegemlékek beolvasása önmagában azonban még nem teszi hozzáférhetővé a bennük lévő szöveget, szükséges a szöveg kinyerése, automatikus morfológiai és szintaktikai elemzése is. Ez biztosítja a szövegek olyan részletes keresését és elemzését, amilyenre a nyelvtörténészeknek, kutatóknak valójában szükségük van, és amelynek elkészülte a magyar nyelvtörténet kutatásának hatalmas lendületet adhat. Hasonló értékmentő, az adott nyelv történeti korpuszának megépítését célzó projektek a világ minden táján folynak, lásd például a Penn-Helsinki korpuszt, a spanyol nyelv történeti korpuszát vagy a walesi történeti korpuszt.
(Forrás: Molnár József-Simon Györgyi: Magyar nyelvemlékek. Tankönyvkiadó)
Korpuszoknak a nyelvészetben a nagy és strukturált szöveghalmazokat nevezzük, melyek elektronikusan tárolhatóak és feldolgozhatóak. Segítségükkel egyszerűen és gyorsan juthatunk információhoz az adott nyelvről, dialektusról, vizsgált nyelvi jelenségről – attól függően, hogy a korpusz milyen típusú szöveget és információkat tartalmaz. Vagyis itt nem csak a szövegek számítógépen való olvashatóvá tételéről van szó, hanem azok különféle nyelvészeti információval való ellátásáról is. Jelen projektben az adatbázis minden szövege többszintű, azaz a korpuszban minden egyes szövegszó mellett szerepelni fognak a következő adatok:
- az eredeti, betűhű szóalak, pl.: adÿad
- egy egyszerűsített alak, amely a mai magyar olvasó számára könnyebben olvasható: adyad
- az ún. normalizált alak, amely követi a mai magyar helyesírás szabályait: adjad
- a szóalak töve: ad
- a szóalak morfológiai elemzése: ad[V.Sub.S2.Def] (felszólító módú, egyes szám második személyű, határozott tárgyú ige)
A betűhű szöveg elektronikus változatának előállítása többféleképpen történhet. A legegyszerűbb, ha már megvan, mert már valaki begépelte – ez a legritkább eset. Az elektronikusan nem elérhetőeket a számítógép által olvasható és feldolgozható formára kell hozni: ez vagy úgy történik, hogy begépeljük, vagy – hosszabb szövegek esetében – optikai karakterfelismerő (Optical Character Recognition, OCR) szoftver segítségével a kódex nyomtatott kiadásának beszkennelt változatából kinyerjük a szöveget. A betűhű változatból készül egy egyszerűsített átirat, melynek az a célja, hogy a mai magyar olvasó számára könnyebben befogadható legyen az amúgy elég nehezen olvasható ómagyar szöveg. A normalizálás során két fő alapelvet tartunk szem előtt: először is elhagyunk minden fonológiai és helyesírási esetlegességet, és egységes, a mainak megfelelő helyesírásra törekszünk, másrészt viszont megtartunk minden ma már nem létező szót, toldalékot, morfológiai konstrukciót. Erre azért van szükség, mert az ómagyar korban korántsem volt egységes a helyesírás, az egyes korszakokban különféle helyesírási rendszereket követtek a kódexek másolói, a szkriptorok, és sokszor a saját dialektusuk jellemzőit is belevitték a szövegbe. A Müncheni kódex másolója például erősen ö-zik: "Jézus Krisztus Dávid fia Ábrahám fia születetének könyvö". A morfológiai elemzés automatikusan készül, a mai magyarra már létező alkalmazás ómagyarra való adaptálásával.
A kívánt információk lekérdezéséhez készült egy grafikus felület, amelynek egy tesztváltozata már elérhető és kipróbálható ezen az oldalon. A lekérdező lényege, hogy bármely szinten meg lehet fogalmazni a kérdésünket. Ha arra vagyunk kíváncsiak, hogy például a Bécsi-kódexben használtak-e mellékjeles betűket, akkor a betűhű szinten kell keresnünk. Ha gyakorisági listát szeretnénk készíteni a korpusz egy részéből, például arról, hogy hányszor szerepel a Mária vagy a picsa, akkor a szótövek szintjéhez kell fordulnunk. (Egyébként 12-1...) Ha nyelvészként azt szeretnénk vizsgálni, hogy egy igealak és a hozzá tartozó igekötő között milyen szavak szerepelhetnek, akkor ehhez már szükségünk van a szavak szófajára is, vagyis a morfológiai elemzés szintjén kell megfogalmaznunk a lekérdezésünket.
Az adatbázis jelenleg 3 kódexet (Bécsi, Birk, Jókai) és 18 kisebb ómagyar szövegemléket tartalmaz. A fejlesztők minden konstruktív hozzászólást szívesen vesznek.