-
nasspolya: @Sándorné Szatmári: Miért pont ez a két nyelv? Az illírből főleg csak tulajdonnevek és pár...2024. 10. 10, 07:37 Ál- és Tudomány
-
Sándorné Szatmári: @szigetva: A szer szó sokoldalú jelentése a MAI magyar nyelvben amire gondoltam és amiről ...2024. 10. 06, 20:07 Ál- és Tudomány
-
szigetva: @Sándorné Szatmári: Azért inkább a tudományos forrásokat ajánlanám: uesz.nytud.hu/index.ht...2024. 10. 06, 14:26 Ál- és Tudomány
-
Sándorné Szatmári: @Sándorné Szatmári: 18 Kiegészítés:" Szerintem pontos magyarázatot kaphatunk a "szer" szó ...2024. 10. 06, 14:20 Ál- és Tudomány
-
Sándorné Szatmári: Ezt a Wikipédia oldalt hu.wikipedia.org/wiki/Eraviszkuszok úgy vélem érdemes megtekinteni....2024. 10. 04, 08:19 Ál- és Tudomány
Kálmán László nyelvész, a nyest szerkesztőségének alapembere, a hazai nyelvtudomány és nyelvi ismeretterjesztés legendás alakjának rovata volt ez.
- Elhunyt Kálmán László, a Nyelvész, aki megmondja
- Így műveld a nyelvedet
- Utoljára a bicigliről
- Start nyelvstratégia!
- Változás és „igénytelenség”
Kálmán László korábbi cikkeit itt találja.
Ha legutóbb kimaradt, most itt az új lehetőség!
Ha ma csak egyetlen nyelvészeti kísérletben vesz részt, mindenképp ez legyen az!
Finnugor nyelvrokonság: hazugság
A határozott névelő, ami azt jelenti, hogy ‘te’
Az oroszok már a fejünkön vannak!
Az Orosz Nemzeti Korpusz egy óriási, számos területen használható adattár. Segítségével a nyelvészek vizsgálhatják a nyelv apró vagy óriási változásait, a nyelvtanárok élővé tehetik a tankönyvek tartalmát, a nyelvtanuló ellenőrizheti, „hogyan használják valóban” szavakat. A korpusszal kimutathatók a műfajok, az írott és a beszélt nyelv közötti különbségek...
Mielőtt belevágnánk a világ egyhatodán beszélt nyelvet feldolgozó korpusz bemutatásába, talán érdemes átgondolni, mi az a korpusz. Sok szöveg összegyűjtve magában még nem az, bár rengetegféle vizsgálatot így is lehet rajtuk végezni. Korpusszá az teszi őket, hogy a szövegek beválogatásának vannak valamiféle kritériumai, illetve a szövegek maguk is el vannak látva őket jellemző adatokkal.
A beválogatás elvei sokfélék lehetnek; a legkézenfekvőbb az időbeli felosztás; lehet egy korpusz csak a jelen nyelvállapotot tükröző, ám ha különböző korú szövegeket válogatunk össze, akkor vizsgálhatjuk a nyelv időbeli változásait is. A másik kézenfekvő szempont a szöveg műfaja: szépirodalmi, szakirodalmi, publicisztikai, és „egyéb” fajta szövegekkel lehet biztosítani, hogy az adatok kellőképpen reprezentatívak legyenek, és szokás bevenni nem írott (vagyis szóbeli) anyagot is. Ez sajnos időnként elég nehéz, mivel nem egyszerű kellő mennyiségű átírt beszélgetést beszerezni, illetve komoly kérdés az is, mi az elsődleges: az írott vagy a beszélt nyelv? Meg lehet jeleníteni továbbá a nyelv különféle dialektikus változatait is. A lényeg tehát az, hogy szemben egy elektronikus könyvtárral vagy akár az egész internettel, a korpusz tartalma elvileg kiegyensúlyozott és reprezentatív. Csak elvileg, mert az arányokat a készítők határozzák meg, és ezek korpuszonként erősen különbözőek lehetnek.
Az Orosz Nemzeti Korpusz a fentiek közül az összes típusú szöveget tartalmazza (ezek külön al-korpuszokat is képeznek), időben pedig a XVIII. század végétől a XXI. század elejéig terjed. Közel 50.000 dokumentumot és kb. 180 millió szót tartalmaz (ez nagyságrendileg ugyanannyi, mint a Magyar Nemzeti Szövegtár, a British National Corpus vagy Cseh Nemzeti Korpusz egyes, önálló részei)
Minden dokumentum rendelkezik egyedi azonosítóval, melyben többek közt szerepel létrejöttének dátuma, műfaja, szerzője, szerzőjének neme, forrása, az olvasóközönség típusa. A korpusz szavait morfológiailag elemezték (természetesen géppel), így nem csak konkrét szóalakra, de tövekre is kereshetünk (ismeretes, hogy az orosz alapvetően flektáló nyelv, kiterjedt ige-, főnév- és melléknév ragozással). A kereső, miután rákerestünk egy alakra, visszaadja az összes előfordulást kontextussal és forrással együtt, a szavakra kattintva pedig további nyelvtani információt kapunk. Érdemes megemlíteni a szintén kereshető szemantikai információkat is: egy előre kidolgozott rendszer alapján minden szóhoz szemantikai adatok is tartoznak. Néhány példa:
év (год) : r:abstr, t:time:age, t:time:period
Budapest (Будапешт) : r:propn, t:topon
érdekes (интересный): der:s, dt:abstr, dt:ment, ev:posit, r:qual
A kereső ezen túl arra is képes, hogy egy bizonyos tőnek csak bizonyos nyelvtani alakjait keresi ki (például egy ige múlt idejű, befejezett alakjait vagy egy főnév többes szám részes eseteit). Lehetséges az üres keresés is, ami használható ritka alakok kikeresésére is. Például az oroszban nyelvben létezik egy nagyon ritka ún. „második genitivus” eset, amiről egy kereséssel azonnal kiderül, hogy valamilyen furcsa okból csak egyes elvont kategóriákkal ('nép', 'értelem', stb.) és italokkal ('tea', 'konyak'...) együtt fordul elő. Természetesen a korpusz nem magyarázza meg ennek az okát, azonban kiváló eszköz saját hipotéziseink ellenőrzésére.
További írások a Számítógépes nyelvészetről
Szófaj-elemzés 2 – néhány újabb tapasztalat
A kereső tetszőleges számú szó kombinációira is tud keresni (az összes fenti lehetőséget kihasználva), és nem is csak egymás mellett, hanem egymástól tetszőleges távolságra. Így gyakorlatilag a szóelőfordulásokkal kapcsolatban bármilyen bonyolult kérdést feltehetünk, és biztosak lehetünk benne, hogy a százmilliós adatbázisban biztosan találunk releváns adatot. Ha nem, az arra utal: a kérdésünk helytelen, ilyen kombináció nem létezik az orosz nyelvben – és időnként ez is óriási eredmény! Az eredmények természetesen rendezhetők, átalakíthatók egymás alá rendezett KWIC (key word in kontext) formátumba, letölthetők excelben, XMLben.
Végül, érdemes megemlíteni, hogy semmiféle előzetes előzetes regisztráció nem szükséges, vagyis bárki számára elérhető az eszköz; a Studiorumban pedig metodológiai segítséget találunk a korpusz használatához, illetve cikkeket és hivatkozásokat az orosz és a nyugati korpusznyelvészet témakörében.
A korpusz természetesen angol nyelven is elérhető.
Orosz cím: http://www.ruscorpora.ru/index.html
Angol változat: http://www.ruscorpora.ru/en/index.html