Legyen Ön is Fandorin!

Nyelv és politika Természettudomány Nyelvtudomány Oktatás LEITERJAKAB

Cikkfolyam

Kövessen, kérem!

Nem lát minket a Facebookon?

Kenyérpirítón szeretné?

Legutolsó hozzászólások

ganajtúrós bukta: Most találtam a wikiben: "Ugyanez a genom 50% manysi (finnugor), 35% szarmata (indoiráni) ...
2025. 07. 12, 20:34 Mi bizonyítja, hogy a magyar nyelv finnugor?
ganajtúrós bukta: @Sándorné Szatmári: Amúgy nincs kedved kalandmesternek jelentkezni a legközelebbi m.a.g.u....
2025. 07. 09, 18:00 Mi bizonyítja, hogy a magyar nyelv finnugor?
szigetva: @Sándorné Szatmári: Egyetlen konkrétum van a hosszú szövegedben: a magyarban E3-ban nincs ...
2025. 07. 09, 11:17 Mi bizonyítja, hogy a magyar nyelv finnugor?
Sándorné Szatmári: @ganajtúrós bukta: Idézet a cikkből: "...erősen kritizálják a nyelvcsalád fogalmát. Ennek ...
2025. 07. 09, 10:23 Mi bizonyítja, hogy a magyar nyelv finnugor?
ganajtúrós bukta: @Sándorné Szatmári: Az alapszókincs az olyan szavak amiket nap mint nap folyamatosan haszn...
2025. 07. 08, 23:12 Mi bizonyítja, hogy a magyar nyelv finnugor?

Összes hozzászólás >>

A nyelvész majd megmondja

Kálmán László nyelvész, a nyest szerkesztőségének alapembere, a hazai nyelvtudomány és nyelvi ismeretterjesztés legendás alakjának rovata volt ez.

Kálmán László korábbi cikkeit itt találja.

A legnépszerűbb anyagok

Szamojéd erkölcsök a magyar ugaron Ismerjük vagy használjuk? Elhunyt Kálmán László, a Nyelvész, aki megmondja Amikor az értelem legyőzi a nyelvtant A nyitás tárgya

Írjon! Nekünk!

nyest.hu

Ha legutóbb kimaradt, most itt az új lehetőség!

Őrizze meg Ön is agylátását!

Ha csak egyetlen cikket töltesz fel az Academia.edu-ra a plágiumról, akkor az mindenképp plagizált cikk legyen!

Ha ma csak egyetlen nyelvészeti kísérletben vesz részt, mindenképp ez legyen az!

Finnugor nyelvrokonság: hazugság

Hunok legyünk vagy magyarok?

A határozott névelő, ami azt jelenti, hogy ‘te’

*kota a Bölcsész Napokon

MTA: elítéljük a listákat

Az oroszok már a fejünkön vannak!

egueguegueguegu-eguegueguegueguegu...

Már baklövést is lehet véteni

Az Orosz Nyelv Nemzeti Korpusza

Legyen Ön is Fandorin!

Az Orosz Nemzeti Korpusz egy óriási, számos területen használható adattár. Segítségével a nyelvészek vizsgálhatják a nyelv apró vagy óriási változásait, a nyelvtanárok élővé tehetik a tankönyvek tartalmát, a nyelvtanuló ellenőrizheti, „hogyan használják valóban” szavakat. A korpusszal kimutathatók a műfajok, az írott és a beszélt nyelv közötti különbségek...

Tempfli Péter | 2011. április 27.

A cikk a hirdetés után folytatódik

Mielőtt belevágnánk a világ egyhatodán beszélt nyelvet feldolgozó korpusz bemutatásába, talán érdemes átgondolni, mi az a korpusz. Sok szöveg összegyűjtve magában még nem az, bár rengetegféle vizsgálatot így is lehet rajtuk végezni. Korpusszá az teszi őket, hogy a szövegek beválogatásának vannak valamiféle kritériumai, illetve a szövegek maguk is el vannak látva őket jellemző adatokkal.

A beválogatás elvei sokfélék lehetnek; a legkézenfekvőbb az időbeli felosztás; lehet egy korpusz csak a jelen nyelvállapotot tükröző, ám ha különböző korú szövegeket válogatunk össze, akkor vizsgálhatjuk a nyelv időbeli változásait is. A másik kézenfekvő szempont a szöveg műfaja: szépirodalmi, szakirodalmi, publicisztikai, és „egyéb” fajta szövegekkel lehet biztosítani, hogy az adatok kellőképpen reprezentatívak legyenek, és szokás bevenni nem írott (vagyis szóbeli) anyagot is. Ez sajnos időnként elég nehéz, mivel nem egyszerű kellő mennyiségű átírt beszélgetést beszerezni, illetve komoly kérdés az is, mi az elsődleges: az írott vagy a beszélt nyelv? Meg lehet jeleníteni továbbá a nyelv különféle dialektikus változatait is. A lényeg tehát az, hogy szemben egy elektronikus könyvtárral vagy akár az egész internettel, a korpusz tartalma elvileg kiegyensúlyozott és reprezentatív. Csak elvileg, mert az arányokat a készítők határozzák meg, és ezek korpuszonként erősen különbözőek lehetnek.

Az Orosz Nemzeti Korpusz a fentiek közül az összes típusú szöveget tartalmazza (ezek külön al-korpuszokat is képeznek), időben pedig a XVIII. század végétől a XXI. század elejéig terjed. Közel 50.000 dokumentumot és kb. 180 millió szót tartalmaz (ez nagyságrendileg ugyanannyi, mint a Magyar Nemzeti Szövegtár, a British National Corpus vagy Cseh Nemzeti Korpusz egyes, önálló részei)

Minden dokumentum rendelkezik egyedi azonosítóval, melyben többek közt szerepel létrejöttének dátuma, műfaja, szerzője, szerzőjének neme, forrása, az olvasóközönség típusa. A korpusz szavait morfológiailag elemezték (természetesen géppel), így nem csak konkrét szóalakra, de tövekre is kereshetünk (ismeretes, hogy az orosz alapvetően flektáló nyelv, kiterjedt ige-, főnév- és melléknév ragozással). A kereső, miután rákerestünk egy alakra, visszaadja az összes előfordulást kontextussal és forrással együtt, a szavakra kattintva pedig további nyelvtani információt kapunk. Érdemes megemlíteni a szintén kereshető szemantikai információkat is: egy előre kidolgozott rendszer alapján minden szóhoz szemantikai adatok is tartoznak. Néhány példa:

év (год) : r:abstr, t:time:age, t:time:period

Budapest (Будапешт) : r:propn, t:topon

érdekes (интересный): der:s, dt:abstr, dt:ment, ev:posit, r:qual

A kereső ezen túl arra is képes, hogy egy bizonyos tőnek csak bizonyos nyelvtani alakjait keresi ki (például egy ige múlt idejű, befejezett alakjait vagy egy főnév többes szám részes eseteit). Lehetséges az üres keresés is, ami használható ritka alakok kikeresésére is. Például az oroszban nyelvben létezik egy nagyon ritka ún. „második genitivus” eset, amiről egy kereséssel azonnal kiderül, hogy valamilyen furcsa okból csak egyes elvont kategóriákkal ('nép', 'értelem', stb.) és italokkal ('tea', 'konyak'...) együtt fordul elő. Természetesen a korpusz nem magyarázza meg ennek az okát, azonban kiváló eszköz saját hipotéziseink ellenőrzésére.

További írások a Számítógépes nyelvészetről

Szófaj-elemzés 2 – néhány újabb tapasztalat

Wordle: a logónk története

Szógyakoriság vizualizáció Many Eyes használatával

Szógyakoriság

A kereső tetszőleges számú szó kombinációira is tud keresni (az összes fenti lehetőséget kihasználva), és nem is csak egymás mellett, hanem egymástól tetszőleges távolságra. Így gyakorlatilag a szóelőfordulásokkal kapcsolatban bármilyen bonyolult kérdést feltehetünk, és biztosak lehetünk benne, hogy a százmilliós adatbázisban biztosan találunk releváns adatot. Ha nem, az arra utal: a kérdésünk helytelen, ilyen kombináció nem létezik az orosz nyelvben – és időnként ez is óriási eredmény! Az eredmények természetesen rendezhetők, átalakíthatók egymás alá rendezett KWIC (key word in kontext) formátumba, letölthetők excelben, XMLben.

Végül, érdemes megemlíteni, hogy semmiféle előzetes előzetes regisztráció nem szükséges, vagyis bárki számára elérhető az eszköz; a Studiorumban pedig metodológiai segítséget találunk a korpusz használatához, illetve cikkeket és hivatkozásokat az orosz és a nyugati korpusznyelvészet témakörében.

A korpusz természetesen angol nyelven is elérhető.

Orosz cím: http://www.ruscorpora.ru/index.html

Angol változat: http://www.ruscorpora.ru/en/index.html

Hirdetés

Címkék: Nyelvtudomány, Tech, Korpusz, Orosz nyelv, Számítógép, Számítógépes nyelvészet, Számítógépes programok

Követem a cikkhozzászólásokat (RSS)

Hozzászóláshoz lépjen be vagy regisztráljon.

Még nincs hozzászólás, legyen Ön az első!

Hirdetés