nyest.hu
Kövessen, kérem!
Legutolsó hozzászólások
A nyelvész majd megmondja
A legnépszerűbb anyagok
Írjon! Nekünk!
nyest.hu
nyest.hu
 
Nyomtatásban jelent meg az adatbázis

Mindegy, hogy gyerekem lesz vagy eső lesz. Sőt az is mindegy, hogy szomorú leszek vagy világbajnok. Legalábbis egy fontos szempontból: az igei szerkezetek gyakorisága szempontjából. Azt, hogy ezek mennyire hasonlítanak és mennyire térnek el egymástól, megtudhatjuk a frissen megjelent Magyar igei szerkezetek – A leggyakoribb vonzatok és szókapcsolatok szótára című könyvből.

Simon Eszter | 2011. augusztus 4.
|  

A szótár több tekintetben is úttörő vállalkozás. Legelsősorban azért, mert ezelőtt még nem jelent meg olyan adattár, amely a magyar nyelv leggyakoribb igei szerkezeteit ilyen sokféle módon visszakereshetően tálalta volna.

Sass Bálint, Váradi Tamás, Pajzs Júlia, Kiss Margit: Magyar igei szerkezetek. A leggyakoribb vonzatok és szókapcsolatok szótára.
Sass Bálint, Váradi Tamás, Pajzs Júlia, Kiss Margit: Magyar igei szerkezetek. A leggyakoribb vonzatok és szókapcsolatok szótára.

De újdonságnak számít az a módszer is, ahogy a szótár anyaga előállt. Az már tulajdonképpen bevett gyakorlatnak számít, hogy a szótárak készítői a címszavak felvételénél, megírásánál nem elsősorban a saját intuíciójukra támaszkodnak, hanem élő nyelvi adatokat vesznek alapul. Ilyen adatokat pedig az ún. korpuszokban, vagyis nagyméretű szöveggyűjteményekben találhatunk. Az a lexikográfusi gyakorlat, hogy a tervezett címszóhoz keresnek előfordulásokat, és kiválasztanak pár szimpatikus mondatot, amit példaként idéznek a szótárban, lexikonban. Amikor ezt a módszert használják, a korpuszból származó nyelvi adatok csak illusztrációként szerepelnek. Ez a szótár viszont ennél tovább megy, ugyanis a szótár teljes anyaga korpuszból, számítógépes algoritmusok alkalmazásával állt elő. Az alapanyagot a Magyar Nemzeti Szövegtár szolgáltatta, amelynek mondataiból automatikusan kinyerték a lehetséges igei szerkezeteket és a hozzájuk tartozó gyakorisági adatokat. A könyvbe csak a 250-nél többször előforduló szerkezetek kerültek bele.

De mik is azok az igei szerkezetek? A mű szerzői szerint „igei szerkezet alatt az egy központi igéből és a hozzá tartozó (nulla vagy több) névszói csoport bővítményből álló szerkezeteket értjük”. Például a füléhez tartotta a tenyerét mondatban szerepel a tart ige és a hozzá tartozó bővítmények: a füléhez és a tenyerét. A szerzők a bővítmények elkülönítésében is új utat járnak, vagyis nem a hagyományosnak nevezhető vonzat – szabad határzó megkülönböztetést követik. Ehelyett lexikálisan szabad, illetve kötött bővítményekről beszélnek. A lexikálisan szabad bővítmények (LSzB) olyanok, amelyeknek csak az esetragja vagy névutója van megszabva, maga a szó, ami felveszi ezt, bármi lehet. Pl. kivették a kezemből a kalapácsota sarlót, a kapát, a klaviatúrát stb. Ezzel szemben a lexikálisan kötött bővítmények (LKB) esetében nem csak az esetrag, hanem maga a szó is fix, pl.: pontot tettek a 30 éve húzódó vita végére – de nem tehettek volna tortát vagy kutyát a vita végére.

Hófehérke és az öt törpe

A könyv hat nagyobb részből áll össze. Az első és legnagyobb ezek közül a szótári rész, amelyben – mint egy hagyományos szótárban – szócikkek követik egymást ábécérendben. Mégsem nevezhetjük hagyományosnak, nem csak az előbb felsoroltak miatt, hanem amiatt is, hogy a szótár alapegységei nem szavak, hanem az említett igei szerkezetek, a bennük található ige alá sorolva. Minden egyes igénél meg van adva a gyakorisága, vagyis hogy hányszor szerepelt a Magyar Nemzeti Szövegtárban. A címszó alatt szerepelnek az adott igéhez tartozó szerkezetek gyakoriságuk szerinti sorrendben. Ezt a sorrendezést csak az töri meg, hogy az általánosabb szerkezetek alá sorolták behúzással a valamelyik bővítményi helyen lexikálisan kötött bővítményeket tartalmazó specifikusabb szerkezeteket. Lássunk egy példát:

alakít (7477)

  • alakít -t [1807] jogi képviselőcsoportot alakítottak
    • alakít kormány-t [304] új kormányt alakítanak

A gyakorisági mérőszámok függetlenek egymástól, vagyis egy általánosabb szerkezet előfordulásainak a száma nem fedi le az alá besorolt specifikusabb szerkezet(ek) számát. Látható, hogy a lexikográfiai hagyományt azért annyiban követték a szótár létrehozói, hogy minden egyes bejegyzéshez az igei szerkezet használatát illusztráló példamondat tartozik. Ezek a korpuszból automatikus módszerrel kilistázott igei szerkezeteket tartalmazó mondatok közül lettek kiválasztva. A válogatást már két lexikográfus végezte: Pajzs Júlia és Kiss Margit.

A szótári részt öt mutató követi, amelyek ugyanazt az anyagot tartalmazzák, csak másként csoportosítva és rendezve. Az első ilyen a gyakorisági mutató, amelyben a gyakorisági mérőszámuk szerint vannak sorbarendezve a szerkezetek. Ebből a felsorolásból derül ki az is, hogy a „lesz gyerek-A” és a „lesz eső” (296), valamint a „lesz világbajnok” és a „lesz szomorú” (256) ugyanolyan gyakoriak.

A leggyakoribb a „mond -t” [136354], a második a „tud -t” [121340], és csak a harmadik a „van” [71980]. Nyilvánvalóan a „van” szerkezetet vártuk volna az első helyre – annak, hogy ez nem így van, több oka is van. Az egyik az, hogy a vant tartalmazó különböző szerkezetből több mint 10 oldalnyi van, vagyis a van ige összes előfordulása nagyon sok szerkezet között oszlik szét.

A másik a módszer egyik hiányosságában fakad: mivel a létige egyes szám harmadik személyben jelen időben nem jelenik meg, az ilyen előfordulásokra rákeresni nem lehet. (Lásd: én szomorú vagyok, te szomorú vagy, de ő szomorú, nem pedig *ő szomorú van – múlt időben viszont ő szomorú volt.) Gyakorlatilag is lehetetlen lett volna a 187 millió szavas korpuszt végigbogarászni az ilyen esetek után kutatva, elméletileg pedig borult volna az egységes szótárkészítési koncepció.

A harmadik ok az, hogy a van és a lesz két külön igeként van kezelve. Ennek az az oka, hogy a korpusz szavainak elemzéséhez használt morfológiai elemző ezt a kettőt külön kezeli. Meg lehetett volna tenni, hogy utólag összevonják őket, de mivel a két igének vannak különböző szerkezeteik (pl. „lesz -n úr-vÁ”), nem tették ezt a szótárkészítők. A szótári részből kiderül, hogy azért egyértelműen a van a leggyakoribb ige még így is: egy nagyságrenddel többször fordul elő (1507162), mint a szerkezetek listáján első helyezett mond (343471).

A keretek szerinti mutatóban az igei szerkezetek igétől független részeik szerint vannak rendezve, kezdve az olyanokkal, amelyeknek nulla bővítményük van, ábécérendben haladva a -vAl-ig. Ebből azt láthatjuk, hogy milyen különféle igék társulnak azonos kerettel. Az például elég szembeötlően kijön ebből a felsorolásból, hogy a van és a lesz sokszor jár ugyanazzal a kerettel.

A kötött szavak szerinti mutatóban az lexikálisan kötött bővítményekként megjelenő kötött szavak szerint csoportosítva látjuk a szerkezeteket. Ebből a névszók viselkedéséről kaphatunk képet, vagyis kiderül, hogy bizonyos névszók mely igékkel szeretnek leginkább együttjárni. A mutatót tanulmányozva szépen kirajzolódnak az idiomatikus szerkezetek (pl. „tör fej-A-t”), illetve a szó szerinti jelentésű, de gyakran együtthasznált szavak is (pl. „meg|ad úr-nak szó-t államtitkár”).

A szótár készítői az igekötőket külön egységként kezelik, mivel sokszor előfordul, hogy az igekötő önálló életet él, vagyis az igétől függetlenül kapcsolatban áll a bővítményekkel. Ezért a szótárban helyet kapott egy igekötős keretek szerinti mutató is, amelyben az igéről leválasztott igekötők és a velük járó esetragok, névutók vannak felsorolva. Jól láthatóvá válik, hogy bizonyos igekötők jellemzően milyen ragokkal járnak együtt (pl. bele -bA, fel -rA, ki -bÓl).

Az alapige szerinti mutató alapján szintén az igekötős igékről kaphatunk további információt. A teljes szótári anyag itt az igekötőtől megfosztott alapige alapján van rendezve. Azt vizsgálhatjuk ebben a részben, hogy milyen igék milyen igekötővel szeretnek leginkább együttjárni, illetve hogy mennyiben változtatja meg az igekötő az ige jelentését. Ezalapján az igék különböző jelentései is szépen kirajzolódnak, mivel a különböző jelentés általában különböző kerettel is jár (pl. „utal -rA”, „utal -t”).

De mire jó mindez?

A sokféle mutató, vagyis annak a lehetősége, hogy egy szerkezetet sokféleképpen is megtalálhatunk és elemezhetünk, nagyon praktikus és kényelmes használatot biztosít. Ennek ellenére – vagy éppen ezért? – felmerül az olvasóban a kérdés, hogy egy ilyen típusú szótárat miért könyvalakban adnak ki, miért nem egy online lekérdezőfelületet csináltak inkább. A szerzőkkel beszélgetve az derült ki számomra, hogy könyvet kiadni manapság, az e-bookok korában is nagyobb presztízs, mint egy weboldalon megjelentetni ugyanazt. Továbbá a célközönség – nyelvészek, nyelvtanárok, fordítók, magyarul tanulók – nagy része még mindig inkább hajlamos könyvet forgatni, mint egy webes lekérdezőfelületet használni. És persze az is hozzátartozik a teljes képhez, hogy a Magyar Nemzeti Szövegtár anyaga elérhető az interneten, továbbá létezik egy speciális korpuszlekérdező eszköz, a Mazsola, amelynek segítségével a magyar igék bővítményszerkezetét vizsgálhatjuk. Ez utóbbi a szótár egyik szerzőjének és a számítógépes algoritmus tervezőjének és kivitelezőjének, Sass Bálintnak a nevéhez fűződik szintén. Fontos különbség azonban, hogy a Mazsola nem tartalmazza a jellegzetes igei szerkezeteket összegyűjtő lépést, vagyis ha azt akarja vizsgálni, hogy mely szerkezetek tipikusak, akkor ehhez a szótárhoz kell fordulnia az olvasónak.

Könyvekről olvasna?

További könyvismertetések a nyesten!

Ha már idáig eljutott a jelen cikk olvasója, felmerülhet benne a kérdés, hogy ugyan mire lehet használni egy ilyen könyvet. A szótár elsősorban a nyelvész szakmának szól. Elméleti nyelvészeknek a kutatásban nyelvi adatok hiteles forrásaként, pszicholingvistáknak nyelvi kísérletek összeállításához segédanyagként, lexikográfusoknak ellenőrzött korpuszalapú adattárként, nyelvtechnológusoknak különböző alkalmazások fejlesztéséhez lexikális erőforrásként szolgálhat. A nyelvészeken kívül persze hasznosnak tarthatják fordítók, nyelvtanárok és haladó magyarul tanulók is a megfelelő magyar nyelvű kifejezések megtalálásához, a szókincs bővítéséhez.

Követem a cikkhozzászólásokat (RSS)
Hozzászóláshoz lépjen be vagy regisztráljon.
Még nincs hozzászólás, legyen Ön az első!
Információ
X