nyest.hu
Kövessen, kérem!
Legutolsó hozzászólások
A nyelvész majd megmondja
A legnépszerűbb anyagok
Írjon! Nekünk!
nyest.hu
nyest.hu
 
Nyílt kínai szótár

Különös oldal bukkant fel nemrég az interneten: egy nyílt kínai-magyar szótár, amelyben nemcsak keresni lehet, de bárki hozzá is írhat. Kinek van szüksége ilyesmire, és egyáltalán: mi fán terem 2017-ben egy kínai-magyar szótár?

Ugray Gábor | 2017. május 18.
|  

Kezdjük címszavasan. A CHDICT egy kínai-magyar kétnyelvű szótár, amelynek célja, hogy a kínai szavak jelentését, használatát és írását/olvasását tegye hozzáférhetővé magyar anyanyelvűeknek, illetve magyarul jól tudóknak. Több értelemben is nyílt: ingyenes; az egész szótárat bárki szabadon letöltheti és felhasználhatja; bárki belejavíthat és hozzáírhat. Kezdeti állapotában mintegy 11 ezer szócikket tartalmaz, amivel alulról súrolja a közepes méretet. A kiinduló anyag más nyelvű, szintén nyílt kínai szótárak angol és német cikkeinek magyarra fordításával készült. A közzétett weboldalon olyan hasznos funkciókat nyújt, mint a kézírás-felismerés és az írásjegyekhez tartozó vonássorrend-animációk: ezek a CHDICT saját anyagához hasonlóan mind nyílt erőforrásokon alapulnak.

Kínai poszter 1980-ból: „szeresd, tanuld és használd a tudományt!” Érdekessége, hogy az írásjegyek alatt a pinyin-átiratot is feltünteti, még ha hangsúlyjelek nélkül és némileg sután is
Kínai poszter 1980-ból: „szeresd, tanuld és használd a tudományt!” Érdekessége, hogy az írásjegyek alatt a pinyin-átiratot is feltünteti, még ha hangsúlyjelek nélkül és némileg sután is

Nincs új a nap alatt

A CHDICT elgondolásában valójában semmi eredeti nincsen: a kelet-ázsiai nyelveket leíró nyílt digitális szótárak több mint 25 éves múltra tekintenek vissza. Az úttörő a japán-angol EDICT volt, amit Jim Breen kezdett összeállítani 1991-ben. Az ő munkája inspirálta Paul Denisowskit, aki 1997-ben kezdett dolgozni a kínai-angol CEDICT-en. Hamarosan színre lépett a német és a francia célnyelv is. Mostanra ezek a szótárak mind tekintélyes, 100 ezer címszó feletti méretet értek el, s máig is aktívan fejlődnek.

A későn érkező CHDICT-nek így többszörösen is könnyű dolga volt. Egyrészt az elődök megalapozták az egyszerű, de mégis pont elegendő kifejezőerejű formátumot, amit én kiforrott formájában változtatás nélkül átvehettem. Másrészt a kiinduló anyag létrehozásánál nem kellett a semmiből építkezni: a már létező nyílt szótárak lehetővé teszik bármiféle származtatott anyag létrehozását, így természetesen azt is, hogy a bennük található angol vagy német megfelelőket egész egyszerűen magyarra fordítsam.

Izgalmas kérdés, hogy felveheti-e a versenyt az igényes, szakemberek (sinológusok és lexikográfusok) általt szerkesztett szótárakkal egy olyan szerzemény, amit lelkes laikusok építgetnek, szakmai kontroll nélkül, csupán a közösség önszabályozására építve. Én rendkívül optimista vagyok, hogy igen: minden jel szerint a CEDICT ma a legelterjedtebb kétnyelvű kínai szótár. Bár kétségtelen, hogy a nyelvet kevésbé részletesen és pontosan írja le, mint a szakemberek által szerkesztett szótárak, mégis ékes hibáktól mentes, és akár szakszókincsről, akár szlengről van szó, a dinamikusan változó kínai nyelv legfrissebb szavait garantáltan a CEDICT-ben találjuk meg először.

Egy kicsit mégis más

A CHDICT az elődöktől egyvalamiben azért mégiscsak különbözik. Azok célnyelve mind „nagy” nyelv, vagyis sok beszélővel rendelkezik, a beszélők pedig gazdaságilag és informatikailag fejlett, Kínával intenzív kapcsolatokat ápoló országokban élnek. A magyar ezzel szemben a digitális világban közepes nyelvnek tekinthető. Az egyik legizgalmasabb kérdés számomra ezért pont az, hogy az enyhén eltérő paraméterek hogyan befolyásolják a CHDICT hosszú távú fejlődését.

Mindemellett irtó jó érzés, hogy az angol, német és francia után a magyar a harmadik európai nyelv, amire efféle kínai szótár létrejött.

A szoftver nem papír

Miután körbejártuk a nemzetközi előzményeket, közelítsünk most másfelől: tisztán digitális, weben hozzáféhető szótárról lévén szó, miben különbözik a CHDICT a „hagyományos”, papíralapú szótáraktól? Ez azért izgalmas kérdés, mert egy olyan narratívába illeszkedik, amelynek a szótárakhoz alapvetően semmi köze.

Bár az internet látszólag a mindennapi élet minden szegletébe beférkőzött, a valóság mégis az, hogy a web mint médium sok tekintetben még mindig gyerekcipőben jár. Rengeteg webes tartalom az analóg, statikus világból jól ismert formátumok mechanikus átültetése egy böngészőablakba.

Mi sem illusztálja ezt jobban, mint a kínai írásjegyekkel való bánásmód. Alfabetikus írást használó nyelveknél, amilyen a magyar is, egyszerű rendszerezni a szavakat, hiszen jól meghatározott szabályok szerint ábécé-sorrendbe rendezhetjük őket. Teljesen magától értetődőnek vesszük, hogy az ábécé-sorrend a nyomtatott szótárak fő rendezőelve.

Kínai írásjegyekből viszont sokezer van, és nem megjósolható, hogy mi a kiejtésük. Néha még az sem egyértelmű, egészen pontosan hogyan kell leírni őket. A rendszerezésükhöz ezért hagyományosan rendkívül komplikált módszert alkalmazunk, amihez eleve rengeteg ismeretre van szükség: fell kell ismerni a gyököt (ilyenből pár száz van), látni kell, hány további vonást tartalmaz az írásjegy, és egy hosszú táblázatban kell ezek alapján keresgélni. A keresgélésnek köszönhetően a múltban sok-sok sinológus tett szert tanulóévei során 2-3-4 többletdioptriára.

Ha a szótár nem papírra nyomtatott statikus információ, a fentiek egy csapásra eltűnnek: elég az írásjegyet egérrel (vagy ujjal) a képernyőre rajzolni, és a szoftver felismeri azt, még akkor is, ha nem teljesen szabályszerűen jártunk el a rajzolás során.

De ide tartoznak olyan szempontok is, mint a nyomtatott változat terjedelmi korlátai és az ezekből eredő tömörítési kényszer, ami miatt a szócikkek nehezen áttekinthetőek, hemzsegnek a rövidítésektől. Végül ott a tény, hogy egy online szótár esetén a fenntartó pontosan látja, mely szavakra keresnek gyakran a felhasználók, ami segít kijelölni a szótárbővítés irányait.

A fentiek közül a CHDICT egyik tekintetben sem különleges vagy egyedülálló, viszont külön erőfeszítést tesz arra, hogy elébe menjen a kínai szótárat használók egyedi igényeinek, és mindezt sok-sok opció, beállítás és kattintgatás nélkül tegye.

Zárásként még egy fontos szempont: nem csak azokat kívánja kiszolgálni, akik a szótárban keresnek, hanem azokat is, akik a szótárhoz hozzáírnak. Új szó bevitelekor több különböző nyilvános adatbázisra építve automatikusan felkínálja a hagyományos írásjegyeket írásjeleket, a fonetikus átiratot és más hasonló információkat.

Műhelytitkok

Azok pedig nincsenek. A CHDICT megalapozása és az oldal kifejlesztése során fontosnak tartottam, hogy minden döntés átlátható, minden művelet megismételhető legyen. Ezzel egyrészt segíteni szeretnék másoknak, akik utánam hasonló fába vágják a fejszéjüket, például más „közepes” vagy „kicsi” nyelvre készítenek kínai szótárat, vagy más forrásnyelvű magyar szótárat építenek. Másrészt jó tudományos-kutatási gyakorlat, ha nem csak a következtetéseket és a módszert, hanem a kiindulási adatokat is közzétesszük, mivel csak így fedezhetik fel és helyesbíthetik hibáinkat mások az eljárás megismétlésével.

A nemlétező műhelytitkokról, a kínai lexikográfia sajátságairól, a dilettáns szótáríró dilemmáiról hamarosan további cikkekben számolok be.

A CHDICT kínai-magyar szótár főoldala

Követem a cikkhozzászólásokat (RSS)
Hozzászóláshoz lépjen be vagy regisztráljon.
1 El Vaquero 2017. május 18. 17:38

Szerintem is a szabadon szerkeszthető online szótáraké a jövő, már magam is gondolkoztam egy angol kiejtési szótár készítésén. A keresésekből kiderülnek a hiányzó szavak, nem kell éveket várni, mire papíralapon frissül, a téves közlések is gyorsabban helyesbíthetők, nem kerül sokezer forintba, nincs nyomtatási költség, olcsóbb készíteni, becsatolható hangminta és képillusztráció, statisztika, rugalmasabban testre szabhatók (mondjuk CSS-sel) a szócikkek megjelenése és részletessége, hyperlinkekkel könnyebb a szavak között ugrálni és azokra hivatkozni, csak egy kattintás, és már a másik hivatkozott szócikkel vagyunk, könnyebb keresni, akár szabályos kifejezésekkel (regular expressions), lehet keresni írásképre, kiejtésre, címkékre, nyelvtani és jelentésbeli kategóriákra, stb..

Jópofa ez a CHDICT, de pl. egérrel a jelbevitel eléggé nehézkes. Nem tudok kínaiul, csak egy-két jelet. Pl. a 人 jelet akartam volna neki berajzolni, de csak 儿 jelnek ismerte fel, lehet a kezem ügyetlen, de nagyon nehéz bármit is úgy berajzolni egérrel, hogy felismerje.

Ezenkívül a CEDICT-nél még online keresést sem enged, a szótárat le kell tölteni, ami azért elég hátrány sajnos, én mindenképp elvárnék webes felületet, úgy minden platformon működik (nem csak Windows, de Linux, BSD, Mac, Android, iOS, stb.).

Értem, hogy a kínai jelek univerzálisabbak, tradicionálisabbak, több, szóban kölcsönösen nemigen érthető nyelvjárást is összekötnek, de ma már elavultak. Online keresésnél és szórendezésnél megkeserítik az ember életét, így a kínaiaknak is szükségük lenne egy pinjin-szerű átírásra, amely normálisabban van megcsinálva, és latin betűs, a tónusok miatt ékezetes, diafonémikus, ebből pedig a szótár tovább bontaná latin betűs fonémikus írásra adott nyelvjárásra vonatkozóan, fonémikus IPÁ-ra és fonetikus IPÁ-ra. Persze attól még a hagyományos jel is szerepeltethető.

2 Sultanus Constantinus 2017. május 18. 19:41

Nekem épp nem jók a tapasztalataim az ilyen szótárakkal kapcsolatban (rövid ideig voltam adminisztrátora egy ilyennek). Mindenféle dilettáns beleír mindent, a 15 éves gyerektől kezdve olyanok, akik mondjuk 3 hónapja élnek nyelvterületen és azt hiszik, hogy már mindent tudnak, a felvett szavak tele voltak helyesírási hibákkal, vagy épp leírta úgy, ahogy a bunkó haverjaitól hallotta, a jelentésekről és a nem létező szavakról nem is beszélve. Nem győztem gyomlálni ki belőle a marhaságokat.

Nem volt egyszerű, egyrészt, mert a platform nagyon elavult volt (a fejlesztők és az üzemeltetők szokás szerint pár év múlva eltűntek és otthagytak mindent, mint általában szokás az informatikusoknál, utána "öröklési" alapon ment az egész, néhány megmaradt felhasználó, akinek volt adminjoga, szerkesztette, így kaptam valakitől én is, aki már idős volt és megunta), sebezhető is volt a rendszer, ráadásul volt néhány hülyegyerek is, aki ezt kihasználva azzal szórakozott, hogy havonta feltörte. Aztán amikor a hülyegyereknek sikerült egyszer úgy feltörnie szórakozásból, hogy a fele munkám odaveszett, amit addig javítgattam, foltozgattam, akkor hagytam ott én is a francba az egészet.

Egyébként sincs jó véleményem egyik "közösség által szerkeszthető" projektről sem, lehet, hogy bennem van a hiba, de én semmiképpen sem nélkülözném a szakembereket, akinek a jóváhagyása lenne szükséges egy ilyen szótárban a szavak felvételéhez. Egy egyszerű felhasználónak halvány fogalma sincs róla, hogy kell egy szót felvenni a szótárba, hogy kell megadni a jelentéseit, hogy kell a nyelvtani kategóriákat jelölni stb., hiába beszéli esetleg jól a nyelvet.

3 tenegri 2017. május 19. 01:27

@El Vaquero: "Jópofa ez a CHDICT, de pl. egérrel a jelbevitel eléggé nehézkes. Nem tudok kínaiul, csak egy-két jelet. Pl. a 人 jelet akartam volna neki berajzolni, de csak 儿 jelnek ismerte fel, lehet a kezem ügyetlen, de nagyon nehéz bármit is úgy berajzolni egérrel, hogy felismerje."

Sokat segít, ha a megfelelő vonássorrendben rajzolod meg a jelet. Az ilyen kínai kézírásfelismerők eléggé alapoznak erre az azonosításban.

4 El Vaquero 2017. május 19. 05:17

@tenegri: szerintem a 人 jel annyira egyszerű, hogy a sorrend nem számít, másrészt szerintem a sorrendet is jól alkalmaztam, először a bal szár, majd a jobb. A gond nem a sorrenddel lesz, hanem a kézi rajzolással, nehéz görbe vonalat húzni. Próbáltam egyenes vonalakkal is, úgy sem ismerte fel. Sokkal jobb lenne fix pontokat bevinni, és közéjük egyenes vonalat húzni, majd ezt a vonalat további segédpontokon kihúzással görbíteni, ahogy a vektorgrafikus rajzszerkesztőkben szokott lenni.

 

@Sultanus Constantinus: pedig a koncepció nem rossz, de nyilván a szerkesztési alapelveket előtte jól le kell fektetni. Az már régen rossz, ha egy 15 éves beleszerkeszthet út, hogy törölheti a munkádat. Meg lehet csinálni, hogy szavazati minősítés legyen, meg szakember felül tudja bírálni a szavakat, az ő bevitelére meg maximum kommentek érkezhetnek vagy vitacikk, a nagyon leszavazott opciók pedig csak rejtve jelenjenek meg, és külön kelljen lenyitni őket plusz kattintással. Nyilván nem egymás munkáját felülszerkesztve, hanem egymás mellett dolgozva. Meg lehet oldani kulturáltan, ki lehet szűrni a 15 éveseket és a konteósokat.

5 tenegri 2017. május 19. 10:41

@El Vaquero: "szerintem a 人 jel annyira egyszerű, hogy a sorrend nem számít"

De, számít. Lehet, az előbb nem hangsúlyoztam eléggé: a vonássorrend alapvető a felismerésben. Nem a kész karaktert próbálja felismerni, hanem a rajzolás közben a vonásokat. Azaz ha nem annyi és olyan irányú vonást rajzolsz, mint az adott karakter "szabályos" írásmódjában szerepel, akkor nem fogja felismerni. Ezek inkább készültek eredetileg kínaiaknak, akik ismerik a helyes sorrendet, mint olyanoknak, akik csak rajzolgatnak. Kipróbálhatod a 人 jelnél is: felülről indulva húzd meg előbb a bal, majd szintén felülről a jobb oldali vonalat, és mindegy lesz, hogy görbülnek-e, összeérnek-e, akár keresztezhetik is egymást, vagy méretben eltérhetnek, messze is lehetnek egymástól: a lényeg, hogy egy fentről balra le és egy fentről jobbra le irányú mozdulatot tegyél és a 人 ott lesz a felkínált karakterek közt. Ha pedig másként rajzolod, akkor nem.

6 IIII 2017. május 19. 11:00

Gratulálok, meg tök jó, meg örülök, bár én csak a Plecot használom, de gondolnunk kell angolul nem tudó társainkra is. DE sírva, és térden állva könyörgöm, és mindezt úgy, hogy nem vagyok nyelvtannáci, az írásjel, az ez: ,.-?; ......

囧 人 入 儿 ezek meg írásjegyek (angolul character). Remélem, a két szó helyes használata nem túl magas elvárás azokkal szemben, akik a csodálatos, bonyolult kínai nyelvvel bármilyen szinten is foglalkoznak.

7 El Vaquero 2017. május 19. 17:23

@IIII: nem tudom, hogy ezt kinek címezted, gyaníthatóan nekem. A cikk helyesen írásJEGYEK-et emleget, én meg laikusként (a köznyelvben elterjedt elnevezéssel élve) jeleket írtam. Vagyis a cikkbe egy helyen becsúszott az írásjel, valószínű nyelvbotlás, bár szerintem még az is elfogadható laikusok között vagy laikusoknak is szánt cikkben.

 

@tenegri: próbáltam úgy is. Sőt, most vettem észre, hogy pontok letételével is engedi, csak nem jeleníti meg a pontokat. Akárhogy erőlködök, 亼大儿 jelek valamelyikeként azonosítja. Mindegy melyiket húzom először, egyenes vagy görbe vonalakkal, hol és milyen magasságban metszik vagy keresztezik egymást, jobb vagy bal szár van-e meg előbb, mennyire kezdem fent, lent vagy a sarokban, mennyire húzom le Ráadásul az egyik létező legegyszerűbb jelről van szó.

Értem egyébként a kínaiakat, ők büszkék erre a nagyon absztrakt írásrendszerre, amely olyan absztrakt, hogy még a kiejtést sem tükrözi vissza semmilyen szinten (ennek ráadásul vitathatatlan előnyei is vannak), és több ezer éves hagyománya van, és ezt a kulturális felsőbbrendűséget és büszkeséget nem hajlandóak feladni, de a mai digitalizált világban erősen anakronisztikus, tényleg nem azért írom, mert kulturális vagy nyelvi sovinisztának akarok tűnni. A történelem azt bizonyítja, hogy a hangokat nem vagy kevésbé tükröző ősi írásrendszerek előbb-utóbb kikoptak a hangjelölés kárára, nem csak nyugaton, de az egész bolygón, kivéve a keleti népek (bár ott is vannak kivételek: vietnami latin ábécés írás, meg a koreai írás is fonetikus, de nem latin betűs). Ma már túl sok leírt információ között kell eligazodni, túl sokat kell írni, nemzetközi szinten is kommunikálni, mindenféle nem helyi emberekkel, és ezekkel a bonyolultan lerajzolható jelekkel szenvedés jelentős hátránnyal jár. Persze, ha a kulturális bezárkózás a cél, akkor ez megint előny is lehet valahol, de én úgy hallottam, hogy Kína nyit, üzletel az egész világgal, technikailag és tudományosan is az élre akar törni.

8 tenegri 2017. május 19. 17:47

@El Vaquero: Hát, ezek szerint van ilyen :) Helyes vonássorrenddel nekem nem sikerült olyat kicsiholnom belőle, hogy 人 ne legyen közte :)

9 Sultanus Constantinus 2017. június 10. 18:16
Információ
X