nyest.hu
Kövessen, kérem!

Nem lát minket a Facebookon?

Kenyérpirítón szeretné?

Legutolsó hozzászólások
A nyelvész majd megmondja
A legnépszerűbb anyagok
Írjon! Nekünk!
nyest.hu
nyest.hu
 
Pályaválasztási tanácsadó
Hogyan lehet számítógépes nyelvész?

Úgy néz ki, hogy májusban megszaporodnak a levelek, melyekben arról érdeklődnek a Számítógépes nyelvészet olvasói, hogy miképp is válhat valaki számítógépes nyelvésszé. Ahhoz, hogy valaki szakértő legyen egy területen, kb. tíz év gyakorlás és gyakorlat szükséges (l. Norvig Teach Yourself Programming című esszéjét vagy Mérő László Mindenki másképp egyforma című könyvét). Rossz hír, hogy az interdiszciplináris területeken talán több is.

Varjú Zoltán | 2011. május 12.
|  

Jó hír viszont, hogy ezt egyáltalán nem kell úgy érteni, hogy ennyi időt kell az iskolapadban eltölteni (habár ha egy PhD-t bevállal valaki, akkor nyolc kellemes évet tölthet el a felsőoktatásban – talán nem véletlenül). Tovább bonyolítja a helyzetet, hogy a számítógépes nyelvészet területére különböző hátterű emberek érkeznek, ezért nincs egységes recept. A Számítógépes nyelvészet megpróbál olyan forrásokat is bemutatni, melyek segíthetnek az érdeklődőknek. Az alábbiakban ezeket szedegettük össze, és megpróbáltuk egy egységes keretbe foglalni, hogy ki-ki megtalálja a maga forrásait útja elkezdéséhez.

Hogyan lehet számítógépes nyelvész?

Előzetes megjegyzések

Nagyon sok dologgal fog találkozni ebben a cikkben. És ez csak a minimum! Nyilván valamelyik területen van már tapasztalata, ha komoly érdeklődő, és ezen a területen gyorsabban fog haladni. Ha így van, félig nyert ügye van! A többire viszont időt kell áldoznia. Fókuszáljon egy-két területre, és ne adja fel! Az önismeret elengedhetetlen, önállóan feldolgozni egy-egy témát nagyon nehéz! Körültekintően válassza ki, melyik forrással kezdi! Ha túl nehéznek találja az egyik könyvet, keressen magának egy olyat, amely egyszerűbben tálalja a problémát, vagy nézze meg, milyen előismeretei hiányoznak. Merjen félbehagyni egy könyvet, ha túl nehéz! Nem szégyen elővenni egy középiskolai könyvet, és átnézni! Tanulja meg beosztani az idődejét! (Ebben segíthet a Pomodoro technika, amiről itt és itt olvashat.)

Ha még nem tud angolul legalább zökkenőmentesen olvasni, álljon meg és gyakoroljon! Sokan hiszik, hogy a nyelvészek sok nyelvet beszélnek, ám ez nem igaz. De angolul ma már tudnia kell mindenkinek! Minden további nyelv fontos, gazdasági, tudományos, és művelődési szempontból is – ha ideje engedi, és lehetősége van rá, tanuljon meg az angol mellé még egy-két másik idegen nyelvet is.

Nyelvészet - csak röviden!

Már több mint egy éves ez a poszt – ez volt az első kérésre írt válasz a Számítógépes nyelvészeten. Mindegy, hogy milyen háttérrel érkezik a területre, valamennyi nyelvészeti tudás szükséges. Az ismertetőben ingyenes anyagokat is ajánlunk, de nem árt pár könyvbe beruházni.

Nem szabad félni a matektól!

Ha valaki szeret gondolkodni, akkor nincs oka félni a matematikától! Kezdetnek és szemléletformálásnak Enikő Logika és tudományelmélet mindenkinek írásában bemutatott népszerűsítő tudományos műveket ajánljuk. Egy pár fejtörő és paradoxon mindenkinek érthető módon bemutatva elég a kezdethez.

Ha ez megvan, akkor érdemes a diszkrét matematikával és logikával folytatni. Erről a Logika mindenkinek I és II című posztok, valamint Dávid Matematika és logika nyelvészeknek posztja szólt bővebben.

És a statisztikáról se feledkezzünk meg

A statisztika és a valószínűségszámítás szintén elengedhetetlen terület. Nem szabad azt hinni, hogy fontosabb, vagy éppen kevésbé fontos, mint a diszkrét matematika! Ha a végén a sztochasztikus módszer híve is lesz, akkor sem kerülheted el a diszkrét matekok, hiszen az az algoritmusok és a számításelmélet megértéséhez szükséges. Ha már van némi alapja a formális gondolkodás területén, csak akkor rohamozza meg a statisztikát! Kezdésnek nagyon jók az Enikő által bemutatott Head First Statistics és Head First Data Analysis kötetek. További forrásokért ajánljuk a Statisztikai túlélőkészlet posztot, ahol már egy kicsit komolyabb anyagok is szóba kerülnek, ill. ingyenes forrásokat is találhat.

Itt nagyon hamar elérkezünk a programozáshoz, az R nyelv ismerete manapság elengedhetetlen egy számítógépes nyelvész számára. Magát a nyelvet R, de miért is használjam I és II posztokban mutattuk be. Sok remek könyv van a piacon amiből tanulhat, közülük kiemelendő a The Foundations of Statistics: A Simulation-based Approach című.

A kemény dió - programozás és számítástudomány

A számítógépes nyelvészet lényege az, hogy az elméleteket ellenőrizhető, futtatható formában kell megfogalmazni. Ehhez szükséges a programozás. Ideális esetben elég lenne egy nyelv ismerete, de hát ettől még messze vagyunk. A fent már említett R nyelvet használjuk az adatok feltérképezéséhez. Az adatok manipulálását azonban a Python nyelvvel szoktuk általában végezni, ennek ismerete alap, és nagyon jól jön, mivel a szakma gyakorlati oldalát bemutató alapkönyvek is ezt használják. Ezekről a Head First Programming és Head First Python könyveket bemutató írás végén talál információkat.

A logikai programozás paradigmája nem túl népszerű manapság, de a számítógépes nyelvészek szeretik, mivel könnyen lehet prototípust készíteni a nyelvben. Ha valaki biztos alapokat akar, és szeretné látni az elméleti hátteret is a legelterjedtebb eljárások mögött, az nem elégedhet meg a Python posztban említett nltk-val! A részletekben a Logikai programozás nem programozóknak poszt segít eligazodni.

Különböző okok miatt egyre jobban terjed a funkcionális paradigma. Ezzel is meg kell ismerkednie annak aki számítógépes nyelvészetre adja a fejét! A Funkcionális programozás című poszt segít elindulni ezen a területen.

Amiről még mi sem beszéltünk

A biztos alapok megléte előfeltétele annak, hogy megbirkózzon olyan dolgokkal, mint pl. algoritmusok és adatstruktúrák – ami tkp. a számítógépes nyelvészeti munka lényege! Az különböző adatbázisok ismerete is elengedhetetlen ahhoz, hogy jó szakember legyen valakiből. És a legvégén nem árt foglalkozni a szakma metodológiai, filozófiai kérdéseivel és etikai vonatkozásaival sem, legalább érintőlegesen. A jövőben a Számítógépes nyelvészet igyekszik ezeket a területeket is bemutatni legalább egy-egy könyvismertető keretében.

Követem a cikkhozzászólásokat (RSS)
Hozzászóláshoz lépjen be vagy regisztráljon.
Még nincs hozzászólás, legyen Ön az első!
Információ
X