Látni a szöveget

Nyelv és politika Természettudomány Nyelvtudomány Oktatás LEITERJAKAB

Cikkfolyam

Kövessen, kérem!

Nem lát minket a Facebookon?

Kenyérpirítón szeretné?

Legutolsó hozzászólások

ganajtúrós bukta: @Sándorné Szatmári: Amúgy nincs kedved kalandmesternek jelentkezni a legközelebbi m.a.g.u....
2025. 07. 09, 18:00 Mi bizonyítja, hogy a magyar nyelv finnugor?
szigetva: @Sándorné Szatmári: Egyetlen konkrétum van a hosszú szövegedben: a magyarban E3-ban nincs ...
2025. 07. 09, 11:17 Mi bizonyítja, hogy a magyar nyelv finnugor?
Sándorné Szatmári: @ganajtúrós bukta: Idézet a cikkből: "...erősen kritizálják a nyelvcsalád fogalmát. Ennek ...
2025. 07. 09, 10:23 Mi bizonyítja, hogy a magyar nyelv finnugor?
ganajtúrós bukta: @Sándorné Szatmári: Az alapszókincs az olyan szavak amiket nap mint nap folyamatosan haszn...
2025. 07. 08, 23:12 Mi bizonyítja, hogy a magyar nyelv finnugor?
Sándorné Szatmári: @szigetva: Igen, feltételezem, hogy nem véletlenül maradtak fenn.. Nem ki, hanem rátalálta...
2025. 07. 08, 11:17 Mi bizonyítja, hogy a magyar nyelv finnugor?

Összes hozzászólás >>

A nyelvész majd megmondja

Kálmán László nyelvész, a nyest szerkesztőségének alapembere, a hazai nyelvtudomány és nyelvi ismeretterjesztés legendás alakjának rovata volt ez.

Kálmán László korábbi cikkeit itt találja.

A legnépszerűbb anyagok

Szamojéd erkölcsök a magyar ugaron Ismerjük vagy használjuk? Elhunyt Kálmán László, a Nyelvész, aki megmondja Amikor az értelem legyőzi a nyelvtant A nyitás tárgya

Írjon! Nekünk!

nyest.hu

Ha legutóbb kimaradt, most itt az új lehetőség!

Őrizze meg Ön is agylátását!

Ha csak egyetlen cikket töltesz fel az Academia.edu-ra a plágiumról, akkor az mindenképp plagizált cikk legyen!

Ha ma csak egyetlen nyelvészeti kísérletben vesz részt, mindenképp ez legyen az!

Finnugor nyelvrokonság: hazugság

Hunok legyünk vagy magyarok?

A határozott névelő, ami azt jelenti, hogy ‘te’

*kota a Bölcsész Napokon

MTA: elítéljük a listákat

Az oroszok már a fejünkön vannak!

egueguegueguegu-eguegueguegueguegu...

Már baklövést is lehet véteni

Szó szerint: virágzó irodalom

Látni a szöveget

A szöveges adatok vizualizációjáról már többször esett szó a Számítógépes nyelvészet című blogon. Kétségtelen, gyönyörű képeket lehet generálni, ám mindig felmerül a kérdés, mire jó a dolog… Például arra, hogy ha kellően nagy adathalmazon végzünk elemzést, akkor gyakran sokkal többet mond egy kép, mint maga a statisztika, jobban érthető egy történet képpel illusztrálva, mint a száraz számokkal.

Tempfli Péter | 2011. május 9.

A cikk a hirdetés után folytatódik

A legtöbb megoldás (szó-felhő, szó-fa, szavak elosztása tengelyek körül) valóban csak arra szolgál, hogy segítse az emberi elemzőt, a gépek remekül megvannak képek nélkül, nekik minél szárazabb az adathalmaz, annál jobb. Látni az adatokat azért lehet hasznos, mert “kiugranak” az olyan tulajdonságok, melyekre egyébként nem figyelnénk fel; és ha már egyszer kiugrottak, lehet rájuk olyan szabályt írni, amely segítségével a gépnek is el tudjuk magyarázni. Ha nem tudjuk, hol kezdjünk hozzá egy feladathoz, érdemes lehet minél több mindent lerajzolni, előbb-utóbb biztosan észreveszünk valamit. Valami ilyesmire van kitalálva például a Many Eyes rendszer is.

Van meg egy igazán érdekes példája a szöveg vizualizációjának. Stefanie Posavec úgy döntött, hogy tényleg látni akarja a szöveget (egészen pontosan Jack Kerouac Úton c. regényét). Az elképzelés alapja, hogy a szöveg nyelvi/szemantikai tulajdonságai alapján rajzolja meg a képet, de az esztétikumra is akkora hangsúly került, hogy virágokhoz hasonló, gyönyörű ábrák születtek. Adat-vezérelt művészet, ahol az adatok egy műalkotás feldolgozásából születnek. Ha belegondolunk, nincs ebben semmi új, tulajdonképpen ez az illusztráció klasszikus példája. Stefanie Posavec mondathosszokat és tematikus csomópontokat számol, ezeket szervezi fa-diagrammba. Az ábrák „kézzel” készültek (ez nyilván valamilyen számítógépes programot jelent).

Érdekes lenne automatizálni a folyamatot, talán néhány hasznos adatot sikerülne így kiugrasztani bármilyen más szövegből is. Egy előző posztban már volt szó a mondathosszokról, mint szerzőkre jellemző tulajdonságról; az is világos, hogy a mondathossz nagyban függ a mintavétel helyétől és módjától.

Az első kísérletben az Édes Anna szövegében az átlagos mondathosszokat vizsgáltam a szöveg különböző helyein, eltérő mintahosszúsággal. A grafikonokon látszik, hogy az átlagos mondathosszúság erősen ingadozik attól függően, honnan veszünk mintát. Az is világos, hogy minél nagyobb a minta, annál inkább egy átlag felé fog húzni a végeredmény, így a nagyobb mintaméret (például a kék vagy a piros vonal) kisebb szórást eredményez. A második grafikonon, a várakozásnak megfelelően, a mintaméret csökkenésével együtt a szórás nő. Az igazán érdekes kérdés, hogy hol van az a pont, ahol a minták kellőképpen kicsik ahhoz, hogy az átlagolás ne mossa el az egyediségüket, és kellőképpen nagyok ahhoz, hogy ne csak a véletlen szórást lássuk az ábrákon, de valamilyen értelmes szabályszerűséget is. Úgy tűnik, a mondathosszak esetében ez 1000-2000 szavas minta körül van (a zöld és a sárga sávok). Látható, hogy az ennél kisebb minták nem mutatnak túl sok szabályosságot.

Hasonló dolgokat figyelhetünk meg, ha összeszámoljuk a regényben található összes központozási jelet (pont, vessző, kötőjel, stb. – ezek az adatok vissza vannak vetítve a teljes szövegméretre, hogy kényelmes legyen ábrázolni), illetve a szövegben található párbeszédek számára is (itt egyszerűen összeszámoltam az olyan bekezdéseket, amelyek gondolatjellel kezdődnek – ezek az adatok is vissza vannak vetítve a teljes mintára).

Úgy tűnik, a 2000 szavas nagyságrend már alkalmas arra, hogy bizonyos szabályszerűségeket észleljünk. E körüli határt javasolnak több helyen is, mint minimális mintát sztilometriai vizsgálatokhoz – ez 3-4 gépelt oldal, egy középhosszú újságcikk, egy novella fele/harmada, ennek a blogbejegyzésnek a háromszorosa... Természetesen ahhoz, hogy egy szöveget valóban helyesen jellemezhessünk, jobban át kell gondolni a nyelvi adatok és a statisztika kapcsolatát – vajon kilógó és az extrém kilógó elemek (melyeket a kis-mintájú grafikonon látunk) rontják-e az adatainkat, vagy épp ellenkezőleg, értékesek a szöveg egyediségének jellemzése szempontjából? És mire lehetnek jók ezek a mérések? A mondathossz egy olyan ismérv, amit másokkal kombinálva használhatunk szerző/műfaj azonosításhoz; a párbeszédek arányát és punktuáció megoszlását használhatjuk például műfaj- vagy érzelem-elemzéshez is...

További hasonló cikkek a Számítógépes nyelvészetről

Szógyakorisági vizualizáció Many Eyes használatával

Szöveges információk vizualizációja Gephi és az AlchemyAPI segítségével

Hirdetés

Címkék: Nyelvtudomány, Tech, Statisztika, Számítógépes nyelvészet, Számítógépes programok

Követem a cikkhozzászólásokat (RSS)

Hozzászóláshoz lépjen be vagy regisztráljon.

Még nincs hozzászólás, legyen Ön az első!

Hirdetés

További hasonló cikkek a Számítógépes nyelvészetről