nyest.hu
Kövessen, kérem!
Legutolsó hozzászólások
A nyelvész majd megmondja
A legnépszerűbb anyagok
Írjon! Nekünk!
nyest.hu
nyest.hu
 
A szöveged alapján a szoftver megmondja, fiú vagy-e vagy lány

Az eddigi eredmények nem rosszak, és talán tényleg lehet majd egyszer korlátozott körben használni a hobokeni kutatók programját.

IT café, Dajkó Pál | 2011. június 24.
|  

Érdekes szoftverfejlesztésről számolt be a múlt héten a New Scientist weboldala: a hobokeni Stevens Műszaki Egyetemen Na Cheng és csapata egy olyan programot készítettek, mely a szövegek esetében nagy valószínűséggel képes meghatározni a szerző nemét – írja az IT café. A kutatók szerint egy ilyen alkalmazás igen hasznos lehet a közösségi oldalak, blogok, üzenetküldők stb. esetében, mivel segíthet megvédeni a gyerekeket a rossz szándékú, magukat más neműnek kiadó zaklatóktól.

A Cheng és két kollégája, Rajarathnam Chandramouli és Koduvayur Subbalakshmi által írott szoftvert úgy lehet igénybe venni, hogy a felhasználó a kutatók szerverére feltölti az elemezni kívánt szöveget text formátumban, vagy pedig kimásol egy bekezdésnyit az eredetiből, és azt küldi el elemzésre. A program rövid idő elteltével jelzi, hogy a szöveg írója szerinte milyen nemű – esetleg a „semleges” megjelölést alkalmazza, ha nagyon neutrális szövegről van szó, amilyenek például a tudományos tartalmú textusok.

A szoftver kidolgozásához olyan gyűjteményeket használtak fel, mint például a Reuters hírarchívuma, vagy a csődjével hírhedtté vált Enron energetikai cég hatalmas e-mailadatbázisa. Ezeket a szövegeket korábbi kutatásokra alapozva pszicholingvisztikai szempontból elemezték: például nemre jellemző szavakat, szófordulatokat kerestek bennük, figyelték a központozás stílusát stb. Végül 545 vizsgálható jegyet határoztak meg, ezek közül 157 volt kifejezetten az adott nemre szignifikánsan jellemző – a kutatók szerint ilyenek például a központozás stílusa és a bekezdések hossza, mely a két nemnél jelentős mértékben eltér, illetve fontos tényezők a hangulat és az érzelmek kifejezésére használt szavak. A megtalált jellemzők elemzését egy Bayes-algoritmus végzi el.

A program persze nem tökéletes, jelenleg 85 százalékos pontossággal tudják megállapítani a szerző nemét – de folyamatosan tökéletesítik, és a várakozások szerint minél többen használják, annál jobb lesz, ugyanis a felhasználók segíthetik a fejlesztést a hibákat jelző üzeneteikkel.

Az ismertetőt közlő New Scientist újságírói a szolgáltatást három ismert író szövegeivel tesztelték le. V. S. Naipaul Nobel-díjas, a női írókat nem sokra tartó szerzőről, aki arról is ismert, hogy büszkén állítja: két bekezdés után megmondja, hogy a szöveget férfi vagy nő írta, a szoftver 88,4 százalékos biztonsággal mondta meg, hogy férfi. Mary Evans esetében, aki férfi álnéven publikált, a program szerint 94,6 százalék az esélye, hogy nő. De Sarah Palin, az elnökségre is pályázó, hajdan szépségkirálynői ambíciókat is dédelgető alaszkai politikus esetében, akinek nemrég hozták nyilvánosságra több mint 14 ezer e-mailjét, a szoftver egyetlen elektronikus levél elemzése után téves eredményt adott ki: a program szerint ő 70,77 százalékos biztonsággal férfi.

Követem a cikkhozzászólásokat (RSS)
Hozzászóláshoz lépjen be vagy regisztráljon.
3 Nước mắm ngon quá! 2011. augusztus 23. 20:36

Az Enron levelezését azért használták mert szabadon letölthetö és kutatható, de nem feltétlenül öleli fel az angol nyelv minden lehetséges regiszterét. A Reuters hírarchívuma szintén nem.

Az Enron e-mail-gyüjteményt innen lehet pl. letölteni, ha valakit még érdekel:

www.cs.cmu.edu/~enron/enron_mail_20110402.tgz

2 összetéveszthetetlen 2011. június 25. 23:11

@El Mexicano: teljes bizonyosságot ember sem tudna felmutatni, nem is erről van szó. Ahogy egy térfigyelő kamera sem veri bilincsbe az ajtótolvajt, csak segít a nyomozásban, ez is segíthet megtalálni tűket a szénakazalban.

1 El Mexicano 2011. június 24. 21:39

Próbálkozni próbálkozhatnak, de olyan programot nem fognak tudni csinálni, amely 100%-osan megbízható lenne, sőt, gyanítom, hogy olyat sem, amely 95%-osan. Egész egyszerűen azért, mert ahogy vannak férfias nők és nőies férfiak, ugyanez igaz lehet az írásukra is, már ha egyáltalán van létjogosultsága az írás nemek szerinti elkülönítésének. Ha pedig nem működik 100%-os biztonsággal, akkor mire jó? Bizonyítási eljárásokban használni semmiképpen sem lehetne, mert az érdekes lenne, ha pl. az alapján ítélnének el valakit, hogy "80%-ban biztos, hogy ő követte el a bűntettet" (de hogy tényleg ő követte-e el? Azt sajnos nem tudjuk). ;)

Információ
X