Nyelv és Tudomány- Főoldal - Miből tanulnak az algoritmusok?

Nyelv és politika Természettudomány Nyelvtudomány Oktatás LEITERJAKAB

Cikkfolyam

Kövessen, kérem!

Nem lát minket a Facebookon?

Kenyérpirítón szeretné?

Legutolsó hozzászólások

Sándorné Szatmári: @ganajtúrós bukta: Talán a mesterséges intelligencia alkalmas lesz felvállalni a bonyolult...
2025. 07. 02, 09:29 Mi bizonyítja, hogy a magyar nyelv finnugor?
ganajtúrós bukta: @Sándorné Szatmári: Szóval nem válaszolsz helyette ezt csinálod: hu.wikipedia.org/wiki/Ign...
2025. 07. 02, 00:27 Mi bizonyítja, hogy a magyar nyelv finnugor?
Sándorné Szatmári: @szigetva: @ganajtúrós bukta: Gondolom az átalános relativitás számunkra nyelvi téren érte...
2025. 07. 01, 21:08 Mi bizonyítja, hogy a magyar nyelv finnugor?
ganajtúrós bukta: @Sándorné Szatmári: Nem válaszoltál a kérdésemre. Mivel magyarázod a videót amit belinkelt...
2025. 07. 01, 18:44 Mi bizonyítja, hogy a magyar nyelv finnugor?
szigetva: @Sándorné Szatmári: Szinte mindenkinek van keze, lába, fia, lánya; kisebb számok, nap, hol...
2025. 06. 30, 13:04 Mi bizonyítja, hogy a magyar nyelv finnugor?

Összes hozzászólás >>

A nyelvész majd megmondja

Kálmán László nyelvész, a nyest szerkesztőségének alapembere, a hazai nyelvtudomány és nyelvi ismeretterjesztés legendás alakjának rovata volt ez.

Kálmán László korábbi cikkeit itt találja.

A legnépszerűbb anyagok

Szamojéd erkölcsök a magyar ugaron Ismerjük vagy használjuk? Amikor az értelem legyőzi a nyelvtant Elhunyt Kálmán László, a Nyelvész, aki megmondja A nyitás tárgya

Írjon! Nekünk!

nyest.hu

nyest.hu

Ha legutóbb kimaradt, most itt az új lehetőség!

Őrizze meg Ön is agylátását!

Ha csak egyetlen cikket töltesz fel az Academia.edu-ra a plágiumról, akkor az mindenképp plagizált cikk legyen!

Ha ma csak egyetlen nyelvészeti kísérletben vesz részt, mindenképp ez legyen az!

Finnugor nyelvrokonság: hazugság

Hunok legyünk vagy magyarok?

A határozott névelő, ami azt jelenti, hogy ‘te’

*kota a Bölcsész Napokon

MTA: elítéljük a listákat

Az oroszok már a fejünkön vannak!

egueguegueguegu-eguegueguegueguegu...

Már baklövést is lehet véteni

NLP Meetup

Miből tanulnak az algoritmusok?

Az adat az új olaj! Nézze meg, miből nyerheti ki és mibe tankolhatja egy izgalmas rendezvényen.

nyest.hu | 2017. március 20.

|

A cikk a hirdetés után folytatódik

Az adat az új olaj, halljuk sokszor mostanában, hiszen ha sok adatunk van, akkor azokon csodás algoritmusokat futtatva megjósolhatjuk a jövőt, eladhatjuk portékánkat, vagy felfedezhetjük az örök fiatalság szerét. Jól hangzik, de van egy kis probléma; önmagukban a nyers adatok csak egyesek és nullák halmazai adathordozókra mentve. Ahhoz, hogy a gépek tanulni tudjanak az adatokból, azokat megfelelő formában kell tálalni. Március 22-én, az NLP meetupon az érdeklődők megismerkedhetnek ennek a folyamatnak az alapjaival két gyakorlati példán keresztül.

A tanuló algoritmusok két nagy csoportba sorolhatóak, a szerint, hogy mire képesek és milyen adatokra van szükségük. Az első csoport a nem-felügyelt módszerek csoportja. Azért hívjuk őket nem-felügyeltnek, mert nekik egy nagy adag adaton kívül nem kell más a tanuláshoz. Az ilyen módszerek célja, hogy valamit megtanuljanak a tanulóadatokról, például, hogy hány csoportba sorolhatóak az elemeik és mi jellemzi az egyes csoportokat. Nem árt persze átalakítani a tanulóadatokat, pl. szövegek esetében gyakran lecseréljük a szavakat a szótövekre, kidobjuk az írásjeleket, a gyakran használt szavakat (például a kötőszavakat) és mindent csupa kisbetűsre alakítunk, de azon kívül, hogy előkészítjük az adatokat, nem igényelnek különösebb törődést. Például ilyen nem-felügyelt módszerrel állapítottuk meg, hogy milyen topikokba sorolhatóak a migránsokkal foglalkozó cikkek és képek. A felügyelt módszerek sokkal ambíciózusabbak, céljuk, hogy a tanulóadatokon megszerzett tudásukat új, korábban még nem látott adatokon kamatoztassák. Jó példa erre a klasszifikáció, amikor előre megadott kategóriák egyikébe kell besorolnunk egy még nem látott elemet, pl. egy újságcikket be kell sorolnunk a belföld, külföld, gazdaság, sport és bulvár kategóriák egyikébe. A klasszifikációt végző algoritmust ehhez először be kell tanítanunk, ehhez mutatnunk kell neki sok-sok példát a felismerni kívánt kategóriába tartozó cikkekből. A katgóriához való tartozást egy címke jelöli, ennek megléte és pontossága létfontosságú a felügyelt tanulás során. Sajnos azonban a legtöbb adat nincs felcímkézve! Ilyenkor nem tehetünk mást, mint annotálunk, azaz felcímkézzük az adatokat különféle szempontok szerint. Az ilyen munkák megszervezése rendkívül nehéz és körülményes, ugyanakkor nagyon fontos, hogy algoritmusaink minőségi adatokon tanuljanak, ne pedig az emberi előítéleteket reprodukáló mintákon, ahogy arról korábban már beszámoltunk.

Miből tanulnak az algoritmusok?

Az NLP meetupon két hazai cég mutatja be, hogyan készítik elő adataikat. A Belfry IO egy nem rég indult magyar startup. Termékük az online hozzászólások kezelését és szűrését teszi egyszerűbbé. Az automatikus moderálást lehetővé tevő algoritmusuk betanításához rengeteg kommentet kellet annotálniuk különböző nyelveken, ennek tapasztalatait osztják meg a meetup hallgatóságával.

Miből tanulnak az algoritmusok?

A Precognox a Járókelő számára végzett projektjét mutatja be, melynek célja, hogy a különböző bejelentésekre reagáló szervezetek automatikus visszajelzést kapjanak válaszaikról. Ehhez a Járókelőn található bejegyzésekre érkezett válaszok egy jelentős részét a Járókelő és a Precognox emberei különböző szempontok szerint felcímkézték, majd ezeken az adatokon tanult be egy algoritmus, ami automatikusan tudja értékelni immár a válaszokat. Az ideáig vezető út azonban rögös volt, hiszen az annotálás során több ember, több szempontból közelít a szövegekhez, ami az egyiknek semleges válasz, azt a másik rendkívül udvariatlannak értelmezheti, ami ahhoz vezethez, hogy inkonzisztens lesz a tanulóadatunk. Az előadás bemutatja milyen további problémák merülhetnek fel, hogyan oldhatjuk meg ezeket, hogy végül legyen egy betanított algoritmusunk.

Mindenkit szeretettel várunk március 22-én, 18:30-tól a Háló közösségi és Kulturális Központban (1052, Budapest, Semmelweis utca 4.)! A rendezvény ingyenes, de a részvétel előzetes regisztrációhoz kötött az esemény oldalán.

Hirdetés

Címkék: Nyelvtudomány, Szövegbiznisz, Tech, NLP Meetup

Követem a cikkhozzászólásokat (RSS)

Hozzászóláshoz lépjen be vagy regisztráljon.

Még nincs hozzászólás, legyen Ön az első!

Hirdetés

X