MSZNY 2010. Második nap, délelőtt

Nyelv és politika Természettudomány Nyelvtudomány Oktatás LEITERJAKAB

Cikkfolyam

Kövessen, kérem!

Nem lát minket a Facebookon?

Kenyérpirítón szeretné?

Legutolsó hozzászólások

ganajtúrós bukta: @Sándorné Szatmári: Szóval nem válaszolsz helyette ezt csinálod: hu.wikipedia.org/wiki/Ign...
2025. 07. 02, 00:27 Mi bizonyítja, hogy a magyar nyelv finnugor?
Sándorné Szatmári: @szigetva: @ganajtúrós bukta: Gondolom az átalános relativitás számunkra nyelvi téren érte...
2025. 07. 01, 21:08 Mi bizonyítja, hogy a magyar nyelv finnugor?
ganajtúrós bukta: @Sándorné Szatmári: Nem válaszoltál a kérdésemre. Mivel magyarázod a videót amit belinkelt...
2025. 07. 01, 18:44 Mi bizonyítja, hogy a magyar nyelv finnugor?
szigetva: @Sándorné Szatmári: Szinte mindenkinek van keze, lába, fia, lánya; kisebb számok, nap, hol...
2025. 06. 30, 13:04 Mi bizonyítja, hogy a magyar nyelv finnugor?
Sándorné Szatmári: @szigetva: 744 Kiegészítésem: Az "alap szókincs" sem egyértelmű, mert mihez képest alap.. ...
2025. 06. 30, 12:57 Mi bizonyítja, hogy a magyar nyelv finnugor?

Összes hozzászólás >>

A nyelvész majd megmondja

Kálmán László nyelvész, a nyest szerkesztőségének alapembere, a hazai nyelvtudomány és nyelvi ismeretterjesztés legendás alakjának rovata volt ez.

Kálmán László korábbi cikkeit itt találja.

A legnépszerűbb anyagok

Szamojéd erkölcsök a magyar ugaron Ismerjük vagy használjuk? Amikor az értelem legyőzi a nyelvtant Elhunyt Kálmán László, a Nyelvész, aki megmondja A nyitás tárgya

Írjon! Nekünk!

nyest.hu

Ha legutóbb kimaradt, most itt az új lehetőség!

Őrizze meg Ön is agylátását!

Ha csak egyetlen cikket töltesz fel az Academia.edu-ra a plágiumról, akkor az mindenképp plagizált cikk legyen!

Ha ma csak egyetlen nyelvészeti kísérletben vesz részt, mindenképp ez legyen az!

Finnugor nyelvrokonság: hazugság

Hunok legyünk vagy magyarok?

A határozott névelő, ami azt jelenti, hogy ‘te’

*kota a Bölcsész Napokon

MTA: elítéljük a listákat

Az oroszok már a fejünkön vannak!

egueguegueguegu-eguegueguegueguegu...

Már baklövést is lehet véteni

MSZNY 2010. Második nap, délelőtt

Szegeden második napja folyik a Magyar Számítógépes Nyelvészeti Konferencia. Helyszíni tudósításunk.

nyest.hu | 2010. december 3.

A cikk a hirdetés után folytatódik

A második nap délelőttjének első szekciója a szemantikus keresésről szól. A szemantikus keresés során nem szavakra keresünk rá, hanem kulcsszavak alapján olyan jelentésekre, amelyek a kulcsszavakkal összefüggenek. Ez részben rokon értelmű kifejezésekre való automatikus rákereséssel történik, részben úgy, hogy a gép a korpuszban található mondatokat is „értelmezi”. (Tehát a Mi az Európai Unió fővárosa? kérdésre akkor is megtalálja a választ, ha az Az EU adminisztrációs köpontja Brüsszel formában szerepel a korpuszban.)

Szőts Miklós, Csirik János, Gergely Tamás és Karvalics László MASZEKER: projekt szemantikus keresőtechnológia kidolgozására című előadásában egy olyan kereőprogram fejlesztéséről esett szó, melyet elsősorban angol nyelvű szabadalmak szövegében való keresésre fejlesztettek ki. Különös nehézséget jelentett, hogy ezekben a szövegekben igen bonyolult módosítói szerkezetek fordulnak elő.

Vincze Veronika, Nagy Ágoston, Klausz Ágnes, Almási Attila és Kiss Márton Nyelvészeti problémák a szabadalmak feldolgozásában című előadása az előzőleg bemutatott projekt során felmerült nyelvészeti problémákról szólt. A szabadalmak tele vannak általánosító szerkezetekkel (stb., általában – hogy a szabadalom körét utólag is bővíteni lehessen), illetve sajátos kifejezések, terminusok, szerkezetek jellemzik óket. A fejlesztők kulcsként határoztak meg olyan mondatszerkezeti pozíciókat, melyek tipikusan a legfontosabb információkat tartalmazzák.

Klausz Ágnes, Vincze Veronika, Nagy Ágoston és Almási Attila előadása az előző témát folytatja Vonzatkeretek vizsgálata orvostudományi tárgyú, angol nyelvű szabadalmi szövegeken címen. Fő kérdésük az volt, hogy a szabadalmi szövegek feldolgozásához szükség van-e olyan vonzatkeretek felvételére, melyek csak a szabadalmi szövegekre jellemzőek, vagy elég azokra támaszkodni, melyeket általános szövegek alapján vettek el. Voltak: a vizsgált korpuszhoz 93 vonzatkeretet kellett felvenni, ugyanakkor a Google dictionary által ismert vonzatkeretek többsége a szabadalmi szövegekben nem fordult elő.

Orosz György Egy vertikális nyelvi kereső készítése címen adott elő. Feladata az volt, hogy nyílt forráskód eszközökkel magyar nyelvű keresőt készítsen. A megszokott keresőfunkciókat azzal bővítette, hogy a rokon értelmű szavakra is keresett a gép, de ezt a felhasználó is befolyásolhatta, hogy ne kapjon érdektelen találatot (pl. ha (parlamenti) ülésre keres, akkor ne kapjon székekre vonatkozó találatokat).

Ezt követte a kávészünet, majd a beszédtechnológia szekció következett.

Mozsolics Tamás, Tarján Balázs, Mihajlik Péter és Fegyó Tibor Környezetfüggetlen és sztochasztikus nyelvtanok összehasonlítása többnyelvű gépi beszédfelismerési feladatban című előadásában olyan beszédfelismerési feladatokról volt szó, melyekben viszonylag szűk a felismerendő nyelvi jelek köre (pl. pizzarendelésnél a pizzák fajtáinak, mozijegyvásárlásnál a filmcímek felismerése). A feladat hatnyelvű beszédfelismerő elkészítése volt, melynek segítségével navigációs rendszerektől lehet emberi nyelven információt kérni (pl. Hol van a közelben pizzéria?).

Illeszkedés

Jól illeszkedő tanítókorpusznak olyan szövegeket nevezünk, melyek típusukban, tartalmukban hasonlítanak azokhoz a szövegekhez, amelyeket majd fel akarunk ismerni. A rosszul illeszkedő tanítókorpuszok ezzel szemben jelentősen különböznek a később felismerni kívánt szövegektől.

Tarján Balázs és Mihajlik Péter Magyar nyelvű nagyszótáras beszédfelismerési feladatok adatelégtelenségi problémáinak csökkentése nyelvimodell-interpoláció alkalmazásával című eőadásukban arról számoltak be, hogy miként javították a beszédfelismerés hatékonyságát. Módszerük az volt, hogy kicsi, de jól illeszkedő tanítókorpuszt és nagy, kevésbé jól illeszkedő tanítókorpuszt kombináltak. A beszédfelismerő nem szóalapú, hanem morfalapú volt (azaz nem szavakat, hanem szóelemeket – töveket, toldalékokat – próbált felismerni).

Gosztolya Gábor és Tóth László előadása a Kulcsszókeresési kísérletek hangzó híranyagokon beszédhang alapú felismerési technikákkal címet viselte. Olyan feladatról van szó, amikor a felhasználó egy hanganyaggyűjteményben szeretne olyan szavakra keresni, melyek elhangzanak a szövegben. A beszédfelismerést általában zárt szótárral végzik, és amikre keresünk, nem szerepelnek a szótárban (pl. tulajdonnevek, vörösiszap). A bemutatott eljárás során azonban nem végeznek nyelvi elemzést, hanem olyan hangmintákat keresnek, amelyek megfelelhetnek a keresett szónak. A módszer hátránya, hogy borra keresve a labor is találatként jelenik meg, sőt, a köztársaság szóra találatként jelenhet meg az is, amikor öt társasházról van szó. A megoldás a két módszer kombinálása lehet.

Beke András és Szaszák György Szótagok automatikus osztályozása spontán beszédben spektrális és prozódiai jellemzők alapján című előadásában arról a problémáról szólt, hogy a magánhangzók (különösen hangsúlytalan szótagban) elmosódhatnak. Olyan beszédfelismerőt fejlesztettek, mely figyelembe vette, hogy az azonosítandó szótag hangsúlyos-e. Tapasztalatuk, hogy az elmosódott magánhangzókról is jól megállapítható, hogy elöl vagy hátul képzettek-e (iskolai terminussal: magasak vagy mélyek-e).

Ezt követően Vicsi Klára, Sztahó Dávid, Kiss Gábor és Czira Anita mutatta be kutatásait Spontán beszédben rejlő nem verbális hangjelenségek -- érzelmek, hanggesztusok -- vizsgálata címen. Azt vizsgálták, hogyan lehet számítógéppel beszédhang alapján megállapítani a beszélő hangulatát, egészségi állapotát stb. Ez elsősorban a beszéd prozódiai jellemzői (tempója, ritmusa, dallamossága) alapján vizsgálható. Ezen kívül figyelembe veendőek a hanggesztusok (sírás, nevetés, ühüm, áááá...), de a szünetek, nyelés, köhögés, krákogás is.

A szekciót és egyben a délelőttöt Sztahó Dávid, Imre Viktor és Vicsi Klára előadása zárta, ez az Érzelmek automatikus osztályozása spontán beszédben címet viselte. Lényegében az előző előadást folytatta. Négy érzelmet tanítottak (semleges, dühös/ideges, boldog, szomorú). Emberi közreműködők bejelölték, hogy milyen beszédszakaszokat milyen érzelműnek értékelnek, és az algoritmus ez alapján igyekezett megtanulni, milyen hangok milyen érzelmekhez köthetőek.

A konferenciához kapcsolódó kötet letölthető.

Hirdetés

Címkék: Tech, Beszédfelismerés, Konferencia, Korpusz, Számítógépes nyelvészet

Követem a cikkhozzászólásokat (RSS)

Hozzászóláshoz lépjen be vagy regisztráljon.

Még nincs hozzászólás, legyen Ön az első!

Hirdetés