Seminář ÚČNK

Nadcházející semináře

Místo konání
Panská 890/7 (Kaunický palác), 1. patro levého křídla
Online
seminář je přenášen také online, v případě zájmu o link prosím napište Honzovi nebo Janě.
Čas konání
úterý, 13:00, není-li uvedeno jinak
Datum Téma · Přednášející · Abstrakt

Možnosti automatizovaného obohacení anotace mluvených korpusů

  1. David Lukeš

V rámci mluvené sekce už delší dobu přemýšlíme, jak naše mluvené korpusy obohatit o další vrstvy anotace, které by blíže zachytily různé zvukové aspekty promluv a usnadnily tak uživatelům orientaci v datech a práci s nimi. Např. v korpusu ORTOFON v2 je 7802 výskytů typu protože: když uživatelům nabídneme možnost je roztřídit do různých kategorií (podle trvání, intonačního průběhu, odchylek od kanonické výslovnosti atp.), bude se jim nejen snáze hledat pověstná jehla v kupce korpusového sena, ale bude to bezpochyby i zdrojem nových výzkumných otázek a podnětů ke studiu druhů funkční variability v mluveném jazyce, které doposud prostřednictvím našich korpusů studovány nebyly.

V současné době tuto roli granulárnější kategorizace vycházející ze zvukové realizace plní ručně připravovaná fonetická transkripce, s jejíž pomocí můžeme např. u onoho protože rozlišit podtypy jako bře, prže apod. Její éra ale příští rok s ORTOFONem v3 pro dohlednou budoucnost skončí, i kvůli časové, finanční a personální náročnosti. V přednášce rozeberu její připravované i zvažované (realistické i méně realistické) automaticky generované alternativy či doplňky, jejich výhody i omezení, a doufám, že nám vaše zpětná vazba pomůže vytipovat a případně dopilovat obzvlášť slibné kandidáty.

seminář se nekoná

seminář se nekoná

pozor: o 1,5 hod. později

seminář se nekoná

vánoční prázdniny