Možnosti automatizovaného obohacení anotace mluvených korpusů

Datum

úterý 26. 10. 2021 13:00

Přednášející

David Lukeš

Abstrakt

V rámci mluvené sekce už delší dobu přemýšlíme, jak naše mluvené korpusy obohatit o další vrstvy anotace, které by blíže zachytily různé zvukové aspekty promluv a usnadnily tak uživatelům orientaci v datech a práci s nimi. Např. v korpusu ORTOFON v2 je 7802 výskytů typu protože: když uživatelům nabídneme možnost je roztřídit do různých kategorií (podle trvání, intonačního průběhu, odchylek od kanonické výslovnosti atp.), bude se jim nejen snáze hledat pověstná jehla v kupce korpusového sena, ale bude to bezpochyby i zdrojem nových výzkumných otázek a podnětů ke studiu druhů funkční variability v mluveném jazyce, které doposud prostřednictvím našich korpusů studovány nebyly.

V současné době tuto roli granulárnější kategorizace vycházející ze zvukové realizace plní ručně připravovaná fonetická transkripce, s jejíž pomocí můžeme např. u onoho protože rozlišit podtypy jako bře, prže apod. Její éra ale příští rok s ORTOFONem v3 pro dohlednou budoucnost skončí, i kvůli časové, finanční a personální náročnosti. V přednášce rozeberu její připravované i zvažované (realistické i méně realistické) automaticky generované alternativy či doplňky, jejich výhody i omezení, a doufám, že nám vaše zpětná vazba pomůže vytipovat a případně dopilovat obzvlášť slibné kandidáty.