Tokenizace v SYN2020 a SYNv9

Datum

úterý 26. 3. 2019 13:00

Přednášející

Hana Skoumalová
Jan Henyš
Jana Šindlerová

Abstrakt

Zveme vás na seminář, na kterém se s vámi chceme poradit o tom, jaká má být tokenizace v korpusech zveřejněných v příštím roce. Hlavní důvody, proč chceme měnit tokenizaci právě teď, jsou tři: 1) Na ÚFALu se pustili do revize morfologického slovníku a my tak budeme muset změnit naši proceduru, která provádí segmentaci, tokenizaci a morfologickou analýzu. Zároveň jsme se s ÚFALem dohodli, že by se naše značkování a značkování v PDT (včetně tokenizace) mělo sblížit. Teď je tedy vhodná příležitost ke změnám. 2) Synchronní a diachronní korpusy (pro začátek z 19. století) by měly být tagovány podle stejných zásad, které se budou dotýkat i tokenizace. Pojďme se tedy poradit, jak si tokenizaci v synchronních i diachronních korpusech představujeme, a pokusme se najít její pokud možno jednotné zásady. 3) Už delší dobu nás trápí, že není možné zachytit variantní tokenizaci (např. u agregátů, konjugovaných spojek apod.). Chceme proto prodiskutovat i způsoby, kterými by se to dalo udělat. Zde budeme potřebovat někoho z technické sekce, kdo se dobře vyzná v manatee a v KonTextu, aby nám řekl, co je možné a co ne.