aneb
Poučení z vývoje korpusu češtiny nerodilých mluvčích
Projekt akvizičních korpusů češtiny AKCES se na FF UK rozvíjí už víc než deset let. Jedním z výsledků je CzeSL, korpus češtiny nerodilých mluvčích. Korpus je dostupný v několika podobách, které se liší objemem textů, způsobem anotace i možnostmi přístupu. Podrobně se mu věnuje nedávno vydaná monografie (viz). V našem příspěvku se zaměříme hlavně (a) na otázky kolem anotace češtiny jako druhého nebo cizího jazyka, dané především povahou češtiny jako flektivního jazyka s volným slovosledem, a (b) na volbu vhodných nástrojů k práci s takto anotovaným korpusem. Ukážeme také různá úskalí, před nimiž by se měl tvůrce takového korpusu mít na pozoru.
Rosen, A., Hana, J., Hladká, B., Jelínek, T., Škodová, S., and Štindlová, B. (2020). Compiling and annotating a learner corpus for a morphologically rich language – CzeSL, a corpus of non-native Czech. Karolinum, Charles University Press, Praha. Dostupné online: http://hdl.handle.net/20.500.11956/123103