Registrová variabilita českých internetových textů

Date

Tuesday 2019-12-10 13:30

Speaker

Jan Henyš

Abstract

V příspěvku bude představen výzkum, jehož cílem je popsat registrovou variabilitu českého web-crawled korpusu pomocí multidimenzionální analýzy (MDA). Výzkum je inspirován studií Douglase Bibera a Jesseho Egberta Register variation on the searchable web: A multi-dimensional analysis (2016) a čerpá z poznatků o variabilitě češtiny, ke kterým dospěl MDA tým při ÚČNK. Přístup zahrnuje manuální anotaci, která vyžaduje diskrétní kategorizaci webových (sub)registrů, kterou je třeba modifikovat tak, aby co nejlépe vyhovovala českému internetovému prostředí. Klasifikovaná data jsou pak charakterizována na základě distribuce faktorových skóre pocházejících z MDA.