Nové automatizované metody pro extrakci dat z korpusu: monokolokabilia a citace

Datum

úterý 10. 11. 2015 13:00

Přednášející

Jiří Milička

Abstrakt

Přednáška bude mít dvě části. V první bude představena metrika pro monokolokabilitu, která je srozumitelná a snadno interpretovatelná, takže by mohla být používána i mimo korpusovou lingvistiku, třeba v digital humanities (aneb jak moc jde osekat MI-score, aby to ještě dávalo smysl, a jaký že smysl to pak dává).

Druhá část se bude týkat nástroje pro automatickou extrakci opakujících se kusů textu z korpusu. Metoda dovoluje nastavit si procento povolených odchylek a toleranci ke slovosledným změnám. Budou představeny i nástroje pro využití těchto dat.