Calc: Korpusová kalkulačka

Datum

úterý 5. 11. 2019 13:00

Přednášející

Václav Cvrček

Abstrakt

Kalkulačka by měla poskytnout uživatelům korpusů rychlou pomoc při počítání základních statistických úloh, s nimiž se lze v rámci výzkumu běžně setkat. Aplikace je rozdělena do několika modulů, které odpovídaj různým výzkumným situacím.

První modul 1 slovo v 1 korpusu vlastně nepočítá žádný statistický test a slouží jako pomůcka pro adekvátní interpretaci frekevencí. Měl by pomoct s odpovědí na otázku: Co to přesně znamená, když jev, který mě zajímá, má v korpusu frekvenci X výskytů?

Druhý modul porovnává dvě frekvence (např. dvě konkurenční varianty v jednom korpusu) a zjišťuje, jak významný je jejich rozdíl a jestli třeba není výsledkem náhodné variability.

Typickým příkladem využití modulu 2 slova ve 2 korpusech je identifikace klíčových slov – jednotek, které jsou v jednom korpusu významně častějc než v jiném (při zohlednění velikosti použitých korpusů). Využít ho můžem ale v jakémkoli srovnávání frekvencí jednotek napříč korpusy.

Čtvrtý modul pomáhá s určením míry přesnosti a spolehlivosti analýzy provedené na náhodných vzorcích. Pokud v něm vychází rozpětí pro hledaný jev jako příliš velké, bude nejspíš třeba pro zpřesnění přidat další vzorky.

Modul Víc jevů – 1 vzorek slouží k posouzení toho, jak jsou zastoupeny skupiny jevů (např. významů slova) v analyzovaném vzorku či konkordanci. Můžeme s jeho pomocí odpovědět na otázku, jestli je skutečně jedna skupina častější než druhá nebo zda lze určitou skupinu považovat za přesvědčivě doloženou.

Šestý modul nazvaný zTTR je pro poměřování textů z hlediska jejich lexikální bohatosti (poměr počtu různých slov k délce textu). Jeho předností je, že výsledná hodnota indexu zTTR je porovnatelná i mezi texty nestejné délky.

Při srovnávání víceslovných jednotek mezi dvěma jazyky narážíme často na otázku, zda si odpovídají n-gramy stejné délky. K zjištění korespondence n-gramů slouží sedmý modul, který ukazuje, čemu ideálně odpovídá např. soupis nejfrekventovanějších bigramů v jednom jazyce při porovnání s jazykem druhým.