HiČKoK | Český národní korpus

O projektu HiČKoK

Cílem projektu HiČKoK je vytvořit datové, softwarové a znalostní zázemí pro studium češtiny v celém jejím historickém kontinuu (od 13. do 21. století). Projekt je unikátní tím, že se vůbec poprvé pokouší propojit jednotlivá centra, v nichž se nezávisle budovaly textové korpusy pro různé fáze vývoje češtiny, a sloučením jejich zdrojů vytvořit unikátní nástroj pro studium vývoje jazyka.

Druhým ambiciozním cílem projektu je vytvoření nástrojů pro jednotnou morfologickou a syntaktickou anotaci češtiny napříč všemi obdobími v rámci schématu Universal dependencies (UD).

Plánované výsledky projektu

Výsledkem projektu by mělo být vytvoření:

Monitorovacího korpusu pokrývajícího všechny etapy vývoje češtiny
jazykových modelů ve schématu Universal Dependencies (UD), které umožní automatickou lingvistickou anotaci textů z libovolného období
aplikace umožňující zkoumat diachronní fenomény v monitorovacím korpusu
online kurzu pro studenty a badatele pracující s historickými texty, který poskytne průpravu pro využití vytvořených výstupů a dalších relevantních technologií, které jsou dostupné v rámci projektového konsorcia.

Řešitelský tým

Za ÚČNK FF UK:

Martin Stluka (hlavní řešitel)
Klára Pivoňková
Václav Cvrček
Lucie Nováková (administrativa)
Petra Poukarová

Za ÚJČ AV ČR:

Jiří Pergler
Ondřej Svoboda
Jana Zdeňková
Anna Michalcová
Olga Navrátilová

Za ÚFAL MFF UK:

Daniel Zeman

Za NK ČR:

Anna Vandasová
Michaela Bežová
Jana Hrzinová
Šárka Forgáčová

Spolupracující instituce

Ústav Českého národního korpusu, FF UK (hlavní příjemce)
Ústav pro jazyk český, AV ČR
Ústav formální a aplikované lingvistiky, MFF UK
Národní knihovna ČR

Podpora

Projekt HiČKoK (č. TQ01000072) byl na období realizace na období 09/2023 – 11/2026 podpořen TA ČR v rámci programu na podporu aplikovaného výzkumu a inovacı́ SIGMA.

Výstupy

Martin Stluka, Václav Cvrček: HiČKoK: historie češtiny v korpusovém kontinuu (29. 4. 2024). Záznam přednášky, Odborné fórum ÚISK FF UK