English version below
Český národní korpus | Aktuality
Prosinec 2018 | Facebook

ČNK jako K-centrum CLARIN

Projektu ČNK byl koncem letošního roku oficiálně přiznán statut K-centra CLARIN. CLARIN je evropská infrastruktura zaměřená na jazykové zdroje a nástroje pro práci s nimi v humanitních a společenských vědách. Cílem K-centra ČNK je poskytovat všem zájemcům informace, konzultace a technickou podporu v oblasti korpusové lingvistiky zaměřené na češtinu.

Nové korpusy

V roce 2018 byly zveřejněny pravidelné aktualizace synchronního psaného korpusu SYN (verze 7) a paralelního korpusu InterCorp (verze 11). Kromě toho byly zpřístupněny dva nové korpusy: korpus Koditex, vytvořený ze vzorků psaného, mluveného a webového jazyka s cílem pokrýt co největší variabilitu pro účely multidimenzionální analýzy češtiny, a dále nkjp_1m, ručně označkovaný milionový vzorek Národního korpusu polského jazyka.

KonText 0.12

Během roku 2018 byla spuštěna také nová verze hlavního rozhraní pro práci s korpusy KonText. Vedle některých interních změn došlo k rozšíření funkcionality uživatelského rozhraní zejména o tyto funkce:

  • zobrazování překladových ekvivalentů z Trequ přímo v KonTextu při vyhledávání v paralelních korpusech;

  • CQL editor s barevným zvýrazněním syntaxe a kontrolou názvů atributů a struktur;

  • možnost zveřejnit subkorpus spolu s jeho popisem.

Souhrn podstatných změn je k dispozici na samostatné stránce věnované historii verzí KonTextu.

Jak zkrotit korpus

V nakladatelství Springer vyšla nová kniha Taming the Corpus: From Inflection and Lexis to Interpretation zabývající se empirickým výzkumem, která je založena na českých datech.

PF 2019

Klidné prožití Vánoc a do Nového roku hodně štěstí a spokojenosti přeje celý tým pracovníků ČNK.

Czech National Corpus | Newsletter
December 2018 | Facebook

CNC as a CLARIN K-centre

CNC has recently been officially acknowledged the status of a CLARIN K-centre. CLARIN is a European infrastructure focused on language resources and tools for Humanities and Social Sciences. The aim of the CNC K-centre is to provide information, consulting and technical assistance in the area of corpus linguistics with the emphasis on Czech.

New corpora

Our regular updates of the SYN corpus of contemporary written Czech (release 7) and the InterCorp parallel corpus (release 11) were published in 2018. In addition, two new corpora were released this year: Koditex, a highly diverse corpus compiled from samples of written, spoken and internet communication for the multi-dimensional analysis of Czech registers, and nkjp_1m, a manually annotated one-million subcorpus of the National Corpus of Polish.

KonText 0.12

In 2018, we launched a new version of KonText, our main corpus interface. Besides some internal code enhancements, the functionality of the user interface has been extended to include the following features:

  • translation equivalents based on Treq directly displayed in KonText (for parallel corpora);

  • CQL editor with syntax highlighting and basic value validation;

  • sharing a named subcorpus and its description with other users.

A comprehensive KonText version history is available on a separate page.

Taming the Corpus

Taming the Corpus: From Inflection and Lexis to Interpretation, a new book on empirical research based on Czech data, has been published by Springer.

Season’s greetings

The entire CNC team wishes you happy holidays and all the best in the New Year 2019!

Ústav Českého národního korpusu, Filozofická fakulta Univerzity Karlovy
www.korpus.cz | ucnk@korpus.cz | +420 221 619 837