korpus.cz - Newsletter 12/2015

Prosinec 2015 |

							Nový reprezentativní korpus SYN2015

Po pěti letech vydává ČNK nový stomilionový reprezentativní korpus současné psané češtiny SYN2015. Oproti svému předchůdci, korpusu SYN2010, doznal jeho design mnoha změn a vylepšení, které jsou podrobně popsány na wiki ČNK. Zde uvádíme pouze nejdůležitější body:

změněná koncepce reprezentativnosti a vymezení psaného jazyka; korpus je koncipován tak, aby reprezentoval co nejširší spektrum současného tištěného a veřejného jazyka (neobsahuje tedy ani soukromé texty ani texty vyskytující se pouze na internetu)
zásadně byla přepracována klasifikace textů (podrobněji ve specializovaném článku na wiki) ve všech třech hlavních oblastech – beletrii, oborové (dříve odborné) literatuře a publicistice
korpus byl zpracován nejnovějšími nástroji na lemmatizaci a morfologickou analýzu
nově přibyla automatická anotace syntaktická

SYN2015 nahrazuje korpus SYN2010 ve své funkci vlajkové lodě psaných synchronních korpusů (viz výběr korpusů v rozhraní KonText). Korpus SYN2010 zůstává i nadále dostupný a je možné ho přidat do rychlé volby výběru korpusů pomocí funkce zařadit mezi oblíbené korpusy.

Po Novém roce bude zveřejněna také verze 4 korpusu SYN s aktualizovanou klasifikací textů. Součástí této verze budou kromě textů korpusu SYN2015 také publicistické texty z let 2010–2014, díky nimž velikost korpusu SYN přesáhne 3 miliardy slov.

							Diakorp verze 6

Korpus Diakorp byl rozšířen o více než 1 mil. slovních tvarů, jeho celková velikost ve verzi 6 tak přesáhla 3,4 miliony slov. Nové rozšíření se týká zejména období 19. století, v menší míře pak také období starších (rovnoměrně jsou začleněny texty ze 14. až 18. století). Diakorp zůstává i nadále korpusem nelemmatizovaným.

Společně s rozšířením Diakorpu došlo také k podstatným změnám ve struktuře zpřístupněných textů. Značky dosud užívané pro emendace (zaznamenávající změny provedené při transkripci pomocí <e></e>) se nově staly pozičními atributy, zatímco všechny ostatní značky jsou v nové verzi Diakorpu zobrazeny jako struktury. Tyto změny umožňují snadné využití strukturace textu také na uživatelské úrovni, informace zachycené v emendacích navíc nezasahují do analýz prováděných na úrovni slovních tvarů. Nově přibyla také klasifikace dokumentů do textových typů. Bližší popis Diakorpu verze 6 a souhrn uskutečněných změn na najdete na wiki ČNK.

							EEBO

Korpus Early English Books Online (EEBO) pochází z produkce Text Creation Partnership a obsahuje více než 25 000 anglických knih vzniklých mezi lety 1475 a 1700. Celkový rozsah korpusu je přibližně 730 mil. slov. V korpusu jsou zachovány základní strukturní informace (zvýraznění textu, jeho rozčlenění apod.), součástí metadat jsou také odkazy na on-line verzi dané knihy.

							PF 2016

Na místo klasického PF jsme pro Vás připravili krátký dokumentární snímek o tom, jak ČNK využívají naši nejmladší. Krásné prožití Vánoc a do nového roku mnoho úspěchů pracovních i osobních Vám přeje celý tým pracovníků ČNK.

December 2015 |

							SYN2015: A new representative corpus

Five years after the previous installment, the CNC is releasing a new 100 million word representative corpus of contemporary written Czech: SYN2015. Compared to its predecessor, SYN2010, its design has been modified and updated in many ways, as described on the CNC’s wiki (in Czech only). These are the highlights:

a new approach to representativeness and to the notion of what constitutes written language; the corpus is conceived so as to represent the widest possible range of contemporary printed and public language (i.e. it contains neither private nor Internet-only texts)
text classification has been extensively reworked in all three main areas – fiction, non-fiction (formerly “academic”), and newspapers and magazines
the corpus was processed using cutting edge lemmatization and morphological analysis tools
a new feature: automatic syntactic annotation

SYN2015 supersedes the SYN2010 corpus as the CNC’s flagship synchronic written corpus (see the corpus selection widget in the KonText query interface). However, SYN2010 remains available and it is possible to add it to your quick selection list by including it in your favorite corpora.

In early 2016, version 4 of the SYN corpus will be released with updated text classification. Apart from subsuming the SYN2015 corpus, it will feature additional newspaper and magazine texts from 2010 to 2014, pushing its total size over the 3 billion running words mark.

							Diakorp version 6

In version 6, the Diakorp corpus gained more than 1 million running words, reaching over 3.4 million tokens in total. New texts cover mostly the 19^th century, but also older periods (14^th to 18^th century, uniformly represented). Diakorp continues to remain a non-lemmatized corpus (details in Czech).

Together with this content update, significant changes have been made to the structure of the published texts. Emendation tags (which track changes made during transcription, encoded as <e></e>) became positional attributes, whereas all other tags are displayed as structures in the new Diakorp version. These changes enable users to easily leverage text structure-related information; moreover, emendation tags no longer interfere with analyses conducted at the word form level. For more detailed information on the new version and an overview of changes, see the CNC wiki.

							EEBO

The Early English Books Online (EEBO) corpus was produced by the Text Creation Partnership and includes more than 25,000 English books written between 1475 and 1700. The total size of the corpus is approx. 730 million running words. The corpus preserves basic structural information about the texts (text highlighting, segmentation etc.) and provides a link to an online version of the particular book as part of the metadata.

							Season’s greetings

Instead of a conventional greeting card, we prepared a short mockumentary on typical use cases of the CNC among the youngest generation. The entire CNC team wishes you happy holidays and all the best in the new year 2016!

Ústav Českého národního korpusu, Filozofická fakulta Univerzity Karlovy v Praze
www.korpus.cz | ucnk@korpus.cz | +420 221 619 837

Nový reprezentativní korpus SYN2015

Diakorp verze 6

EEBO

PF 2016

SYN2015: A new representative corpus

Diakorp version 6

EEBO

Season’s greetings