English version below | ||||||||||||||||||||||
Prosinec 2015 | | ||||||||||||||||||||||
|
||||||||||||||||||||||
Po pěti letech vydává ČNK nový stomilionový reprezentativní korpus současné psané češtiny SYN2015. Oproti svému předchůdci, korpusu SYN2010, doznal jeho design mnoha změn a vylepšení, které jsou podrobně popsány na wiki ČNK. Zde uvádíme pouze nejdůležitější body:
SYN2015 nahrazuje korpus SYN2010 ve své funkci vlajkové lodě psaných synchronních korpusů (viz výběr korpusů v rozhraní KonText). Korpus SYN2010 zůstává i nadále dostupný a je možné ho přidat do rychlé volby výběru korpusů pomocí funkce zařadit mezi oblíbené korpusy. Po Novém roce bude zveřejněna také verze 4 korpusu SYN s aktualizovanou klasifikací textů. Součástí této verze budou kromě textů korpusu SYN2015 také publicistické texty z let 2010–2014, díky nimž velikost korpusu SYN přesáhne 3 miliardy slov. |
||||||||||||||||||||||
|
||||||||||||||||||||||
Korpus Diakorp byl rozšířen o více než 1 mil. slovních tvarů, jeho celková velikost ve verzi 6 tak přesáhla 3,4 miliony slov. Nové rozšíření se týká zejména období 19. století, v menší míře pak také období starších (rovnoměrně jsou začleněny texty ze 14. až 18. století). Diakorp zůstává i nadále korpusem nelemmatizovaným. Společně s rozšířením Diakorpu došlo také k podstatným změnám ve struktuře zpřístupněných textů. Značky dosud užívané pro emendace (zaznamenávající změny provedené při transkripci pomocí <e></e>) se nově staly pozičními atributy, zatímco všechny ostatní značky jsou v nové verzi Diakorpu zobrazeny jako struktury. Tyto změny umožňují snadné využití strukturace textu také na uživatelské úrovni, informace zachycené v emendacích navíc nezasahují do analýz prováděných na úrovni slovních tvarů. Nově přibyla také klasifikace dokumentů do textových typů. Bližší popis Diakorpu verze 6 a souhrn uskutečněných změn na najdete na wiki ČNK. |
||||||||||||||||||||||
|
||||||||||||||||||||||
Korpus Early English Books Online (EEBO) pochází z produkce Text Creation Partnership a obsahuje více než 25 000 anglických knih vzniklých mezi lety 1475 a 1700. Celkový rozsah korpusu je přibližně 730 mil. slov. V korpusu jsou zachovány základní strukturní informace (zvýraznění textu, jeho rozčlenění apod.), součástí metadat jsou také odkazy na on-line verzi dané knihy. |
||||||||||||||||||||||
|
||||||||||||||||||||||
Na místo klasického PF jsme pro Vás připravili krátký dokumentární snímek o tom, jak ČNK využívají naši nejmladší. Krásné prožití Vánoc a do nového roku mnoho úspěchů pracovních i osobních Vám přeje celý tým pracovníků ČNK. |
||||||||||||||||||||||
December 2015 | | ||||||||||||||||||||||
|
||||||||||||||||||||||
Five years after the previous installment, the CNC is releasing a new 100 million word representative corpus of contemporary written Czech: SYN2015. Compared to its predecessor, SYN2010, its design has been modified and updated in many ways, as described on the CNC’s wiki (in Czech only). These are the highlights:
SYN2015 supersedes the SYN2010 corpus as the CNC’s flagship synchronic written corpus (see the corpus selection widget in the KonText query interface). However, SYN2010 remains available and it is possible to add it to your quick selection list by including it in your favorite corpora. In early 2016, version 4 of the SYN corpus will be released with updated text classification. Apart from subsuming the SYN2015 corpus, it will feature additional newspaper and magazine texts from 2010 to 2014, pushing its total size over the 3 billion running words mark. |
||||||||||||||||||||||
|
||||||||||||||||||||||
In version 6, the Diakorp corpus gained more than 1 million running words, reaching over 3.4 million tokens in total. New texts cover mostly the 19th century, but also older periods (14th to 18th century, uniformly represented). Diakorp continues to remain a non-lemmatized corpus (details in Czech). Together with this content update, significant changes have been made to the structure of the published texts. Emendation tags (which track changes made during transcription, encoded as <e></e>) became positional attributes, whereas all other tags are displayed as structures in the new Diakorp version. These changes enable users to easily leverage text structure-related information; moreover, emendation tags no longer interfere with analyses conducted at the word form level. For more detailed information on the new version and an overview of changes, see the CNC wiki. |
||||||||||||||||||||||
|
||||||||||||||||||||||
The Early English Books Online (EEBO) corpus was produced by the Text Creation Partnership and includes more than 25,000 English books written between 1475 and 1700. The total size of the corpus is approx. 730 million running words. The corpus preserves basic structural information about the texts (text highlighting, segmentation etc.) and provides a link to an online version of the particular book as part of the metadata. |
||||||||||||||||||||||
|
||||||||||||||||||||||
Instead of a conventional greeting card, we prepared a short mockumentary on typical use cases of the CNC among the youngest generation. The entire CNC team wishes you happy holidays and all the best in the new year 2016! |
||||||||||||||||||||||
Ústav Českého národního korpusu,
Filozofická fakulta Univerzity Karlovy v Praze www.korpus.cz | ucnk@korpus.cz | +420 221 619 837 |