korpus.cz - Newsletter 4/2017

Duben 2017 |

							SYN verze 5

Před několika dny byl zveřejněn korpus SYN verze 5. Svým zpracováním, strukturou, anotací i klasifikací textů plně odpovídá korpusu SYN verze 4, nově však přibyla publicistika s rokem vydání 2015 o objemu téměř 200 mil. slov. Celkový rozsah korpusu SYN verze 5 tak přesáhl 3,8 mld. slov (4,6 mld. pozic včetně interpunkce).

							Rozhraní KonText 0.10

V dubnu 2017 byla zveřejněna také nová verze hlavního rozhraní pro práci s korpusy KonText. Vedle řady interních změn došlo k rozšíření funkcionality uživatelského rozhraní zejména o tyto funkce:

u mluvených korpusů možnost zobrazení detailu konkordance ve formě dialogu s vyznačením mluvčích i jejich překryvů;
možnost namixovat si vlastní poměry typů textu při vytváření subkorpusu;
jednotlivé kroky práce s konkordancí v rámci drobečkové navigace jsou editovatelné, lze se tedy vracet ke starším operacím a měnit jejich parametry.

Souhrn podstatných změn je k dispozici na samostatné stránce věnované historii verzí KonTextu.

							Treq 2.0

Nástroj Treq na vyhledání překladových ekvivalentů na základě paralelního korpusu InterCorp se dočkal nové, výrazně vylepšené verze. Nyní lze v Trequ vyhledávat také víceslovné jednotky, je možné používat regulární výrazy, a to nejen v překladech z/do češtiny, ale nově i z/do angličtiny.

							LINDSEI_CZ

V lednu 2017 byl zveřejněn korpus LINDSEI_CZ, žákovský korpus spontánní mluvené angličtiny pokročilých mluvčích s češtinou jako L1. Korpus byl sestaven Tomášem Gráfem (ÚAJD FF UK) jako součást projektu LINDSEI.

							Pro školy

Během dubna se na portálu ČNK objevil také nový repozitář korpusových cvičení pro využití ve výuce jazyků na ZŠ a SŠ. Na této pravidelně aktualizované stránce můžete najít pracovní listy s úlohami i tipy pro přímou práci s korpusy a korpusovými nástroji ve výuce. Vítáme jakékoli náměty na vylepšení, tipy na další cvičení apod., které můžete zadávat do formuláře v zápatí stránky s cvičeními.

							Výzva k aktualizaci repozitáře publikací

Chceme vyzvat všechny naše uživatele, aby do Repozitáře vědeckých publikací založených na ČNK zadávali bibliografické údaje o svých publikacích a kvalifikačních pracích vzniklých na ČNK a pomáhali ho tak průběžně aktualizovat. Je to důležité nejenom pro sdílení vědeckých výsledků, doplňováním repozitáře také spoluvytváříte bibliografii české korpusové lingvistiky a zároveň tak pomáháte projektu ČNK při obhajování jeho činnosti. Děkujeme.

April 2017 |

							SYN release 5

A few days ago, SYN release 5 was published. SYN release 5 fully corrresponds to SYN release 4 in terms of the text processing, structure, annotation, and text classification. In addition, it also includes a large amount of journalistic material from 2015 of a total size almost 200 mil. words. The total size of SYN release 5 thus exceeded 3.8 bil. running words (4.6 bil. tokens including punctuation).

							KonText 0.10

In April 2017, a new version of KonText, our main corpus interface, was launched. Apart from many internal code enhancements, the functionality of the user interface has been extended to include the following features:

for spoken corpora, concordance detail views are rendered as dialogues with clear indication of speaker turns and overlaps;
documents for subcorpora can newly also be selected according to user-defined text type ratios;
individual query processing steps within the breadcrumb navigation can now be edited, allowing the user to change the parameters of previous operations.

A comprehensive KonText version history is available on a separate page.

							Treq 2.0

A brand new version of Treq, the online tool for looking up translation equivalents based on the InterCorp parallel corpus, is out! It is now possible to search for multiword units, use regular expressions in the query and also search in translations from/to English (in addition to Czech).

							LINDSEI_CZ

The LINDSEI_CZ learner corpus of spontaneous spoken English by advanced speakers whose L1 is Czech has been published in January 2017. The corpus was compiled by Tomáš Gráf (ÚAJD FA CU) within the framework of the LINDSEI project.

							For schools

We are introducing a new repository of corpus-based exercises for language teaching at primary and secondary schools (Czech only). This regularly updated web page offers a variety of both worksheets and tips for hands-on use of corpora in class. Any suggestions for its further development, as well as tips for new exercises, are welcome and can be submitted through a web form located at the bottom of the page.

							Please help us keep our Repository up to date!

Users of the CNC are kindly asked to help us keep our Repository of CNC-based research outputs up to date by entering bibliographical data about their publications and theses. The importance of the repository is twofold: it constitutes a comprehensive bibiliography of corpus research based on CNC corpora & tools, making it easier to share your research outputs with a wider audience, but it also helps the CNC project to prove its usefulness to funding agencies. Thank you.

Ústav Českého národního korpusu, Filozofická fakulta Univerzity Karlovy
www.korpus.cz | ucnk@korpus.cz | +420 221 619 837

SYN verze 5

Rozhraní KonText 0.10

Treq 2.0

LINDSEI_CZ

Pro školy

Výzva k aktualizaci repozitáře publikací

SYN release 5

KonText 0.10

Treq 2.0

LINDSEI_CZ

For schools

Please help us keep our Repository up to date!