English version below | ||||||||||||||||||||||
Srpen 2020 | | ||||||||||||||||||||||
|
||||||||||||||||||||||
Blíží se další pravidelné hodnocení ČNK prováděné MŠMT, v němž se rozhodne o míře podpory našeho projektu v dalším grantovém období. Jedním z klíčových kritérií hodnocení bude rozsah a kvalita vědeckých výstupů, které byly pomocí nástrojů a dat ČNK vytvořeny. Ze statistik víme, že naši uživatelé s korpusy ČNK pracují hojně, nemáme ovšem jak se dozvědět, které výstupy na nich vznikly. Pomozte nám v tomto hodnocení a zadejte do Repozitáře vědeckých publikací Biblio základní bibliografické údaje Vámi vytvořených výstupů, Repozitář přináší řadu výhod vám i celé badatelské komunitě, na jeho průběžné doplňování bychom navíc – s odkazem na podmínky pro využívání služeb ČNK – chtěli apelovat i do budoucna. Zadání údajů o publikacích je pro vás velice jednoduché a rychlé, pro nás však existenčně důležité. Nemusí jít jen o odborné články či monografie, žádány jsou také aplikované výstupy jako např. software, specializované databáze apod. Vedle prací vysloveně korpusových nás zajímají i studie, kde je využití zdrojů ČNK spíše okrajové, a také starší práce (od r. 2015). V případě jakýchkoli nejasností prosíme pište na cnk@korpus.cz. Děkujeme za pomoc! |
||||||||||||||||||||||
|
||||||||||||||||||||||
Během letošního roku byla zveřejněna další dvě uživatelská rozhraní. Jedním z nich je Mapka, interaktivní mapová aplikace určená pro práci s korpusy mluvené češtiny, zejména s korpusem nářečním. Spojuje v sobě několik různých funkcí, jednou z nich je prezentace charakteristických rysů nářečních oblastí ČR v podobě ukázek autentických projevů mluvčích. |
||||||||||||||||||||||
|
||||||||||||||||||||||
Další nová webová aplikace se jmenuje KorpusDB a umožňuje snadné prohledávání databáze lemmat a slovních tvarů, které se vyskytují v korpusech ČNK. KorpusDB ukazuje úplná slovní paradigmata s frekvencemi tvarů a jejich variant v různých typech textů a umožňuje snadno filtrovat kategorie s různou mírou variability. |
||||||||||||||||||||||
|
||||||||||||||||||||||
Nástroj Treq na vyhledávání překladových ekvivalentů se v srpnu dočkal aktualizace podkladových dat, která nyní odpovídají verzi 12 paralelního korpusu InterCorp. Dále byly doplněny slovníky, takže nyní je možné vyhledávat nejenom v překladech z/do češtiny a angličtiny, ale také z/do španělštiny. |
||||||||||||||||||||||
|
||||||||||||||||||||||
V letošním roce také průběžně pracujeme na vylepšování aplikace Slovo v kostce. V květnu v ní přibyla dlaždice s podobně používanými slovy, která je založená na srovnání blízkosti kontextu vyjádřeného pomocí tzv. word embeddings, další vylepšení přijdou již brzy! |
||||||||||||||||||||||
August 2020 | | ||||||||||||||||||||||
|
||||||||||||||||||||||
The next round of regular evaluations of the CNC is now approaching. It will determine the amount of support for the CNC project in the next grant period. One of the key criteria is the abundance and quality of research outputs that have been created using CNC data and tools. Statistics show that users access the CNC a lot, but they don't tell us what concrete outputs these interactions lead to. Please help us in this evaluation and enter basic bibliographical information about your outputs into the Repository of scientific publications. The repository has additional benefits for you and the research community, and this is why we would like to appeal to you – with a reference to our T&Cs – for keeping it updated also in the future. For you, it is quick and simple. For us, it is a matter of existence. We welcome both publication results (articles, books etc.) and non-publication ones (pieces of software, databases etc.), including studies which only partially rely on CNC resources. To complete the picture, we are interested in all your outputs since 2015. Should you have any queries, please e-mail us at cnk@korpus.cz. Many thanks for your help! |
||||||||||||||||||||||
|
||||||||||||||||||||||
So far this year, we have released two new web applications. One of them is Mapka, an interactive map-based application for working with spoken dialectal corpora. It features various functions including a presentation of characteristic features of Czech dialectal areas illustrated by authentic speakers' utterances. |
||||||||||||||||||||||
|
||||||||||||||||||||||
The other new web application is KorpusDB, which allows searching the database of all word forms and lemmas that actually occur in CNC corpora. KorpusDB shows complete paradigms together with a frequency breakdown of word forms in various types of texts, and results can be filtered based on the degree of variability. |
||||||||||||||||||||||
|
||||||||||||||||||||||
An update of Treq, the online tool for looking up translation equivalents, is out! Its database has been updated to release 12 of the InterCorp parallel corpus. Furthermore, you can now also search in translations from/to Spanish (in addition to Czech and English). |
||||||||||||||||||||||
|
||||||||||||||||||||||
We also keep working on improving the Word at the Glance web interface. In May, a new tile with similarly used words was added. The tile is based on a comparison of the words' contexts as reflected by word embeddings. Further improvements are on the way! |
||||||||||||||||||||||
Ústav Českého národního korpusu,
Filozofická fakulta Univerzity Karlovy www.korpus.cz | ucnk@korpus.cz | +420 221 619 837 |