English version below
Český národní korpus | Aktuality
Prosinec 2024 | Facebook Twitter YouTube

Dotazování ČNK přes ChatGPT

Pokud potřebujete zjistit, jak některý jazykový jev vypadá v korpusových datech, nemusíte už hledat vhodnou aplikaci a učit se psát CQL dotaz. Můžete se prostě v ChatGPT zeptat modelu "Corpus Linguist", který dotaz do ČNK položí za vás.

InterCorp verze 16ud

Zveřejnili jsme korpus InterCorp verze 16ud, který obsahuje stejné texty jako verze 16, ale v anotaci podle UD. Tato anotace je mezijazykově srovnatelná a zahrnuje také syntax. Novinkou verze 16ud jsou metriky syntaktické komplexity a lexikální diverzity.

Samotná verze 16 je přitom oproti verzi 15 výrazně větší a přibylo v ní dalších 20 jazyků.

Ortofon verze 3

K výročí 30 let od založení Ústavu Českého národního korpusu jsme zveřejnili verzi 3 korpusu ORTOFON, která je završením celé řady. Kromě přidání dalšího materiálu a provedení řady oprav v transkripci má tato verze zcela novou lemmatizaci a morfologické značkování ve standardu korpusu SYN2020.

KonText 0.18

Byla zveřejněna další verze aplikace KonText s řadou nových funkcí. Zejména jde o analýzu klíčových slov kompatibilní s aplikací KWords a o zobrazování překladových ekvivalentů v paralelních korpusech po kliknutí na vybrané slovo přímo v konkordanci. Ty jsou vyhledány dynamicky pro danou větu, a jsou tedy přesnější než ekvivalenty převzaté z Trequ.

Nové verze uživatelských aplikací

V poslední době jsme zveřejnili nové verze několika korpusových aplikací. Jednou z nich je GramatiKat, který slouží k výzkumu gramatických kategorií v češtině a do něhož ve verzi 2 přibyla k substantivům také adjektiva a slovesa.

Dále jsme výrazně vylepšili a zjednodušili uživatelské rozhraní aplikace Mapka pro práci s mluvenými a nářečními korpusy. Mapka 2 má také bohatší obsah, přibylo zejména množství ukázek z mluvených korpusů a popisy nářečních rysů všech oblastí, podskupin, úseků a typů.

Nejpodstatnější změnou je zcela přepracovaná aplikace KWords, která nyní umožňuje analyzovat texty ve více než 30 jazycích a dále při identifikaci prominentních jednotek využívat lemmatizaci a tagování. Ke KWords 2 lze přistupovat také pomocí API.

ČNK součástí CLARIN VLO

ČNK se stále aktivněji zapojuje do evropské infrastruktury pro jazykové zdroje a technologie CLARIN. Posledním krokem v této oblasti je integrace korpusů ČNK do CLARIN Virtual Language Observatory, metadatového vyhledávače jazykových zdrojů, což přineslo ČNK nejenom další zviditelnění, ale také status C-centra CLARIN (vedle stávajícího K-centra).

ČNK potřebuje vaši pomoc: vědecké výstupy v RIV

Od roku 2020 mají výzkumné infrastruktury v ČR (včetně Českého národního korpusu) povinnost zajistit, aby u všech výstupů, které vznikly s jejich využitím, byla tato skutečnost v RIV explicitně uvedena (zákon č. 130/2002, § 32, odst. 4). Je to analogické běžné praxi, kdy se u vědeckých výstupů uvádí grant, z něhož byl publikovaný výzkum podpořen; v tomto případě ovšem nejde o podporu finanční, ale o využití služeb konkrétní výzkumné infrastruktury.

Chceme proto opět požádat všechny uživatele ČNK v ČR, kteří budou ve svých domovských institucích připravovat přehledy publikací za rok 2024 k odeslání do RIV, aby se využití korpusů a aplikací ČNK pokusili do systému zadat. Na každé instituci zadávání probíhá jinak, nemůžeme tedy bohužel podat návod, jak to udělat technicky. Můžeme ale všechny uživatele ujistit, že položka s návazností na výzkumnou infrastrukturu byla do RIV přidána navíc a že uvedení infrastruktury CNC III (kód 90244) v ní se nijak nekříží s běžnou grantovou dedikací. Využití infrastruktury ČNK tedy není v rozporu s tím, že samotný výzkum byl financován z jiných zdrojů (např. GA ČR).

Přidání návaznosti na infrastrukturu by pro vás mělo být snadné a rychlé, pro nás je však životně důležité! Toto formální doložení prospěšnosti ČNK pro konkrétní výzkum významně pomůže při hodnocení socioekonomických dopadů infrastruktury ČNK, a v konečném důsledku i při získávání finanční podpory pro její další rozvoj.

Pokud by pro vás bylo přidání návaznosti na ČNK do RIV obtížné, budeme rádi za zadání vašich výstupů obvyklou cestou přes Biblio.

V případě jakýchkoli nejasností prosíme pište na cnk@korpus.cz.

Děkujeme za pomoc!

PF 2025

Za celý tým ČNK posíláme vánočně laděné přání do Nového roku!

Czech National Corpus | Newsletter
December 2024 | Facebook Twitter YouTube

Querying CNC via ChatGPT

If you need to find out how things look like in corpus data, you no longer need to look for a suitable application and learn to write a CQL query. You can simply ask the "Corpus Linguist" model in ChatGPT that will query the CNC for you.

InterCorp release 16ud

InterCorp release 16ud was published. Text-wise the same as release 16, but with the UD annotation that is comparable across languages and also includes syntax. A brand new feature of release 16ud are metrics of syntactic complexity and lexical diversity.

Release 16 itself is significantly larger than release 15, with 20 more languages added.

Ortofon release 3

On the occassion of 30 years since the foundation of the Institute of the Czech National Corpus, we published release 3 of the ORTOFON corpus that is the completion of the series. In addition to more material included and more corrections made to the transcription, release 3 is newly annotated according to the SYN2020 standard.

KonText 0.18

An updated version of the KonText application is available with new features. These include brand new keyword analysis function compatible with the KWords web application, as well as displaying translation equivalents in parallel corpora for user-selected words directly in the concordance. The equivalents are searched dynamically for a given sentence, so they are more accurate than the ones taken over from Treq.

New versions of user applications

We have recently published new versions of several corpus applications. One of them is GrammatiCat, which is used for researching grammatical categories in Czech, In version 2, adjectives and verbs were added next to the nouns.

Furthermore, we significantly improved and simplified the user interface of the Mapka application for working with spoken and dialect corpora. In Mapka 2, the number of examples from spoken corpora was increased and descriptions of dialectal features of all regions, subgroups, sections and types were added.

The most significant change is the complete rehaul of the KWords application, which now allows for analysis of texts in more than 30 languages, and to use lemmatization and tagging to identify prominent units. KWords 2 can also be accessed via API.

CNC part of the CLARIN VLO

CNC is increasingly actively involved in CLARIN, the European Language Resources and Technology Infrastructure. The last step in this area is the inclusion of the CNC corpora in the CLARIN Virtual Language Observatory, a metadata search engine for language resources, which brought CNC not only the increased visibility, but also the status of a CLARIN C-centre (next to the existing K-centre).

CNC needs your help: research outputs in the RIV registry

This item is mainly directed towards researchers based in Czechia who enter their outputs into the RIV registry operated by the Czech government. We kindly request that research which has benefited from the CNC as a research infrastructure be explicitly marked as such by its author(s) in the registry, if possible. An accurate picture of our research impact will greatly help with the forthcoming performance evaluation.

For researchers based outside Czechia, our plea is for you to continue entering basic bibliographical information about your outputs into our own Biblio registry. This enables us to create the corresponding RIV entries ourselves.

Should you have any queries, please e-mail us at cnk@korpus.cz.

Many thanks for your help!

Season’s greetings

The entire CNC team wishes you all the best in the New Year 2025!

Ústav Českého národního korpusu, Filozofická fakulta Univerzity Karlovy
www.korpus.cz | ucnk@korpus.cz | +420 221 619 837