Seminář ÚČNK

Harmonogram pro akademický rok 2019/2020

Místo konání
Panská 890/7 (Kaunický palác), 1. patro levého křídla
Online
seminář je přenášen také online, v případě zájmu o link prosím napište Honzovi nebo Janě.
Čas konání
úterý, 13:00, není-li uvedeno jinak
Datum Téma · Přednášející · Abstrakt
  1. ×

Velké úterý

  1. Michal Křen

Vše, co jste chtěli vědět o n-gramech, ale báli jste se zeptat

  1. L. Lukešová
  2. D. Šebestová
  3. V. Cvrček
  4. D. Lukeš
  5. J. Milička

Prezentace 1: Korespondence délek n-gramů v různých jazycích

Při kontrastivním výzkumu často narážíme na problém nejasné korespondence mezi jednotkami různé délky (co odpovídá českým trigramům při srovnání s němčinou?). Na základě modelu, který je založen na srovnání velikosti inventáře jednotek různých délek a jehož výsledky jsou implementovány v korpusové kalkulačce Calc, lze dospět k doporučením pro jednotlivé dvojice jazyků. Model v příspěvku představíme a ukážeme praktické aplikace.

Prezentace 2: Jak zkoumat n-gramy v jazycích s volným slovosledem

Problematičnost extrakce a analýzy n-gramů se v jazycích s flexí a volným slovosledem netýká jen jejich celkového počtu a variability, jak ukázal předchozí příspěvek, ale také variability poziční, jinými slovy faktu, že slova v častých kombinacích nemusejí stát vždy přímo vedle sebe a jejich pořadí se může měnit. Běžně se n-gramy v jazykovém výzkumu definují jednoduše jako po sobě jdoucí n-tice slov, která se v jazyce vyskytují s dostatečnou frekvencí. V jazycích, jako je čeština, má ale smysl pojem n-gram rozšířit a zahrnout do něj i kombinace, které zohledňují výše uvedenou variabilitu (cf. koncept skip-gramů). V našem příspěvku ukážeme jeden ze způsobů, jak je možné automaticky extrahovat různé slovosledné varianty týchž n-gramů, které vzhledem k metodě výpočtu anglicky označujeme jako n-choose-k grams. Obdobný způsob používá i komerční nástroj WordSmith pod názvem conc-grams - přinejmenším v komunitě kontrastivních lingvistů se však zatím nedostal do širšího povědomí.

Prezentace 3: Engrammer: Nový

nástroj k identifikaci frazeologických vzorců. Představení na kontrastivní

anglicko-české studii

Nástroj Engrammer vyhledává n-gramy obsahující konkrétní slovo či lemma. Ukazuje, v jakých lexikálních vzorcích se daná jednotka objevuje, na základě poměřování její kolokability s různými slovními kombinacemi. Vedle toho lze sledovat lexikální variabilitu na pozici zvolené jednotky, tj. s jakými jinými slovy v dané kombinaci alternuje (např. for the first TIME/FEW YEARS/HOUR…). Možné využití nástroje v praxi představíme na malé kontrastivní studii českých a anglických překladových ekvivalentů substantiv, která označují rodové protějšky (např. matka-otec, mother-father). Výsledky naznačují, jak se do frazeologií těchto substantiv promítají některá kulturní specifika.

  1. ×
  1. zrušeno

Calc: Korpusová kalkulačka

  1. Václav Cvrček

Kalkulačka by měla poskytnout uživatelům korpusů rychlou pomoc při počítání základních statistických úloh, s nimiž se lze v rámci výzkumu běžně setkat. Aplikace je rozdělena do několika modulů, které odpovídaj různým výzkumným situacím.

První modul 1 slovo v 1 korpusu vlastně nepočítá žádný statistický test a slouží jako pomůcka pro adekvátní interpretaci frekevencí. Měl by pomoct s odpovědí na otázku: Co to přesně znamená, když jev, který mě zajímá, má v korpusu frekvenci X výskytů?

Druhý modul porovnává dvě frekvence (např. dvě konkurenční varianty v jednom korpusu) a zjišťuje, jak významný je jejich rozdíl a jestli třeba není výsledkem náhodné variability.

Typickým příkladem využití modulu 2 slova ve 2 korpusech je identifikace klíčových slov – jednotek, které jsou v jednom korpusu významně častějc než v jiném (při zohlednění velikosti použitých korpusů). Využít ho můžem ale v jakémkoli srovnávání frekvencí jednotek napříč korpusy.

Čtvrtý modul pomáhá s určením míry přesnosti a spolehlivosti analýzy provedené na náhodných vzorcích. Pokud v něm vychází rozpětí pro hledaný jev jako příliš velké, bude nejspíš třeba pro zpřesnění přidat další vzorky.

Modul Víc jevů – 1 vzorek slouží k posouzení toho, jak jsou zastoupeny skupiny jevů (např. významů slova) v analyzovaném vzorku či konkordanci. Můžeme s jeho pomocí odpovědět na otázku, jestli je skutečně jedna skupina častější než druhá nebo zda lze určitou skupinu považovat za přesvědčivě doloženou.

Šestý modul nazvaný zTTR je pro poměřování textů z hlediska jejich lexikální bohatosti (poměr počtu různých slov k délce textu). Jeho předností je, že výsledná hodnota indexu zTTR je porovnatelná i mezi texty nestejné délky.

Při srovnávání víceslovných jednotek mezi dvěma jazyky narážíme často na otázku, zda si odpovídají n-gramy stejné délky. K zjištění korespondence n-gramů slouží sedmý modul, který ukazuje, čemu ideálně odpovídá např. soupis nejfrekventovanějších bigramů v jednom jazyce při porovnání s jazykem druhým.

Návrh lingvistické anotace korpusu SYN2020

  1. Tomáš Jelínek

Na semináři představíme návrh, jak značkovat korpus SYN2020. Změny jsou zčásti motivované změnami v morfologické anotaci PDT, s nimiž se musíme nějak vyrovnat. Od korpusů SYN2015 a korpusů řady SYN (SYNv5 - SYNv8) se korpus SYN2020 bude mírně lišit tokenizací, dále navrhujeme zavedení několika atributů navíc, které pokročilejšímu uživateli poskytnou více možností vyhledávání. Méně pokročilému uživateli bychom tyto atributy raději nenabízeli, ale část informace z nich poskytli přes takzvaný našeptávač.

NovaMorf - projekt nového morfologického značkování češtiny

  1. Vladimír Petkevič

Autoři (Jarka Hlaváčová, Klára Osolsobě, Josef Šimandl, Martin Svášek,

Jan Křivan, Vladimír Petkevič) představí hotový návrh projektu: jeho

motivaci a koncepci, repertoár sledovaných morfologických kategorií a

jejich hodnot, hlavní problémy a plán dalšího rozvoje projektu (na

základě připomínek oponentů) a jeho implementace. V závěru budou shrnuty

hlavní kritické připomínky oponentů jako východisko k diskusi.

Materiály ke stažení

  1. ×

Využití fonetické databáze a korpusu CHRUP ve výzkumu češtiny nerodilých mluvčích (se zaměřením na rusky a polsky mluvící cizince)

  1. Kateřina Romaševská

V příspěvku budou představeny fonetická databáze a korpus CHRUP, které se staly zdrojem dat pro výzkum češtiny nerodilých mluvčích na rovině fonetické a morfosyntaktické. Kromě metodického postupu (způsob sběru a zpracování dat) budou prezentovány výsledky dvou analýz věnovaných jednak realizaci kvantity vokálů v čtených projevech ruskojazyčných studentů češtiny, jednak specifikám osvojování českých reflexivních sloves polskými a ruskojazyčnými mluvčími.

Materiály ke stažení

Porovnání tradičního a webového korpusu za pomoci multidimenzionálního modelu

  1. MDA tým

The study proposes a method for comparing the ranges of linguistic variation covered by different corpora using a model issued from a multi-dimensional (MD) analysis of register variability in a given language. This method is applied to the comparison of two corpora of Czech: Koditex, a “traditional” corpus carefully designed using various sources with rich metadata, and Araneum Bohemicum Maximum, a web-crawled corpus which has an opportunistic composition but is also cheaper and easier to obtain. Texts from both corpora are projected onto the MD model and ranges of variation covered in each dimension are compared in order to identify overlaps on the one hand, and areas covered by only one of the two corpora on the other. We also document a crucial methodological point which has broader relevance for MD analyses in general, namely that texts have to be of similar lengths in order for their scores on the dimensions to be comparable.

Results indicate that the type of language represented by traditional text categories such as journalism or non-fiction is equally well covered by web-crawled data, though of course traditional corpora keep their edge in terms of the richness of the accompanying metadata. Importantly, text categories which are partially or entirely unique as to their linguistic characteristics only emerged from Koditex and correspond to data which is hard to get by general-purpose web-crawling techniques: informal conversations, private correspondence, some types of fiction, but also user-generated content (comments on Facebook, forums etc.).

Registrová variabilita českých internetových textů

  1. Jan Henyš

V příspěvku bude představen výzkum, jehož cílem je popsat registrovou variabilitu českého web-crawled korpusu pomocí multidimenzionální analýzy (MDA). Výzkum je inspirován studií Douglase Bibera a Jesseho Egberta Register variation on the searchable web: A multi-dimensional analysis (2016) a čerpá z poznatků o variabilitě češtiny, ke kterým dospěl MDA tým při ÚČNK. Přístup zahrnuje manuální anotaci, která vyžaduje diskrétní kategorizaci webových (sub)registrů, kterou je třeba modifikovat tak, aby co nejlépe vyhovovala českému internetovému prostředí. Klasifikovaná data jsou pak charakterizována na základě distribuce faktorových skóre pocházejících z MDA.

"Močák narvanej k prasknutí" aneb K exemplifikaci ve slovníku

  1. Martin Šemelík

V příspěvku se zamyslíme nad několika aspekty exemplifikace ve slovníku výkladovém, dotkneme se ale též příkladů ve slovníku překladovém. Především půjde mj. o následující otázky: Jsou příklady ve slovníku opravdu nezbytné? Jak vypadá situace v současných slovnících? Podle čeho se pozná (ne)dobrý příklad? Jakou roli zde hrají nové lexikografické trendy, především pak příklon k elektronickému médiu, resp. nové možnosti, které se otevírají díky velkým elektronickým korpusům? Stejně jako u jiných dílčích komponent heslové statě se i v případě exemplifikace ukazuje, že možných řešení je víc a že alfou a omegou veškeré lexikografické práce je funkce slovníku a jeho cíloví uživatelé.

  1. ×

Forenzní lingvistika v soudní praxi České republiky

  1. Veronika Nováková
  2. Václava Musilová

Pod pojem forenzní lingvistika je vlivem zahraniční praxe zahrnuta celá řada disciplín. Cílem přednášky je proto odborné veřejnosti představit tu část forenzní lingvistiky, která se věnuje odhalování a dokazování trestné činnosti. Na praktických příkladech budou prezentovány jak metody, s nimiž se ve forenzní praxi pracuje, tak druhy expertiz.

(Ne)narušená komunikační schopnost v datech

  1. Lucie Brychtová

Komunikace je pro společnost přirozená a zásadní. Pokud dojde k jakémukoli narušení, v tomto případě u komunikátora a/nebo příjemce, nemusí dojít ke správnému porozumění, tzn. k naplnění cíle komunikačního procesu.

Afázie je jedna z diagnóz, která se projevuje potížemi v produkci a percepci řeči. V rámci semináře bude představen výzkum, který detekoval její možné projevy ve spontánní řeči. Analýze předcházel sběr dat – za pomoci Fakultní nemocnice Brno a jejích pacientů – a přepis na základě stanovených pravidel.

Diskutovat bude možné o otázkách: Co lze z řeči vyčíst? Co může značit problém a co je v řeči „normální“? Jak přistupovat k přepisům? Jiná diagnóza – stejný postup?

LexiCorp: Prezentácia lexikografických dát pomocou korpusových nástrojov

  1. Vladimír Benko

Lexikografi pri tvorbe slovníkov obyčajne pracujú s dvoma typmi počítačových nástrojov. Je to

jednak prostredie na vytváranie textu heslových statí (angl. Dictionary-Writing System, DWS),

pomocou ktorého sa definujú štruktúry jednotlivých hesiel a napĺňajú príslušnými dátami, a jednak

korpusový manažér umožňujúci analýzu, agregáciu a štatistické vyhodnocovanie údajov

o spracúvaných lexikálnych jednotkách z korpusu. Navyše môže byť k dispozícii slovníkový portál,

v ktorom možno vyhľadávať texty heslových statí v už publikovaných slovníkoch.

V našom príspevku predstavíme experiment, v ktorom sme text novovytváraného slovníka poňali

ako „korpus“ a aplikovali sme naň štandardnú množinu procedúr pre spracovanie slovenských

korpusových dát, t. j. tokenizáciu, lematizáciu a morfosyntaktickú anotáciu a skompilovali sme ho

pomocou (mierne upraveného) korpusového manažéra NoSketch Engine.

Počas prednášky budeme prezentovať hlavné funkcie systému a poukážeme na výhody oproti

(slovenskému) slovníkovému portálu, aj oproti „plnofunčnému“ systému DWS.

  1. ×
přesunto kvůli nouzovému stavu

Databáze víceslovných lexikálních jednotek LEMUR

  1. Milena Hnátková
  2. Tomáš Jelínek
  3. Marie Kopřivová
  4. Vladimír Petkevič
  5. Alexandr Rosen
  6. Hana Skoumalová
  7. Pavel Vondřička

Na semináři bude představena databáze českých víceslovných lexikálních jednotek (dále VLJ) LEMUR, která má ambici zachytit všechny druhy VLJ a adekvátně je popsat. Poté by se měla stát východiskem nové anotace VLJ v korpusech ČNK. Databáze obsahuje novou typologii VLJ a údaje o jejich dalších vlastnostech, podle kterých lze v databázi vyhledávat. V budoucnu bude propojena s korpusovou anotací a umožní uživateli získat podrobnější informace o vyhledané VLJ.

přesunto kvůli nouzovému stavu

Morphosyntactic Errors in Czech and Russian Learner Finnish

  1. Valentina Dani

The purpose of the presentation is to give an overview of my doctoral dissertation project, which focuses on morphosyntactic errors in Czech and Russian Learner Finnish. The first part of the presentation will focus on available corpora of Learner Finnish and on the International Corpus of Learner Finnish (ICLFI). The second part of the presentation will focus on the Czech and Russian subcorpora of the International Corpus of Learner Finnish. After introducing the subcorpora, I will turn to research questions related to morphosyntactic errors made by Czech L1 and Russian L1 learners of Finnish. Then, I will describe the error annotation system which was developed in order to identify morphosyntactic errors in the Russian L1 subcorpus (the Czech L1 subcorpus already contains error annotation). Finally, I will present the results of a pilot study of a subset of the Czech and Russian L1 subcorpora, to which the new error annotation system was applied.

přesunuto na podzim (viz níže)

  1. Silvia Bernardini

Přednáška Silvy Bernardiniové se ruší kvůli omezení dopravního spojení se severní Itálií vzhledem k epidemii koronaviru. Omlouváme se všem, kteří se plánovali zúčastnit, a děkujeme za zájem. Usilovně pracujeme na tom, aby se návštěva mohla uskutečnit na podzim 2020. O detailech budeme včas informovat. Děkujeme za pochopení!

  1. TBA
  1. ×
  1. ×
přesunto na podzim kvůli nouzovému stavu

Multimodální korpus češtiny CZICO: sběr a využití

  1. Eva Lehečková
  2. Jakub Jehlička

V přednášce představíme koncepci multimodálního korpusu mluvené češtiny CZICO (Czech Interactional Corpus), budovaného v rámci projektu KREAS. Korpus o rozsahu 100 hodin obsahuje dialogické i skupinové projevy o různé míře spontánnosti. Přednáška podrobně představí proceduru sběru dat i její inspirační zdroje a shrne rovněž konkrétní multimodální výzkumy, pro něž byla tato data dosud využita.

přesunto kvůli nouzovému stavu

Velké úterý

  1. Michal Křen