Seminář ÚČNK

Harmonogram pro akademický rok 2017/2018

Místo konání
Panská 890/7 (Kaunický palác), 1. patro levého křídla
Online
seminář je přenášen také online, v případě zájmu o link prosím napište Honzovi nebo Janě.
Čas konání
úterý, 13:00, není-li uvedeno jinak
Datum Téma · Přednášející · Abstrakt

velké úterý

  1. Michal Křen

Nepravidelné informatorium vedení ústavu o důležitých projektových, finančních a personálních otázkách.

... se představuje

  1. Jiří Milička...

Přehled všech témat, kterými jsem se zabýval či zabývám, a hledání kooperace s ostatními kolegy:

Type-token relation, hapax-token relation atd.

Rank-frequency relation (Zipfův zákon)

Menzerathův zákon

Délkové motivy

Teorie informace jako explanatorní princip vztahů v jazyce

Asociační metriky

Automatické hledání nepřiznaných citací

Ikonicita

a další

  1. ×

Počkej, nech mě domluvit...

  1. Zuzana Komrsková
  2. Petra Poukarová

V mluveném jazyce často nastává situace, kdy hovoří dva lidé zároveň. Položily jsme si proto otázku, zda se počet a typ překryvů u téhož mluvčího mění v komunikaci s různým pohlavím.

Co lze vyčíst z ptačích zpěvů?

  1. Tereza Petrusková

Ptačí zpěv má mnoho společného s lidskou řečí, a proto lidi fascinoval již odnepaměti. Notové záznamy společně se slovními přepisy stály také na počátku jeho výzkumu. Přednáška ukáže, co jsme se o něm zatím dozvěděli a k čemu lze přepisy používat i dnes.

Materiály ke stažení

Úvod do neuronového strojového překladu nejen pro korpusové lingvisty

  1. Ondřej Bojar

V přednášce představím tzv. hluboké učení, tj. strojové učení realizované pomocí neuronových sítí. Hluboké učení spustilo revoluci v mnoha oblastech automatického zpracování signálu a zhruba od roku 2016 zcela změnilo techniky užívané ve strojovém překladu. Podrobně si projdeme, jak se dnes strojový překlad pomocí neuronových sítí modeluje, jak dobře překládá a jakých chyb se dopouští.

Materiály ke stažení

hl. budova učebna č. 200

The discriminative nature of human communication

  1. Michael Ramscar

Traditional studies of language assume an atomistic model in which linguistic signals comprise discrete, minimal form elements associated with discrete, minimal elements of meaning. Since production has been seen to involve the composition of messages from an inventory of form elements, and comprehension the subsequent decomposition of these messages, researchers have focused on attempting to identify and classify these elements, and the lossless processes of composition and decomposition they support, a program that has raised more questions than answers, especially when it comes to the nature of form-meaning associations.

By contrast, behavioral and neuroscience research based on human and animal models has revealed that “associative learning” is a lossy, discriminative process. Learners acquire predictive understandings of their environments through competitive mechanisms that tune systems of internal representations to eliminate or reduce any uncertainty they promote.

In this talk, I will describe some empirical results that indicate that human communication is subject to the constraints that the basic principles of learning impose, and describe how, from this perspective, languages should be seen as discriminative communication systems that exhibit continuous variation within a multidimensional space of form-meaning contrasts. In illustrating how this process works, I will show how a discriminative approach to communication makes sense of many aspects of language that have long seemed puzzling, such as noun class systems (aka grammatical gender) and the semantics of personal names. I will show how noun class and personal name systems are neither random nor arbitrary, and that they actually represent highly structured and highly evolved linguistic subsystems that optimize the discriminative processes of communication.

The information structure of discriminative human communication systems

  1. Michael Ramscar

Information theory has shown that the distribution of forms is critical to the design of efficient communication systems. In particular, it has been shown that geometric (and exponential) distributions are especially useful in the design of efficient communication systems, both because they are optimal for coding purposes and because they are memoryless.

In the first part of this talk, I will describe some recent finding showing that Sinosphere family names are exponentially distributed, and reveal that historically the name distributions of English that correspond appropriately to them were also exponential, such that the distributional structure of names was, at one point at least, universal across the world’s major languages. I will then describe how these name distributions appear to have optimized meaningful communication about individuals, and show that despite the fact that the aggregated name distributions of modern English speaking countries are Zipf-distributed, the empirical name distributions that speakers actually encounter in these communities also have an exponential form. I will further show how the growth in information in the distribution of names in these communities closely reflects the communicative constraints upon them, suggesting that name systems are far from random or arbitrary, but rather appear to form self-organizing communication systems.

In the second half of the talk I will describe a set of analyses that reveal how the empirical distributions of the other classes of lexical forms that speakers engage with in moment to moment communication in English are also exponential – a result that suggests that the Zipfian distributions long thought to play a functional role in language are actually an artifact of mixing empirical distributions – as well as describing how these structures serve facilitate the discriminative processes of human communication.

Korpus do škol

  1. Lucie Chlumská

V rámci semináře bych ráda shrnula dosavadní aktivity ČNK, které souvisejí s využitím korpusu na základních a středních školách. V první, teoretičtější části mj. stručně představím dva výzkumy, které se tématu věnovaly (pilotní analýza dětské slovní zásoby na základě knih pro děti a korpusu SKRIPT a revize vyjmenovaných slov na základě korpusových dat) a v druhé, praktičtější části bych ráda upozornila na některé české i zahraniční aplikace, kterými bychom se mohli inspirovat při tvorbě dalších nástrojů.

Materiály ke stažení

Autorské korpusy v literární vědě

  1. Richard Změlík

Přednáška bude zprvu zaměřena na problematiku exaktnosti v literární vědě. Hlavním cílem je ovšem představit koncepci literárního korpusu české prózy, který by byl primárně určen literárním vědcům, a vymezit jeho základní parametry.

Materiály ke stažení

možná přijde i kouzelník...?

  1. besídka
  1. ×
  1. ×

Pokroky v automatickém přepisu textu a projekt PERO

  1. Michal Hradiš

Díky pokroku v metodách strojového učení a zpracování obrazu začíná být dnes praktické automatickými nástroji přepisovat ručně psané dokumenty a těžce čitelné tisky. V tomto semináři shrnu možnosti a limity dnešních postupů automatického přepisu textu a představím nástroje vyvíjené v projektu PERO zaměřené na češtinu a starší dokumenty.

  1. ×
  1. ×

Prepínanie jazykového kódu vo webových korpusoch: slovenčina vs. čeština a angličtina

  1. Vladimír Benko

Jedným z problémov práce s webovými korpusmi je značný podiel „šumu“ v textoch stiahnutých z internetu, pričom za šum považujeme všetky javy v zdrojových textoch spôsobujúce zlyhávanie štandardných nástrojov ich spracovanie a anotáciu.

V našej prezentácii predstavíme prístup k riešeniu veľmi frekventovaného typu šumu tvorenému fragmentmi textu v cudzom jazyku v inak jednojazyčnom texte. Keďže v slovenských webových korpusoch majú takéto fragmenty obyčajne povahu českých alebo anglických viet, zamerali sme sa na identifikáciu týchto dvoch jazykov na úrovni vety a analýzu dosiahnutého výsledku v najväčšom slovesnom korpuse Omnia Slovaca Maior s rozsahom 4,95 miliardy tokenov.

  1. ×
  1. ×
  1. ×

Slovník afixů užívaných v češtině: jak pracoval s korpusovými daty

  1. Josef Šimandl
  2. Klára Osolsobě

Prezentován bude jednak sám slovník a otázky tvoření slov, k nimž může inspirovat, jednak budou představeny způsoby práce s korpusovými daty v jednotlivých typech hesel. Pozornosti neujde ani vágnost některých slovotvorných prostředků nebo spolehlivost korpusových zjištění.

Sumava-corpus: anotované korpusy textů o Šumavě

  1. Michal Hořejší

Přednáška představí korpusy textů, s jejichž pomocí provádím (kritickou) analýzu diskurzu (CDA) o Národním parku Šumava. Zaměřím se nejen na tvorbu korpusů a způsob/y jejich zpřístupnění, ale také na možnosti práce s korpusy v rámci CDA.

Materiály ke stažení

Zpracování posesivních zájmen v druhém jazyce z kontrastivní perspektivy

  1. Eva Flanderková
  2. Barbara Mertins

V přednášce (WiP) se zaměříme na osvojování posesivních zájmen v češtině, němčině a norštině. Popíšeme jejich zpracování rodilými mluvčími a navrhneme hypotézy pro jejich osvojování mluvčími druhého jazyka.

Corpus driven analysis of obsolescence of multi-word expressions in Late Modern English

  1. Ondřej Tichý

This paper explores a new methodology for extracting multi-word constructions, that were once common but has since become obsolete (Tichý, 2018), from large corpora (esp. from the Google n-grams dataset of the Google Books project).

It proceeds from a novel method for a bottom up multi-word construction extraction (Wahl & Gries, forthcoming), to the formulation of a semi-automatic procedure for identifying constructions that may have become lost or obsolete in the course of the last three centuries, from the Late Modern era to Present-day English (1700–2000). The procedure makes use of both relative frequencies to establish currency, as well collocational measures such as mutual infomation.

In the analytical part, the paper focuses on analysing select constructions of the type there needs no (as in “there needs no priest”) whose obsolescence is indicative of wider structural and typological changes, e.g. as in this case a decline of impersonal constructions.

Conditions, circumstances and consequences of the loss of such constructions are considered with a focus on the competing forms expressing similar functions that may be recognized as supplanting the old forms.

Metafory, kterými (se) učíme… nebo ne? Aneb cesta do hlubin študákovy metafor

  1. Róbert Bohát

Mohly by metafory učení (se) poskytnout hlubší sondu do „študákovy“ (ale i kantorovy) duše? Jinými slovy, jaké jsou současné metafory učení (se) a jak ovlivňují úspěch či neúspěch kognitivních procesů při výuce? Jako výchozí bod pro další výzkum začíná tato studie shrnutím a kvalitativní analýzou autentických metafor učení (se) zaznamenaných v procesu výuky a z pedagogických dokumentů v průběhu vice než 10 let na anglickojazyčné střední škole International School of Prague. Dalším krokem bude využití nástrojů kognitivní a korpusové lingvistiky, které pomůžou tyto kvalitativní důkazy kategorizovat a kvantifikovat. Za tímto účelem bude vybudován Corpus Comenius (předložím náčrt jeho zamýšlené struktury) s anotací metafor podle metody MIPVU (Pragglejaz 2007). Tento projekt je inspirován studií Seminové et al. (2014) o vlivu metafor na pacienty trpící rakovinou; kromě pedagogického korpusu by dalším výstupem měl být Learning Metaphor Toolbox, který by mohl pomoci studentům, podobně jako Metaphor Menu od Seminové pomáhá pacientům.

Materiály ke stažení

Představení online kurzu Introducion to Text Processing and Analysis pro DigiLing

  1. Lucie Chlumská
  2. Pavel Vondřička

Afaziologie a korpusová lingvistika

  1. Michal Láznička

V přednášce představím možnosti využití korpusů v afaziologii jak z hlediska tvorby specializovaných korpusů, tak z hlediska využití korpusových dat v afaziologickém výzkumu. Představím existující korpusy afatické řeči a především zárodek vlastního korpusu češtiny v afázii.

  1. ×
  1. ×
*

Korpus ROMi a jeho specifika

  1. Drahoslava Kráčmarová

Seminář v první části představí proces vzniku korpusu ROMi s ohledem na specifičnost sběru dat v sociálně vyloučených lokalitách. V druhé části semináře se podíváme na možnosti využití korpusu v učitelské praxi a při tvorbě didaktických nástrojů, zejména učebnic.

Materiály ke stažení

Text a osobnost: Výzkum CPACT

  1. Dalibor Kučera

Seminář je věnován představení a vybraným aspektům tříletého výzkumného projektu CPACT – Komputační psycholingvistická analýza českého textu (GA ČR 16-19087S). Výzkum CPACT je zaměřen na studium souvislostí mezi osobností člověka a slovy, která užívá; zejména na úrovni vztahů lingvistických charakteristik psaného/mluveného textu s výstupy psychologických testů zaměřených na sebeposouzení jedince a jeho posouzení druhou osobou. Výsledky výzkumu poukazují na značný potenciál ve využití komputačně-lingvistické analýzy v rámci psychologických disciplín, zejména v oblasti současné psychodiagnostiky.