AplikaceAplikace

Seminář ÚČNK

Harmonogram pro akademický rok 2022/2023

Místo konání
Panská 890/7 (Kaunický palác), 1. patro levého křídla
Online
seminář je přenášen také online, v případě zájmu o link prosím napište Lucii nebo Janě.
Čas konání
úterý, 13:00, není-li uvedeno jinak
Datum Téma · Přednášející · Abstrakt

Vliv fonotaktické probability na zpracovávání pseudoslov v češtině

  1. Jan Henyš
  2. Petra Čechová

Pojem fonotaktická probabilita odkazuje k frekvenci, s níž se fonologické segmenty a sekvence těchto segmentů objevují ve slovech v určitém jazyce (Vitevich & Luce, 2004). Předchozí výzkumy ukázaly, že fonotaktická probabilita slov hraje důležitou roli při zpracování a akvizici jazyka (Jusczyk, Luce & Charles-Luce, 1994; Mattys & Jusczyk, 2001; Pitt & McQueen, 1998). Slova s vysokou fonotaktickou probabilitou jsou například rychleji rozpoznávána rodilými mluvčími v úlohách detekce slova (lexical decision tasks) (Luce & Large, 2001) a pseudoslova s vysokou fonotaktickou probabilitou jsou dospělými hodnocena jako více pravděpodobná slova daného jazyka (Vitevitch, Luce, Charles-Luce & Kemmerer, 1997). V této přednášce představíme kalkulačku fonotaktické probability pro češtinu, která je volně dostupná jako skript v programovacím jazyce Python. Kalkulačka vychází z údajů o frekvenci slov ze dvou volně dostupných korpusů českého jazyka: korpus psaného jazyka SYN2015 (Křen & Cvrček et al., 2015) a korpus mluveného jazyka ORAL v1 (Kopřivová et al., 2017). Výpočet kopíruje postup původní kalkulačky pro anglický jazyk (Vitevich & Luce, 2004) a výstupem je odhad fonotaktické (a navíc také ortotaktické) probability pro jakékoliv české slovo či pseudoslovo. Dále představíme výsledky experimentu, při kterém rodilí mluvčí hodnotili “českost” 40 pseudoslov s různou hodnotou fonotaktické probability na škále od 1 do 7.

Literatura:

Jusczyk, P. W., Luce, P. A., & Charles-Luce, J. (1994). Infants′ sensitivity to phonotactic patterns in the native language. Journal of Memory and Language, 33(5), 630-645.

Kopřivová, M., Lukeš, D., Komrsková, Z., Poukarová, P., Waclawičová, M., Benešová, L., Křen, M. (2017). ORAL: a corpus of informal spoken Czech. Institute of Czech National Corpus, Prague. [Corpus]. http://www.korpus.cz

Křen, M., Cvrček, V., Čapka, T., Čermáková, A., Hnátková, M., Chlumská, L., Jelínek, T., Kováříková, D., Petkevič, V., Procházka, P., Skoumalová, H., Škrabal, M., Truneček, P., Vondřička, P., Zasina, A. (2015). SYN2015: a representative corpus of written Czech. Institute of Czech National Corpus, Prague. [Corpus] http://www.korpus.cz

Luce, P. A., & Large, N. R. (2001). Phonotactics, density, and entropy in spoken word recognition. Language and Cognitive Processes, 16(5-6), 565-581.

Mattys, S. L., & Jusczyk, P. W. (2001). Phonotactic cues for segmentation of fluent speech by infants. Cognition, 78(2), 91-121.

Pitt, M. A., & McQueen, J. M. (1998). Is compensation for coarticulation mediated by the lexicon?. Journal of Memory and Language, 39(3), 347-370.

Vitevitch, M. S., & Luce, P. A. (2004). A web-based interface to calculate phonotactic probability for words and nonwords in English. Behavior Research Methods, Instruments, & Computers, 36(3), 481-487.

Vitevitch, M. S., Luce, P. A., Charles-Luce, J., & Kemmerer, D. (1997). Phonotactics and Syllable Stress: Implications for the Processing of Spoken Nonsense Words. Language and Speech, 40(1), 47-62.

Quantifying the social dimensions of word meaning: behavioural data from thousands of Czech speakers

  1. James Brand
  2. Mikuláš Preininger
  3. Adam Kříž
  4. Markéta Ceháková

The ability to represent the meanings of thousands of words is a uniquely human trait. One key challenge for researchers has been to quantitatively measure the meaning of those words, so we can better understand how meaning is represented by the people who learn, use and process their language or languages. This line of research has relied on a multidisciplinary approach, utilising work from corpus, computational and psycholinguistics. In this talk, we will present work from the SocioLex project, which aims to quantify the meaning of Czech words along 5 semantic dimensions of meaning, which focus on socially encoded information, i.e. how the word relates to age, gender, location, politics and valence. To do this, we asked a large and diverse sample of Czech speakers (aged 18-25, 35-45 and 60+), to provide ratings for 2,700 words (adjectives, nouns and verbs), in terms of how their meanings relate to each of the dimensions, e.g. is the word related to young/old, femininity/masculinity, rural/urban, liberal/conservative, negative/positive meaning. We also collected data for each of the words related to semantic category membership, e.g. which superordinate category does the word belong to. Additionally, we are currently collecting data from Czech speakers for same word list, but for their English translation equivalents. We hope that this will provide the first large scale quantification of how specific aspects of meaning are represented by Czech speakers.

Za námi mnoho, před námi ještě víc: digitalizace lexikografie včera, dnes a zítra

  1. Michal Měchura

Lexikografie je proces, který začíná získáváním znalostí z jazykového úzu (dnes obvykle z korpusů), pokračuje sestavováním slovníkových hesel a/nebo organizováním lexikografických informací v databázích, a nakonec vrcholí prezentací koncovým uživatelům na stránkách knih a obrazovkách počítačů. Za poslední zhruba dvě dekády se povedlo některé fáze proto procesu hluboce a důkladně zdigitalizovat a zkomputerizovat, zatímco jinde je digitalizace lexikografie zatím jen povrchní. V této přednášce budeme mluvit o tom, co ještě mohou počítače udělat pro lexikografii a kam se pravděpodobně bude lexikografie vyvíjet v blízké digitální budoucnosti. Projdeme se spolu po celé délce lexikografického procesu a uděláme zastávky na čtyřech bodech:
1. získávání lexikograficky relevantních znalostí z korpusů,
2. automatické versus manuální sestavování slovníkových hesel,
3. datové struktury pro lexikografická data,
4. prezentace slovníků lidským uživatelům.

The good, the bad and the ugli-ness of using previous research output for analyses

  1. Irene Elmerot

In this talk, I will present the data and methodology used for my ongoing Ph.D. thesis on evaluated representations of different groups of people in the Czech news press. Instead of searching the interface(s) of korpus.cz, I have extracted co-occurrences of nouns and adjectives based partly on previous research, partly on research design decisions. The data and methods for my thesis rely on work by inter alia ČNK members Václav Cvrček, Michal Křen, Jana Šindlerová and Adrian Jan Zasina, and the co-occurrences are extracted from the Journalistic subcorpus of SYN release 8.

The resulting work shows what can be done combining lists and lexica created for specific purposes, but also which caveats must be taken into account when using other researchers’ data. I will further try to explain my research design and the calculations used to create the different analyses.

References

Cvrček, V. (2014). “Proximita slov a možnosti jejího měření”. In Kvantitativní analýza kontextu (pp. 35–43). Nakladatelství Lidové Noviny/Ústav českého národní korpusu.

Piao, S., Rayson, P., Archer, D., Bianchi, F., Dayrell, C., El-Haj, M., Jiménez, R.-M., Knight, D., Křen, M., Löfberg, L., Nawab, R. M. A., Shafi, J., Teh, P. L., & Mudraya, O. (2016). “Lexical Coverage Evaluation of Large-scale Multilingual Semantic Lexicons for Twelve Languages.” In N. C. (Conference Chair), K. Choukri, T. Declerck, S. Goggi, M. Grobelnik, B. Maegaard, J. Mariani, H. Mazo, A. Moreno, J. Odijk, & S. Piperidis (Eds.), Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC 2016) (pp. 23–28). European Language Resources Association (ELRA).

Veselovská, K., Hajič, J., & Šindlerová, J. (2014). “Subjectivity Lexicon for Czech: Implementation and Improvements.” Journal for Language and Computational Linguistics, 29(1).

Zasina, A. J. (2019). “Gender-Specific Adjectives in Czech Newspapers and Magazines”. Jazykovedný Časopis, 70(2).

Časovanie slovies v slovenčine na korpusovom základe

  1. Miroslav Zumrík
  2. Daniela Majchráková
  3. Lucia Miháliková

Najnovšia publikácia z oddelenia Slovenského národného korpusu s názvom Časovanie slovies v slovenčine nadväzuje na publikáciu Skloňovanie podstatných mien v slovenčine s korpusovými príkladmi a zameriava sa na zložitý systém konjugácie slovenských slovies. Východiskom je formálne spracovanie jazykových dát, formálny opis slovesných paradigiem sa však dopĺňa prostredníctvom systémovolingvistických poznatkov z oblasti morfematiky a morfológie. Členenie slovies sa kvôli názornosti spracúva schematicky a identifikované konjugačné typy a paradigmy sú charakterizované aj z kvantitatívneho hľadiska.

Bibliografický odkaz
ZUMRÍK, Miroslav – MAJCHRÁKOVÁ, Daniela – MIHÁLIKOVÁ, Lucia: Časovanie slovies v slovenčine. Bratislava: Vydavateľstvo Mikula 2022. 384 s. ISBN 978-80-99987-03-7.

Lexikální diverzita

  1. Jiří Milička

Všechno, co jste kdy chtěli vědět o lexik... ve skutečnosti mnohem víc, než co jste kdy chtěli nebo potřebovali vědět o lexikální diverzitě. Založeno na právě dopsané monografii, ovšem nejspíš představím i věci, co se do ní nevešly. Plus prostor pro diskusi, jako vždycky.

K prozodii mluvené češtiny metodami korpusové lingvistiky

  1. David Lukeš

Mluvený jazyk je bohatý a mnohotvárný fenomén. Při přípravě mluvených korpusů je ovšem tato mnohotvárnost svým způsobem komplikací: každý aspekt navíc, který se v jejich transkripci či anotaci snažíme zachytit, je povětšinou vykoupen velkým množstvím mravenčí manuální práce, která dále navyšuje již tak poměrně vysokou finanční náročnost těchto korpusů. Možnosti automatické anotace, zejména rysů specifických pro mluvený jazyk, jsou tedy vítaným zpestřením, které lze realizovat jen za v porovnání zlomkovou cenu práce strojů.

Jednou takovou oblastí je prozodie, tedy suprasegmentální jevy v rovině frekvenční (průběh intonace, intonační rozpětí) i temporální (mluvní či artikulační tempo, rytmus), případně i kombinované (např. protažení slabiky spojené se specifickou intonační konturou). Aktuální mluvené korpusy ČNK jsou ručně zarovnané na úrovni segmentů o délce max. 25 slov, ale detailnější temporální rozlišení lze automaticky získat pomocí nástrojů pro tzv. forced alignment, např. Montreal Forced Aligner. Průběh F0 (základní hlasové frekvence) lze zase extrahovat např. v prostředí Praat a analýzu pro účely výzkumu intonace dále obohatit a zpřesnit pomocí nástrojů pro automatickou analýzu intonace, např. Prosogram.

Automatická aplikace takových nástrojů na velké množství materiálu mnohdy kolísavé zvukové kvality má samozřejmě i svá úskalí. V průběhu přednášky si ukážeme, na co je potřeba si dát pozor, ale i čeho lze s pomocí takové anotace dosáhnout. Blíže se podíváme na intonační rozpětí a využití glissand v různých komunikačních kontextech a v podání různých typů mluvčích; nastíníme i porovnání s angličtinou. Poodhalíme, jak se tato anotace promítne do nových verzí korpusů ORTOFON a ORATOR v rozhraní KonText a rozšíří tak možnosti cíleného vyhledávání v mluvených datech.

Investigating research mobilities in primary literacy education in England

  1. Anna Čermáková
  2. Julia Gillen

‘Research mobilities in primary literacy education in England’ is an ESRC (UK) funded project, which investigates the movements of literacy research to and among primary school teachers in England against a shifting and politically charged context for literacy education. The project draws on a sociomaterial perspective that is seeing discourses as combination of non-human and human actors in various entangled spaces. These discourses are investigated through interdisciplinary approaches. Our first step was to create two corpora: a corpus from UK newspaper media (2017-2021) considering this as a proxy for public discourse that lets us investigate the topics in primary literacy education research that resonate with newspapers and their audiences.  We tease out what institutions and people are regularly figured as sources of expertise or perhaps viewed negatively in society. Contrasting with this in some ways is our unique Twitter corpus which enables us to investigate the discourses around primary literacy education engaged in by teachers, researchers and research brokers, as mediated by this platform. We deploy our analysis to investigate how and why some kinds of literacy research are gaining traction while others are not, and who (and what) are social actors of significance in primary literacy education research as it is mobilised. Finally, we introduce a novel methodology in our project, as work-in-progress: the creation of sociomaterial tracings case studies using controversy mapping and network ethnography.

Korpusová cvičebnice pro studenty češtiny jako cizího jazyka

  1. Adrian Zasina

Cílem příspěvku je představení novátorské publikace korpusové cvičebnice, jež se zaměřuje na procvičování problematických oblastí češtiny nerodilých mluvčích. Tato cvičebnice je první ucelenou publikací poskytující širokou škálu hotových cvičení založených na korpusových datech. Jednotlivé kapitoly se věnují obtížným oblastem češtiny nerodilých mluvčích v následujících okruzích: rozdíly ve významu a význam slov, gramatický rod, skloňování, substantivizovaná adjektiva, tvrdá vs. měkká adjektiva, zájmena, předložky, předpony s-/z-, příčestí minulé, kolokace, frazémy, stylové varianty, konkurence genitivních koncovek a- a u-, kvantita. Rozdělení cvičení na přímou a nepřímou práci s počítačem umožňuje lepší orientaci v předkládaném materiálu a usnadňuje volbu vhodných korpusových aktivit s ohledem na aktuální potřeby studentů a vybavení třídy. V rámci prezentace uvedeme tří příkladové aktivity týkající se: rozdílu ve významu zdánlivých synonym, dativu a kolokability.

Velké úterý

Seminář se nekoná.

Korpusy rané češtiny

  1. Anna Chromá
  2. Klára Matiasovitsová
  3. Jakub Sláma
  4. Filip Smolík

Pod názvem Korpusy rané češtiny (Corpora of Czech as the First Language in Acquisition) pracuje skupina doktorandů a mladších studentů FF UK, která od roku 2014 postupně buduje korpusy složené z přepisů nahrávek komunikace dětí s rodiči v přirozeném prostředí. Nahrávky mapují vývoj zapojených dětí zhruba ve věku 1,5 až 3,5 roku. Rozpracované jsou dva korpusy: korpus Chroma je založený na audionahrávkách sedmi dětí, byl již zveřejněný (v databázích CHILDES a LINDAT) a aktuálně probíhá jeho revize a morfologická anotace; korpus ChroMat je založený na videonahrávkách dalších 6-7 dětí a je stále v procesu vzniku.

V přednášce stručně představím pozici korpusů ve výzkumu osvojování jazyka obecně; ukážu, jak vypadají přepisy tvořící tyto korpusy a jak je možné v nich vyhledávat.

Dále se zaměřím na vznikající morfologickou anotaci, která vychází z automatického značkování programem MorphoDiTa a následně prochází dalšími kroky tak, aby byl její formát kompatibilní s mezinárodní databází dětských korpusů CHILDES.

Nakonec budu mluvit o rozpracované korpusové analýze slovesa být, která je první vlaštovkou mezi analýzami využívajícími naše korpusy. Tato analýza vychází z dokladů všech tvarů slovesa být automaticky vyhledaných v korpusu Chroma. Zaměřuje se jak na dětské, tak na dospělé výpovědi, zkoumá obecné vývojové trajektorie a hledá potenciální vztahy mezi inputem od dospělých a dětskou ranou produkcí.

 

https://coczefla.ff.cuni.cz/

https://childes.talkbank.org/

https://lindat.cz/