Seminář ÚL | Czech National Corpus

Venue: P104, main building, 1^st floor
Online: in case you are interested in an online link, please contact Michal.
Held on: Wednesday, 14:10–15:40, unless otherwise stated

		Date	Topic · Speaker · Abstract
		Tuesday 2022-10-11 13:00	Vliv fonotaktické probability na zpracovávání pseudoslov v češtině Jan Henyš Petra Čechová Pojem fonotaktická probabilita odkazuje k frekvenci, s níž se fonologické segmenty a sekvence těchto segmentů objevují ve slovech v určitém jazyce (Vitevich & Luce, 2004). Předchozí výzkumy ukázaly, že fonotaktická probabilita slov hraje důležitou roli při zpracování a akvizici jazyka (Jusczyk, Luce & Charles-Luce, 1994; Mattys & Jusczyk, 2001; Pitt & McQueen, 1998). Slova s vysokou fonotaktickou probabilitou jsou například rychleji rozpoznávána rodilými mluvčími v úlohách detekce slova (lexical decision tasks) (Luce & Large, 2001) a pseudoslova s vysokou fonotaktickou probabilitou jsou dospělými hodnocena jako více pravděpodobná slova daného jazyka (Vitevitch, Luce, Charles-Luce & Kemmerer, 1997). V této přednášce představíme kalkulačku fonotaktické probability pro češtinu, která je volně dostupná jako skript v programovacím jazyce Python. Kalkulačka vychází z údajů o frekvenci slov ze dvou volně dostupných korpusů českého jazyka: korpus psaného jazyka SYN2015 (Křen & Cvrček et al., 2015) a korpus mluveného jazyka ORAL v1 (Kopřivová et al., 2017). Výpočet kopíruje postup původní kalkulačky pro anglický jazyk (Vitevich & Luce, 2004) a výstupem je odhad fonotaktické (a navíc také ortotaktické) probability pro jakékoliv české slovo či pseudoslovo. Dále představíme výsledky experimentu, při kterém rodilí mluvčí hodnotili “českost” 40 pseudoslov s různou hodnotou fonotaktické probability na škále od 1 do 7. Literatura: Jusczyk, P. W., Luce, P. A., & Charles-Luce, J. (1994). Infants′ sensitivity to phonotactic patterns in the native language. Journal of Memory and Language, 33(5), 630-645. Kopřivová, M., Lukeš, D., Komrsková, Z., Poukarová, P., Waclawičová, M., Benešová, L., Křen, M. (2017). ORAL: a corpus of informal spoken Czech. Institute of Czech National Corpus, Prague. [Corpus]. http://www.korpus.cz Křen, M., Cvrček, V., Čapka, T., Čermáková, A., Hnátková, M., Chlumská, L., Jelínek, T., Kováříková, D., Petkevič, V., Procházka, P., Skoumalová, H., Škrabal, M., Truneček, P., Vondřička, P., Zasina, A. (2015). SYN2015: a representative corpus of written Czech. Institute of Czech National Corpus, Prague. [Corpus] http://www.korpus.cz Luce, P. A., & Large, N. R. (2001). Phonotactics, density, and entropy in spoken word recognition. Language and Cognitive Processes, 16(5-6), 565-581. Mattys, S. L., & Jusczyk, P. W. (2001). Phonotactic cues for segmentation of fluent speech by infants. Cognition, 78(2), 91-121. Pitt, M. A., & McQueen, J. M. (1998). Is compensation for coarticulation mediated by the lexicon?. Journal of Memory and Language, 39(3), 347-370. Vitevitch, M. S., & Luce, P. A. (2004). A web-based interface to calculate phonotactic probability for words and nonwords in English. Behavior Research Methods, Instruments, & Computers, 36(3), 481-487. Vitevitch, M. S., Luce, P. A., Charles-Luce, J., & Kemmerer, D. (1997). Phonotactics and Syllable Stress: Implications for the Processing of Spoken Nonsense Words. Language and Speech, 40(1), 47-62.
		Tuesday 2022-10-18 13:00	Quantifying the social dimensions of word meaning: behavioural data from thousands of Czech speakers James Brand Mikuláš Preininger Adam Kříž Markéta Ceháková The ability to represent the meanings of thousands of words is a uniquely human trait. One key challenge for researchers has been to quantitatively measure the meaning of those words, so we can better understand how meaning is represented by the people who learn, use and process their language or languages. This line of research has relied on a multidisciplinary approach, utilising work from corpus, computational and psycholinguistics. In this talk, we will present work from the SocioLex project, which aims to quantify the meaning of Czech words along 5 semantic dimensions of meaning, which focus on socially encoded information, i.e. how the word relates to age, gender, location, politics and valence. To do this, we asked a large and diverse sample of Czech speakers (aged 18-25, 35-45 and 60+), to provide ratings for 2,700 words (adjectives, nouns and verbs), in terms of how their meanings relate to each of the dimensions, e.g. is the word related to young/old, femininity/masculinity, rural/urban, liberal/conservative, negative/positive meaning. We also collected data for each of the words related to semantic category membership, e.g. which superordinate category does the word belong to. Additionally, we are currently collecting data from Czech speakers for same word list, but for their English translation equivalents. We hope that this will provide the first large scale quantification of how specific aspects of meaning are represented by Czech speakers.
		Tuesday 2022-11-01 13:00	Za námi mnoho, před námi ještě víc: digitalizace lexikografie včera, dnes a zítra Michal Měchura Lexikografie je proces, který začíná získáváním znalostí z jazykového úzu (dnes obvykle z korpusů), pokračuje sestavováním slovníkových hesel a/nebo organizováním lexikografických informací v databázích, a nakonec vrcholí prezentací koncovým uživatelům na stránkách knih a obrazovkách počítačů. Za poslední zhruba dvě dekády se povedlo některé fáze proto procesu hluboce a důkladně zdigitalizovat a zkomputerizovat, zatímco jinde je digitalizace lexikografie zatím jen povrchní. V této přednášce budeme mluvit o tom, co ještě mohou počítače udělat pro lexikografii a kam se pravděpodobně bude lexikografie vyvíjet v blízké digitální budoucnosti. Projdeme se spolu po celé délce lexikografického procesu a uděláme zastávky na čtyřech bodech: 1. získávání lexikograficky relevantních znalostí z korpusů, 2. automatické versus manuální sestavování slovníkových hesel, 3. datové struktury pro lexikografická data, 4. prezentace slovníků lidským uživatelům.
		Tuesday 2022-11-15 13:00	The good, the bad and the ugli-ness of using previous research output for analyses Irene Elmerot In this talk, I will present the data and methodology used for my ongoing Ph.D. thesis on evaluated representations of different groups of people in the Czech news press. Instead of searching the interface(s) of korpus.cz, I have extracted co-occurrences of nouns and adjectives based partly on previous research, partly on research design decisions. The data and methods for my thesis rely on work by inter alia ČNK members Václav Cvrček, Michal Křen, Jana Šindlerová and Adrian Jan Zasina, and the co-occurrences are extracted from the Journalistic subcorpus of SYN release 8. The resulting work shows what can be done combining lists and lexica created for specific purposes, but also which caveats must be taken into account when using other researchers’ data. I will further try to explain my research design and the calculations used to create the different analyses. References Cvrček, V. (2014). “Proximita slov a možnosti jejího měření”. In Kvantitativní analýza kontextu (pp. 35–43). Nakladatelství Lidové Noviny/Ústav českého národní korpusu. Piao, S., Rayson, P., Archer, D., Bianchi, F., Dayrell, C., El-Haj, M., Jiménez, R.-M., Knight, D., Křen, M., Löfberg, L., Nawab, R. M. A., Shafi, J., Teh, P. L., & Mudraya, O. (2016). “Lexical Coverage Evaluation of Large-scale Multilingual Semantic Lexicons for Twelve Languages.” In N. C. (Conference Chair), K. Choukri, T. Declerck, S. Goggi, M. Grobelnik, B. Maegaard, J. Mariani, H. Mazo, A. Moreno, J. Odijk, & S. Piperidis (Eds.), Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC 2016) (pp. 23–28). European Language Resources Association (ELRA). Veselovská, K., Hajič, J., & Šindlerová, J. (2014). “Subjectivity Lexicon for Czech: Implementation and Improvements.” Journal for Language and Computational Linguistics, 29(1). Zasina, A. J. (2019). “Gender-Specific Adjectives in Czech Newspapers and Magazines”. Jazykovedný Časopis, 70(2).
		Tuesday 2022-11-29 13:00	Časovanie slovies v slovenčine na korpusovom základe Miroslav Zumrík Daniela Majchráková Lucia Miháliková Najnovšia publikácia z oddelenia Slovenského národného korpusu s názvom Časovanie slovies v slovenčine nadväzuje na publikáciu Skloňovanie podstatných mien v slovenčine s korpusovými príkladmi a zameriava sa na zložitý systém konjugácie slovenských slovies. Východiskom je formálne spracovanie jazykových dát, formálny opis slovesných paradigiem sa však dopĺňa prostredníctvom systémovolingvistických poznatkov z oblasti morfematiky a morfológie. Členenie slovies sa kvôli názornosti spracúva schematicky a identifikované konjugačné typy a paradigmy sú charakterizované aj z kvantitatívneho hľadiska. Bibliografický odkaz ZUMRÍK, Miroslav – MAJCHRÁKOVÁ, Daniela – MIHÁLIKOVÁ, Lucia: Časovanie slovies v slovenčine. Bratislava: Vydavateľstvo Mikula 2022. 384 s. ISBN 978-80-99987-03-7.
		Tuesday 2022-12-06 13:00	Lexikální diverzita Jiří Milička Všechno, co jste kdy chtěli vědět o lexik... ve skutečnosti mnohem víc, než co jste kdy chtěli nebo potřebovali vědět o lexikální diverzitě. Založeno na právě dopsané monografii, ovšem nejspíš představím i věci, co se do ní nevešly. Plus prostor pro diskusi, jako vždycky.
		Tuesday 2022-12-13 13:00	K prozodii mluvené češtiny metodami korpusové lingvistiky David Lukeš Mluvený jazyk je bohatý a mnohotvárný fenomén. Při přípravě mluvených korpusů je ovšem tato mnohotvárnost svým způsobem komplikací: každý aspekt navíc, který se v jejich transkripci či anotaci snažíme zachytit, je povětšinou vykoupen velkým množstvím mravenčí manuální práce, která dále navyšuje již tak poměrně vysokou finanční náročnost těchto korpusů. Možnosti automatické anotace, zejména rysů specifických pro mluvený jazyk, jsou tedy vítaným zpestřením, které lze realizovat jen za v porovnání zlomkovou cenu práce strojů. Jednou takovou oblastí je prozodie, tedy suprasegmentální jevy v rovině frekvenční (průběh intonace, intonační rozpětí) i temporální (mluvní či artikulační tempo, rytmus), případně i kombinované (např. protažení slabiky spojené se specifickou intonační konturou). Aktuální mluvené korpusy ČNK jsou ručně zarovnané na úrovni segmentů o délce max. 25 slov, ale detailnější temporální rozlišení lze automaticky získat pomocí nástrojů pro tzv. forced alignment, např. Montreal Forced Aligner. Průběh F0 (základní hlasové frekvence) lze zase extrahovat např. v prostředí Praat a analýzu pro účely výzkumu intonace dále obohatit a zpřesnit pomocí nástrojů pro automatickou analýzu intonace, např. Prosogram. Automatická aplikace takových nástrojů na velké množství materiálu mnohdy kolísavé zvukové kvality má samozřejmě i svá úskalí. V průběhu přednášky si ukážeme, na co je potřeba si dát pozor, ale i čeho lze s pomocí takové anotace dosáhnout. Blíže se podíváme na intonační rozpětí a využití glissand v různých komunikačních kontextech a v podání různých typů mluvčích; nastíníme i porovnání s angličtinou. Poodhalíme, jak se tato anotace promítne do nových verzí korpusů ORTOFON a ORATOR v rozhraní KonText a rozšíří tak možnosti cíleného vyhledávání v mluvených datech.
		Tuesday 2023-01-03 13:00	Investigating research mobilities in primary literacy education in England Anna Čermáková Julia Gillen ‘Research mobilities in primary literacy education in England’ is an ESRC (UK) funded project, which investigates the movements of literacy research to and among primary school teachers in England against a shifting and politically charged context for literacy education. The project draws on a sociomaterial perspective that is seeing discourses as combination of non-human and human actors in various entangled spaces. These discourses are investigated through interdisciplinary approaches. Our first step was to create two corpora: a corpus from UK newspaper media (2017-2021) considering this as a proxy for public discourse that lets us investigate the topics in primary literacy education research that resonate with newspapers and their audiences. We tease out what institutions and people are regularly figured as sources of expertise or perhaps viewed negatively in society. Contrasting with this in some ways is our unique Twitter corpus which enables us to investigate the discourses around primary literacy education engaged in by teachers, researchers and research brokers, as mediated by this platform. We deploy our analysis to investigate how and why some kinds of literacy research are gaining traction while others are not, and who (and what) are social actors of significance in primary literacy education research as it is mobilised. Finally, we introduce a novel methodology in our project, as work-in-progress: the creation of sociomaterial tracings case studies using controversy mapping and network ethnography.
		Tuesday 2023-02-14 13:00	Korpusová cvičebnice pro studenty češtiny jako cizího jazyka Adrian Zasina Cílem příspěvku je představení novátorské publikace korpusové cvičebnice, jež se zaměřuje na procvičování problematických oblastí češtiny nerodilých mluvčích. Tato cvičebnice je první ucelenou publikací poskytující širokou škálu hotových cvičení založených na korpusových datech. Jednotlivé kapitoly se věnují obtížným oblastem češtiny nerodilých mluvčích v následujících okruzích: rozdíly ve významu a význam slov, gramatický rod, skloňování, substantivizovaná adjektiva, tvrdá vs. měkká adjektiva, zájmena, předložky, předpony s-/z-, příčestí minulé, kolokace, frazémy, stylové varianty, konkurence genitivních koncovek a- a u-, kvantita. Rozdělení cvičení na přímou a nepřímou práci s počítačem umožňuje lepší orientaci v předkládaném materiálu a usnadňuje volbu vhodných korpusových aktivit s ohledem na aktuální potřeby studentů a vybavení třídy. V rámci prezentace uvedeme tří příkladové aktivity týkající se: rozdílu ve významu zdánlivých synonym, dativu a kolokability.
		Tuesday 2023-02-21 13:00	Velké úterý
		Tuesday 2023-02-28 13:00	Metódy vektorizácie textu založené na Wordnete Kristína Šteflovičová Dávid Držík Využitie techník vektorizácie textu sú v dnešnej dobe nevyhnutnosťou pre množstvo klasifikačných úloh v oblasti spracovania prirodzeného jazyka. Moderné word embeding metódy ako napr. Doc2Vec, Glove a pod. sú založené na sémantickej podobnosti slov. WordNet ako lexikálna databáza slov nám poskytuje bohatý zdroj sémantickej informácie, ktorú môžeme využiť pri vektorizácií textu. Naša práca navrhuje techniku vektorizácie textu založenú na WordNete, zvlášť využitia synsetov. Táto technika bude podobná ako pri moderných word embeding, avšak sémanticky podobné slová nebudú automaticky trénované z korpusu ale zo synsetov. Nami navrhovanú techniku porovnáme s vybranými existujúcimi technikami pre word embeding na základe ich vhodnosti pre úlohy klasifikácie textu.
		Tuesday 2023-03-07 13:00	Korpusy rané češtiny Anna Chromá Klára Matiasovitsová Jakub Sláma Filip Smolík Pod názvem Korpusy rané češtiny (Corpora of Czech as the First Language in Acquisition) pracuje skupina doktorandů a mladších studentů FF UK, která od roku 2014 postupně buduje korpusy složené z přepisů nahrávek komunikace dětí s rodiči v přirozeném prostředí. Nahrávky mapují vývoj zapojených dětí zhruba ve věku 1,5 až 3,5 roku. Rozpracované jsou dva korpusy: korpus Chroma je založený na audionahrávkách sedmi dětí, byl již zveřejněný (v databázích CHILDES a LINDAT) a aktuálně probíhá jeho revize a morfologická anotace; korpus ChroMat je založený na videonahrávkách dalších 6-7 dětí a je stále v procesu vzniku. V přednášce stručně představím pozici korpusů ve výzkumu osvojování jazyka obecně; ukážu, jak vypadají přepisy tvořící tyto korpusy a jak je možné v nich vyhledávat. Dále se zaměřím na vznikající morfologickou anotaci, která vychází z automatického značkování programem MorphoDiTa a následně prochází dalšími kroky tak, aby byl její formát kompatibilní s mezinárodní databází dětských korpusů CHILDES. Nakonec budu mluvit o rozpracované korpusové analýze slovesa být, která je první vlaštovkou mezi analýzami využívajícími naše korpusy. Tato analýza vychází z dokladů všech tvarů slovesa být automaticky vyhledaných v korpusu Chroma. Zaměřuje se jak na dětské, tak na dospělé výpovědi, zkoumá obecné vývojové trajektorie a hledá potenciální vztahy mezi inputem od dospělých a dětskou ranou produkcí. https://coczefla.ff.cuni.cz/ https://childes.talkbank.org/ https://lindat.cz/
		Tuesday 2023-03-14 13:00	PAUZA
		Tuesday 2023-03-21 13:00 online	Voices of the enslaved: corpus-based discourse analysis of historical slave narratives Irene Elmerot Klas Rönnbäck There is a vast field of research on the history of slavery, but very little of this research has depicted the institution from the perspective of the slaves themselves. We will in this project collect a large body of historical slave narratives, and then combine corpus-assisted and researcher-driven discourse analysis of how the slaves themselves described slavery. The narratives are to be gathered form a number of different historical records; estimates from previous research suggest that around 6,000 such narratives from the United States exist in various collections of records. These have been used for very little previous research. We will in this project focus upon socio-economic aspects of the slave narratives, including how the slaves depict their working and living conditions, but the corpus will also allow for future research on other aspects of slavery. Currently, some of the narratives are already in .txt format, whereas other are digitised as pictures of book pages, an others are still physical books in archives. One aim of this presentation is to get useful feedback on corpus tools and methods to eventually create one semi-large (rough approximation is 10 million words) meta-tagged and annotated corpus divided into about a handful of subcorpora. We would also appreciate general scientific feedback on the feasibility and timeframe of this project, which is currently in a planning phase.
		Tuesday 2023-03-28 13:00	Retrospektiva a perspektiva české dialektologie Martina Ireinová Marta Šimečková Dialektologické oddělení Ústavu pro jazyk český AV ČR, v. v. i., se od svého vzniku primárně věnuje systematickému studiu a dokumentaci teritoriálních dialektů českého jazyka. V přednášce budou představeny metody, které jsou běžně aplikovány při výzkumu nářečních specifik, též různé cesty k zachycení zjištěných jazykových jevů a možné formy jejich prezentace. Zvláštní pozornost bude věnována geolingvistické analýze materiálu a nově vybudovaným softwarům, umožňujícím na základě nářečních dat automaticky generovat jazykové mapy. Budou představeny i nové způsoby zpracování nářečního audiálního materiálu, nastolena bude mj. otázka automatizace přepisů s využitím umělé inteligence.
		Tuesday 2023-04-04 13:00 cyklus doktorandi	Morfosyntaktické, frazeologické a slovesně-lexikální chyby v textech českých a ruských žáků finštiny jako cizího jazyka Valentina Dani Cílem příspěvku bude prezentovat morfosyntaktické, frazeologické a slovesně-lexikální chyby v textech českých a ruských žáků finštiny jako cizího jazyka SERR úrovně B1 na základě dat Mezinárodního korpusu žákovské finštiny. Příspěvek se bude zabývat nejčastějšími chybovými kategoriemi, vyskytujícími se v české a ruské složce Mezinárodního korpusu žákovské finštiny. V rámci příspěvku se budeme také věnovat chybové taxonomii, která byla využita pro anotaci dat. Následně se prezentace zaměří na hlavní kvantitativní a kvalitativní rozdíly mezi finštinou českých a ruských žáků a na obecné tendence žákovského jazyka. Literatura: Dani, V. (2022). Morfosyntaktiset, fraseologiset ja verbivalintaan liittyvät virheet tšekinkielisten ja venäjänkielisten suomenoppijoiden teksteissä ICLFI-aineiston perusteella. (K. Priiki, Ed.) Sananjalka, 64(64), 47-66. doi:10.30673/sja.115616 Jantunen, J. H., Brunni, S., & University of Oulu, Department of Finnish language. (2013). International Corpus of Learner Finnish [psaný korpus]. Kielipankki. Dostupné z: http://urn.fi/urn:nbn:fi:lb-20140730163
		Tuesday 2023-04-11 13:00 cyklus doktorandi	Složitost přechodů mezi fonémy a grafémy Václav Horký V tomto příspěvku se budu věnovat tomu, jak se dá vyčíslit složitost přechodů mezi fonémy a grafémy v jazyce s hláskovou písemnou soustavou a jakou složitost mají na základě nejčastějších slov v korpusu SYN2020 přechody mezi fonémy a grafémy v češtině.
		Tuesday 2023-04-18 13:00 cyklus doktorandi	ENPHI: Korpus akademického jazyka českých anglistů Tomáš Mach Příspěvek stručně představí korpus ENPHI (Corpus of English Philology), zejména pak proces sběru dat, design a jeho obsah. Pozornost bude zčásti věnována také problémům při sběru dat, jejich čištění a přípravě korpusu. Zároveň bude rozebrána a představena i druhá část korpusu, tj. odborné články expertních pisatelů.
		Tuesday 2023-04-25 13:00	Seminář se nekoná Téma bude upřesněno.
		Tuesday 2023-05-02 13:00	Building the new general purpose reference corpus of contemporary Polish (and some other related resources) Witold Kieraś The main topic of the presentation is the new corpus of contemporary Polish, which aims at continuing and supplementing the National Corpus of Polish (NCP) in near future. It has been over a decade since the NCP project was concluded and despite its success among the local linguistic community the corpus calls for an update. The new corpus project is striving to find a balance between continuity with the NCP and the need for addressing new linguistic and technical realities. The presentation will cover the basic theoretical and technical concepts behind the new corpus, with special regard to grammatical annotation layers: morphosyntactic tagging and dependency and constituency parsing, all consistent with each other. The hybrid syntactic representation allows the user to focus on their research task rather than commit to a specific syntactic theory, and enhances the expressive power of corpus queries allowing the user to refer to immediate dependency relations and phrase structure simultaneously. The presentation will also cover some other corpus resources that are currently being developed in the Institute of Computer Science (Polish Academy of Sciences) that are complementing the environment for corpus linguistic research. Those include the Web corpus updated on a daily basis and multilingual version of Korpusomat, a simple web application for building one's own corpora.
		Tuesday 2023-05-09 13:00	Výzkum defektivity a konkurence v morfologických paradigmatech: korpusově metodologické otázky Dominika Kováříková Prezentace se bude věnovat metodologickým otázkám v korpusovém výzkumu vzájemně souvisejících jevů defektivity (chybějící/nedoložený tvar v paradigmatu určitého lemmatu, např. chybějící Gpl. lemmatu rande, chybějící imperativní tvary lemmatu moci) a konkurence (jedna buňka paradigmatu může mít dvě nebo více realizací, např. Lsg. umyvadle/umyvadlu, Npl. policisti/policisté). Mezi probíranými tématy bude velikost a složení korpusu, frekvence lemmatu, očekávaná a realizovaná frekvence tvaru a doloženost v korpusu.