Seminář ÚL | Český národní korpus

Místo konání: P104, hlavní budova, 1. patro
Online: seminář je přenášen také online, v případě zájmu o link prosím napište Honzovi nebo Magdě.
Čas konání: středa, 14:10–15:40, není-li uvedeno jinak

		Datum	Téma · Přednášející · Abstrakt
		úterý 2. 10. 2018 13:00	první velké úterní informatorium Michal Křen
		úterý 9. 10. 2018 13:00	Lexikografická lakuna aneb Jak se vypořádat s nedoloženým slovníkovým tvarem lingvistická sekce
		úterý 16. 10. 2018 13:00	×
		úterý 23. 10. 2018 13:00	Čeština 2.0 Michal Škrabal Martin Kavka Čeština 2.0 je slovník, který trolí češtináře už od roku 2008. Vytváříte ho vy všichni, kteří přidáváte neotřelá, nová, regionální či jinak zajímavá slova ze všech zákoutí mateřského jazyka.
		úterý 30. 10. 2018 13:00	Jak se skládají komplimenty v češtině Klára Dvořáková V přednášce budou nejprve představeny různé přístupy ke studiu komplimentů. Následně bude pozornost věnována verbálním i neverbálním prostředkům, které jsou pro komplimenty v češtině typické, i komunikačním funkcím komplimentů.
		úterý 6. 11. 2018 13:00	×
		úterý 13. 11. 2018 13:00	×
		úterý 20. 11. 2018 13:00	ZRUŠENO
		úterý 27. 11. 2018 13:00	×
		úterý 4. 12. 2018 13:00	Dvakrát o slovesném způsobu v obsahových větách (francouzština a čeština diachronně) Karolína Lipská Anna Řehořková
		úterý 11. 12. 2018 13:00	Výstupy infrastruktury RIDICS Boris Lehečka Ondřej Svoboda Představíme vybrané výstupy i současné úkoly Výzkumné infrastruktury RIDICS: generátor staročeských slovních tvarů, (částečně a nejednoznačně) hyperlemmatizované a označkované textové banky v KonTextu, slovník pro kontrolu staročeského pravopisu a pomůcky při přípravě elektronických edic literárních památek.
		úterý 18. 12. 2018 13:00	včetně bohaté tomboly vánoční besídka
		úterý 25. 12. 2018 13:00	×
		úterý 22. 1. 2019 13:00	×
		úterý 29. 1. 2019 13:00	×
		úterý 5. 2. 2019 14:00	Velké úterý (od 14:00) Michal Křen Nepravidelné informatorium "nového" vedení ústavu o projektových, finančních a personálních otázkách.
		úterý 12. 2. 2019 13:00	×
		úterý 19. 2. 2019 13:00	×
		úterý 26. 2. 2019 13:00	×
		úterý 5. 3. 2019 13:00	Slovosled pronominálních enklitik závislých na verbu finitu v 1. vydání Bible kralické Pavel Kosek Olga Navrátilová Radek Čech
		úterý 12. 3. 2019 13:00	TEITOK – a web-based platform for viewing, creating, and editing corpora Maarten Janssen In this talk I will give a general overview of TEITOK, an online system for making corpora available and searchable, but at the same time for editing them, annotating, and correcting. In TEITOK, a corpus consists of a collection of heavily annotated, Text-Encoding Initiative (TEI) compliant XML files, each of which can be edited individually. The files can contain not only the corpus text, but also a wide range of annotation data, concerning many aspect of the text, including its relation to sound files or facsimile images. This allows for coordinate-sensitive document descriptions, time-aligned audio transcriptions, or multi-layered transcriptions. I will show how this makes TEITOK a powerful tool for at least the three areas where it is most used: learner corpora, historical corpora, and spoken corpora.
		středa 20. 3. 2019 11:00	SpoCo – a bottom-up initiative to build Slavic spoken corpora Achim Rabus In the talk, the SpoCo infrastructure for Slavic (and non-Slavic) spoken (and non-spoken) corpora is presented. I show how the platform evolved, discuss its functionality and give an outlook on its future development. While I will predominantly focus on the Corpus of Spoken Rusyn, other Slavic corpora will be touched upon as well.
		úterý 26. 3. 2019 13:00	Tokenizace v SYN2020 a SYNv9 Hana Skoumalová Jan Henyš Jana Šindlerová Zveme vás na seminář, na kterém se s vámi chceme poradit o tom, jaká má být tokenizace v korpusech zveřejněných v příštím roce. Hlavní důvody, proč chceme měnit tokenizaci právě teď, jsou tři: 1) Na ÚFALu se pustili do revize morfologického slovníku a my tak budeme muset změnit naši proceduru, která provádí segmentaci, tokenizaci a morfologickou analýzu. Zároveň jsme se s ÚFALem dohodli, že by se naše značkování a značkování v PDT (včetně tokenizace) mělo sblížit. Teď je tedy vhodná příležitost ke změnám. 2) Synchronní a diachronní korpusy (pro začátek z 19. století) by měly být tagovány podle stejných zásad, které se budou dotýkat i tokenizace. Pojďme se tedy poradit, jak si tokenizaci v synchronních i diachronních korpusech představujeme, a pokusme se najít její pokud možno jednotné zásady. 3) Už delší dobu nás trápí, že není možné zachytit variantní tokenizaci (např. u agregátů, konjugovaných spojek apod.). Chceme proto prodiskutovat i způsoby, kterými by se to dalo udělat. Zde budeme potřebovat někoho z technické sekce, kdo se dobře vyzná v manatee a v KonTextu, aby nám řekl, co je možné a co ne.
		úterý 2. 4. 2019 13:00	×
		úterý 9. 4. 2019 13:00	How does the word length of Chinese words change? A diachronic analysis based on Google Ngrams Xinying Chen For a long time, diachronic studies of languages, probably widely as known as historical linguistic studies or language evolution studies, are mainly focusing on two aspects: constructing language evolution models and demonstrating different hypothesis by using some small language samples. The insurmountable obstacle of collecting and analyzing authentic diachronic data made the absence of quantitative investigation and hypothesis verification studies based on big data. The situation only has been changed recently due to the advancement of technologies such as OCR, computer memory, text mining, etc. Now, it is possible but still difficult to do a diachronic study by analyzing authentic language data. Our analysis is focusing on the Chinese. By analyzing the Google 1-gram data, we want to describe the Chinese word length changes between 1900-1999.
		úterý 16. 4. 2019 13:00	Vnitrotextová klasifikace tým MDA
		úterý 23. 4. 2019 13:00	Uptalk v češtině? Martin Havlík Uptalk je v Oxford Advanced Learner's Dictionary (OALD) definován jako stoupnutí hlasu na konci výpovědi, takže daný výrok zní jako otázka: "a way of speaking in which the voice rises at the end of a statement, making it sound like a question". Za touto definicí je představa, že rozhovor probíhá jako výměna informací – buď informaci žádám (otázka) nebo ji sděluji (výpověď, statement) – a že lidé hovoří ve větách. Uptalku jsou také připisovány postoje mluvčích, zejména nejistota, srov. i příkladovou větu v citovaném OALD: "Some people find the use of uptalk unclear, conveying a lack of certainty in the speaker." P. Warren (2016: 2) naproti tomu na začátku své monografie o uptalku navrhuje následující pracovní definici: "a marked rising intonation pattern found at the ends of intonation units realised on declarative utterances, and which serves primarily to check comprehension or to seek feedback." Uptalk v češtině česká lingvistika dosud prakticky nezaregistrovala, případně jen okrajově a s negativním hodnocením. Skutečností přitom je, že mnoho mluvčích hovořících česky nápadně stoupá na konci syntakticky a významově ukončených celků, výpovědí, aniž by kladla otázku. Ne každá z těchto výpovědí je také zároveň koncem repliky. Ve svém příspěvku se nebudu zabývat jakýmkoli hodnocením daného jevu. Půjde mi jen o popis formy a funkce uptalku v češtině, a to na škále od skutečné otázky, přes snahu mluvčích získat zpětnou vazbu, nejčastěji přitakání, až po prosté členění dlouhých, vícevýpovědních promluv.
		úterý 30. 4. 2019 13:00	Toponyma v krajině a možnosti jejich výzkumu Václav Lábus Přednáška demonstruje využití metod a nástrojů geografických informačních systémů (GIS) v toponomastickém výzkumu a v prezentaci jeho výsledků směrem k veřejnosti. Zvláštní pozornost bude věnována problematice toponymického centra, variantnosti v toponymii a objektové fixace toponym. Materiálovou základnou je místní a pomístní názvosloví z katastru obcí Vysoké nad Jizerou, Lučany nad Nisou a Nové Město pod Smrkem.
		úterý 7. 5. 2019 13:00	×
		úterý 14. 5. 2019 13:00	Predicting the author's gender using computational stylistic methods George Mikros Online textual production increases rapidly through Web 2.0 media, enriching traditional text genres with new ones. Blogs produce daily more than 900,000 posts, while in microblogging services like Twitter, approximately 5,700 tweets per second are sent from more than 231 million registered accounts. Automatic identification of author’s characteristics (e.g. gender, age and personality) in such micro-texts have started to be the focus of intensive research, mainly due to the many possible applications including forensics, online audience identification for targeted advertisement and socio(linguistic) analysis on gender identity issues. This lecture will present the state-of-the-art in automatic gender identification analysis in social media texts, emphasizing to modern computational stylistic methods using shallow text features (n-grams) and machine learning algorithms. The data used are part of the first Greek Social Media Texts Corpus which has been compiled at the University of Athens (Greece) for studying wider linguistic phenomena in this genre. A detailed comparison of stylometric profiles of men and women users will be presented based on the computational analysis of their blog posts and tweets. Furthermore, experiments predicting a user’s gender in tweets and blog posts will be presented and the reported results will be linked to recently observed neuro-cognitive gender differences.
		úterý 21. 5. 2019 13:00	Úskalí práce se souborem dochovaných latinských textů Lucie Pultrová Přednáška představí, jaké druhy textů v latině jsou dochované a jak jsou, nebo nejsou relevantní pro lingvistický výzkum. Na příkladu konkrétního badatelského projektu (kategorie stupňování v latině) ukáže, jaká úskalí musí řešit lingvista při práci s latinským materiálem, a jaký přínos naopak může mít práce s materiálem z mrtvého jazyka pro lingvistiku obecně.
		úterý 28. 5. 2019 13:00	×
		úterý 4. 6. 2019 13:00	×
		úterý 11. 6. 2019 13:00	×
		úterý 18. 6. 2019 13:00	Building a Gold Standard for a Russian Collocations Database Maria Khokhlova The talk focuses on the process of building a gold standard that will include data from Russian dictionaries and corpora. The standard is being prepared for a Russian Collocations Database that already includes information on words’ collocability and was extracted from text corpora by statistical measures and linguistic filters. The gold standard will be also used for the evaluation of the extracted collocations and for marking them as “true” collocations with references to the dictionaries.