Seminář ÚL | Czech National Corpus

Venue: P104, main building, 1^st floor
Online: in case you are interested in an online link, please contact Michal.
Held on: Wednesday, 14:10–15:40, unless otherwise stated

		Date	Topic · Speaker · Abstract
		Tuesday 2018-10-02 13:00	první velké úterní informatorium Michal Křen
		Tuesday 2018-10-09 13:00	Lexikografická lakuna aneb Jak se vypořádat s nedoloženým slovníkovým tvarem lingvistická sekce
		Tuesday 2018-10-16 13:00	×
		Tuesday 2018-10-23 13:00	Čeština 2.0 Michal Škrabal Martin Kavka Čeština 2.0 je slovník, který trolí češtináře už od roku 2008. Vytváříte ho vy všichni, kteří přidáváte neotřelá, nová, regionální či jinak zajímavá slova ze všech zákoutí mateřského jazyka.
		Tuesday 2018-10-30 13:00	Jak se skládají komplimenty v češtině Klára Dvořáková V přednášce budou nejprve představeny různé přístupy ke studiu komplimentů. Následně bude pozornost věnována verbálním i neverbálním prostředkům, které jsou pro komplimenty v češtině typické, i komunikačním funkcím komplimentů.
		Tuesday 2018-11-06 13:00	×
		Tuesday 2018-11-13 13:00	×
		Tuesday 2018-11-20 13:00	ZRUŠENO
		Tuesday 2018-11-27 13:00	×
		Tuesday 2018-12-04 13:00	Dvakrát o slovesném způsobu v obsahových větách (francouzština a čeština diachronně) Karolína Lipská Anna Řehořková
		Tuesday 2018-12-11 13:00	Výstupy infrastruktury RIDICS Boris Lehečka Ondřej Svoboda Představíme vybrané výstupy i současné úkoly Výzkumné infrastruktury RIDICS: generátor staročeských slovních tvarů, (částečně a nejednoznačně) hyperlemmatizované a označkované textové banky v KonTextu, slovník pro kontrolu staročeského pravopisu a pomůcky při přípravě elektronických edic literárních památek.
		Tuesday 2018-12-18 13:00	včetně bohaté tomboly vánoční besídka
		Tuesday 2018-12-25 13:00	×
		Tuesday 2019-01-22 13:00	×
		Tuesday 2019-01-29 13:00	×
		Tuesday 2019-02-05 14:00	Velké úterý (od 14:00) Michal Křen Nepravidelné informatorium "nového" vedení ústavu o projektových, finančních a personálních otázkách.
		Tuesday 2019-02-12 13:00	×
		Tuesday 2019-02-19 13:00	×
		Tuesday 2019-02-26 13:00	×
		Tuesday 2019-03-05 13:00	Slovosled pronominálních enklitik závislých na verbu finitu v 1. vydání Bible kralické Pavel Kosek Olga Navrátilová Radek Čech
		Tuesday 2019-03-12 13:00	TEITOK – a web-based platform for viewing, creating, and editing corpora Maarten Janssen In this talk I will give a general overview of TEITOK, an online system for making corpora available and searchable, but at the same time for editing them, annotating, and correcting. In TEITOK, a corpus consists of a collection of heavily annotated, Text-Encoding Initiative (TEI) compliant XML files, each of which can be edited individually. The files can contain not only the corpus text, but also a wide range of annotation data, concerning many aspect of the text, including its relation to sound files or facsimile images. This allows for coordinate-sensitive document descriptions, time-aligned audio transcriptions, or multi-layered transcriptions. I will show how this makes TEITOK a powerful tool for at least the three areas where it is most used: learner corpora, historical corpora, and spoken corpora.
		Wednesday 2019-03-20 11:00	SpoCo – a bottom-up initiative to build Slavic spoken corpora Achim Rabus In the talk, the SpoCo infrastructure for Slavic (and non-Slavic) spoken (and non-spoken) corpora is presented. I show how the platform evolved, discuss its functionality and give an outlook on its future development. While I will predominantly focus on the Corpus of Spoken Rusyn, other Slavic corpora will be touched upon as well.
		Tuesday 2019-03-26 13:00	Tokenizace v SYN2020 a SYNv9 Hana Skoumalová Jan Henyš Jana Šindlerová Zveme vás na seminář, na kterém se s vámi chceme poradit o tom, jaká má být tokenizace v korpusech zveřejněných v příštím roce. Hlavní důvody, proč chceme měnit tokenizaci právě teď, jsou tři: 1) Na ÚFALu se pustili do revize morfologického slovníku a my tak budeme muset změnit naši proceduru, která provádí segmentaci, tokenizaci a morfologickou analýzu. Zároveň jsme se s ÚFALem dohodli, že by se naše značkování a značkování v PDT (včetně tokenizace) mělo sblížit. Teď je tedy vhodná příležitost ke změnám. 2) Synchronní a diachronní korpusy (pro začátek z 19. století) by měly být tagovány podle stejných zásad, které se budou dotýkat i tokenizace. Pojďme se tedy poradit, jak si tokenizaci v synchronních i diachronních korpusech představujeme, a pokusme se najít její pokud možno jednotné zásady. 3) Už delší dobu nás trápí, že není možné zachytit variantní tokenizaci (např. u agregátů, konjugovaných spojek apod.). Chceme proto prodiskutovat i způsoby, kterými by se to dalo udělat. Zde budeme potřebovat někoho z technické sekce, kdo se dobře vyzná v manatee a v KonTextu, aby nám řekl, co je možné a co ne.
		Tuesday 2019-04-02 13:00	×
		Tuesday 2019-04-09 13:00	How does the word length of Chinese words change? A diachronic analysis based on Google Ngrams Xinying Chen For a long time, diachronic studies of languages, probably widely as known as historical linguistic studies or language evolution studies, are mainly focusing on two aspects: constructing language evolution models and demonstrating different hypothesis by using some small language samples. The insurmountable obstacle of collecting and analyzing authentic diachronic data made the absence of quantitative investigation and hypothesis verification studies based on big data. The situation only has been changed recently due to the advancement of technologies such as OCR, computer memory, text mining, etc. Now, it is possible but still difficult to do a diachronic study by analyzing authentic language data. Our analysis is focusing on the Chinese. By analyzing the Google 1-gram data, we want to describe the Chinese word length changes between 1900-1999.
		Tuesday 2019-04-16 13:00	Vnitrotextová klasifikace tým MDA
		Tuesday 2019-04-23 13:00	Uptalk v češtině? Martin Havlík Uptalk je v Oxford Advanced Learner's Dictionary (OALD) definován jako stoupnutí hlasu na konci výpovědi, takže daný výrok zní jako otázka: "a way of speaking in which the voice rises at the end of a statement, making it sound like a question". Za touto definicí je představa, že rozhovor probíhá jako výměna informací – buď informaci žádám (otázka) nebo ji sděluji (výpověď, statement) – a že lidé hovoří ve větách. Uptalku jsou také připisovány postoje mluvčích, zejména nejistota, srov. i příkladovou větu v citovaném OALD: "Some people find the use of uptalk unclear, conveying a lack of certainty in the speaker." P. Warren (2016: 2) naproti tomu na začátku své monografie o uptalku navrhuje následující pracovní definici: "a marked rising intonation pattern found at the ends of intonation units realised on declarative utterances, and which serves primarily to check comprehension or to seek feedback." Uptalk v češtině česká lingvistika dosud prakticky nezaregistrovala, případně jen okrajově a s negativním hodnocením. Skutečností přitom je, že mnoho mluvčích hovořících česky nápadně stoupá na konci syntakticky a významově ukončených celků, výpovědí, aniž by kladla otázku. Ne každá z těchto výpovědí je také zároveň koncem repliky. Ve svém příspěvku se nebudu zabývat jakýmkoli hodnocením daného jevu. Půjde mi jen o popis formy a funkce uptalku v češtině, a to na škále od skutečné otázky, přes snahu mluvčích získat zpětnou vazbu, nejčastěji přitakání, až po prosté členění dlouhých, vícevýpovědních promluv.
		Tuesday 2019-04-30 13:00	Toponyma v krajině a možnosti jejich výzkumu Václav Lábus Přednáška demonstruje využití metod a nástrojů geografických informačních systémů (GIS) v toponomastickém výzkumu a v prezentaci jeho výsledků směrem k veřejnosti. Zvláštní pozornost bude věnována problematice toponymického centra, variantnosti v toponymii a objektové fixace toponym. Materiálovou základnou je místní a pomístní názvosloví z katastru obcí Vysoké nad Jizerou, Lučany nad Nisou a Nové Město pod Smrkem.
		Tuesday 2019-05-07 13:00	×
		Tuesday 2019-05-14 13:00	Predicting the author's gender using computational stylistic methods George Mikros Online textual production increases rapidly through Web 2.0 media, enriching traditional text genres with new ones. Blogs produce daily more than 900,000 posts, while in microblogging services like Twitter, approximately 5,700 tweets per second are sent from more than 231 million registered accounts. Automatic identification of author’s characteristics (e.g. gender, age and personality) in such micro-texts have started to be the focus of intensive research, mainly due to the many possible applications including forensics, online audience identification for targeted advertisement and socio(linguistic) analysis on gender identity issues. This lecture will present the state-of-the-art in automatic gender identification analysis in social media texts, emphasizing to modern computational stylistic methods using shallow text features (n-grams) and machine learning algorithms. The data used are part of the first Greek Social Media Texts Corpus which has been compiled at the University of Athens (Greece) for studying wider linguistic phenomena in this genre. A detailed comparison of stylometric profiles of men and women users will be presented based on the computational analysis of their blog posts and tweets. Furthermore, experiments predicting a user’s gender in tweets and blog posts will be presented and the reported results will be linked to recently observed neuro-cognitive gender differences.
		Tuesday 2019-05-21 13:00	Úskalí práce se souborem dochovaných latinských textů Lucie Pultrová Přednáška představí, jaké druhy textů v latině jsou dochované a jak jsou, nebo nejsou relevantní pro lingvistický výzkum. Na příkladu konkrétního badatelského projektu (kategorie stupňování v latině) ukáže, jaká úskalí musí řešit lingvista při práci s latinským materiálem, a jaký přínos naopak může mít práce s materiálem z mrtvého jazyka pro lingvistiku obecně.
		Tuesday 2019-05-28 13:00	×
		Tuesday 2019-06-04 13:00	×
		Tuesday 2019-06-11 13:00	×
		Tuesday 2019-06-18 13:00	Building a Gold Standard for a Russian Collocations Database Maria Khokhlova The talk focuses on the process of building a gold standard that will include data from Russian dictionaries and corpora. The standard is being prepared for a Russian Collocations Database that already includes information on words’ collocability and was extracted from text corpora by statistical measures and linguistic filters. The gold standard will be also used for the evaluation of the extracted collocations and for marking them as “true” collocations with references to the dictionaries.