AppsApps

ICNC Seminar

Schedule for the academic year 2014/2015

Venue
Panská 890/7 (Kaunický palác), 1st floor on the left
Online
in case you are interested in an online link, please contact Klára or Michal.
Held on
Tuesday, 13:00, unless otherwise stated
Date Topic · Speaker · Abstract

VELKÉ úterý

  1. ÚČNK

  1. seminář se nekoná

  1. seminář se nekoná

  1. seminář se nekoná
začíná semestr

  1. seminář se nekoná

Interview s Geoffreym Leechem - společné zhlédnutí a diskuze

  1. František Čermák a ÚČNK

Měl Dostál pravdu? Nový empirický přístup k vidu ve staroslověnštině / Was Dostál right? A New Empirical Approach to Aspect in Old Slavonic

  1. Laura Janda

  1. seminář se nekoná

15 přikázání korpusového lingvisty - diskuze

  1. František Čermák

Problémy lemmatizace a značkování starších českých textů

  1. Karel Kučera
  2. Martin Stluka
  3. Anna Zitová
místnost 104

Building onto the corpus-driven approach: a wider look on meaning

  1. Wolfgang Teubert

What makes the corpus-driven approach stand out in language studies is its appeal as a ‘scientific’ methodology. Using computational tools to identify, count and measure real language data, we obtain dependable findings. Scientific practice, however, is no different from any other social practice: it is discursively constructed. In the absence of a ‘real’ fundament, there cannot be a ‘true’ bottom-up approach. All corpus research presupposes a consensus on the arbitrary decisions underlying our research question, and the findings obtained have to be interpreted to make sense. Meaning is found only in discourse.

Corpus linguistics and the meaning of lexical items: how to distinguish grief from mourning

  1. Wolfgang Teubert

The meaning of a lexical item is not so much what we find in monolingual or bilingual dictionaries, for meaning is only in discourse. Traditional lexicography can only provide a first approach. It is in discourse that people negotiate what words mean, including, for instance, what distinguishes grief from mourning. For while words in isolation can mean almost anything, once they are embedded in a context it becomes clear what they actually mean there.

Corpus induced compilation of a large reference dictionary of German: opportunities and limitations

  1. Alexander Geyken

Korpusová historie očima pamětníků :)

  1. Jan Kocek a Věra Schmiedtová

vánoční besídka

  1. ÚČNK
končí semestr

  1. seminář se nekoná

  1. seminář se nekoná

  1. seminář se nekoná

Čtenářské výzkumy – k čemu, proč a jak

  1. Jiří Trávníček
  • jaká jsme čtenářská kultura ve srovnání s jinými zeměmi?
  • co se dá výzkumy zjistit?
  • jaké jsou důvody, proč tyto výzkumy provádět?
  • jaké je jejich metodologické zázemí?
  • jak propojit kvantitativní a kvalitativní linii?
  • kam čtení směřuje do budoucna?

  1. seminář se nekoná

Překladové protějšky jako ‚ukazatele významu‘

  1. Markéta Malá

Na příkladu anglických sponových sloves se pokusím ukázat, jak lze někdy díky paralelnímu korpusu postupovat i v korpusové lingvistice od významu k formální realizaci.

Repertoár sponových sloves je v češtině užší než v angličtině, a tak využívá čeština k modifikaci připsání nějakého příznaku podmětu vedle spon také různých jiných prostředků. Jejich rozmanitost se projevuje v překladových protějšcích anglických sponových predikací. Na druhé straně mohou české překladové korespondence odhalit specifické vlastnosti (skupin) anglických sponových sloves.

S českými protějšky anglických sponových sloves je dále možné pracovat jako s ‚ukazateli významu‘. Překladové protějšky spojené s určitou sémantickou skupinou sponových sloves se vyskytují také jako překlady jiných anglických konstrukcí, které nesou stejný význam. V překladových korespondencích se pak objevuje celý repertoár těchto anglických prostředků. Užití této metody má ale výrazná omezení: předpokládá ideálně existenci takových překladových protějšků, které jsou dostatečně frekventované a formálně i sémanticky jednoznačné.

začíná semestr

A corpus driven comparison of Slavic prepositions and derivational morphology, or: what massively parallel texts are good for

  1. Ruprecht von Waldenfels

The comparison of cognate functional material in a closely related set of languages such as that of the Slavic genus is difficult and very labour-intensive, since differences tend to be subtle and rarely clear-cut. The talk presents a method to investigate such differences on the basis of translationally equivalent texts and a corpus driven system for the simple investigation of many, heterogenous linguistic variables.

I use a word aligned, morphologically tagged and lemmatized parallel corpus of prose in all major Slavic languages (ParaSol, see www.parasolcorpus.org), to derive an extensionally defined handle on the domain of use of diverse linguistic categories across languages. In the talk, the use of prepositions and derivational affixes in translationally equivalent segments across all major Slavic standard languages is compared and evaluated using clustering algorithms as well as more qualitative techniques, showing the usefulness of the technique as well as new insights into difficult to see patterns of convergence and divergence of, say, Czech, in respect to other Slavic languages.

  1. seminář se nekoná

Diskuse ke klasifikaci textů

  1. interní schuse ÚČNK

Pro SYN2015 jsme se rozhodli přikročit k jistým změnám v klasifikaci textů, které by měly vést k aktuálnějším kategoriím a vhodnější granularitě tam, kde je potřeba. Předběžný návrh změn je hotový, smyslem semináře bude jej projednat, opřipomínkovat a na základě společné diskuse případně ještě upravit.

Součástí semináře nebude prezentace stávající podoby klasifikace ani navrhovaných změn, s obojím je třeba se seznámit předem s pomocí přiložených materiálů. Důrazně vás prosíme, abyste si dokumenty nastudovali a mohli tak rovnou vplout do konstruktivní debaty.

Materiály obsahují následující soubory:

  • klasifikace_puvodni.xlsx: přehledná tabulka se stávající klasifikací (kdo potřebuje ucelenější úvod, může začít heslem txtype_group na wiki)
  • klasifikace_zmeny.docx: popis navrhovaných změn
  • klasifikace_kompletni_info.docx: detailně popsaná nová klasifikace po uplatnění změn
  • klasifikace_prehledna_tabulka.xlsx: přehledná tabulka s novou klasifikací

  1. seminář se nekoná

Kvantitativní charakteristiky termínů

  1. Dominika Kováříková

Během přednášky představím metodu automatického vyhledávání termínů založenou na data miningu (vytěžování rozsáhlých dat). Budu se snažit odpovědět na následující otázky: co jsou to termíny, jak je co nejlépe popsat a v jakých textech a jakým způsobem je můžeme najít. Představím online nástroj Termit na vyhledávání termínů v jakémkoli textu.

  1. seminář se nekoná

Vytváření internetových korpusů bez spamu

  1. Vít Suchomel

Počítačoví lingvisté využívají internet jako zdroj obrovského množství textových dat k rozličným úkolům zpracování přirozeného jazyka a jazykovým studiím. Internetové korpusy můžeme vytvářet ve velikostech steží dosažitelných pomocí tradičních metod sestavování korpusů. Ke zpracování neuspořádaných a nekontrolovaných internetových dat byly vyvinuty čisticí postupy.

Přesto pozorujeme snížení použitelnosti nedávno vytvořených internetových korpusů spamováním. Přítomnost spamu v textových korpusech významně ovlivňuje výsledky odvozené ze statistického zpracování korpusových dat. Je tedy důležité zabývat se tímto problémem, abychom mohli během čištění korpusu odstraňovat i spam.

V přednášce bude popsán výskyt spamu ve webových korpusech, nabídnuta možná řešení jeho identifikace, případně způsoby vyhnutí se spamu, a ukázány počáteční drobné výsledky.

Sociální sítě jako zdroje pro jazykové korpusy

  1. Josef Šlerka

Vzájemné vztahy Čechů a Slováků

  1. Milena Hebal-Jezierska

Účelem této přednášky je představit vztahy Čechů a Slováků na základě českých a slovenských tiskových zpráv z let 2005-2009. K analýze jsme využili analýzu kolokací, synsémantických slov a vybraných slovních spojení (např. bratrství Čechů a Slováků). Na základě této analýzy jsou Češi a Slováci zobrazeni v různých kategoriích.

  1. seminář se nekoná

Čeština jako cizí jazyk v ČNK

  1. Alexandr Rosen

Po úvodu do problematiky tvorby, anotace a využití akvizičních korpusů obecně se zaměříme na žákovské korpusy češtiny. Některé z nich jsou přístupné z rozhraní KonText, např. korpus CzeSL-SGT, vybavený automaticky pořízenou lingvistickou i chybovou anotací. Na podrobnější popis anotace tohoto korpusu navážeme v závěru úvahami na téma možností anotace češtiny jako cizího jazyka.

Akademický slovník současné češtiny (k některým otázkám koncepce a tvorby připravovaného slovníku)

  1. Pavla Kochová

V oddělení současné lexikologie a lexikografie Ústavu pro jazyk český AV ČR, v. v. i., vzniká od začátku roku 2012 Akademický slovník současné češtiny (ASSČ). Navazuje na tradici všeobecných výkladových slovníků vznikajících v ÚJČ v průběhu 20. století, avšak mnohé aspekty se vzhledem k vývoji v oblasti lingvistiky řeší nově nebo odlišně.

Přednáška se zaměří 1) na základní charakteristiku vznikajícího slovníku, 2) na základní principy tvorby ASSČ, zejména v porovnání s lexikografickými postupy předcházejících slovníků a představí 3) řešení vybraných lexikálněsémantických jevů v ASSČ.

K vývoji konkurujících si tvarů na základě dat z ČNK

  1. Neil Bermel

Jednotlivé změny ve struktuře jazyka údajně začínají pomalu, nabírají na rychlosti ve „střední fázi“ a ke konci se zase zpomalují. Tím vytvářejí křivku ve tvaru prodlouženého S (Denison 2003). Při zkoumání současné frekvence tří případů variace v české morfosyntaxi jsme zjistili, že z hlediska historické pokročilosti této variace by měl být každý z nich umístěn jinde na této křivce:

  • Ve vzoru hrad nahrazení Gsg. {a} expanzivními tvary na {u} už postoupilo dost daleko: expanzivní tvar tvoří 88 % všech výskytů v SYN2005.
  • Ve vzoru hrad byly tvary Lsg. na {e/ě} nahrazeny expanzivními tvary na {u} v 69 % výskytů v SYN2005.
  • Ve vzoru kost přechod tvarů na nový vzor píseň nedošel tak daleko: v Gsg. se zatím realizuje ve 38 % výskytů v SYN.

Pro bližší seznámení s vývojem těchto jevů jsme využili grafických možností rozhraní SyD a korpusu Diakon. Probereme některá omezení a nedostatky tohoto přístupu, ale zároveň upozorníme na poznatky, které zkoumání těchto trendů poskytují a možnosti kompenzace nedostatků využitím korpusu Diakorp.

Naše sondy ukazují, že oproti jasnému celkovému vzestupu jedné koncovky je historie jednotlivých slovních tvarů mnohem pestřejší. Svědčí to jednak o složitějším průběhu těchto změn v rámci českého deklinačního systému, jednak o historických skutečnostech jazykového vývoje v českých zemích.

končí semestr

Slovesný vid v češtině z hlediska nevidomého pozorovatele

  1. Ilona Kořánová

V příspěvku představím teze své disertační práce. Témata, kterým se budu věnovat, uvádím v bodech.

  • Dvojí význam vidový: Gramatikalizovaný vid lexému na jedné straně a význam sdělení na straně druhé
  • Parametry vidových rozdílů a temporálně aspektuální markery: další činitelé, kteří spolu s predikátem vytvářejí vidový význam
  • Děje a stavy
  • Přechody mezi stavy
  • Povaha vztahů mezi členy vidové dvojice
  • Sémantické skupiny predikátů

  1. seminář se nekoná

  1. seminář se nekoná

Dvě česká nářečí na území dnešní RF

  1. Sergej Skorvid

Přednáška si klade za cíl přiblížit současný stav dvou českých nářečí na území dnešní RF, která vznikla v důsledku dvou vln stěhování rolníků na severní Kavkaz od druhé poloviny 60. let 19. stol. a na Sibiř z ukrajinského Čechohradu počátkem 20. stol.

Přednášející ukáže, že v obou těchto nářečích je celkem dobře zachován systém výchozích českých dialektů, v prvním případě jihozápadního a v druhém severovýchodního, zároveň se však na nich projevil dlouhodobý vliv ruštiny a zčásti ukrajinštiny, a to v rovině nejen lexikální, nýbrž také fonetické a gramatické.

Nahráváním rozhovorů s mluvčími obou nářečí, od roku 2009 na severním Kavkaze a od roku 2013 na Sibiři, vznikl dosti reprezentatvní mluvený korpus, který nyní čeká na zpracování.

Building and linking lexical resources: corpus, dictionary and thesaurus data

  1. Lars Trap-Jensen

For more than a hundred years, The Society for Danish Language and Literature has been editing literary works and documenting the language from the earliest period to the present day. More than 200 titles and 800 volumes have been published within the fields of bibliography, medieval diplomatics, fiction, poetry and drama, lexicography, language history, grammar and corpus. In this talk, a selection of projects and resources will be presented, with special emphasis on the lexical resources. In particular, the perspectives and challenges of linking digital data will be explored.