AplikaceAplikace

Multidimenzionální analýza češtiny

Co je multidimenzionální analýza?

Multidimenzionální analýza (MDA) je metoda vyvinutá korpusovým lingvistou Douglasem Biberem pro empirický výzkum textové variability. Variabilitu se MDA pokouší uchopit na základě funkce, kterou mají variantní prostředky v textech. Na rozdíl od dřívějších postupů není cílem MDA apriorní určení jazykových rysů, které jsou typické pro určitou komunikační oblast, ale naopak souvýskyt jazykových rysů v textech je východiskem pro interpretaci. Z rysů, které se pospolu v textech často vyskytují, lze následně odvodit, jakou funkci tyto rysy společně naplňují.

Jak se postupuje při MDA?

MDA byla jako výzkumná metoda modelování registrové variability uplatněna na popis mnoha jazyků. Výzkumný postup se během let ustálil a sestává z následujících kroků:

  • sestavení korpusu,
  • výběr rysů a jejich vyhledání v korpusu (operacionalizace),
  • statistické vyhodnocení pomocí faktorové analýzy,
  • interpretace výsledků.

Výsledky MDA můžou sloužit kromě popisu jazykové variability i k určení hlavních registrů v daném jazyce (viz registrová klasifikace, která funguje jako komplement ke klasifikaci na txtype/genre).

Multidimenzionální model češtiny

Na základě analýzy korpusu Koditex byl jako optimální vytvořen model s 8 dimenzemi:

  1. dynamický (+) vs. statický (−),
  2. spontánní (+) vs. připravený (–),
  3. vyšší (+) vs. nižší (–) stupeň koheze,
  4. polytematický (+) vs. monotematický (–),
  5. vyšší (+) vs. nižší (–) míra explicitní adresnosti,
  6. obecný (+) vs. konkrétní (–),
  7. prospektivní (+) vs. retrospektivní (–),
  8. postojovost (+) vs. faktuálnost (–).

Pojmenování dimenzí vychází především z informace, které jazykové rysy se na jejich ustavení podílejí největší měrou (viz soupis prominentních rysů), a z postavení textů na jednotlivých dimenzích (viz nástroj MDAvis).

Základní publikace projektu (popis české MDA)

Nástroj, korpus a jeho popis

Nástroj na prohlížení výsledků MDA

Popis korpusu Koditex

Data

  • Cvrček, V. et al., 2018, Multi-Dimensional Analysis of Czech (Original data for a general-purpose multi-dimensional analysis model of register variation in Czech). https://doi.org/10.18710/QAJKZW, The Tromsø Repository of Language and Linguistics (TROLLing).
  • Lukeš, D. 2018, Tidiness: A measure based on information theory to help with selecting an appropriate number of dimensions to extract in MDA. Accessible on-line at https://github.com/czcorpus/mda.

Publikace založené na výsledcích projektu

Grantová podpora

Česká MDA byla provedena na půdě Univerzity Karlovy výzkumníky z Ústavu Českého národního korpusu v rámci grantu Jazyková variabilita v CNC v letech 2017-2020. Projekt byl financován z prostředku Operačního programu Výzkum, vývoj a vzdělávání MŠMT.

EU, MŠMT