AplikaceAplikace

Korpusy rané češtiny

Datum
Přednášející
  1. Anna Chromá
  2. Klára Matiasovitsová
  3. Jakub Sláma
  4. Filip Smolík
Abstrakt

Pod názvem Korpusy rané češtiny (Corpora of Czech as the First Language in Acquisition) pracuje skupina doktorandů a mladších studentů FF UK, která od roku 2014 postupně buduje korpusy složené z přepisů nahrávek komunikace dětí s rodiči v přirozeném prostředí. Nahrávky mapují vývoj zapojených dětí zhruba ve věku 1,5 až 3,5 roku. Rozpracované jsou dva korpusy: korpus Chroma je založený na audionahrávkách sedmi dětí, byl již zveřejněný (v databázích CHILDES a LINDAT) a aktuálně probíhá jeho revize a morfologická anotace; korpus ChroMat je založený na videonahrávkách dalších 6-7 dětí a je stále v procesu vzniku.

V přednášce stručně představím pozici korpusů ve výzkumu osvojování jazyka obecně; ukážu, jak vypadají přepisy tvořící tyto korpusy a jak je možné v nich vyhledávat.

Dále se zaměřím na vznikající morfologickou anotaci, která vychází z automatického značkování programem MorphoDiTa a následně prochází dalšími kroky tak, aby byl její formát kompatibilní s mezinárodní databází dětských korpusů CHILDES.

Nakonec budu mluvit o rozpracované korpusové analýze slovesa být, která je první vlaštovkou mezi analýzami využívajícími naše korpusy. Tato analýza vychází z dokladů všech tvarů slovesa být automaticky vyhledaných v korpusu Chroma. Zaměřuje se jak na dětské, tak na dospělé výpovědi, zkoumá obecné vývojové trajektorie a hledá potenciální vztahy mezi inputem od dospělých a dětskou ranou produkcí.

 

https://coczefla.ff.cuni.cz/

https://childes.talkbank.org/

https://lindat.cz/