Pod názvem Korpusy rané češtiny (Corpora of Czech as the First Language in Acquisition) pracuje skupina doktorandů a mladších studentů FF UK, která od roku 2014 postupně buduje korpusy složené z přepisů nahrávek komunikace dětí s rodiči v přirozeném prostředí. Nahrávky mapují vývoj zapojených dětí zhruba ve věku 1,5 až 3,5 roku. Rozpracované jsou dva korpusy: korpus Chroma je založený na audionahrávkách sedmi dětí, byl již zveřejněný (v databázích CHILDES a LINDAT) a aktuálně probíhá jeho revize a morfologická anotace; korpus ChroMat je založený na videonahrávkách dalších 6-7 dětí a je stále v procesu vzniku.
V přednášce stručně představím pozici korpusů ve výzkumu osvojování jazyka obecně; ukážu, jak vypadají přepisy tvořící tyto korpusy a jak je možné v nich vyhledávat.
Dále se zaměřím na vznikající morfologickou anotaci, která vychází z automatického značkování programem MorphoDiTa a následně prochází dalšími kroky tak, aby byl její formát kompatibilní s mezinárodní databází dětských korpusů CHILDES.
Nakonec budu mluvit o rozpracované korpusové analýze slovesa být, která je první vlaštovkou mezi analýzami využívajícími naše korpusy. Tato analýza vychází z dokladů všech tvarů slovesa být automaticky vyhledaných v korpusu Chroma. Zaměřuje se jak na dětské, tak na dospělé výpovědi, zkoumá obecné vývojové trajektorie a hledá potenciální vztahy mezi inputem od dospělých a dětskou ranou produkcí.
https://coczefla.ff.cuni.cz/
https://childes.talkbank.org/
https://lindat.cz/