Naučte umělou inteligenci česky. Projekt Common Voice buduje volně dostupný český jazykový data set

Projekt Common Voice společnosti MOzilla

K tomu, aby se software naučil rozeznávat mluvenou češtinu, může díky společnosti Mozilla přispět každý, kdo si otevře internetovou stránku projektu Common Voice. Komunita dobrovolníků v rámci projektu buduje ryze český jazykový data set, tedy balíček dat, který může kdokoliv bezplatně využít například pro vytvoření umělé inteligence, která bude danému jazyku rozumět. Na webu projektu už je vět dostatek, teď je potřeba je namluvit a nahrát. Vyzkoušel si to Vojtěch Koval.

Najít a posbírat dostatek vět na vytvoření potřebného data setu trvalo členům české komunity dobrovolníků Mozilly zhruba rok. „Ze začátku jsme hodně přispívali tím, co už jsme měli – školními slohovkami a vlastními texty, které můžeme pod licencí zveřejnit,“ popisuje jeden z nich Michal Vašíček.

Projekt Common Voice se bez pomoci dobrovolníků neobejde

Teď je potřeba, aby lidé věty namluvili na záznam a ten nahráli na web projektu. Požadavky na kvalitu nahrávky přitom téměř neexistují – stačí, když namluvené větě bude aspoň trochu rozumět.

Podstatná je jen srozumitelnost

„Cílem je vytvořit data set, který bude fungovat nejen v akusticky sterilním prostředí jako třeba tady v rozhlase, ale bude zvládat i horší podmínky – když si ho pustíte kdekoli na mobilu, třeba v metru nebo na ulici, kde je hluk,“ vysvětluje Vašíček.

Hlavní stránka projektu Common Voice je uživatelsky velmi přehledná

Na webu projektu můžete zvolit možnost namlouvat jednotlivé věty nebo si poslechnout nahrávky jiných uživatelů a ohodnotit, jestli načetli text správně. Až bude data set dostatečně rozsáhlý, kdokoliv bude moct naučit nějakou umělou inteligenci nebo program automaticky rozpoznávat češtinu.

Filozofie open source

Tato myšlenka je součástí přístupu Mozilly k otevřenosti dat – v podstatě veškeré její produkty jsou takzvaně open source.

„Soukromí a otevřenost jsou hlavní důvody, proč to vzniklo. Zatím neexistuje žádný data set, který by se dal volně stáhnout z internetu. Musíte zaplatit, vlastní je velké firmy, které si za ně řeknou nemalé peníze,“ vyzdvihuje hlavní výhodu projektu společnosti Mozilla.

Proč Common Voice?
Projekt Common Voice je součástí iniciativy Mozilly, která pomáhá strojům učit se, jak mluví skuteční lidé. Kromě datasetu Common Voice vytváří také systém rozpoznávání hlasu s otevřeným zdrojovým kódem zvaný Deep Speech.
Oba tyto projekty jsou součástí snahy o překlenutí propasti digitální komunikace. Technologie rozpoznávání hlasu vnášejí lidskost do našich zařízení, ale aby je mohli vývojáři vytvářet, potřebují enormní množství hlasových dat. Tato data jsou ale v současné době zpravidla drahá a proprietární.
Cílem projektu je tato data zdarma a veřejně zpřístupnit a zajistit, aby reprezentovala i jedinečnosti skutečných lidí.

Zdroj: Common Voice

Nauč Alexu česky

Common Voice by tak mohl posloužit třeba studentům, kteří pracují na nějakém školním projektu a chtějí využít větší jazykový data set, než jaký jsou schopni si sami vytvořit. Na základě tohoto data setu by tak mohli třeba postavit hlasového asistenta, který by uměl česky.

„Vznikne něco jako je Google Home nebo Amazon Alexa, ale bude to fungovat čistě v tom konkrétním zařízení bez toho, aby program musel posílat nahrávky někam na server ke zpracování,“ dodává Vašíček.

Aby Mozzilla český data set skutečně vytvořila, je třeba, aby uživatelé ohodnotili celkem 2400 nahrávek. Nedávno byly vydané verze jazyků s větší členskou základnou, které se začaly sbírat dřív. Zatím bez češtiny, ale tvůrci českého projektu jsou optimističtí a věří, že v srpnové edici už čeština bude.

Spustit audio
autoři: Vojtěch Koval, Anna Duchková|zdroj: Český rozhlas

Související