Naučte umělou inteligenci česky. Projekt Common Voice buduje volně dostupný český jazykový data set

27. leden 2020

Magazín Experiment

Projekt Common Voice společnosti MOzilla|foto:voice.mozilla.org

K tomu, aby se software naučil rozeznávat mluvenou češtinu, může díky společnosti Mozilla přispět každý, kdo si otevře internetovou stránku projektu Common Voice. Komunita dobrovolníků v rámci projektu buduje ryze český jazykový data set, tedy balíček dat, který může kdokoliv bezplatně využít například pro vytvoření umělé inteligence, která bude danému jazyku rozumět. Na webu projektu už je vět dostatek, teď je potřeba je namluvit a nahrát. Vyzkoušel si to Vojtěch Koval.

Najít a posbírat dostatek vět na vytvoření potřebného data setu trvalo členům české komunity dobrovolníků Mozilly zhruba rok. „Ze začátku jsme hodně přispívali tím, co už jsme měli – školními slohovkami a vlastními texty, které můžeme pod licencí zveřejnit,“ popisuje jeden z nich Michal Vašíček.

Projekt Common Voice se bez pomoci dobrovolníků neobejde|foto: voice.mozilla.org

Teď je potřeba, aby lidé věty namluvili na záznam a ten nahráli na web projektu. Požadavky na kvalitu nahrávky přitom téměř neexistují – stačí, když namluvené větě bude aspoň trochu rozumět.

22:46

Podstatná je jen srozumitelnost

„Cílem je vytvořit data set, který bude fungovat nejen v akusticky sterilním prostředí jako třeba tady v rozhlase, ale bude zvládat i horší podmínky – když si ho pustíte kdekoli na mobilu, třeba v metru nebo na ulici, kde je hluk,“ vysvětluje Vašíček.

Hlavní stránka projektu Common Voice je uživatelsky velmi přehledná|foto: voice.mozilla.org

Na webu projektu můžete zvolit možnost namlouvat jednotlivé věty nebo si poslechnout nahrávky jiných uživatelů a ohodnotit, jestli načetli text správně. Až bude data set dostatečně rozsáhlý, kdokoliv bude moct naučit nějakou umělou inteligenci nebo program automaticky rozpoznávat češtinu.

Filozofie open source

Tato myšlenka je součástí přístupu Mozilly k otevřenosti dat – v podstatě veškeré její produkty jsou takzvaně open source.

„Soukromí a otevřenost jsou hlavní důvody, proč to vzniklo. Zatím neexistuje žádný data set, který by se dal volně stáhnout z internetu. Musíte zaplatit, vlastní je velké firmy, které si za ně řeknou nemalé peníze,“ vyzdvihuje hlavní výhodu projektu společnosti Mozilla.

Proč Common Voice?
Projekt Common Voice je součástí iniciativy Mozilly, která pomáhá strojům učit se, jak mluví skuteční lidé. Kromě datasetu Common Voice vytváří také systém rozpoznávání hlasu s otevřeným zdrojovým kódem zvaný Deep Speech.
Oba tyto projekty jsou součástí snahy o překlenutí propasti digitální komunikace. Technologie rozpoznávání hlasu vnášejí lidskost do našich zařízení, ale aby je mohli vývojáři vytvářet, potřebují enormní množství hlasových dat. Tato data jsou ale v současné době zpravidla drahá a proprietární.
Cílem projektu je tato data zdarma a veřejně zpřístupnit a zajistit, aby reprezentovala i jedinečnosti skutečných lidí.

Zdroj: Common Voice

Nauč Alexu česky

Common Voice by tak mohl posloužit třeba studentům, kteří pracují na nějakém školním projektu a chtějí využít větší jazykový data set, než jaký jsou schopni si sami vytvořit. Na základě tohoto data setu by tak mohli třeba postavit hlasového asistenta, který by uměl česky.

Čtěte také

Český rozhlas spustíte z dalšího chytrého reproduktoru. Po Amazon Echu i na Google Home

„Vznikne něco jako je Google Home nebo Amazon Alexa, ale bude to fungovat čistě v tom konkrétním zařízení bez toho, aby program musel posílat nahrávky někam na server ke zpracování,“ dodává Vašíček.

Aby Mozzilla český data set skutečně vytvořila, je třeba, aby uživatelé ohodnotili celkem 2400 nahrávek. Nedávno byly vydané verze jazyků s větší členskou základnou, které se začaly sbírat dřív. Zatím bez češtiny, ale tvůrci českého projektu jsou optimističtí a věří, že v srpnové edici už čeština bude.

autoři: Vojtěch Koval , and

Všechny díly pořadu na mujRozhlas

Mohlo by vás zajímat

Přehrát

Přehrát

Český rozhlas se zapojil do projektu Amazon Alexa. Hlasovému...

Poslouchejte živě

Technologie

Naučte umělou inteligenci česky. Projekt Common Voice buduje volně dostupný český jazykový data set

Podstatná je jen srozumitelnost

Filozofie open source

Nauč Alexu česky

Čtěte také

Český rozhlas spustíte z dalšího chytrého reproduktoru. Po Amazon Echu i na Google Home

Mohlo by vás zajímat

Český rozhlas se zapojil do projektu Amazon Alexa. Hlasovému...

Více z pořadu

Imunitní systém v akci. Kožní lymfom se dá držet pod kontrolou ozařováním bílých krvinek

„Jako by mě přejel parní válec.“ Horečka dengue je strašák nejen v exotických destinacích

Jak se staví protibalistické kryty z lehkého betonu? A jak se léčí kožní lymfom?

Rentgenové CT a mikroskop v jednom. Mikro-CT dokáže odhalit sebenepatrnější vady materiálu

Zprávy z iROZHLAS.cz

Šídlo k Blažkovi: V jednu chvíli se ucho utrhne. Vypadá to příšerně a jsou čtyři měsíce do voleb

Kovačič Hanzelová: Slovenská společnost je tlakový hrnec. Politici nikdy nepoužívali hrubší jazyk

Kauza bitcoiny: v peněžence nebyly 3 miliardy, ale 12. Informace ministerstva o výši prostředků mají trhliny

Zemřela herečka Loretta Switová. Její nejznámější rolí byla sestra Houlihanová ze seriálu M.A.S.H.