Lingea TTS – nejčastější otázky

Co je to Syntéza řeči?

Syntéza řeči neboli TTS (Text To Speech) je způsob, jak text převést na lidskou řeč. Zjednodušeně řečeno, počítač text nahlas přečte a zvuk uloží. Význam má hlavně tam, kde není k dispozici člověk, který by text (správně) přečetl. Používá se například v systémech pro nevidomé, nebo v situacích, kdy člověk potřebuje znát obsah textu, ale nemůžu věnovat pozornost čtení, například řidič při řízení. S růstem kvality syntézy se pak otevírají nová pole působnosti, jako například výuka jazyků, zejména poslechu a výslovnosti.

Jaký je rozdíl mezi metodou výběru jednotek a neuronových sítí?

Metoda výběru jednotek pracuje s velkou databází fragmentů řeči, z nichž syntetizovanou řeč skládá. Aby výsledná řeč zněla přirozeně, musí být databáze poměrně velká a její pořízení je technicky, časově a finančně velmi náročné. Výsledná řeč bývá většinou poměrně monotónní.

Metoda využívající neuronové sítě generuje přímo zvukový signál. Dokáže tedy teoreticky produkovat jakýkoliv zvuk, nejen řeč. Výsledky neslepuje z fragmentů zvuků, které se použily pro její přípravu, ale učí se produkovat zvuky odpovídající textu, který je na vstupu. Výstup této metody je přirozenější než výstup metody výběru jednotek. Zjednodušeně se dá říci, že neuronová síť umí vygenerovat i zvuk, se kterým se nikdy nesetkala, což u metody výběru jednotek nelze.

Co je neuronová síť?

Jedná se o jeden z výpočetních modelů, které se používají v umělé inteligenci. Neuron je výpočetní jednotka, která má velké množství vstupů a jeden výstup, který může být zase vstupem mnoha dalších neuronů. Neuronová síť je pak tvořena skupinou těchto umělých neuronů, které jsou mezi sebou navzájem propojeny obrovským množstvím spojení výstupů a vstupů.
K jednotlivým neuronům jsou přiřazeny matematické funkce, které na základě hodnot jednotlivých vstupů počítají výstupní hodnotu. Tyto funkce jsou závislé na takzvaných vahách, což jsou parametry svázané s jednotlivými vstupy. Aby byla neuronová síť užitečná, musejí se matematické funkce neuronů (tedy vlastně váhy jejich vstupů) nastavit tak, aby pro relevantní vstupy vracely správné výstupy. Procesu nastavování těchto vah se říká "trénování" nebo "učení" neuronové sítě. To probíhá tak, že neuronové síti jsou předkládány relevantní vstupy, síť provede výpočet podle aktuálního nastavení a vypočítá výsledek. Vypočítaný výsledek je porovnán s tím, co se síť měla naučit, a váhy jsou mírně poupraveny tak, aby při opakovaném výpočtu byl výsledek o něco lepší. Velkým množstvím takto zpracovaných příkladů a provedených úprav vah se neuronová síť postupně přibližuje žádaným výsledkům, až jich v případě úspěšného naučení dosáhne.

Jaké jsou výhody vašeho řešení oproti konkurenci?

Syntéza Lingea byla vytvořena pro účely výuky, což klade velké nároky jak na kvalitu, tak na možnosti práce s hlasem. Jedno z výhod je i to, že pro každý jazyk máme k dispozici několik hlasů. Tyto hlasy jsou připraveny s důrazem na vysokou kvalitu z velkých trénovacích dat, aby bylo pokrytí reálného jazyka opravdu perfektní. Využití syntézy Lingea vám přinese velmi kvalitní a přirozené ozvučení vašich textů kdykoliv a kdekoliv.