řečové technologie

Řečové technologie se v poslední době často používají při řešení problémů, se kterými si dříve poradil pouze člověk, takže dochází k obrovské úspoře nákladů. Často jsou však využívány i v případech, kdy jejich nasazení přinese pouze zvýšení uživatelského komfortu, a tedy jistou konkurenční výhodu. Z futuristických představ se stávají užiteční pomocníci například při ovládání mobilních zařízení, ale také při výuce, zpracování hlasového záznamu nebo při vyhledávání v multimediálním obsahu.

Vyhledávání hlasem

Komponenta pro vyhledávání hlasem vznikla pro využití ve slovnících Lingea, nicméně v kombinaci s dalšími jazykovými technologiemi se stává efektivním nástrojem k prohledávání databází a textů v podmínkách, kde hlasový vstup je pohodlnějším řešením než psaní na klávesnici. Tuto technologii lze kombinovat i s prohledáváním multimediálního obsahu, čímž vzniká systém, který je řečí nejen ovládán, ale v řeči i vyhledává.

Jazyková část

Kombinuje rozpoznávač řeči s technologiemi pro fulltextové vyhledávání, případně synonymickým slovníkem nebo dokonce překladačem. Výsledkem je jednoduché, ale silné vyhledávací rozhraní, které se jednoduše používá a přitom má výsledky srovnatelné s pokročilým vyhledáváním využívajícím psané dotazy.

Programové řešení

Pro zpracování se typicky využívá online rozpoznávací server a náročné výpočty jsou tak řešeny díky dostatečně dimenzované infrastruktuře. Aplikaci je tedy možné využívat na téměř všech zařízeních, včetně těch, která mají slabší procesory a menší paměťovou kapacitu (například mobilní telefony).

Prohledávání multimediálního obsahu

Prohledávání multimediálního obsahu je asi jedním z nejefektivnějších využití rozpoznávání řeči. Díky automatickému rozpoznání textu nahrávek a jejich indexaci získáváte přístup k informacím v nahrávce, aniž byste ji museli celou poslouchat. To je obrovská úspora času v případě, že pracujete s větším objemem zvukových záznamů. Máte-li k dispozici takto zpracovaný archiv nahrávek, můžete najít i informaci, která se v dané nahrávce vyskytuje jen okrajově a podle ručně zadaných klíčvých slov by ji tedy nebylo možné dohledat. 

 

Jazyková část

Tato technologie kombinuje rozpoznávač řeči s fulltextovým vyhledáváním doplněným jazykovými technologiemi pro tvaroslovné hledání, případně synonymickým slovníkem nebo překladačem. Lze ji kombinovat i s vyhledáváním hlasem, čímž vzniká systém, který nejen vyhledává v řeči, ale navíc je řečí i ovládán.

Programové řešení

Na prohledávaných záznamech proběhne - podobně jako u všech rychle vyhledávajících systémů - nejprve indexace, a teprve následně je možné v nich efektivně vyhledávat.

Klíčovou komponentou této technologie je rozpoznávač řeči, který převádí zvuk na text (v případě nejednoznačného výsledku rozpoznávání může být i text nejednoznačný). Po něm přichází na řadu zpracování textu před indexací (vytvořením rejstříku - indexu), například lemmatizace (převedení slova na základní tvar) pro tvaroslovné vyhledávání, případně překlad do jazyka indexu, a konečně vlastní zanesení do indexu, ve kterém následně program vyhledává podle zadaných dotazů. Dotazy jsou rovněž zpracovány, může probíhat například lemmatizace nebo expanze tvarů (k jednomu tvaru slova se doplní i všechny jeho ostatní tvary, aby se našly i výskyty těchto tvarů, nejen tvaru zadaného), případně expanze synonym nebo překlad do jazyka indexu.

Rozpoznávač je poměrně náročný na výpočetní prostředky a jeho výpočetní výkon je nutno stanovit tak, aby byl schopen dostatečně rychle převádět nově indexované záznamy na text. Čas nutný ke zpracování záznamu je zlomkem času k jeho přehrátí normální rychlostí. Vyšší počet jader umožňuje zpracovávat více záznamů paralelně. Pro vyšší zátěž je vhodné umístění rozpoznávačů na speciálně dedikované servery vyhovujících parametrů. Ostatní činnosti při indexaci jsou podstatně rychlejší. Pro vyhledávání může být při velké zátěži omezujícím faktorem rychlost čtení z disku. Toto lze řešit například využitím rychlých, nejlépe SSD disků, nebo jejich zrcadlením na další disky, případně další vyhledávací servery.