Rozpoznání jazyka
Možná provozujete server nebo aplikaci, do kterých zadávají texty různí přispěvatelé
v různých jazycích. Příspěvků je hodně a smysl mají jenom tehdy, když je bude někdo číst.
Implementujete proto vyhledávač, ale brzy zjistíte, že by se vám hodil nástroj,
který dovede automaticky rozpoznat, v jakém jazyce je daný článek napsán.
A právě zde by vám mohla pomoci komponenta Rozpoznání jazyka.
Jazyková část
Naše firma se již řadu let zabývá vývojem jazykových nástrojů pro velké množství jazyků.
Podíváte-li se podrobněji na články o ostatních komponentách, zjistíte, že se zdaleka nejedná o pouhý
seznam slov, ale o důsledný popis morfologie. Za dobu, kterou se touto problematikou zabýváme,
máme proto dostatek znalostí i potřebných dat k tomu, abychom mohli vyvinout nástroj schopný rozpoznat,
ze kterého jazyka slovo pochází.
Programové řešení
Na rozdíl od většiny ostatních nástrojů nepracuje modul Rozpoznání jazyka pouze s jedním slovem,
ale s celým úsekem textu. Je to proto, že čím delší text zadáte k vyhodnocení, tím spolehlivěji program
určí výchozí jazyk. Uvažte třeba větu Je mine., která je správně česky, slovensky i francouzsky.
Ovšem i když nehledáme ukázkový příklad, narazíme i na celkem srozumitelný výrok typu
Právníci z ministerstva vypracovali analýzu minulý rok., který může být stále tak dobře česky i slovensky.
Jeden odstavec v rozsahu 100 slov by však měl již každopádně stačit.
Dostupné funkce
Určení jazyka, ze kterého pochází zadaný text.
Modul pro rozpoznání jazyka umožňuje spolehlivě detekovat všechny jazyky, které nabízíme
(viz tabulka). Implementován je rovněž na většině platforem
(viz přehled).