Rozpoznání jazyka

Pro hledání ve vícejazyčných textech na internetu i v databázích je vhodné vědět, ve kterém jazyku je určitá část textu (např. věta, odstavec) napsána. Automatické rozpoznání jazyka je důležité pro další práci s textem, například pro jeho indexaci, lemmatizace, značkování, vyhledávání, apod. Vyhledávač pak může snadno doporučit vhodné nástroje pro další zpracování. Detekce jazyka je prvním krokem k práci s textem pro firmy a instituce, které pracují s více jazyky, vyhledávají ve velkém množství textových nebo zvukových dat, zpracovávají je a případně je dále analyyzují. 

Jazyková část

Některé jazyky lze rozpoznat i podle typického písma nebo znaků specifických pro daný jazyk. Většinou jsou však pro rozpoznámí použity morfologické informace. Dohromady tato komponenta správně detekuje přes 40 světových jazyků.

Programové řešení

Modul Rozpoznání jazyka pracuje s úsekem textu od několika málo slov až po celé dokumenty. Je to proto, že čím delší text zadáte k vyhodnocení, tím spolehlivěji program určí hlavní jazyk. Vezměte si třeba spojení Je mine., ta je správně česky, slovensky i francouzsky. Pokud ale pomineme tyto umělé případy, věta v rozsahu 10-20 slov by měla pro správné rozpoznání jazyka postačovat.

Dostupné funkce