Automatické doplňování diakritiky

Je možné, že potřebujete v programovém řešení zpracovávat dotazy bez diakritiky. Možná Vám kolegové posílají bez diakritiky své připomínky či poznámky. V každém případě je občas potřeba zpracovat text tak, aby již diakritiku obsahoval.

Tento problém řeší jazykové technologie Lingea na dvou úrovních: 

  1. Modul, který k libovolnému slovu bez diakritiky najde všechna správná česká slova s diakritickými znaménky. Vhodné například pro předzpracování dotazu ve vyhledávači. 
  2. Plně automatické řešení, které s využitím statistického jazykového modelu dokáže převést celý text bez háčků a čárek na správný text s diakritikou.

Jazyková část

Základem řešení je formální popis morfologie, díky kterému dokážeme k libovolnému slovu bez diakritiky najít všechna správná slova. Těch slov může být i více, např. ke slovu vesel jsou to slova vešel, věšel nebo i původní varianta. Pokud tedy chceme, aby řešení byla zcela automatická, musíme zapojit ještě statistické metody založené na rozsáhlém korpusu správně napsaných českých textů. Díky nim dokážeme najít v daném kontextu tu nejpravděpodobnější variantu.

Na tomto místě je ale potřeba upozornit na to, že s některými případy si neporadí ani velmi pokročilá řešení. Uvažte třeba větu:

Neustale mi tu radi a ja uz jsem z toho cela zoufala.

Zde skutečně nevíte, zda dotyčná mluví o zlobivém dítěti, o osobním poradci či příliš aktivním žáku autoškoly.

Programové řešení

První úrovní je funkce, která k libovolnému slovu vrátí všechny varianty slov s diakritickými znaménky. Používá jen morfologický slovník daného jazyka, jehož velikost bývá přibližně 1 MB.

Druhá úrovenň je paměťově náročnější. Pracuje s jazykovým modelem, jehož velikost se pohybuje v řádech gigabytů. Vstupem může být i text v HTML, modul ponechá všechny HTML značky beze změny, pouze doplní svoje značky, které označují slova, která byla změněna. Funkčnost tohoto nástroje si můžete vyzkoušet na www.nechybujte.cz.