Automatické doplňování diakritiky
Je možné, že potřebujete v programovém řešení zpracovávat dotazy bez diakritiky. Možná Vám kolegové posílají bez diakritiky své připomínky či poznámky. V každém případě je občas potřeba zpracovat text tak, aby již diakritiku obsahoval.
Tento problém řeší jazykové technologie Lingea na dvou úrovních:
- Modul, který k libovolnému slovu bez diakritiky najde všechna správná česká slova s diakritickými znaménky. Vhodné například pro předzpracování dotazu ve vyhledávači.
- Plně automatické řešení, které s využitím statistického jazykového modelu dokáže převést celý text bez háčků a čárek na správný text s diakritikou.
Jazyková část
Základem řešení je formální popis morfologie, díky kterému dokážeme k libovolnému slovu bez diakritiky najít všechna správná slova. Těch slov může být i více, např. ke slovu vesel jsou to slova vešel, věšel nebo i původní varianta. Pokud tedy chceme, aby řešení byla zcela automatická, musíme zapojit ještě statistické metody založené na rozsáhlém korpusu správně napsaných českých textů. Díky nim dokážeme najít v daném kontextu tu nejpravděpodobnější variantu.
Na tomto místě je ale potřeba upozornit na to, že s některými případy si neporadí ani velmi pokročilá řešení. Uvažte třeba větu:
Neustale mi tu radi a ja uz jsem z toho cela zoufala.
Zde skutečně nevíte, zda dotyčná mluví o zlobivém dítěti, o osobním poradci či příliš aktivním žáku autoškoly.
Programové řešení
První úrovní je funkce, která k libovolnému slovu vrátí všechny varianty slov s diakritickými znaménky. Používá jen morfologický slovník daného jazyka, jehož velikost bývá přibližně 1 MB.
Druhá úrovenň je paměťově náročnější. Pracuje s jazykovým modelem, jehož velikost se pohybuje v řádech gigabytů. Vstupem může být i text v HTML, modul ponechá všechny HTML značky beze změny, pouze doplní svoje značky, které označují slova, která byla změněna. Funkčnost tohoto nástroje si můžete vyzkoušet na www.nechybujte.cz.