Automatické dělení slov

Modul pro automatické dělení slov na konci řádku je naprosto nezbytný například v DTP systémech a textových editorech. Nově nachází uplatnění i v dokonalejších čtečkách e-knih.

Jazyková část

Modul pro dělení slov nepracuje s rozsáhlým slovníkem, ale s pečlivě vybranou množinou vzorů pro dělení slov. Datová část je proto velmi kompaktní, např. kompletní soubor vzorů pro dělení českých slov zabírá pouze 30 kB paměti, přitom dosahuje úspěšnosti 99,92 %. Kromě původní české slovní zásoby postihuje i řadu termínů či cizích slov (cy-to-pla-s-ma, spek-t-ro-skop, kon-to-ko-rent, soft-ware, play-boy, Bre-tagne) či nejednoznačná česká slova (pod-ro-bit ve významu podmanit, ale po-dro-bit ve významu drobit). Respektuje i takové typografické zásady, jako je zákaz dělení slova knihovna, jehož druhá část na začátku řádku (nebo dokonce stránky) by navozovala nevhodné asociace.

Programové řešení

Program pro dělení slov je navržen takovým způsobem, aby v maximální možné míře postihoval všechny možnosti rozdělení daného slova. Na rozdíl od jednoduchých dělicích algoritmů se tedy neomezuje pouze na bezpečné určení některých možností pro dělení. Součástí programového řešení je velmi efektivní algoritmus pro vyhledávání vzorů a informací pro dělení. Rychlost vyhledání všech vzorů pro dané slovo závisí pouze na délce tohoto slova, nikoli na počtu vzorů. Současně je tento algoritmus vzhledem k použité struktuře slovníku vzorů dosti jednoduchý, a tudíž snadno použitelný v libovolném produktu.

Dostupné funkce

  • Návrat všech možných dělicích bodů slova.

V současnosti nabízíme modul dělení slov pro širokou škálu jazyků (viz tabulka) a platforem (viz přehled).

Reference

Dělení slov od firmy Lingea je integrováno v Adobe InDesignu, nejpoužívanějším systému pro sazbu knih a dalších publikací, i ve všech programech Microsoft Office (Word, PowerPoint a další). Kvalitu našeho dělicího algoritmu pro češtinu můžete sledovat i v denním tisku, protože například deníky MF Dnes a Lidové noviny používají redakční systémy, ve kterých je začleněn právě náš modul.