Překladač neboli Translator

Informativní překlad se zabývá překladem celých vět a článků z jednoho jazyka do druhého. Překlad sice není a ještě nějaký čas nebude dokonalý, umožňuje však čtenáři v obecné rovině pochopit, o čem se v daném článku nebo na webové stránce píše. V současnosti nabízíme tuto možnost pro překlad z angličtiny, němčiny či slovenštiny do češtiny. Kvalita překladu z angličtiny je srovnatelná s projekty Google Translate a Microsoft Bing. Při překladu z němčiny do češtiny se navíc nepoužívá angličtina jako referenční jazyk, jak to dělají nástroje amerických firem.

Jazyková část

Chceme-li dosáhnout skutečně dokonalého překladu, pak už nelze vystačit jen se slovníkem a morfologií. Je potřeba vyřešit základní problémy:

  1. Výběr správného významu, což se týká všech vícevýznamových slov
  2. Pořadí slov ve větě, např. v angličtině je pořadí slov víceméně dané, v češtině je volné
  3. Použití správných tvarů slov cílového jazyka 
  4. Idiomatičnost a další atypičnosti jednotlivých jazyků

Neboli při překladu celých vět před námi leží jazyk v celé své kráse, historii, ale bohužel i složitosti. Vývoj překladových nástrojů v posledních letech částečně rezignoval na hledání dokonalého teoretického popisu jazyka a přesunul se do oblasti statistiky a korpusů. Proces strojového překladu si jednoduše můžete představit tak, že na jednu velkou hromadu dáme paralelní věty z daného jazykového páru, čili např. angličtiny a češtiny, které přeložili skuteční překladatelé a lze tedy s vysokou pravděpodobností předpokládat, že jsou až na výjimky správně. Pokud je tento paralelní korpus dostatečně velký, i ty občasné chybky se v moři jiných správně přeložených textů ztratí. Z tohoto korpusu pak programově vytvoříme tzv. překladový model, který v zásadě popisuje, jak části vět z výchozího jazyka převádět do cílového jazyka. Dále se vezme ještě mnohem větší hromada textů z cílového jazyka, tedy v našem případě z češtiny. Z tohoto korpusu se pak vytvoří tzv. jazykový model, který zjednodušeně řečeno popisuje, jak vypadají správně utvořené české věty. A nad oběma modely pak pracuje program, který pomocí statistických metod vybírá ze všech možností tu zdánlivě nejlepší.

Je ale potřeba přiznat, že současný stav vývoje u nás i ve světě stále nestačí k tomu, aby výsledek byl natolik kvalitní, že nahradí překladatele. Přirozený živý jazyk je prostě natolik složitý a jazyky jako angličtina a čeština natolik principiálně odlišné, že nynější nástroj dobře poslouží jako informativní překlad, pro samotný proces překládání však velkým přínosem není, k tomu slouží tzv. CAT nástroje. 

Funkce informativního překladu si můžete vyzkoušet ZDE

Programové řešení

V oblasti statistického překladu nyní kombinujeme naše vlastní data a technologie se systémem Moses, výsledkem dlouholetého vývoje několika evropských univerzit v čele s University of Edinburgh. S toutéž univerzitou se nyní podílíme na řešení dalšího evropského projektu zaměřeného na strojový překlad.

Velikostí modelů a konfigurací jsou dány hardwarové nároky. Kvůli velkým rozdílům v hardwarové náročnosti pro různou kvalitu a typy výstupů připravujeme překladové a jazykové modely na míru tomu, jaké texty se budou překládat. V tomto případě hovoříme o tzv. doméně. Čím je doména užší a dostupné překladové a jazykové korpusy větší, tím je překlad kvalitnější. Při přípravě modelů používáme i vlastní korpusy, překladové slovníky, terminologické databáze, morfologie a techniky jejich kombinace, které nám umožňují dosahovat lepších výsledků při menších modelech.