Překladače pro další slovanské jazyky

Neuronové překladače fungují výborně, pokud mají k dispozici dostatek trénovacích dat, tedy několik milionů paralelních vět v požadovaném jazykovém páru. S takovým množstvím dat lze natrénovat jednoduchý překladový model a dosáhnout vysoké kvality překladů - můžete vyzkoušet například náš překladač z angličtiny do španělštiny, který byl natrénován na 80 milionech dvojic vět. Bohužel, takové množství dat je k dispozici pouze pro několik jazykových párů, jako je například angličtina s němčinou, francouzštinou, španělštinou nebo češtinou. Pro kvalitní překlad mezi ostatními jazyky je potřeba používat speciální techniky.

Nejjednodušší možností je využití tzv. pivotu - věta se nejdříve přeloží do nějakého "prostředního" jazyka (většinou angličtiny) a z něj potom do požadovaného cílového jazyka. Výhodou tohoto přístupu je jednoduchost a možnost překládat mnoho jazykových kombinací pomocí malého počtu modelů. Vede ale ke kumulaci chyb a navíc je stále potřeba, aby pro oba jazyky existovaly dostatečně velké paralelní korpusy pro "prostřední" jazyk. 

Další možností je využití speciálních přístupů pro trénování neuronových modelů na malém množství dat. Populární je například tzv. transfer learning. Nejdříve je na nějakém jazykovém páru s velkým množstvím dostupných dat natrénován rodičovský model. Tento model je potom upravena adaptován na menší jazykový pár. 

Trochu jiný přístup je kombinování více překladových směrů v jednom modelu, čehož dosáhneme tak, že natrénujeme model na datech pro všechny požadované jazykové páry. Tím umožníme překladači kombinovat znalosti získané z jednoho jazykového páru se znalostmi z jiných jazykových párů.

Problém nastává, pokud máme více cílových jazyků - musíme překladači nějakým způsobem dodat informaci, do kterého jazyka chceme překládat. Řešení je jednoduché - na začátky zdrojových vět v trénovacích datech přidáme symbol označující cílový jazyk - např. <cz> pro češtinu. Model se naučí, že pokud věta začíná touto značkou, má následující text překládat právě do češtiny. Potom stačí stejnou značku připojit před každou větu, kterou chceme přeložit. 

Díky podobnému kombinování překladových směrů a dalším technikám jsme byli schopni výrazně vylepšit překlady mezi slovanskými jazyky a angličtinou, stejně tak mezi slovanskými jazyky mezi sebou navzájem. Vyzkoušet si vše můžete na stránkách prekladac.lingea.cz/ anebo translator.lingea.com/.

ukázka překladu mei angličtinou a češtinou