Chytré hledání

Věčně něco hledáme. Zápis z minulé porady, starší mail od kolegy, informace o konkurenci, aktuality z oboru, judikaturu podobného případu, kontraindikace léků nebo zajímavou část v hodinovém videu či podcastu. O kolik více věcí bychom stihli, kdybychom něco stále nehledali? A řada aplikací nám v tom pomáhá.

Ať už jste tvůrci obecných aplikací nebo komplexních řešení pro vnitrofiremní účely, věnujte pozornost následujícím jazykovým modulům.

Lemmatizátor (stemmer)

Toto je základní jazyková komponenta většiny vyhledávačů. Dokáže totiž k libovolnému tvaru slova daného jazyka najít jeho základní tvar (tzv. lemma), případně k základnímu tvaru vygenerovat všechny možné správné tvary daného slova. Díky tomu stačí v zadávacím poli zadat např. slovo člověk a vyhledávač najde i všechny texty se slovy člověku, člověkem či lidé. Že to není vždy jednoduché si můžete přečíst v Formální morfologie.

Lemmatizátor se obvykle integruje do obecných fulltextových nebo databázových systémů, které efektivně řeší indexaci a rychlé hledání, zatímco lemmatizátor se postará o záludnosti jazyka. Více zde: Integrace.

Tezaurus (synonyma)

Jakékoliv hledání může nepříznivě ovlivnit skutečnost, že řadu pojmů lze vyjádřit více různými termíny. Takže např. premiér je totéž co předseda vlády nebo ministerský předseda, místo slova podnikatel lze použít byznysmen, a pokud je nějaký příběh poutavý, může být též napínavý, zajímavý, přitažlivý či atraktivní. Tyto a podobné rozdíly dokáže zahladit právě tezaurus, který bývá častým doplňkem lemmatizátoru, protože dokáže rozšířit dotaz a nalézt další relevantní dokumenty.

Rozpoznání jazyka

Při zpracování vícejazyčných textů anebo dokumentů, ve kterých jsou některé pasáže (např. odkazy či citace) psány v jiném jazyku, je důležité rozpoznat, o který jazyk se jedná a podle toho zvolit vhodný lemmatizátor nebo tezaurus. Tento problém řeší elegantně komponenta, která využívá dostupné lemmatizátory a pro přesné určení jazyka jí stačí několik málo slov.

Překladač (translator)

V dnešním globalizovaném světě málokdy stačí vyhledávat a analyzovat dokumenty a zpracovávat informace jen v jednom jazyku. Jazykovou bariéru dnes dokáží elegantně překonat nástroje strojového překladu, které dokážou zdrojový text přeložit v takové kvalitě, která nebrání porozumění textu a vyhledání a zpracování relevantních informací.