3. Co strojový překladač není?

Ve funkci překladačů se občas používají systémy, které ve skutečnosti překladače nejsou. A naopak – překladače jsou někdy používány i jinak než k překladu textů. Jak to? O tom ti povíme v další kapitole.

Úvod tématu
2. Jak fungují?
4. Strojové překladače a chyby

Strojový překladač versus jazykový slovník

Určitě to znáš – píšeš nějaký text v cizím jazyce, dejme tomu slohovku v angličtině, o tom, jaké byly letní prázdniny. Popisuješ, jak jste se s rodinou skvěle ubytovali, že hotel měl vlastní tenisové hřiště a že jste si půjčili rakety na recepci a zahráli jste si tenis. Najednou ale nevíš, jak se anglicky řekne raketa. Co uděláš?  
       Můžeš samozřejmě otevřít online překladač a slovo raketa do něj naťukat. Hned zjistíš, že raketa je v angličtině rocket (nebo The Rocket), takže napíšeš ve slohovce We asked for rockets at the reception. Bude to ale chyba. Ve skutečnosti je tenisová raketa v angličtině racket (nebo dokonce racquet).

Překlad slova raketa v překladači DeepL.

Co bys mohl/a udělat, aby k této chybě nedošlo? Mohl/a bys samozřejmě najít doma česko-anglický slovník, zalistovat si v něm a zjistit, že tenisová raketa je skutečně jen a pouze racket. Ale to už v současné době dělá jen málokdo. Místo listování tištěnými slovníky raději zadáváme slova do online slovníků, což by v našem případě mohl být třeba online slovník Lingea, nebo dokonce slovník Seznam.cz. Pokud tam zadáme slovo raketa, hned uvidíme, že má dvě homonyma, to druhé homonymum je dokonce mnohoznačné (může to být kosmická raketa, reaktivní střela nebo pyrotechnický náboj) a ve všech těch případech se překládá jinak.

Heslo raketa v Seznam slovníku.

Bez popisku

Tip: Wikipedie jako překladatelský nástroj

K překladu některých vlastních i obecných jmen můžeš používat i hesla na Wikipedii. Stačí přepnout z jednoho jazyka do druhého. Ale pozor! Na tvorbě Wikipedie se podílejí dobrovolní přispěvatelé, a proto se tam mohou vyskytovat chyby.

Proč tedy většina současných překladačů v překladu jednotlivých slov chybuje častěji než v překladu vět? Pokud si vzpomeneš, o čem jsme se bavili v předchozí kapitole, odpověď na tuto otázku budeš znát. 
        Současné překladače se naučily překládat na základě paralelních vět a k tomu, aby mohly překládat správně, potřebují širší kontext, který by mohly analyzovat.

„Mimochodem úplně stejně jako člověk.“

Pokud ten kontext nemají, nabídnou ti nejčastější překladový ekvivalent. A ten nebude vždy znamenat to, co máš na mysli. Proto je pro překlad jednotlivých slov vždy lepší používat překladové slovníky, které tvoří lingvisté. Tyto slovníky budou obsahovat nejen všechny možné překladové ekvivalenty daného slova, které budou uspořádány od nejčastějšího k méně častému, ale také příklady jejich použití.

Jaké další slovníky používají překladatelé

Profesionální překladatelé, kteří překládají do svého rodného jazyka, často používají také výkladové slovníky, kde jsou slova daného jazyka popisována v témž jazyce. Ve výkladových slovnících nenajdeme překladové ekvivalenty, zato tam najdeme definice, které nám pomohou přesněji pochopit význam slova v kontextu.
       Představ si, že potřebuješ přeložit z angličtiny do češtiny citát z Josifa Brodského, ruského básníka, který emigroval do USA, stal se významným americkým esejistou a dostal Nobelovu cenu za literaturu. Jeho esej o Benátkách, do kterých jezdil každým rokem, začíná slovy: „Every traveler knows this fix: this mixture of fatigue and apprehension.“ Jak bys přeložil/a slovo apprehension v této větě?
       Anglicko-český slovník Lingea uvádí, že apprehension je „obava, zlá předtucha, strach“, dále „zatčení, zatknutí, dopadení (zločince)“„pochopení, porozumění“. Budeš asi souhlasit, že z těchto variant se ti bude nejvíce hodit ta první. Ale ne tak úplně. Z čeho by asi mohl mít každý cestovatel strach nebo obavu?
       Abys mohl/a citát z Brodského přeložit správně, podívej se raději do výkladového slovníku angličtiny, například do Cambridge Dictionary. Tam zjistíš, že slovo apprehension může znamenat „anxiety about the future“. Z toho pochopíš, že to není strach, ale spíš úzkost. Podle Brodského „tu směsici únavy a úzkosti“ zná každý cestovatel.

Slovo apprehension v překladovém online slovníku Lingea.

Heslo apprehension ve výkladovém slovníku Cambridge Dictionary.


Co má překlad společného s kočkami?

Kromě překladových a výkladových slovníků používají profesionální překladatelé i další nástroje, kterým se říká CAT nástroje. Ty mňoukat ani vrnět neumí, ale zato umí pomáhat s překladem. Zkratka CAT znamená computer-aided translation či computer-assisted translation, tedy počítačem podporovaný (či asistovaný) překlad, který je něco jiného než překlad strojový. V čem je mezi nimi rozdíl?  
       Strojový překlad je překlad, který vytvořil počítač samostatně. Můžeš ten překlad samozřejmě upravovat (říká se tomu post-editace), ale až poté, co ti ho počítač vytvoří. Nicméně tvoje spolupráce s počítačem může vypadat i jinak. Můžeš používat software, který ti některé aspekty překladu usnadní, ale za výsledný překlad budeš odpovídat ty. Zjednodušeně řečeno, překlad pomocí CAT nástrojů je něco mezi překladem lidským a strojovým.

Trochu historie

O asistovaném překladu se začalo uvažovat už ve 30. letech 20. století, tedy dříve než o překladu čistě strojovém.
       Jedním z průkopníků asistovaného překladu byl ruský profesor Petr Petrovič Smirnov-Trojanskij (1894–1950). V roce 1933 si patentoval stroj (viz obrázek), který fungoval následovně. Překladatel musel určit, zda slovo, které má být přeloženo, je subjekt nebo objekt, zda je sloveso v přítomném nebo minulém čase atd., pak musel dát každé slovo ve větě do základního tvaru. Poté se o překlad staral stroj, který překládal každé slovo s ohledem na jeho gramatický tvar. Nakonec do toho znovu zasahoval překladatel, který dával větu dohromady a stylisticky ji upravoval. Tento nápad ale pravděpodobně zůstal jen na papíře.
        Ve 40. a 50. letech se začalo zajímat o strojový překlad a na ten asistovaný se tak nějak zapomnělo. Poté, co vědci zjistili, že je strojový překlad obrovskou výzvou, postupně se znovu zaměřili na ten asistovaný. Moderní CAT nástroje začaly vznikat díky pokroku v oblasti výpočetní techniky a počítačové lingvistiky, který se odehrál v 70.–80. letech 20. století. CAT nástroje se staly veřejně dostupnými až v polovině 90. let.

Mechanický překladač profesora Smirnova-Trojanského.

Jak vypadá počítačová asistence při překladu?

Každý CAT nástroj obsahuje zpravidla nástrojů hned několik. První z nich je překladová paměť neboli Translation Memory (TM).  
       Je to v podstatě soubor textů, které jsi přeložil/a (nebo přeložil tvůj kolega či kolegyně) v tomto softwaru dříve. Je ve dvou jazycích a je rozdělen na segmenty (zpravidla na věty). Když máš přeložit nějaký další text, například text pro muzejního průvodce, software ho nejdříve rozdělí na segmenty a pak bude zjišťovat, zda byla některá část nového textu již přeložena dříve. Pokud se najdou nějaké shody (úplné, tedy stoprocentní, nebo jen částečné), software ti nabídne možné varianty. Přijmout je ale nemusíš! Můžeš je také odmítnout nebo upravit podle vlastního uvážení.

Text muzejního audioprůvodce v ruštině a jeho překlad do angličtiny v Memsource.

Další pomoc softwaru může spočívat v tom, že ti dohledá překlad termínu z terminologické databáze (Terminology Database nebo Termbase), abys ten termín náhodou nepřeložil/a špatně. Jedná se v podstatě o databázi termínů s jejich překlady, které se musí vytvořit ručně.

Bez popisku

 Otázka: K čemu se CAT nástroje hodí nejlépe?

CAT nástroje se často používají k překladu textů, které obsahují hodně termínů nebo hodně shodných fragmentů. Hodí se pro překlad formulářů nebo návodů k použití, pro lokalizaci webových stránek, aplikací nebo softwaru. Překladatelé beletrie, publicistických textů nebo populárně naučných knih CAT nástroje (skoro) nepoužívají. Čím je text různorodější, tím méně jsou CAT nástroje pro překladatele užitečné.

Jaké CAT nástroje existují?

Jedním z nejrozšířenějších CAT nástrojů je SDL Trados Studio, který je také jeden z nejdražších. Mezi další CAT nástroje patří Wordfast, MemoQ, OmegaT, SmartCAT a Memsource (nyní Phrase). Memsource je český projekt, který se zrodil v roce 2010 a je často chválen za intuitivní prostředí a podporu různých formátů souborů. Navíc jej nemusíš instalovat, můžeš s ním pracovat v tzv. cloudovém režimu. V roce 2022 společnost Memsource dokončila integraci s německou firmou Phrase a nyní obě vystupují pod značkou Phrase.

Bez popisku

Tip: Memsource: příběh jednoho úspěchu

O tom, jak se z projektu skupinky lidí z fildy a matfyzu stal významný hráč na poli asistovaného a strojového překladu, se můžeš dozvědět v inspirativním rozhovoru se zakladatelem projektu Davidem Čaňkem.

Strojový překladač versus AI chatbot

Když se řekne umělá inteligence (artificial intelligence, AI) a chatbot, první, co tě napadne, bude asi chatbot ChatGPT, který firma OpenAI uvedla na trh v listopadu 2022.   
       Ilya Sutskever, hlavní vědecký pracovník této firmy, vyprávěl Rossu Andersonovi, novináři z amerického časopisu The Atlantic, o tom, co současnému ChatGPT předcházelo. V červnu 2018 vyvinula společnost neuronovou síť GPT, která byla vycvičena na několika tisících knih. Síť GPT objevila v přečtených pasážích mnoho shodných struktur a naučila se například dokončovat věty.

Bez popisku

Tip: Staň se výcvikářem neuronové sítě

Pokud by se ti chtělo zkusit vycvičit neuronovou síť, doporučujeme jednoduchý nástroj Teachable Machine od Googlu. Návod k nástroji je v angličtině, takže pokud anglicky neumíš, zkus použít strojový překladač.

Další model už byl vycvičen na souboru dat z více než osmi milionů webových stránek. Když jej začal Sutskever hned po dokončení výcviku zkoušet, čekalo ho velké překvapení. Model GPT-2 byl schopen překládat mezi různými jazyky! „Umělá inteligence si tak sama vyvinula dovednost, jakou si její tvůrci vůbec nepředstavovali,“ píše Ross Andersen ve svém článku.

„Momentálně (leden 2024) je zdarma dostupný chatbot založený na modelu GPT 3.5. Placená verze chatbotu používá model další generace (GPT 4).“

Nahlédni pod pokličku neuronové sítě

Pro výcvik neuronové sítě je důležité nejen množství a kvalita dat, ale také parametry sítě. O tom se můžeš přesvědčit pomocí tohoto nástroje.
      Není příliš srozumitelný? Představ si, že potřebuješ, aby neuronová síť rozpoznala modro-oranžovou spirálu. Spusť výcvik sítě nejdříve na tomto odkazu a zapamatuj si výsledek (output). Pak spusť výcvik zde. Který z výsledků byl přesnější? Čím to bylo?
       Ano, přesnější byl druhý výsledek, a to díky lépe nastaveným parametrům neuronové sítě. Nyní můžeš vyzkoušet jiný vstupní soubor dat a/nebo jiné parametry. Neboj se, nic se ti nerozbije.

Skutečně by šlo používat ChatGPT k překladu?

Bohužel, zatím spíš omezeně. Současné verze chatbotu ChatGPT byly sice vycvičeny na obrovském množství textů v různých jazycích, ale nebyly to paralelní korpusy textů. Takže i když ChatGPT zřejmě chápe, jak se jeden jazyk vztahuje ke druhému, dopouští se na rozdíl od neuronových strojových překladačů většího množství chyb.

ChatGPT vs. DeepL

Vymysleli jsme malou soutěž. Vybrali jsme si text v angličtině a požádali jsme ChatGPT (bezplatnou verzi 3.5), aby ho přeložil do češtiny. Následně jsme ten text zadali do strojového překladače DeepL, který ho také přeložil do češtiny. Tušíš asi, kdo v naší soutěži zvítězil.
       Ano, byl to DeepL! Jeho překlad sice není dokonalý, ale zní přirozeněji než ten od chatbotu. Je koherentnější: budeš asi souhlasit, že „byl zvolen arcibiskupem Kapského Města, což je nejvyšší funkce anglikánské církve v Jihoafrické republice“ zní poněkud lépe než „byl zvolen arcibiskupem v Kapském Městě, nejvyšší pozice v Anglikánské církvi v Jihoafrické republice“. Navíc anglikánská církev se píše s malým a. My bychom ale nabídli jiný překlad: „byl zvolen arcibiskupem Kapského Města, což je nejvyšší hodnost v anglikánské církvi v Jihoafrické republice“.
       Kromě toho výraz „Nobelova mírová cena“, který navrhuje ChatGPT, je typickým příkladem interference. V češtině se dá říct Nobelova cena míru nebo Nobelova cena za mír (což je varianta DeepLu).
        Další interferenční chybou chatbotu je „rekonstrukce po konfliktu“ (postconflict reconstruction). V textu se jedná o obnovu společnosti po ukončení politiky rasové segregace v JAR v roce 1994, slovo rekonstrukce se do něj opravdu nehodí. Takže DeepL byl i zde trochu napřed.

Překlad textu z angličtiny do češtiny chatbotem ChatGPT.

Překlad textu z angličtiny do češtiny v překladači DeepL.

ChatGPT má ale na rozdíl od strojových překladačů jednu výhodu. Dá se s ním komunikovat, zadávat mu různé úkoly a co víc – dožadovat se lepších výsledků! Takže pokud nejsme s nabízeným překladem spokojeni, můžeme chatbot požádat o vylepšení té verze, kterou nám nabídl, popřípadě náš požadavek upřesnit. Například ho můžeme poprosit, aby byl překlad koherentnější, aby zněl oficiálně atd. Často (ale ne vždy) dostaneme lepší výsledek, který ale stále nebude ideální. Je zkrátka docela pravděpodobné, že tím dopisováním si s chatbotem a úpravou jeho překladu ztratíme víc času, než bychom potřebovali k překladu samostatnému, ať už vlastními silami, nebo za pomoci strojového překladu. Obzvlášť pokud se jedná o překlad do jiného jazyka než do angličtiny.

ChatGPT: opravný pokus

Požádali jsme ChatGPT, aby svůj překlad do češtiny vylepšil. Myslíš si, že se mu to podařilo?
       My si myslíme, že ano, i když i tento překlad stále nějaké mouchy má. Fráze „byl zvolen arcibiskupem Kapského Města, což je nejvyšší post v Anglikánské církvi v Jihoafrické republice“ je už koherentnější než její předchozí varianta. Ale interferenčních chyb se chatbot tak úplně nezbavil. V jeho překladu zůstalo velké písmeno anglikánské církvi, zůstaly také „Nobelova mírová cena“ a „metoda rekonstrukce po konfliktech“.
        O překlad toho stejného anglického textu jsme také požádali placenou verzi ChatGPT. Ten její překlad byl ještě trochu lepší, ale ani s ním jsme nebyli úplně spokojeni.

Vylepšený překlad textu z angličtiny do češtiny v chatbotu ChatGPT.

Rozlušti citát od Sama Altmana, výkonného ředitele společnosti Open AI.

Pod písmena nahoře napiš číslo políčka, které by mu mohlo odpovídat. Pokud si nevíš rady, zaměř se na písmena, která se mohou ve slovech nejčastěji opakovat (např. samohlásky). Není nutné do zakódované zprávy doplnit všechna písmena abecedy.

Používáte starou verzi internetového prohlížeče. Doporučujeme aktualizovat Váš prohlížeč na nejnovější verzi.

Další info