Strumenti per la traduzione

Quando si parla di tecnologie informatiche per la traduzione, ci si riferisce in particolare a quei sistemi pro- gettati appositamente per l’attività traduttiva, da quelli che pretendono di sostituire il traduttore (sistemi di traduzione automatica), a quelli che forniscono al traduttore strumenti per lo svolgimento di attività tradizio- nalmente svolte manualmente, quali vari tipi di analisi sul testo di partenza e/o di arrivo, la creazione, gestio- ne e consultazione di glossari, le ricerche in corpora linguistici e la produzione del testo di arrivo.

Sono inoltre di ausilio alla traduzione, in senso lato, tutti gli altri strumenti informatici e di trattamento auto- matico della lingua che in qualche modo elaborano il linguaggio umano, come, dizionari elettronici, banche dati terminologiche, strumenti per la ricerca e l’estrazione terminologica, motori e programmi di ricerca ed interfacce di ricerca speciali, programmi di elaborazione di testi, archivi e corpora testuali, strumenti per la ricerca e la sostituzione di testo, strumenti per il riconoscimento e la sintesi vocale, sistemi di riconoscimento ottico dei caratteri (OCR) e molti altri.

L’applicazione della tecnologia informatica al campo della traduzione ha una lunga storia. Nel 1949 Warren Weaver pubblicò un celebre memorandum in cui delineò le prospettive della MT e negli anni ‘50 si diffuse una grande euforia. Eventi come il Georgetown experiment del ’54, quando con un vocabolario di sole 250 parole e sole 6 regole grammaticali fu tradotto in inglese un campione selezionato di frasi russe, fecero pen- sare che la sostituzione dei traduttori umani con i computer fosse solo una questione di tempo. Ma nel giro di pochi anni gli entusiasmi si smorzarono poiché ci si rese conto che era impossibile raggiungere una traduzio- ne automatica di alta qualità (fully automatic high quality translation). Nel 1966 un famoso rapporto dell’ ALPAC ( Automatic Language Processing Advisory Committee) considerò i sistemi di MT costosi e fonda- mentalmente inutili perché la macchina non era in grado di imitare le procedure del traduttore umano. La ricerca rallentò e la MT rimase confinata nell’ambito di grandi istituzioni come l’Aeronautica degli Stati Uni- ti che a partire dal 1970 adottò il sistema di traduzione Systran o la CEE che nel 1975 approvò un piano che oltre all’uso di Systran prevedeva la progettazione a lungo termine del sistema di MT su larga scala EURO- TRA.

Gli sforzi maggiori si concentrarono ora sulla ricerca di altri modi di mettere la tecnologia informatica al servizio del traduttore umano per farle svolgere mansioni che richiedessero minore intelligenza umana. Non più traduzione automatica, quindi, bensì assistenza al traduttore umano nelle attività particolarmente dispen- diose e ripetitive, come la ricerca di parole o di frasi già tradotte o la gestione della terminologia.

Le prime soluzioni, negli anni ’70, consistettero essenzialmente in banche dati terminologiche, il cui uso, a causa dei costi elevati, era limitato a poche grandi aziende. Tra la fine degli anni ’70 e l’inizio degli anni ’80 si cominciò a chiedersi se non fosse possibile realizzare programmi in grado di ricordarsi se una parte di un nuovo testo da tradurre era già stata tradotta in precedenza e di visualizzare questa parte in modo automatico insieme al testo già tradotto. Nasceva così il concetto di memoria di traduzione.

Negli anni ’80 sistemi del genere vennero effettivamente realizzati per le attività di traduzione interna di alcune grandi aziende. I primi furono TSS sviluppato da ALPS e Text Tools della società olandese INK¸ poi commercializzato in Germania dalla società Trados. Diverse altre aziende realizzarono strumenti simili a uso interno.

Nella prima metà degli anni ’90 tali pacchetti iniziarono a essere venduti anche al grande pubblico. Nel 1992 esordirono sul mercato Translation Manager/2 (TM/2) di IBM e la Translator’s Workbench di Trados. L’anno dopo uscì Déjà Vu di Atril e nel 1994 Star mise in commercio il programma Transit. Con la diffusione dei PC si sviluppò anche la necessità della localizzazione del software, per la quale furono sviluppati nuovi spe- cifici programmi. Tuttavia i prezzi alti (nell’ordine delle migliaia di attuali euro) e gli elevati requisiti hardware ostacolarono a lungo la diffusione di questi sistemi fra i traduttori autonomi, finché alla fine degli

’90 e nel primo decennio del 2000, videro la luce diversi software economici oppure gratuiti come Wordfast (1999), Omega T (2002), Memo Q (2009) o la Translator’s Toolkit di Google (2008).

Oggi i sistemi di traduzione assistita sono diventati uno degli strumenti fondamentali dell’industria delle lingue. I più diffusi sistemi CAT sono SDL Trados, Star Transit, Across, Atril Déjà Vu, incalzati da Wor- dFast, Omega T e Memo Q. Essi comprendono programmi per la gestione di memorie di traduzione, gestione della terminologia, l’allineamento dei file, la gestione del progetto. A questi si aggiungono speciali applica- zioni per la localizzazione di software come SDL Passolo.

Negli anni ’90 si registrò un rinnovato interesse anche per la MT quando, con ridotte aspettative, i sistemi furono convertiti in prodotti per PC (p. es. SYSTRAN , Globalink, Intergraph e Logos) a prezzi accessibili al vasto pubblico . La diffusione del web portò i traduttori automatici on-line, soprattutto per soddisfare il biso- gno di traduzioni immediate per le applicazioni di Internet, come la posta elettronica e le pagine web, per le quali è sufficiente una traduzione che renda il senso generale. Nel 1997, la collaborazione tra Systran e Al- taVista (dal 2004 acquisita da Yahoo!) diede vita a Babel Fish seguito poi da vari altri servizi come Babylon (http://italiano.babylon.com), Google Traduttore (http://translate.google.com), Bing Translator (http://www.microsofttranslator.com), SYSTRANet (http://www.systranet.com/translate), Reverso (http://www.reverso.net) e Worldlingo (http://www.worldlingo.com).

Servizi di MT sono oggi integrati negli elaboratori di testi come Word e disponibili anche per i telefoni cellu- lari. Google Translate per Android, per esempio è utilizzabile come traduttore simultaneo live per tradurre in tempo reale le frasi pronunciate dall’utente.

Oggi i sistemi di MT sono sempre più usati da fornitori di servizi linguistici e servizi di traduzione di istitu- zioni pubbliche e private. Spesso si sottopone il testo da tradurre al pre-editing ricorrendo a un linguaggio controllato, semplificando la grammatica e restringendo il lessico, oppure si sottopone a revisione umana il testo tradotto in modo automatico (post-editing). Sempre più frequentemente i sistemi di MT sono integrati nei sistemi CAT.

I principali paradigmi della MT sono:

sistemi basati su regole
sistemi statistici
sistemi ibridi

I sistemi basati su regole, per esempio Babel Fish, si basano su un numero elevato di regole linguistiche or- ganizzate in moduli diversi che interagiscono a diversi livelli e su milioni di dizionari bilingui per ogni com- binazione linguistica. La MT basata su regole fornisce una buona qualità nelle situazioni generiche (cioè, non specifiche di un dominio) ed è per sua natura prevedibile.

Nei sistemi statistici, come Google traduttore, si fa ricorso a parametri statistiche che derivano dall’analisi di corpora monolingui o bilingui per l’attribuzione dell’ordine delle parole e del migliore candidato per la tra- duzione. Non vengono utilizzate regole grammaticali, ma si usano le probabilità di occorrenza e di frequenza delle parole. La creazione dei modelli di traduzione statistica è un processo rapido, ma la tecnologia fornisce una buona qualità solo se sono disponibili corpora estesi e qualificati. La traduzione è fluida, e i risultati dei sistemi di impronta statistica risultano nel complesso migliori rispetto a quelli che fanno ricorso a regole.

I più recenti sistemi di MT sono spesso ibridi (per esempio Systran o Bing Translator), e combinano le meto- dologie basate su regole con quelle statistiche con lo scopo di sviluppare diverse strategie di risoluzione a seconda dello specifico problema traduttivo da affrontare.

Lo standard più diffuso è quello per l’interscambio delle memorie di traduzione TMX (Translation Memory eXchange), supportato da quasi tutti gli strumenti CAT/TM. XLIFF (XML Localisation Interchange File Format), invece, è uno standard specifico per il settore della localizzazione.

Per quanto riguarda database lessicali e terminologici, il panorama è più confuso. Coesistono, tra gli altri, i seguenti standard: TBX (Term Base eXchange), XLT (XML representation of Lexicons and Terminologies), OLIF (Open Lexicon Interchange Format) e MARTIF (MAchine-ReadableTerminology Interchange Format).

Sebbene alcuni di questi standard siano supportati da alcuni strumenti CAT/TM, siamo lontani dalla defini- zione di uno standard unico generalmente accettato e utilizzato.

Sitografia http://italiano.babylon.com http://translate.google.com http://www.microsofttranslator.com http://www.systranet.com/translate http://www.reverso.net http://www.worldlingo.com

Leave a Comment Cancel Reply