Tecnologias unem linguística e computação para aprimorar tradução automática

My SciELO

Custom services

Services on Demand

Article

Indicators

Cited by SciELO

Bookmark

|More

ComCiência

On-line version ISSN 1519-7654

ComCiência no.140 Campinas July 2012

REPORTAGEM

Tecnologias unem linguística e computação para aprimorar tradução automática

Aline Naoe

O mito bíblico da Torre de Babel conta que após tentarem construir uma torre tão alta que alcançasse os céus, os homens, que até então falavam uma língua única, foram punidos por Deus. Ele teria dispersado os homens pelo mundo, criando diferentes línguas para impedir que se comunicassem e voltassem ao ambicioso projeto – em hebraico, Babel significa confundir. Hoje, o homem parece tentar reverter o castigo divino empreendendo uma busca, senão de um idioma universal, ao menos da comunicação possível entre todos os falantes. As propostas de tradução automática vão ao encontro dessa ambição, ao propor a superação das barreiras da língua, independente do conhecimento do indivíduo.

Em um de seus estudos, a linguista Leila Darin se debruça sobre os softwares de tradução automática projetados para traduzir textos inteiros e imediatos, sem a intervenção do usuário – a chamada Machine Translation, ou MT, como a oferecida por programas como Globalink Power Translator ou o Systran, que hoje já dispõem de algumas ferramentas de participação. A pesquisadora vislumbra que ferramentas como essa carregam o mito da existência de uma língua mãe, única e universal, como teria existido no período anterior à Babel. Há também, no entanto, as ferramentas CAT (sigla em inglês para Computer-Aided Translation), que segmenta os textos e forma as chamadas memórias de tradução, ou seja, são traduções elaboradas com o auxílio do computador, baseadas em bancos de dados de textos já traduzidos, com o objetivo de lhes conferir mais credibilidade.

A origem desses processos de tradução remonta ao período da Guerra Fria, quando americanos e ingleses desenvolveram sistemas para entender as mensagens russas. Eficazes na identificação de palavras-chave de interesse estratégico, a tradução palavra por palavra desconsiderava aspectos como a sintaxe da língua e o contexto das frases. Hoje esse tipo de tradução deu lugar a tecnologias muito mais avançadas, que unem os conhecimentos da linguística com os recursos da computação. Dessa união surgiu uma nova área de conhecimento, a linguística computacional, que investiga o tratamento computacional da linguagem e das línguas naturais e que, entre outras aplicações, atua na construção de softwares de tradução automática.

Coordenadora e pesquisadora do Laboratório de Linguística Computacional (LaLic) da Universidade Federal de São Carlos (UFSCar), Helena Caseli afirma que, hoje, os métodos estatísticos são o estado da arte da tradução automática, representando a principal abordagem utilizada nos tradutores do Google. Esses métodos especificam a probabilidade de tradução de uma palavra fonte (original) em uma palavra alvo (tradução) e as diversas extensões dessas probabilidades para sequências de várias palavras conhecidas como ngramas – com n representando o número de palavras compreendidas. O método estatístico, no entanto, apresenta limitações, como não ser capaz de traduzir palavras inexistentes no seu corpus de treinamento e erros frequentes de concordância e ordenação de trechos que ultrapassam o tamanho do ngrama para o qual foi treinado.

Onde o tradutor não alcança

Para ilustrar um problema de tradução por software, Helena Caseli testa uma sentença em inglês e a tradução que o tradutor do Google produziu em português (a experiência foi feita em 25 de junho de 2012 e pode sofrer alterações em datas posteriores, devido a mudanças e aperfeiçoamento do tradutor).

The boys from my school won the game.
Os meninos da minha escola ganhou o jogo.

Passando o mouse sobre a sentença traduzida, é possível ver quais ngramas foram usados na tradução:

The boys	Os meninos	1 bigrama
from my school	da minha escola	1 trigrama
won the game	ganhou o jogo	1 trigrama

Como o trigrama "ganharam o jogo" provavelmente é menos frequente do que o trigrama "ganhou o jogo", isso afeta a probabilidade e o método escolhe o de maior probabilidade perdendo, assim, a concordância correta entre "meninos" e "ganharam".

Caseli coordena hoje a criação do Portal de Tradução Automática (PorTAI), um projeto financiado pela Fundação de Amparo à Pesquisa do Estado de São Paulo (Fapesp) que, ainda neste ano, deve disponibilizar em sua página recursos linguísticos e ferramentas computacionais para o público, especialista ou não em tradução automática. "Para os pesquisadores da área e outras áreas correlatas, o PorTAl será uma grande ajuda para processar textos enriquecendo-os com informações úteis para aprendizado automático ou linguística de corpus. Para os não especialistas, o Portal será uma fonte de consulta de traduções de palavras e serviço de tradução de textos como ocorre nos tradutores do Google", afirma a pesquisadora.

O projeto envolve estudantes e pesquisadores tanto da computação como da linguística. Segundo Helena, que é doutora em ciência da computação, esse ambiente diverso favorece a troca de informações e o desenvolvimento de pesquisas de ótima qualidade. "Os linguistas nos ajudam muito com todo o conhecimento da matéria que nós tentamos, na medida do possível, fazer a máquina tratar. Ao mesmo tempo, as ferramentas que desenvolvemos para o processamento automático da língua ajudam muito o trabalho dos linguistas apresentando a eles informações que antes teriam de coletar manualmente", afirma.

O papel do tradutor

Embora os diferentes sistemas de tradução automática estejam em constante desenvolvimento, a complexidade das línguas parece representar um obstáculo que pode ser amenizado, porém jamais superado. Segundo Mirna de Oliveira, professora de língua inglesa e linguista da Universidade Estadual do Oeste do Paraná (Unioeste), as línguas divergem muito, principalmente em relação à sintaxe. Assim, enquanto algumas línguas são consideradas configuracionais (em que sujeito, objeto direto e outros elementos são identificados através de sua posição na estrutura sintática), como ocorre no português e no inglês, outras se apresentam não configuracionais, como ocorre no latim.

"Para que os softwares oriundos da linguística computacional deem conta da tarefa para a qual se propõem, dentro de seu processo de implementação, demandam que todos os dados utilizados sejam refinados de forma exaustiva, porque a língua é um organismo vivo que está sempre num processo contínuo de inserção/exclusão de itens lexicais e significados", afirma Mirna, cuja tese de doutorado trata das divergências de tradução que se verificam entre pares de sentenças de línguas naturais diferentes na tradução automática.

Segundo a professora, é por isso que essas ferramentas são consideradas como "auxílio à escrita", ou seja, uma ferramenta que precisa do trabalho humano para "aparar as arestas" das traduções resultantes. "Ainda não há um sistema de tradução mais eficiente do que o cérebro humano", diz a pesquisadora. Para Mirna, há mais do que a estrutura das línguas envolvidas no processo de tradução do que somente alinhar léxicos de uma língua a outra – é preciso dar conta de nuances semânticas, além de outras particularidades que envolvem o conhecimento de mundo e cultural das línguas, o que torna o trabalho extremamente demorado.

É o que ocorre, por exemplo, se tentarmos traduzir a frase "investigaram o presidente por causa do mensalão" para o idioma italiano. Em uma das traduções testadas, o resultado seria "indagato perché il presidente dell'indennità mensile". Em italiano, mensile significa salário, o que não corresponde ao sentido desejado. "No caso, a base de dados do italiano não contém a palavra 'mensalão', que no falante de língua portuguesa, especialmente do Brasil, evoca determinado tipo de conhecimento que só é veiculado dentro dessa cultura", pondera a professora da Unioeste.

Assim, a presença do tradutor parece ser indispensável àqueles que desejam obter um texto confiável e de boa qualidade. Cristina Rodrigues, pesquisadora do Departamento de Estudos Linguísticos e Literários da Universidade Estadual Paulista (Unesp), acredita que todo instrumental eletrônico é bem-vindo, pois isso permite que se dedique mais tempo às tarefas que as máquinas não podem executar. No entanto, é preciso levantar algumas questões – inclusive éticas. "Para se trabalhar com a tradução automática é necessário esquecer que a linguagem é heterogênea, que há diferentes dialetos, registros, estilos, discursos e usar uma norma padrão supostamente neutra – que se presume ser imparcial", examina.

Segundo a linguista da Unesp, os estudiosos da tradução e tradutores têm levantado discussões de cunho ético relacionados, especialmente, ao trabalho com as memórias de tradução. Cristina orientou um trabalho de doutorado que versa justamente sobre os efeitos da adoção desse sistema de tradução na concepção ética da prática tradutória. A tese, desenvolvida por Érika Stupiello, avalia o envolvimento do tradutor com a tradução automatizada e reflete sobre a responsabilidade pelo material traduzido com o auxílio das memórias de tradução. Uma das constatações do estudo é que "a velocidade com que esses sistemas estão sendo adotados e a urgência que está sendo imposta para que os profissionais que desejem atuar nessa área dominem os recursos desses sistemas estão impedindo que se reflita sobre as consequências da instrumentalização da tradução e a própria concepção do papel do tradutor".

Embora seja imperioso pensar o papel dos tradutores com a disseminação rápida e intensa das ferramentas de tradução automática da atualidade, parece universal a percepção de que, ao menos na prática, o trabalho humano ainda persistirá como central.

O peixe-babel

O mito da Torre de Babel inspirou a criação do nome dado a uma espécie de peixe no "Guia do Mochileiro das Galáxias", célebre série de ficção científica criada por Douglas Adams. Ao colocar o peixe-babel no ouvido, é possível compreender tudo o que se ouve, pois o peixe traduz instantaneamente qualquer língua – o nome do animal fictício inspirou, por sua vez, o nome Babel Fish, antigo tradutor da Microsoft. Algo parecido foi desenvolvido pela empresa Google, mas na forma de celular. O recurso batizado de Conversation Mode faz a tradução simultânea de conversas de voz.

10/07/2012