O alinhamento é um procedimento que extrai os trechos do texto da LFe da LA colocando-os um abaixo do outro. Assim, será possível conhecer qual a solução dada pelo tradutor a qualquer termo ou expressão que se deseje pesquisar. No presente trabalho, usaremos paralelismo unidirecional (inglês português) e, para isso, precisamos de um software para a direção inglês – português. O alinhador do CEPRIL não e’ o único disponível; na verdade, ele é uma implementação online do Vanilla Aligner, usado por Church e Gale e está disponível em http://www2.lael.pucsp.br/corpora/alinhador/index.html. Outros alinhadores disponíveis na rede incluem o Align, MtAlign, The Uplug Sentence
Aligner, e Pesa (todos disponíveis na página
http://tcc.itc.it/people/forner/multilingualcorpora.html). Porém, como o pacote de ferramentas do CEPRIL-PUC-SP não necessita de licença para uso e o seu manuseio já é conhecido pela pesquisadora, tornou-se a opção mais racional.
Na pagina de Internet do alinhador do CEPRIL, constam todas as instruções para alinhamento, desde a preparação e formato do texto até a execução do programa. Este aligner, como também são conhecidos estes programas, é baseado no algoritmo do Vanilla Aligner, usado por Church e Gale e, de acordo com Danielsson e Ridings (1997)21, tem um índice de acerto de cerca de 95%, número considerado bastante elevado. O alinhador serve para qualquer língua (ocidental), independente da direção e a experiência mostra que o
alinhamento de textos técnicos com as suas respectivas traduções apresenta melhores resultados, o que parece fazer sentido, já que o foco da tradução está na informação, e não na estética do texto.
Quando há dois textos para serem alinhados, o primeiro passo é determinar em que pontos do texto serão feitas as quebras de segmento. Essa é uma informação que o programa espera receber para poder dividir o texto em sentenças, por exemplo. Para isso, devem ser inseridos os marcadores “.EOS” ao final de cada frase e “.EOP” ao final de cada parágrafo. As inserções dos marcadores devem ser feitas manualmente, nos corpora com os textos na LF e na LA, por meio de um editor de textos, como, por exemplo, o MS-word.
Para a preparação dos textos, valem algumas recomendações:
1. Na primeira tela da ferramenta, o usuário deve informar os marcadores para segmento menor (sentença) e segmento maior (parágrafo). Como padrão, a ferramenta sugere “.EOS” e “.EOP”, para os segmentos maior e menor, respectivamente. Caso seja necessário trocar o marcador, basta que se insira esta informação nas caixas apropriadas, conforme a Figura 3, em que o padrão foi trocado para “.FIMS” e “.FIMP”.
Figura 3 - Caixas para alteração de marcadores
2. Ao término de um segmento maior (ou parágrafo), sempre deve existir também a marcação do segmento menor. Exemplo de um parágrafo na LF e o seu correspondente na LA:
! ! " " ! # # # " # ! " ! $%& ' ()*+ # " # ! , $%& - # " " # ). # # ! / $%& $%0 12 1 3 ! 1 1 4 $%& ( * ! $%& , 53 6 1 ). 6 7 # / " ! $%& $%0
Depois de preparados, os textos devem ser colocados nas caixas de texto indicadas como “Texto 1” e “Texto 2”, conforme orientação contida na página da PUC-SP. Basta usar os comandos para copiar e colar do seu editor de textos. Veja exemplo na Figura 4.
Figura 4 - Texto original copiado para a caixa indicada como “Texto 1” por meio dos comandos copiar e colar.
O mesmo procedimento deve ser executado para o texto traduzido, colocando-o na caixa indicada como “Texto 2” e clique em “Alinhar”. Dependendo do tamanho do texto, o tempo de alinhamento pode ser um pouco mais longo. Ao término, aparecerá a tela com os resultados. Basta marcá-los na tela e usar os comandos de copiar e colar para um arquivo tipo texto, vazio, aberto no NotePad (bloco de notas), como abaixo:
Figura 5 - Arquivo no formato de texto (.txt) com os resultados do alinhamento, criado por meio de cópia da tela para o Notepad
Vale observar que, para a ferramenta, é indiferente qual dos dois textos é o original ou a tradução. A ordem em que os textos foram colocados nas caixas será a mesma apresentada no alinhamento. Acreditamos que o original deve aparecer antes da tradução e, por isso, inserimos, na caixa 1 o texto original na LF e na caixa 2, a tradução na LA.
Ainda observando a Figura 5, entendemos que o resultado do alinhamento não é disponibilizado diretamente em um arquivo, mas exibido na tela. É necessário, então, marcar todo o texto na tela e usar o recurso para copiar e colar disponível no seu sistema operacional, gravando o resultado em um arquivo no formato de texto. Concluído este passo, é preciso de uma ferramenta para a extração dessas informações, agora dispostas paralelamente. Para isso, utilizamos o Concordanciador Paralelo, próxima ferramenta a ser descrita.
Num corpus alinhado, os segmentos (frases ou parágrafos, geralmente) na LF e na LA, devem ter conteúdo correspondente e colocado na mesma ordem, de forma que o primeiro segmento do texto na LF corresponda ao primeiro segmento da LA, e assim por diante. Sabemos que, por questões de estilo ou necessidade, o tradutor pode quebrar ou aglutinar segmentos, mas a seqüência lógica não pode ser alterada. Dessa forma, notas de rodapé, legendas de fotos, entre outros, devem aparecer na mesma posição em ambos os textos, na LF e na LA, pois o alinhador obedece à ordem dos textos e para unir os segmentos. Fizemos um teste com uma pequena amostra de textos em português e em inglês extraídos do corpus da pesquisa e, deliberadamente, trocamos um parágrafo inteiro de posição. Abaixo, na imagem da tela, apresentamos, na parte superior, o trecho da tradução na ordem correta e, na parte inferior, o último parágrafo foi colocado logo após o primeiro. As setas marcam segmento trocado.
Figura 6 – Acima, texto conforme versão impressa. Abaixo, texto alterado, com um segmento fora de lugar. O segmento trocado é indicado pelas setas vermelhas
Abaixo, na parte superior, o resultado do alinhamento com a tradução na ordem correta e, na parte inferior, com a ordem alterada. As setas vermelhas marcam o local da alteração. Vemos que o alinhamento é feito, mas não há correspondência entre original e tradução, pois o segundo parágrafo do original foi alinhado com o último da tradução, que estava na ordem errada.
Figura 7 – Acima alinhamento feito com os segmentos na posição correta. Abaixo, alinhamento feito com o segmento fora do lugar
Dessa forma, vemos que a ordem da tradução deve acompanhar o seu original para que o alinhamento seja feito corretamente.