Nesta seção, estão detalhados os procedimentos de preparação e geração de dados para a análise do corpus de estudo na ordem em que foram executados. Depois que os livros escolhidos para compor o corpus de estudo desta pesquisa foram adquiridos, os textos impressos passaram por um processo de digitalização, em que as páginas foram salvas e posteriormente reunidas em um único arquivo de imagem para cada coletânea de contos. Em seguida, foi feito o tratamento por reconhecimento ótico desses arquivos através do software ABBY Fine Reader 10.0 ®, a fim de convertê-los em arquivos de extensão .pdf e arquivos de extensão .doc, cujos itens pudessem ser rastreados eletronicamente. Depois, foi feita a correção (semi)automática e a conferência manual dos arquivos, comparando-os ao material impresso, com o objetivo de aferir possíveis falhas de digitalização e prepará-los para que fossem analisados com o auxílio do software WordSmith Tools© 6.0 sem que ocorressem erros quantitativos. Os textos em arquivo eletrônico receberam também etiquetas relativas ao uso de recursos tipográficos presentes no texto impresso como, por exemplo, o uso de itálico ou negrito. As capas das coletâneas foram também digitalizadas e salvas em uma pasta intitulada “Capas”.
Como o corpus de estudo desta pesquisa integra o ESTRA, a fase seguinte ocupou-se da catalogação dos textos de acordo com um determinado conjunto de normas padrão adotadas pelo grupo GRANT. Foram definidos os nomes de referência para os arquivos e inseridos cabeçalhos padronizados de acordo com o modelo adotado para o ESTRA. O modelo desse cabeçalho foi adaptado a partir do que é sugerido em Baker (2000). Um exemplo desse cabeçalho é apresentado no Quadro 4, a seguir, referente à obra Adeus, Columbus, do autor Philip Roth, traduzida por Paulo Henriques Britto.
Quadro 4: Exemplo de cabeçalho adotado no ESTRA <cabeçalho>
Título da obra: Adeus, Columbus e cinco contos Subcorpus: paralelo inglês-português.
TRADUTOR. Nome: Paulo Henriques Britto TRADUTOR. Sexo: Masculino
TRADUTOR. Nacionalidade: brasileira Natureza: Tradutor literário.
TRADUÇÃO. Modo: escrito. Editora: Companhia das Letras Lugar: São Paulo, SP
Data de capturação/edição utilizada: 2011 Data de publicação da 1ª edição: 2006
Fonte: digitalizado a partir do material impresso. Direitos autorais: Editora Schwarcz LTDA Foto/Arte gráfica da capa: Jeff Fisher.
PROCESSO TRADUTÓRIO. Direção: para língua materna.
PROCESSO TRADUTÓRIO. Modo: escrito de texto de partida escrito. AUTOR. Nome: Philip Roth
AUTOR. Sexo: Masculino
AUTOR. Nacionalidade: norte-americana TEXTO DE PARTIDA. Idioma: inglês. TEXTO DE PARTIDA. Modo: escrito.
Local de publicação da 1ª edição: Estados Unidos da América Data de publicação da 1ª edição: 1959
Data da edição utilizada no corpus: 2011 Categoria do texto: narrativa ficcional
Responsável pela coleta: Lélia Chaves Mendes </cabeçalho>
Os arquivos em extensão .doc resultantes dessa etapa foram então transformados em arquivos de extensão .txt, alterando a codificação padrão para Unicode. A alteração para Unicode é fundamental para que os arquivos possam ser lidos pelo software WordSmith Tools© 6.0. Nessa etapa, as novelas Goodbye,
Columbus/Adeus, Columbus e Rabbit Remembered/Coelho se Cala foram retiradas da
composição do corpus de estudo a fim de aproximar as coletâneas em tamanho e manter apenas textos de mesmo gênero nos corpus desta pesquisa. As novelas foram, entretanto, compiladas, corrigidas e armazenadas no ESTRA para futuras pesquisas.
Essa etapa gerou uma pasta chamada “Arquivos completos” contendo arquivos em
extensão .doc e .txt para cada uma das coletâneas compiladas, tanto de textos traduzidos como de textos-fonte, em inglês, e de textos não traduzidos, em português. Os arquivos foram nomeados conforme apresentado no Quadro 5, a seguir.
Quadro 5: Lista de nomes dos arquivos eletrônicos para cada coletânea compilada
Nome da coletânea Nome dos
arquivos eletrônicos
Goodbye, Columbus and five short stories GC_Roth
Adeus, Columbus e cinco contos GC_Britto
Licks of Love Short Stories and a Sequel,
“Rabbit Remembered”
LL_Updike
Coelho se Cale e outras histórias LL_Britto
Interpreter of de Maladies IM_Lahiri
Intérprete de Males IM_Britto
Essa etapa permitiu a obtenção de dois subcorpora: um corpus de textos traduzidos por Britto (CTTB), formado pelos arquivos GC_Britto, LL_Britto e IM_Britto, e um corpus de textos não traduzidos de Britto (CTOB), formado pelo arquivo PA_Britto.
Em seguida, passou-se para a etapa de preparação do terceiro subcorpus considerado nesta pesquisa: o corpus paralelo (CP). Essa etapa envolveu o alinhamento, no nível da sentença, de cada texto traduzido com o seu respectivo texto-fonte, gerando arquivos separados para cada par de contos do corpus paralelo. Os quadros resultantes foram salvos em formato .doc. Esses arquivos alinhados foram identificados com o nome do conto traduzido e, depois, salvos em pastas identificadas com o nome do tradutor e de cada autor. Essa etapa gerou, ao final, uma pasta chamada “Arquivos alinhados” com três subpastas “Britto-Roth”, “Britto-Updike” e “Britto-Lahiri”. O processo de alinhamento foi feito, em larga medida, manualmente. O alinhamento manual se fez necessário devido 1) à dificuldade de incluir etiquetas através dos programas de alinhamento automático então disponíveis e 2) erros persistentes na identificação das sentenças. A Figura 2, a seguir, apresenta um exemplo de alinhamento do conto The third and final continent, de Jhumpa Lahiri e O terceiro e último
Figura 2: Exemplo de alinhamento em extensão .doc
Ao final dessa fase de compilação e preparação, chegou-se à organização de arquivos ilustrada na Figura 3, a seguir.
Figura 3: Organização dos arquivos eletrônicos do corpus de estudo
A Figura 3 representa o final da fase de compilação e preparação do corpus de estudo. Nessa fase final, foi também organizado um corpus de consulta a partir de textos traduzidos já disponíveis no ESTRA. Foram escolhidos 11 textos (narrativas ficcionais) traduzidos do inglês para o português brasileiro por quatro tradutores diferentes. O segundo corpus de consulta, o COMPARA, encontra-se disponível on-
line38. É relevante explicitar aqui que as ferramentas do COMPARA permitiram a delimitação de um corpus comparável, de narrativas ficcionais em língua portuguesa brasileira não traduzida e de narrativas ficcionais em língua portuguesa brasileira traduzida, produzidas a partir de 1980. Uma vez que todos os textos estavam prontos foi possível passar à quantificação e ao levantamento dos dados estatísticos.