Hypotesen - ‘Å utrydde et folks egenart’. Den norske sosialhygienen, sosialhygienisk språkbruk

Nome do corpus de estudo Tamanho em tokens

(used for word list)

Tamanho em types (distinct words) Tamanho em quantidade de arquivos de textos CC – Corpus FCU 1.749.093 64.110 93 CE – Corpus Fases 4.527.369 103.073 130 Observações:

Fonte: Elaboração própria.

Na Tabela 6 podemos observar que o CE é maior que o CC. Consideramos que essa diferença se deva pela quantidade maior de arquivos de textos inseridos em CE e, certamente, pelo fato de esses arquivos serem, também, maiores do que os arquivos de textos de CC. Como está evidente o não balanceamento entre os corpora, reiniciamos nova coleta de textos com o objetivo de ampliar o CC.

Apresentamos na sequência os resultados finais da ampliação do corpus da CC seguidos dos resultados da CE.

109

A Figura 23 apresenta a tela partial statistics do corpus da FCU.

Figura 23 Tela partial statistics CC

Fonte: Elaboração própria.

A Figura 24 apresenta a tela partial statistics do corpus da Fases.

Figura 24 – Tela partial statistics CE

Fonte: Elaboração própria.

110

Tabela 7 Tokens/types dos corpora – contagem final

TABELA COMPARATIVA CORPORA DE ESTUDO Nome do corpus de estudo Tamanho em tokens

(used for word list)

Tamanho em types (distinct words) Tamanho em quantidade de arquivos de textos CC – Corpus FCU 4.532.185 120.613 128 CE – Corpus Fases 4.527.369 103.594 130

Fonte: Elaboração própria.

A Tabela 7 evidencia o balanceamento entre os corpora; iniciamos, então, a elaboração das WordLists.

A Figura 25 apresenta parte da tela WordList do corpus da FCU, após a exclusão de números e o tros itens aos q ais o WS não conse e “ler” (pressionando o botão ctrl + delete e clicando em “#” na WordList, símbolo este que representa os números presentes no

corpus) e sem a aplicação da stoplist.

Figura 25 – Tela WordList CC sem aplicação da stoplist

Fonte: Elaboração própria.

A Figura 26 apresenta parte da tela WordList do corpus da FCU, com a aplicação da

111

Figura 26 – Tela WordList CC com aplicação da stoplist

Fonte: Elaboração própria.

A Figura 27 apresenta parte da tela WordList do corpus da Fases, após a exclusão de números e sem a aplicação da stoplist.

Figura 27 – Tela WordList CE sem aplicação da stoplist

Fonte: Elaboração própria.

A Figura 28 apresenta parte da tela WordList do corpus da Fases, com a aplicação da

112

Figura 28 – Tela WordList CE com aplicação da stoplist

Fonte: Elaboração própria.

Como resultado da arquitetura por nós delineada, temos a seguinte tipologia para os

corpora de estudo desta pesquisa (QUADRO 10):

Quadro 10 – Tipologia dos corpora de estudo

Fonte: Elaboração própria.

O estudo que desenvolvemos é sincrônico, pois se limita aos conceitos do modo como são atualmente, ou seja, no recorte presente da linha do tempo. Porém, os corpora são constituídos por textos que pertencem a diferentes recortes da linha do tempo. Essa constituição permite o desenvolvimento tanto de estudos sincrônicos quanto de estudos diacrônicos.

Tipologia dos corpora de estudo

Língua Monolíngue (português)

Modo Escrito (livro, livros-texto, manuais de Teologia, entrevistas, sermões, encíclicas, apostilas.)

Data de publicação Sincrônico/Diacrônico56

Seleção Amostragem, Estático

Conteúdo Especializado (Teologia)

Autoria Falantes nativos (português) e traduções Disposição Interna Comparável monolíngue

Uso na pesquisa Estudo (análise terminológica/terminográfica) Tamanho Médio-grande (1 milhão a 10 milhões de palavras) Nível de Codificação Com cabeçalhos, sem etiquetas

113

Para gerar as listas de palavras-chave, comparamos a frequência das palavras dos

corpora de estudo com o corpus de referência do Banco de Português (BP)57 (FIGURA 29).

Figura 29 KeyWords CC (esquerda) e CE (direita)

Fonte: Elaboração própria.

Berber Sardinha (1999, p. 15) afirma que “o tamanho do corpus de referência é um dos cinco elementos que podem influenciar o resultado de uma análise por palavras chave, no tocante à quantidade de palavras-chave q e podem ser o tidas”.

Para os primeiros testes na nova plataforma do VoTec, estabelecemos os critérios de escolha dos candidatos a termos. Esses critérios estão arrolados a seguir.

1. selecionamos 45 candidatos a termos entre os 100 primeiros itens mais chaves (da lista de palavras-chave por ordem de chavicidade);

2. selecionamos, por relação lógica, o termo contido na definição de outro cuja compreensão é fundamental para o entendimento do termo definido. Assim, tal termo tam ém será definido e será remissivo. Por exemplo, “De s é a Trindade Santa”; o termo rindade deverá ser definido e será remissivo ao termo Deus; 3. definimos, preferencialmente, os termos correspondentes entre os dois corpora de

estudo, pois o objetivo é realizar uma análise contrastiva desses termos;

4. consideramos, após a aplicação do terceiro critério, não satisfeita a prerrogativa de se encontrar um candidato a termo correspondente, no corpus em contraste, os termos com alta chavicidade e relevância lógica dentro do campo do conhecimento teológico católico e do conhecimento teológico evangélico. Por exemplo, o termo

114

Eucaristia está presente no CC e não aparece no CE. A escolha desses termos, nesse quarto nível, possibilitará a comparação em segunda instância, ou seja, poderemos detectar/analisar não o contraste do conteúdo da definição dos termos, mas também, a diferença de termos mais ou menos relevantes entre as duas linhas teológicas;

5. optamos, quando se tratar de um candidato a termo que seja composto, embora apareça isoladamente na lista de palavras-chave e faça sentido separado, como por exemplo, Jesus (em Jesus Cristo) e Espírito (em Espírito Santo), por definir o termo composto. Para isso, alguns procedimentos são necessários a fim de gerar as linhas de concordâncias do termo composto. Passamos então a descrever os procedimentos a serem executados. O primeiro passo é, localizar a palavra principal ou primeira à esquerda do termo composto (Jesus, por exemplo). Em seguida, gerar a linha de concordância daquele termo e salvá-la. O terceiro passo é, abrir a função collocates e encontrar o colocado58 com o termo composto (Cristo). O WST disponibilizará a quantidade de colocados com o item desejado, clicamos sobre ele para abrir as linhas de concordâncias com o colocado desejado (Jesus Cristo). Assim, poderemos localizar as linhas que contenham possíveis contextos definitórios e/ou explicativos, que permitam a elaboração das definições; e

6. utilizamos, para a localização de contextos eficientes para a criação da definição, a função clusters já inserida na tela de concordância do colocado, em processo de

escolha para ser um termo definido.

Finalmente, como resultado, apresentamos o Quadro 11 ilustrativo dos critérios estabelecidos.

Quadro 11 – Termos a serem definidos

ESCOLHA DOS CANDIDATOS A TERMOS PARA AS DEFINIÇÕES

In document ‘Å utrydde et folks egenart’. Den norske sosialhygienen, sosialhygienisk språkbruk og behandlingen av tatere i Misjonens barnehjem og institusjoner 1945-1986 (sider 68-0)