Surveyundersøkelse - Metodisk gjennomgang

2. Metodisk gjennomgang

2.3 Surveyundersøkelse

Diante do “malabarismo verbal” de CN, e por estar sempre em busca de novas palavras, verificamos no Corpus mais que a quantidade de verbos que aparecem em seus textos, mas principalmente a diversidade dos verbos apresentados, podendo confirmar diante dos dados generalistas expostos na tabela 18, essa profícua habilidade do escritor. Com os dados obtidos, encontramos também as hapaxes.

Mediante os dados extraídos dos Corpora verificamos se além da frequência maior de verbos no CCN, as hapaxes são significativas para afirmar se CN cultivava uma acentuada verborragia em relação a esta classe de palavra.

O processamento computacional dos Corpora para verificação dessas informações pode ser visualizado na figura a seguir:

Fonte: Elaborada pela autora

Essa figura mostra que com a execução de poucos comandos podemos extrair de um corpus quantidade de tokens, quantidade e lista de hapaxes, e a relação das palavras mais frequentes do arquivo.

O programa de processamento por vezes não interpreta corretamente a codificação das palavras, geralmente palavras com acentuação, nesse caso executamos um comando com a função (print) que exibe os termos corretamente, como visto na figura 24.

Com a extração dos dados dos capítulos de A Conquista, já anotados, no caso somente do verbo SER (tag SR), fazemos o seguinte resumo: 363 verbos, 4 palavras raras (hapaxes), lista das hapaxes (fora, foste, serei, sido), lista das palavras mais frequentes (oito primeiras) com a quantidade de vezes que aparece no texto (é, era, foi, eram, ser, são, sou, fosse).

É importante frisar que estes arquivos não passaram por correção manual tampouco automática, isso significa dizer que as anotações podem conter erros.

Nesse caso, o processador enumera o verbo “haverei” com a tag SR-R, significando verbo ser no futuro. Por isso aparecem cinco hapaxes nos resultados.

Os capítulos de cada livro foram organizados em um só arquivo para o processamento por obra e para que os dados ficassem concentrados, minimizando assim a tarefa do processamento.

Os resultados obtidos a partir do processamento dos Corpora anotados revelaram-nos os seguintes dados:

Tabela 18 - Lista de ocorrências de verbos e hapaxes nos Corpora

TEXTO VERBOS HAPAX % HAPAX

A Conquista 3.584 1.482 41,7 Turbilhão 3.637 1.541 42,3 O enterro 214 186 86,9 Mandovi 730 391 53,5 Firmo, o vaqueiro 322 225 68,8 TOTAL CCN 8.487 58,6 O cortiço 5.514 1.946 35,29 Amor de Salvação 2.887 1.273 44,0 TOTAL CORPUS CONTRASTE 8.401 39,65

Fonte: Elaborada pela autora

Para esse levantamento, além da categoria VB (verbo), acrescentamos nessa lista de frequências outras categorias de verbo (os auxiliares), que recebem etiquetas diferentes: SR (verbo ser), ET (verbo estar), TR (verbo ter), HV (verbo haver).

As possibilidades de ocorrências que podemos encontrar nesses Corpora são inúmeras. À medida que executamos os comandos vamos vislumbrando outras possibilidades de análises com uso tanto dos verbos, quanto de qualquer outra categoria gramatical.

Sobre as hapaxes, Biderman (1998, p. 176) afirma que: “A esmagadora maioria das palavras raras, hapax legomena, são substantivos. Eventualmente ocorrem alguns adjetivos e muito raramente um verbo”. Pudemos constatar que no

CCN as hapaxes são em maior quantidade os substantivos (nomes) que os verbos, mas com uma diferença pequena, uma relação de 2.725 substantivos para 2.441 verbos.

Como importa nesse trabalho a verificação de adjetivos, verbos e advérbios em –mente, vamos nos prender à analise dessas categorias.

Salientamos o fato de que a busca de ocorrência e a frequência de verbos nos Corpora levam em consideração as formas verbais flexionadas, e não somente os verbos no Infinitivo. Quando falamos em verbos, estamos nos referindo às formas também flexionadas, que contém etiquetas flexionais. Não nos detivemos a relacionar todos os verbos em sua forma infinitiva nos Corpora, especialmente no Corpus Coelho Netto, objeto maior de nossas análises. Para isso teríamos que submeter o CCN ao processo de lematização, que consiste em aplicar regras que identifiquem as mesmas formas gráficas correspondentes às diferentes flexões de um mesmo lema (CÚRCIO, 2013). O CHPTB não está lematizado (ALENCAR, 2009), e o Aelius carece de incremento no desenvolvimento de lematização (ALENCAR, 2013d).

Uma lista das dez hapaxes verbais presentes no CCN, iniciadas com a letra A, exemplificam melhor essa questão:

Exemplo 10:

Abafadas, abafado, abafando, abaixa, abala, abalada, abalar, abalou, abanando, abanava.

Se lematizássemos essas formas, teríamos a frequência dos verbos no Infinitivo, relacionando a ocorrência destes. Nesse caso, teríamos como resultado os verbos: abafar, abaixar, abalar, abanar.

Apresentando a mesma similaridade quanto à frequência de adjetivos nos Corpora, os verbos também apresentam poucas diferenças de frequência nas análises comparativas. O que observamos é que também as palavras raras são mais frequentes no CCN que no de Contraste: 58,9% e 39,6% respectivamente. Confirmamos assim a habilidade de CN em utilizar palavras raras nos seus textos, tanto adjetivos quanto verbos. Com esses dados, constatamos que nos Corpora as hapaxes de verbos são bastante elevadas em relação aos adjetivos, e não raramente como defende Biderman (1998).

Prova disso, é que do total de 53.080 tokens do CCN, 42.009 são tokens alfabéticos e 12.802 são hapaxes. Destas, 3.219 (3.825) são somente verbos. Temos então um percentual de 29,8% de formas verbais que aparecem somente uma vez no texto; os verbos, portanto, não podem ser considerados como formas raras nesse Corpus.

O que diferencia a frequência dos verbos em relação aos adjetivos é que aqueles sofrem muitas flexões, aumentando o quantitativo de ocorrências em relação a estes.

Fazendo uma análise mais minuciosa dos dados encontrados na exploração dos Corpora, quanto à relação dos verbos mais utilizados, fizemos um breve comparativo com os resultados da pesquisa de Freitas (2007), que estudando o estilo contista de Machado de Assis e com base na pesquisa de Maciel (1986) sobre o vocabulário de Érico Veríssimo, relacionou os dez verbos mais frequentes nos volumes de contos publicados por Machado de Assis, a partir das listas de altas frequências de cada grupo: ser, ter, dizer, estar, perguntar, saber, haver, poder, ir, ver.

Em nossa pesquisa, destacamos os sete verbos mais frequentes na obra de Coelho Netto, e em comparação com os dados de Freitas (2007), temos:

Quadro 14 - Comparação de verbos mais frequentes entre Machado de Assis e Coelho Netto

VERBO MACHADO DE

ASSIS COELHO NETTO

Ser 1º 1º Ter 2º 5º Dizer 3º 6º Estar 4º 2º Haver 7º 3º Ir 8º 4º Ver 10º 7º

Fonte: Elaborado pela autora

Assim como na pesquisa de Freitas (2007) o verbo SER que aparece com mais frequência nos textos de Machado de Assis, são os mais utilizados também por Coelho Netto. A ordem de frequência de uso dos verbos por CN é a seguinte: ser,

estar, haver, ir, ter, dizer, ver. O verbo ser é o que mais aparece, com 677 ocorrências. Causou-nos surpresa quando da realização dessas análises, ao perceber que os verbos ESTAR e HAVER não apareciam em nenhum momento no conto O Enterro. O verbo mais frequente nesse conto é o verbo IR.

In document Kulturkunnskap i en kunnskapskultur : evaluering av forsøk med Den kulturelle skolesekken i videregående skole (sider 26-31)