• No results found

Forskningsfinansiering

Em latim, corpus significa corpo, que na área da linguística se refere a um “corpo de textos”. Entretanto, seu uso na Linguística Aplicada está relacionado a uma grande coleção de textos que podem ser lidos por um computador (McEnery & Wilson, 1996).

Sinclair, linguista considerado o pai da Linguística de Corpus, define corpus

19

That-clauses são orações que começam com a palavra that. To-clauses são orações que começam com a palavra to.

20 grammatical constructions are distinguished on the basis of traditional linguistic criteria, and then the set of words associated with those constructions are identified through corpus analysis.

41 com uma declaração que vai além da definição prática: “Um corpus é algo extraordinário, não pelo fato de ele ser uma coleção de textos de língua, mas devido às propriedades que ele adquire se for bem desenhado e construído cuidadosamente.”21 (SINCLAIR, 2004).

De acordo com Hunston (2002), os linguistas em geral sempre definiram

corpus para descrever uma coleção de exemplos da língua que ocorrem de forma

natural, que podia ser qualquer coisa, como algumas orações ou um conjunto de textos escritos ou gravações em fita, colecionadas para estudos linguísticos. No entanto, mais recentemente, diz a autora, a palavra corpus “foi reservada para coleções de textos (ou partes de texto) que são armazenadas e acessadas eletronicamente.”22 (HUNSTON, 2002, p. 7).

As definições propostas para corpus, cujo plural é corpora, têm basicamente o mesmo cerne. Elas definem corpus como um conjunto de textos para análise com computador. Entretanto, para este estudo foi usada a opção proposta por Sanchez (1995), por ser completa, conforme mostra Berber Sardinha (2004a):

Um conjunto de dados linguísticos (pertencentes ao uso oral ou escrito da língua, ou a ambos), sistematizados segundo determinados critérios, suficientemente extensos em amplitude e profundidade, de maneira que sejam representativos da totalidade do uso linguístico ou de algum de seus âmbitos, dispostos de tal modo que possam ser processados por computador, com a finalidade de propiciar resultados vários e úteis para a descrição e análise.

(SANCHEZ, 1995, pp. 8-9, apud BERBER SARDINHA, 2004a, p.18)

Ainda sobre a importância da Linguística de Corpus, Kennedy (1998, p. 9, apud BERBER SARDINHA, 2004a, p. 37) acrescenta:

Embora o escopo da Linguística de Corpus possa ser definido em termos do que as pessoas fazem com corpora, seria um engano assumir que Linguística de Corpus é somente um meio mais rápido de descrever como a linguagem funciona [...]. A análise de um corpus pode revelar, e frequentemente revela, fatos a respeito de uma língua que nunca se pensou em

21

“A corpus is a remarkable thing, not so much because it is a collection of language text, but because of the properties that it acquires if it is well-designed and carefully-constructed.”

22 “More recently, the word [corpus] has been reserved for collections of texts (or parts of text) that are stored and accessed electronically.”

42 procurar.

Sendo assim, constata-se a necessidade de atenção a vários pontos relativos ao

corpus, pois sua origem, propósito, composição, formatação, representatividade e

extensão constituem os dados linguísticos que serão a matéria-prima da pesquisa. A importância desses quesitos é descrita por Berber Sardinha:

A origem: os dados devem ser autênticos.

O propósito: o corpus deve ter a finalidade de ser um objeto de estudo linguístico. A composição: o conteúdo do corpus deve ser criteriosamente escolhido.

A formatação: os dados do corpus devem ser legíveis por computador.

A representatividade: o corpus de ser representativo de uma língua ou variedade. A extensão: o corpus deve ser vasto para ser representativo.

(BERBER SARDINHA, 2004b, p. 18-19)

A principal premissa das pesquisas em Linguística de Corpus é a adoção de um corpus ou corpora como objeto de estudo para descrição da língua. No entanto, Hunston (2002) adverte que, apesar de todos os benefícios advindos do estudo da linguagem por meio de corpora, as limitações quanto ao seu uso devem também ser consideradas. Essas limitações se resumem a quatro questões apontadas pela autora, a saber:

Um corpus não é capaz de nos informar se alguma coisa é possível ou não; ele simplesmente nos informa que algo é frequente ou não. Inclusive, a autora afirma que, de acordo com Sinclair (1991), as descrições da língua inglesa estão caminhando em direção ao que é típico e se distanciando das noções de boa formulação.

Um corpus pode oferecer evidência, mas não pode dar informações. Assim, o

corpus simplesmente oferece ao pesquisador diversos exemplos, mas somente o

pesquisador, com sua intuição, poderá interpretá-los.

Um corpus apresenta a língua fora de seu próprio contexto. Um exemplo é questão de dados falados, em que a transcrição nunca pode representar a entonação, a linguagem corporal e outras informações paralinguísticas de maneira bem apurada. Até

43 mesmo questões características visuais e relativas à entonação são ignoradas.

A quarta questão aparenta ser controversa. A autora diz que um corpus não mostra nada além do seu próprio conteúdo. E conclui que uma afirmação sobre evidências em um corpus é uma afirmação sobre aquele corpus; não podendo ser generalizada. Hunston afirma:

“Um corpus não mostra nada além do seu conteúdo. Embora seja (justificavelmente) chamado de representativo, todas as tentativas de gerar generalizações de um corpus são, de fato, extrapolações. Uma declaração sobre evidência em um corpus é uma declaração sobre aquele corpus, não sobre a língua ou o registro do qual o corpus é uma amostra. Dessa forma, conclusões sobre língua feitas de um corpus têm de ser tratadas como deduções, não fatos.”23

(HUNSTON, 2002, p. 22-23; grifos meus)

Tal afirmação não parece ser condizente com a importante característica inerente ao corpus de estudo, que é ser uma amostra representativa de um todo ou população que o pesquisador quer estudar. Conforme esclarece Berber Sardinha (2000c), não existe uma resposta exata para a questão quanto ao tamanho do corpus. O autor explica que, “à questão de o que seria uma amostra representativa de linguagem, a estratégia que se tem posto em prática é utilizar um corpus o maior possível.” (BERBER SARDINHA, 2000c, p. 2). Ele acrescenta que, para que o corpus tenha o maior número possível de palavras raras, a ideia de quanto maior melhor é aplicada. Isso serve como uma espécie de salvaguarda para garantir que o corpus seja o mais representativo possível.

Além disso, se abandonarmos a ideia de generalização a partir do corpus de estudo, pouco adiantaria estudar uma expressiva gama de textos que compõem os

corpora, conforme preconiza a Linguística de Corpus. Poderíamos, então, permanecer

23 Although it may (justifiably) claim to be representative, all attempts to draw generalization from a corpus are in fact extrapolations. A statement about evidence ina a corpus is a statement about that corpus, not about the language or register of which the corpus is a sample. Thus conclusions about language drawn from a corpus have to be treated as deductions, not as facts. (HUNSTON, 2002, p. 22-23).

44 com o estudo de um só texto e nos restringirmos apenas aos dados que temos, já que a possibilidade de generalização seria inexistente.

Também Biber (1993c) trata de questões relacionadas à representatividade no design de corpora linguísticos. Biber (1993c) discute o significado de representar uma linguagem, a definição de população-alvo, amostragem estratificada versus proporcional e questões relativas ao tamanho da amostra de um corpus. Para o autor, qualquer seleção de textos é uma amostra. Para que uma amostra seja ou não considerada representativa, é necessário analisar, primeiramente, a extensão para a qual ela foi selecionada, dentro de uma gama de tipos de textos da população-alvo. Ou seja, uma avaliação dessa representatividade depende de uma definição completa prévia da população que a amostra pretende representar e das técnicas usadas para selecionar a amostra daquela população.