6. FORKLARINGSFAKTORER FOR LØNNSOMHETSVARIASJONER
6.3 V ERTIKAL INTEGRASJON
A Linguística de Corpus é uma área que tem como principal ocupação a coleta e a exploração de corpora. Além disso, tem como um dos principais procedimentos a utilização de um corpus, que pode ser designado como uma grande coleção de textos naturais, sendo esses legíveis por computador e selecionados criteriosamente com o propósito de servir de base de análise de uma língua ou de uma variedade linguística (Biber, 1998; McEnery e Wilson, 1996; Renouf, 1998).
“Em princípio, qualquer coleção contendo mais de um texto pode ser chamada de um corpus” (MCENERY et al., 1996). O termo corpus quer dizer “corpo” em Latim. Dessa forma,
um corpus pode ser definido como qualquer corpo de texto. No entanto, quando o termo corpus é usado no Contexto da linguística moderna, ele tende a possuir uma conotação mais específica do que aquela dada pela definição anterior, pois um corpus passa a ser considerado sob outros aspectos como: representatividade, tamanho e forma de armazenamento (FELTRIM
et. al., 2001, p. 04).
Para Sánchez (1995) um corpus se define como:
“...um conjunto de dados linguísticos (pertencentes ao uso oral ou escrito da língua, ou a ambos), sistematizados segundo determinados critérios, suficientemente extensos em amplitude e profundidade, de maneira que sejam representativos da totalidade do uso linguístico ou de algum de seus âmbitos, dispostos de tal modo que possam ser processados por computador, com a finalidade de propiciar resultados vários e úteis para a descrição e análise” (SÁNCHEZ, 1995 apud BERBER SARDINHA, 2000, p. 338).
Já para McEnery e Wilson (1996), o termo corpus deve considerar quatro fatores principais: em primeiro lugar, amostra e representatividade, isto é, na construção de um
corpus deve-se considerar que a amostra seja representativa das tendências de uma
A segunda característica destacada pelos autores diz respeito ao seu tamanho finito. Como exemplo disso, o autor cita um corpus composto por um milhão de palavras. Para McEnery e Wilson (1996) não há uma regra geral para o estabelecimento de um tamanho ideal de um corpus, já que muitas vezes isto depende do propósito do estudo que se pretende realizar.
A terceira característica destacada pelos autores diz respeito à forma legível por computadores, sendo este fator considerado indispensável para a investigação da língua, uma vez que por meio desse instrumento é possível investigar informações sobre traços linguísticos de áreas diversas como traços morfológicos, morfo-sintáticos e semânticos.
Outro fator relevante destacado pelos autores é a possibilidade que a pesquisa realizada através de corpus eletrônico pode trazer quanto a uma descrição objetiva da língua, além da possibilidade de descoberta de fatos novos na língua.
A última característica destacada por McEnery e Wilson (1996) é a referência padrão, isto é, “um corpus é considerado como uma referência padrão da variedade da língua que este representa”. Kennedy (1998) também aponta uma série de vantagens na utilização de computadores e, dentre elas, destaca a rapidez, a exatidão, a confiabilidade estatística, e a habilidade de manusear grandes quantidades de dados.
Com isso, os computadores têm permitido aos linguistas trabalhar com uma grande variedade de textos e, dessa forma, procurar generalizações sobre a língua, não restritas ao uso de textos específicos ou da intuição de um linguista.
A quantificação da língua por meio de estudos baseados em corpus tem ajudado a renovar ou fortalecer a ligação entre a descrição linguística e outras áreas de estudo como, por exemplo, o ensino de línguas (GRANGER, 1981).
Além disso, para a Terminologia, um corpus textual é entendido como um conjunto de textos selecionados que servirão de base para a realização de uma análise terminológica (PAVEL eNOLET, 2001, p. 119).
Como uma língua viva possui um grande número de variantes lexicais, sendo então extremamente difícil analisar todas elas, uma solução é coletar uma “amostra” da língua, ou seja, um conjunto finito de textos que aborde uma certa variedade linguística que se deseja estudar.
Entretanto, não se pode considerar qualquer conjunto de textos como uma amostra de uma língua. Essa amostra deve ser representativa; deve conter uma variedade e um número suficiente de casos para que se possa ter uma ideia real de um determinado aspecto linguístico.
A quantidade de textos que um corpus deve conter é outro aspecto importante a ser observado e que vai depender do propósito a que o corpus vai servir. Ele deve ser suficiente para fornecer um retrato real do aspecto que se deseja investigar, mas também deve ter um tamanho finito e razoável para que seja possível realizar as análises desejadas.
Em alguns casos, um corpus pode continuar crescendo com o decorrer do tempo, sendo este chamado de Corpus Monitor. Esse tipo de conjunto de texto é especialmente útil quando se deseja realizar estudos lexicográficos, pois permite aos pesquisadores estarem sempre lidando com textos novos, buscando novas palavras ou mudanças de significado em palavras conhecidas (FELTRIM et. al., 2001, p. 04).
O tratamento e análise de grandes corpora (nome dado à base de dados textuais) fizeram com que a Linguística se aliasse à Computação para criarem ferramentas automáticas, o que facilitou tanto a manipulação quanto a própria pesquisa de corpus, principalmente no caso de análises quantitativas.
Na geração de um corpus, o primeiro problema que se põe é o da captura dos textos. Para essa atividade é interessante utilizar os já disponíveis na internet, como periódicos e publicações de acesso livre e gratuito. Esse sistema de coleta de textos elimina custos financeiros e possibilidades de erros, sendo preciso apenas adaptar os arquivos importados ao formato usado no corpus que se está criando (BIDERMAN, 2001, p. 80).
O corpus eletrônico veio possibilitar um confronto entre a teoria e os dados empíricos da língua, podendo mostrar como funciona uma língua natural em escala reduzida.
A construção de um corpus eletrônico é também facilitada pelo uso de ferramentas como a Internet e o scanner (auxiliado pelo OCR –– Reconhecimento Óptico de Caracter), que permitem ao usuário a captura de textos de uma forma rápida e simples.