Support and Control Mobility and Transport Means Operation

Transportation Network Management

9.1 Support and Control Transportation Network Usage

9.1.3 Support and Control Mobility and Transport Means Operation

Os lingüistas de Corpus, conforme já dito, desenvolvem suas pesquisas (estudos de uma língua ou variedade lingüística) a partir de dados coletados criteriosamente. Para Sinclair (1991), o que possibilita a obtenção de bons resultados em pesquisas baseadas em corpus são as decisões que o organizador deve tomar para selecionar seus textos e organizá-los nele. Uma das decisões que o organizador deve tomar está relacionada à forma da língua, oral ou escrita.

Outra característica fundamental para a criação de um corpus, na opinião de Sinclair (1991), é a utilização de textos não fragmentados, pois se apresentam mais adequados do que uma coleção de pequenas partes de texto. Além disso, um corpus deve estar em constante desenvolvimento, respeitando a sua especificidade, primeiramente pelo fato de a língua estar em contínua evolução e, em segundo lugar, um corpus grande pode, a critério do analista, tornar-se fonte de textos completos, para o caso de pesquisas de cunho mais específico.

Berber Sardinha (2004, p.18), levando em consideração a definição de corpus proposta por Sánchez (1995)6 destaca como pré-requisitos para um corpus que ele seja, primeiramente, “composto de textos autênticos”, isto é escritos (ou falados) por falantes nativos, em condições de “naturalidade”; que a coleta siga critérios pré-estabelecidos

6_{A saber: “Um conjunto de dados lingüísticos (pertencentes ao uso oral ou escrito da língua, ou a}

ambos), sistematizados segundo determinados critérios, suficientemente extensos em amplitude e profundidade, de maneira que sejam representativos da totalidade do uso lingüístico ou de algum de seus âmbitos, dispostos de tal modo que possam ser processados por computador, com a finalidade de propiciar resultados vários e úteis para a descrição e análise”

para atingir os objetivos de pesquisa; que seja representativo – ou seja, suficientemente extenso para o que se pretende investigar. (cf. BERBER SARDINHA, 2004, p. 19-20)

Ainda de acordo com Berber Sardinha (2004, p.24), um corpus para ser representativo deve ser o mais extenso possível, a fim de que se aproxime ao máximo da população da qual deriva. Desse modo, a extensão do corpus comporta três dimensões, a saber:

a) o número de palavras (quanto maior o número de tokens – palavras presentes no corpus, não importando se são repetidas ou não - maior será a chance de o corpus conter palavras de baixa freqüência, ou seja, aquelas palavras mais raras da língua);

b) o número de textos (quanto maior o número de textos há a garantia de que esse gênero, registro ou tipo textual esteja mais adequadamente representado);

c) o número de gêneros, registros ou tipos textuais (aplica-se a corpora variados, criados para representar a língua como um todo).

Um aspecto interessante que convém mencionar é que um corpus pode receber uma nomenclatura peculiar de acordo com suas características de coleta. Em outras palavras, os corpora podem ser classificados, por exemplo, pelo modo de coleta como falado ou escrito; pelo período de tempo dos dados, como sincrônico, diacrônico, contemporâneo ou histórico; pelo modo de seleção, como de amostragem, monitor, dinâmico, estático ou equilibrado; por seu conteúdo, como especializado, regional ou multilingüe; pela autoria dos textos coletados, como de aprendiz ou de língua nativa; pela finalidade, como de estudo, de referência ou de treinamento (BERBER SARDINHA, 2004, p.20-21).

O grupo Expert Advisory Group on Language Engineering Standards – EAGLES (1996) – distingue tipologicamente o corpus, da seguinte maneira:

Ɣ Corpus de referência: contém uma amostra representativa das variedades mais importantes de uma língua, assim como de seus padrões léxico-gramaticais.

Ɣ Corpus monitor: apresenta crescimento constante, pois nele são acrescentados novos materiais, oferecendo a possibilidade de observação das recentes mudanças do uso da língua.

Ɣ Corpus oral: formado por transcrições de conversações informais e espontâneas.

Ɣ Corpus de amostragem: inclui apenas fragmentos de textos.

Ɣ Corpus paralelo: também chamado de bilíngüe ou multilingüe, ele é formado por um texto e sua tradução em uma ou várias línguas. Os textos deste tipo de corpus podem estar alinhados, trazendo marcas que identificam os pontos de correspondência entre o texto original e sua tradução.

Procurei mostrar até aqui, sobretudo, que pesquisas baseadas em corpus seguem medidas e decisões criteriosas para que as descobertas advindas de suas investigações estejam seguramente baseadas em dados autênticos, representativos de uma língua (ou de determinada variação lingüística) e coletados de modo criterioso e bem elaborados. Sob essa perspectiva, Kennedy (1998) destaca que a necessidade da observação empírica para qualquer atividade científica reside em representar evidências reais das descobertas, em relação a pesquisas lingüísticas. Em especial, diz que “as afirmações feitas acerca da língua devem ser fundamentadas pela evidência do uso da linguagem”7 (KENNEDY, 1988, p. 8), as quais, por sua vez, advêm dos corpora.

Os trabalhos baseados em corpus podem estar inseridos em diversas áreas, todavia, apresentam características comuns que os distinguem de outras áreas da lingüística, entre as quais “o uso excessivo do computador para a análise”, a dependência da associação de técnicas quantitativas e qualitativas e, naturalmente, o uso de corpora (KENNEDY, 1998, p.9).

Os tipos de pesquisa que têm recebido maior atenção da Lingüística de Corpus concentram-se em quatro áreas principais:

1) Compilação de corpus

2) Desenvolvimento de ferramentas 3) Descrição da linguagem

4) Aplicação de corpora (ensino de línguas, reconhecimento de voz, tradução etc.).

(KENNEDY, 1998, p.9)

Toda a discussão precedente sobre compilação de corpus, incluindo seu tamanho e sua representatividade, está calcada na premissa da construção de corpora gerais, visto que esta é a tendência que inaugurou a Lingüística de Corpus e que talvez a tenha influenciado de modo mais decisivo. Contudo, corpora de diversos tamanhos podem ser usados na Lingüística de Corpus, com diversas composições. O que importa é que o corpus seja coletado criteriosamente e que seja relevante para os objetivos da pesquisa.

7_{Tradução minha, para: “statements made about language have to stand up to the evidence of language}

No meu caso, em que coletei um pequeno corpus de minhas aulas de espanhol, respeitei tais critérios, tendo em vista que selecionei as aulas que seriam gravadas e posteriormente transcritas com base no objetivo de colher dados referentes ao uso de concordâncias no ensino; sendo assim, apliquei tal critério e apenas coletei aulas em que isso ocorreu. Vale ressaltar que corpora de fala, como os meus, são notoriamente mais difíceis de coletar, portanto, via de regra, são de dimensão menor do que os de linguagem escrita, em geral numa escala de dez para um. Ao mesmo tempo, o corpus coletado é relevante para meu objetivo de pesquisa, já descrito na introdução. Em relação à representatividade, não posso dizer que o corpus coletado seja representativo do ensino de espanhol com corpus no mundo todo, até porque não tinha tal preocupação, mas pude sugerir que seja representativo de minha prática como professora de espanhol que aplica a Lingüística de Corpus no ensino. É importante ressaltar que a Lingüística de Corpus não ‘proíbe’ nem ‘desqualifica’ tal corpus, muito pelo contrário, os achados de investigações que se utilizam de tais corpora, pequenos, mas muito informativos, podem ser altamente reveladores de aspectos que corpora maiores e mais gerais talvez não o sejam.

A pesquisa que ora descrevo pode ser considerada como representante da quarta área, aplicação de corpora para o ensino de línguas e, portanto, na subseção seguinte abordarei mais explicitamente essa questão. Vale ressaltar, ademais, que, além de aplicar atividades baseadas em corpora para o ensino de línguas, esta pesquisa também apresentará (como mostrarei nos capítulos que seguem) uma investigação do comportamento dos participantes desse processo de ensino em termos de interação e mediação.

É preciso destacar que a utilização de corpora de língua espanhola está presente em pesquisas que nem sempre se destinam ao ensino de língua estrangeira. Nessa linha, Cabral (2006), Lima (2006), Meniconi (2006), Toledo-Pereira (2005), Alves-Silva (2004) e Soto Balbas (2003). Cabral (2006) objetivou caracterizar a produção científica na área de língua espanhola e a estrutura interna do gênero resumo de dissertações e teses. Lima (2006) com base em um corpus constituído de produção não-nativa selecionou fenômenos que revelaram a concordância ultrapassando os limites das regras gramaticais que a regem. Meniconi (2006) objetivou comparar o ato de fala diretivo presente nos diálogos de livros didáticos de espanhol com o mesmo apresentado no corpus oral de língua espanhola coletado da Universidade Autônoma de Madrid, com a

nas suas formulações. Toledo-Pereira (2005) objetivou analisar as características do discurso de guias de turismo e monitores de museus nos contextos sócio-culturais brasileiro e espanhol. Alves-Silva (2004) objetivou analisar como ocorrem os sujeitos e objetos pronominais em espanhol e em português utilizando como corpus tiras cômicas. Soto-Balbas (2003) objetivou descrever por meio de corpus os erros e sua freqüência na escrita do aprendiz brasileiro de Espanhol como Língua Estrangeira e detectar as palavras e categorias gramaticais em que houvesse maior dificuldade e maior incidência de erros.

In document ARKTRANS The multimodal ITS framework architecture Version 6 (sider 115-120)