Dialogprosessene - Tiltak rettet mot innvandrer

11 Særskilte utfordringer for den

12.1 Tiltak rettet mot innvandrer

12.1.1 Dialogprosessene

Segundo o Modelo de Redes e a Teoria dos Exemplares, qualquer pesquisa que tenha como objetivo avaliar como acontecem a categorização e a estocagem das informações lingüísticas na mente do falante precisa considerar medidas de freqüência de tipo e de ocorrência (Cf. Capítulo 4, “Quadro Teórico”). Naturalmente, para proceder a análises refinadas dessa natureza, é necessário contar com corpora lingüísticos que propiciem opções de busca detalhadas.

Basicamente, os corpora consultados em nossa tese foram três: o Corpus NILC/Universidade de São Carlos, o Corpus LAEL (Lingüística Aplicada e Estudos da

Linguagem), e o Corpus ASPA (Avaliação Sonora do Português Atual). Nas subseções seguintes, vamos comentar esses corpora individualmente.

5.2.1 O Corpus NILC/São Carlos

O Corpus NILC/São Carlos (disponível em <www.linguateca.pt/ACDC/>) é parte do Corpus CETEM/Público (Corpus de Extratos de Textos Eletrônicos MCT/ Público). Na tabela abaixo, organizamos os dados quantitativos desse corpus e suas fontes.

Tabela 15: Dados sobre o Corpus NILC/São Carlos

Corpus SÃO CARLOS Número de formas

Número de

tipos Tipo Descrição Tamanho

Unidades 41.372.943 457.556 DI texto didáctico 423.893

Total de Palavras 32.091.996 433.030 ENC enciclopédia 283.838

Palavras em minúscula 23.217.976 158.261 ENS ensaio 2.177.193

Palavras com inicial

maiúscula 4.595.495 127.721 EP texto epistolar 3.338

Palavras todas em

maiúsculas 464.974 22.996 JO jornalístico 29.462.874

Números 427.186 2.978 JOCF jornalístico só _CETENFolha 29.462.874

Palavras com números 38.568 4.379 JO jornalístico sem _CETENFolha 29.462.874

Palavras mistas 98.344 9.267 LE texto legal 1.083.200

Pontuação 2.415.505 24.522 LI literário 919.628

RE revista 153.454

Fonte: <http://www.linguateca.pt/CETEMPublico/>

Observamos, portanto, que o Corpus NILC/São Carlos apresenta uma grande quantidade de ocorrências (41.372.943 dados), mas tais itens são extraídos somente de textos escritos. Como as variações lingüísticas originam-se na fala, o ideal seria que pudéssemos, em nossa pesquisa, consultar um corpus de língua falada. Essa opção não está disponível no Corpus NILC/São Carlos, já que ele é formado apenas por itens de língua escrita. Por outro lado, a tabela acima demonstra que esse corpus apresenta uma grande

diversidade de tipos de texto, o que faz com que ele seja bastante representativo da língua escrita.

Basicamente, o Corpus NILC/São Carlos provê uma busca por ocorrências. Então, por exemplo, se estamos interessados em saber a freqüência de ocorrência da palavra “milhão”, é só digitar a palavra e, em alguns segundos, o site apresentará os resultados. Esse corpus propicia a busca por palavras isoladas, como “céu”, “lençol”, “milhão”, ou por itens em contexto, como “céu azul”, “maus lençóis” ou “um milhão”. No entanto, uma característica que tal corpus apresenta é o fato de fazer distinções entre letras maiúsculas, minúsculas e marcas de acentuação, e não existir uma opção que nos permita ignorar tais detalhes. Sendo assim, se queremos saber a real ocorrência da palavra “milhões”, é preciso procurá-la de, no mínimo, seis maneiras diferentes:

milhões – 20.110 ocorrências MILHÕES – 15 ocorrências Milhões– 48 ocorrências milhoes – 5 ocorrências MILHOES – 0 ocorrências Milhoes – 0 ocorrências

No caso das generalizações de plural em questão, em que estamos lidando com palavras terminadas em –ão, muitos desses itens apresentam o sufixo –ação, que contém, além do til, “c” com cedilha. Isso multiplica o trabalho de busca no Corpus NILC/São Carlos porque, se quisermos uma busca realmente minuciosa, precisamos procurar a palavra com todas as possibilidades de grafia, uma vez que a pessoa que digitou a palavra que está no corpus pode ter cometido algum erro, deixando de acrescentar a cedilha ou o til ou até mesmo trocando tais marcas. Como nossa tese tem por objetivo analisar variações nos grupos de plural, e não variações na forma ortográfica das palavras, adotamos a busca da palavra em sua forma minúscula, com os acentos necessários segundo a ortografia vigente, quando fosse o caso. Após compararmos diferentes palavras dos grupos de plural sob análise e as ocorrências para cada uma das grafias possíveis, concluímos que uma busca mais simplificada não prejudicaria os objetivos primários de nossa pesquisa.

5.2.2 O Corpus LAEL

O Corpus LAEL (Lingüística Aplicada e Estudos da Linguagem, disponível em <http://lael.pucsp.br/corpora/index.htm>) é dividido em dados de fala e de escrita. Sua composição é a seguinte:

Tabela 16: Totais de palavras dos registros e tipos de textos do Corpus LAEL

Registros de texto Total de palavras de cada registro

Tipos de texto Total de palavras de cada tipo de

texto 1. Registro acadêmico 198.652 1) Artigos e teses acadêmicas 198.652

1) Cartas comerciais 19.736 2) Cartas de pedido de emprego 14.306

2. Registros de negócios, 386.138 3) Editais 30.829

comerciais e técnicos 4) Fax Comerciais 16.131

5) Relatórios anuais de negócio 104.255 6) Manuais de informática 200.881

3. Registros falados 197.901 1) Aulas 84.910

2) Conversação 112.991

4. Registro de imprensa 199.285 1) Jornal diário, impresso 199.285

5. Registro de literatura 201.018 1) Literatura de ficção 201.018

Total geral – Corpus inteiro 1.182.994 Total geral – Corpus inteiro 1.182.994 Fonte: <http://lael.pucsp.br/corpora/index.htm> (Acesso em: 22 fev. 2004) apud FONTES MARTINS, 2007, a ser publicado.

Uma suposta vantagem do Corpus LAEL59_{sobre o NILC/São Carlos é o fato} de o primeiro apresentar dados de fala, enquanto o segundo disponibiliza apenas dados de língua escrita. No entanto, a partir dos números da tabela acima, observamos que os dados de fala (aulas e conversações) do LAEL representam 197.901 dados, ou seja, 16,7% do total do corpus. Sendo assim, o número de itens de fala considerados nesse corpus não é muito expressivo, visto que a maioria dos dados (83,3%) é oriunda da escrita.

Uma desvantagem desse corpus é que a transcrição dos dados, mesmo os relativos à fala, é feita ortograficamente, o que impede, por exemplo, a busca por sutilezas

59_{Nesta tese, o Corpus LAEL a que nos referimos é aquele disponibilizado on-line, no endereço supracitado.} Não fizemos consulta diretamente ao Corpus LAEL na PUC de São Paulo.

fonéticas como plurais terminados em>(ZV@ou>HZV@. Sendo assim, a suposta vantagem do Corpus LAEL, por utilizar dados de fala, não é tão prática, visto que a modalidade falada compõe uma parte pequena do corpus (16,7%) e peculiaridades inerentes à pronúncia das palavras não podem ser consultadas.

Uma característica importante do Corpus LAEL (tanto de fala quanto de escrita) é que ele provê uma lista de freqüência de ocorrência dos itens léxicos, que elenca todas as palavras do corpus, da mais freqüente à menos freqüente. Essa organização dos dados viabiliza pesquisas como a listagem de palavras mais freqüentes em cada um dos grupos de plurais sob análise nesta tese. O NILC/São Carlos oferece apenas a busca de freqüência de ocorrência da palavra, não disponibilizando, portanto, tal lista dos itens mais freqüentes aos menos freqüentes.

Da mesma forma que o Corpus NILC/São Carlos, o LAEL também faz distinção de acentuação. Assim, a mesma opção feita para a coleta de dados no NILC/São Carlos foi adotada para o LAEL, ou seja, procuramos a palavra com sua ortografia oficial e em caracteres minúsculos. Já comprovamos anteriormente que isso não altera substancialmente a freqüência da palavra.

5.2.3 O Corpus ASPA

O ASPA (Avaliação Sonora do Português Atual) está disponível em

<http://www.projetoaspa.org/> e corresponde à transcrição fonética de dados do LAEL

Escrita. O corpus contabiliza um total de 199.864 tipos e 219.782.537 ocorrências. Em seus dados, foram computados os itens do LAEL Escrita que apresentavam freqüência de ocorrência acima de seis. Durante a elaboração da metodologia de nossa tese, período em que efetivamente consultamos corpora do PB para realizar buscas sobre freqüência de ocorrência, o ASPA ainda estava em fase de transcrição fonética dos dados; em função disso, apesar do seu expressivo número de ocorrências e apesar da vantagem de apresentar os itens foneticamente transcritos, não pudemos contar com esse corpus para selecionar as palavras a serem adotadas em nossos experimentos. Por outro lado, na fase final de redação desta tese, o ASPA já estava em fase de conclusão e buscas preliminares já podiam ser feitas, então, em algumas tabelas desta tese (Cf. Tabelas 5, 8 e 9), utilizamos o ASPA para

contabilizar as freqüências de tipo dos grupos de plural pesquisados, já que esse corpus permite que façamos uma busca por itens terminados em –ão, –l e ditongo em –u. Essa contagem, baseada em dados reais de uso da língua, permitiu uma avaliação mais precisa sobre a quantidade de palavras pluralizadas através de cada uma das classes sob análise nesta tese.

Nos parágrafos subseqüentes, faremos uma comparação mais direta sobre os corpora que permitem busca por freqüência de ocorrência, a fim de justificarmos, de forma empírica, nossa opção pelo Corpus NILC/São Carlos.

In document Stort.meld. nr. 47 (2008-2009) Samhandlingsreformen: rett behandling - på rett sted - til rett tid (sider 122-150)