F ORHOLDET MELLOM PREDIKSJONSFAKTORENE I DE ULIKE BESTEMMELSENE

4 PREMISSENE FOR BEVISBEDØMMELSEN

4.5 F ORHOLDET MELLOM PREDIKSJONSFAKTORENE I DE ULIKE BESTEMMELSENE

O presente trabalho pretende resgatar os achados descritivos de trabalhos anteriores sobre a formação de verbos parassintéticos em português, reavaliá-los, contribuir com novos achados descritivos e sugerir uma análise explicativa que consiga abranger não só os fatos do português, mas compará-los aos dados de outras línguas e explicá-los à luz de uma teoria universalista da

linguagem. Para tal, criamos um corpus de referência que serve como um corpus de confirmação (ou refutação) dos resultados descritos pelos principais trabalhos empíricos (SAID ALI, 1966; PEREIRA, 2000, 2002, 2004, 2007; RIO-TORTO, 2004; VILLALVA, 1994; BOSSIER, 1998).

Os trabalhos em Gramática Gerativa, em sua maior parte dedicados a estudos do nível sentencial, vêm lidando com dados de intuição. Nesses estudos, a metodologia consiste na criação de estruturas que devem ser avaliadas como gramaticais ou agramaticais pelo próprio pesquisador ou por falantes nativos. No presente trabalho, também nos valemos do método de avaliação dos dados por intuição para possíveis formações verbais, mas acreditamos que a escolha do conjunto de dados primário não deve se basear em intuição ou escolha. Um trabalho que tem palavras como dados primários deve evitar métodos de escolha subjetivos, pois a escolha dos dados por acesso à memória do próprio pesquisador pode resultar em um corpus viciado: para cada pesquisador haveria um corpus diferente baseado no vocabulário particular de cada indivíduo. Para dados de sentenças, essa crítica não se aplica, necessariamente, pois as interferências da performance são menores em face da importância da competência.

Assim, a objetividade e o critério metodológico são uma de nossas preocupações. Intentamos produzir um estudo baseado em dados não escolhidos subjetivamente, o que poderia levar a vieses na seleção do corpus e a resultados duvidosos. Acreditamos que a linguística teórica pode tirar grande proveito das ferramentas modernas de linguística de corpus e análise de dados, conjuntamente com a expertise do pesquisador.

A intenção é criar um corpus de verbos que se aproxime maximamente do vocabulário ativo de um falante de PB, pois o estudo visa compreender como os verbos são formados sincronicamente pelo indivíduo, acreditando que o mesmo é capaz de construir palavras ao colocá-las em uso, e não somente acessa uma lista memorizada.

Os seguintes passos nortearam a seleção dos dados prefixados por a-, ad-, en-, e-, em-, in- , es-, ex-, que podem ser comitantemente sufixados por -e-, -ej-, -ec- e –iz-:

a. Primeira seleção: seleção de todos os verbos iniciados por a-, e- e in- a partir de base de dados do dicionário eletrônico Houaiss da Língua Portuguesa (edição 2007). 27

b. Extração de frequência: os dados foram avaliados com relação à frequência de uso pelos motivos explicitados em Bassani (2009) e retomados a seguir:

“... apesar de o dicionário constituir uma fonte confiável de seleção dos dados, há desvantagens em sua utilização. O dicionário registra verbetes já obsoletos na língua, muitos que já estão mortos na língua falada e na escrita e outros que só ocorrem em variantes literárias (...) Vemos, então, que esses verbos seguem os padrões de formação esperados e seriam úteis em nossas análises descritivas dos aspectos morfológicos, mas não haveria modo de investigar seu estatuto sintático e semântico na sincronia, já que grande parte dos falantes, inclusive nós, não teria intuição para julgar testes realizados com palavras cujo sentido desconhece. Além disso, muitas das ocorrências retiradas do dicionário ou são produtivas na modalidade do português europeu e não do português brasileiro, com o qual estamos comprometidos nesse trabalho, ou são ocorrências registradas na escrita, em textos literários, e que não são produtivamente utilizadas na fala” (p.25).28

Ainda, as mesmas técnicas desenvolvidas em Bassani (2009) foram reproduzidas para a consulta restrita a páginas em português e páginas do Brasil no site de buscas Google:

“Para que obtivéssemos resultados do uso dos verbos da amostra com o menor viés pessoal possível, fizemos uso de uma ferramenta de busca em textos na internet. Foi desenvolvido um programa computacional de busca automática na linguagem Python29 que consulta de forma sistemática os verbos no site www.google.com.br com os seguintes filtros: idioma português e páginas do Brasil. Entendemos que os textos

Na realidade, com relação ao trecho “já que grande parte dos falantes, inclusive nós, não teria intuição para julgar testes realizados com palavras cujo sentido desconhece”, naquele momento, não pensamos que testes com uso de logatomas exploram exatamente o julgamento de palavras inexistentes propiciado pela competência linguística do falante nativo. De todo modo, acreditamos que a metodologia de escolha dos dados, excluindo verbos com poucas ocorrências, é efetiva para nossos objetivos.

Agradecemos a Fidel Beraldi do Instituto de Matemática e Estatística da Universidade de São Paulo pelo desenvolvimento do programa.

produzidos na internet abrangem diferentes indivíduos, de diversas idades e regiões do Brasil; situações formais, tal como em textos científicos e jornais, e informais, tal como em blogs pessoais e salas de bate-papo. Dado que os verbos podem aparecer morfologicamente em diversas conjugações no português, concordando em pessoa e número, e em diversos modos (indicativo, subjuntivo, imperativo), tivemos que criar um critério de busca. Decidimos por buscar somente a forma do infinitivo de cada verbo. Assim, todos os verbos tiveram a mesma chance e foram comparados igualmente quanto ao seu número de ocorrências. Em seguida, cada verbo foi consultado no site de busca e obteve-se o total de ocorrências em sites da internet.” (p.25)

Com todos os verbos iniciados por a-, e- e in- passamos à limpeza manual dos dados. Optamos por filtrar a frequência antes de limpar os dados porque havia um grande número de verbos (5.173), o que pode levar a erros quando se trata de uma limpeza manual. Optamos por selecionar para limpeza verbos com mais de 10.000 ocorrências de frequência, reduzindo o conjunto de dados a um total de 1.471 verbos.

c. Limpeza dos dados:

! Seleção dos dados iniciados por a-, ad-, en-, e-, em-, in-, es-, ex-;

! Exclusão dos verbos em que essas sequências sonoras eram partes da raiz, ou prefixos de negação no caso de in-, e não possíveis prefixos relacionais (ex: amar, alterar, entrar, invalidar, etc).

! Exclusão dos adjetivos terminados em –ar (escolar)

! Exclusão de verbos que, mesmo com um número de frequência maior do que 10.000, nos pareciam extremamente estranhos (aquinhoar, arregimentar).30

Após limpeza descrita no item c., o corpus final conta com 380 verbos. Devemos finalizar esta seção apontando algumas das fraquezas metodológicas do estudo. Em primeiro lugar, optamos pela busca da forma do infinitivo do verbo em lugar de formas flexionadas pela praticidade. Em segundo lugar, utilizamos o site de buscas Google em lugar de um corpus de textos escritos e orais, em um cenário mais fiel à língua atualizada. Para os próximos estudos, teremos tais opções em perspectiva31.

Os testes de julgamento de gramaticalidade, que são importantes principalmente para as classificações em tipos de estruturas argumentais no Capítulo 4, foram feitos com base em nosso julgamento como falantes nativos do PB, em consulta a falantes nativos, em consulta aos exemplos de emprego dos verbos em sentenças disponibilizados pelo Dicionário Houaiss da Língua Portuguesa (em conjunto com nosso julgamento sobre o real uso de tais sentenças) e em

consulta ao emprego dos verbos em sentenças no Corpus do Português

(http://www.corpusdoportugues.org). Diferentemente do que foi feito em Bassani (2009),

optamos por não submeter os testes a grupos de falantes nativos porque visamos aprofundar a discussão teórica neste trabalho em detrimento de um trabalho experimental. Para tal, nos baseamos muito em descrições prévias dos dados, obviamente, avaliadas quanto à sua precisão.

In document Beviskrav for bevistema med prediksjonselement (sider 88-94)