Oppfølging av masseutskiftning og vasskjemi i open byggegrop

DEL 2. KLASSIFISERING OG IDENTIFISERING AV SVART LEIRSKIFER, INKLUDERT ALUNSKIFER,

6. Masseutskifting med alunskifer

6.4. Oppfølging av masseutskiftning og vasskjemi i open byggegrop

A literatura dispõe de, pelo menos, duas abordagens distintas para análise de CVS: (i) uma que considera as CVS como um bloco único cujos constituintes são relativamente Ąxos, tais como outras expressões multipalavras (multiword expressions - MWE) (CAL- ZOLARI et al., 2002; SAG et al., 2002; DIAB; BHUTADA, 2009); e (ii) uma abordagem que considera as CVS como uma estrutura sintática complexa, que segue as mesmas regras da gramática geral da língua, mas possui propriedades especíĄcas e admite siste- maticamente certas transformações sintáticas, apesar de algumas serem lexicalmente de- terminadas (GIRY-SCHNEIDER, 1987; RANCHHOD, 1990; BAPTISTA, 2005b). Neste trabalho, adotamos a segunda abordagem, que reconhece e descreve as relações sintáticas e semânticas entre os constituintes de uma CVS.

Grande parte dos trabalhos encontrados na literatura focam apenas na identi- Ącação ou extração automática das CVS em corpora. Pouco se conhece em relação à implementação de CVS em parser ou análise sintática automática dessas construções. Alguns poucos trabalhos que Ązeram o processamento automático de CVS, como por exemplo, os de Butt (1994), Wang e Ikeda (2008) e Vincze (2012), referem-se a alguma aplicação especíĄca, como é o caso da tradução automática. Naqueles trabalhos, as CVS são consideradas como cadeias não-analisáveis de constituintes, como se fossem um bloco Ąxo, tal como as palavras compostas ou as expressões cristalizadas.

Já os estudos que visam à identiĄcação ou extração dessas construções são, mui- tas vezes, baseados em padrões lexicais (expressões regulares, por exemplo), combinados com listas de potenciais candidatos a Vsup ou candidatos a Npred (GREFENSTETTE; TEUFEL, 1995; DURAN et al., 2011; PÁEZ, 2014).

Grefenstette e Teufel (1995) apresentam um método de identiĄcação dos verbos- suporte a partir de um corpus não etiquetado, pela comparação dos argumentos ligados às formas verbais e às potenciais formas nominalizadas, ou seja, transfere-se a rede argu- mental das construções verbais para os potenciais candidatos a construção nominal. Os autores buscam encontrar os verbos-suporte mais prováveis para cada nome predicativo, mas considerando apenas os Npred que são nominalizações. Sabe-se que muitos Npred são nominalizações de verbos, tais como nos pares abraço=abraçar, apresentação=apresentar,

mos, que não são derivados de verbos ou adjetivos, tais como greve, sermão, cólica, etc.

Assim, o método apresentado pelos autores não captura os Npred autônomos. Naquele trabalho, Grefenstette e Teufel (1995) extraíram de corpus em inglês 6.704 sentenças com candidatos a verbos-suporte e candidatos a nominalizações, produzindo uma lista de po- tenciais construções com verbos-suporte que ocorrem com as formas nominalizadas. Um problema dessa abordagem consistiu em se considerar que a construção nominal man- tém a mesma rede argumental que a construção verbal equivalente, o que nem sempre se veriĄca. Por outro lado, restringe-se apenas aos Npred que apresentam nominalizações, excluindo da análise os Npred autônomos.

Para o espanhol, Páez (2014) extraiu de um corpus 81.274 frases com candidatos a CVS, dos quais os verbos-suporte mais representativos são tener (ter), hacer (fazer) e

dar (dar). A autora extraiu também automaticamente as combinações de qualquer nome

e 12 verbos, variantes dos Vsup tener, hacer ou dar. Em seguida, ordenou as principais combinações de verbo e nome por frequência e calculou a probabilidade de co-ocorrência de tal verbo com tal nome, usando três medidas de associação (log likelihood, StudentŠs T

score e Maximum likelihood estimator). Ao Ąm da tarefa, a autora elencou as CVS mais

recorrentes em Espanhol, de acordo com as medidas de associação utilizadas e concluiu que cerca de 69% das CVS dessa lista foram corretamente identiĄcadas.

Na literatura, é comum encontrar trabalhos, como o de Páez (2014), que partem de uma lista prévia de verbos que podem funcionar como Vsup ou uma lista de nomes que podem funcionar como Npred. A proposta de Duran et al. (2011) se difere dessas abordagens por partir dos padrões sintáticos de combinações de categorias gramaticais (POS tags) para encontrar CVS, como por exemplo [V N Prep] (abrir mão de), [V Prep

N ] (deixar de lado), [V Det N Prep] (virar as costas para), [V Det Adv] (dar o fora), [V Adv] (ir atrás), [V Prep Adv] (dar para trás), [V Adj] (dar duro).

Usando esse método, Duran et al. (2011) conseguiram identiĄcar 773 predicados complexos, que foram, posteriormente, anotados. Segundo os autores, esses predicados complexos incluem (mas não se limitam a) construções com verbos leves2_{. Consideramos,} no entanto, que a utilização de expressões regulares ou combinações de POS não seja adequada para a identiĄcação de CVS, pois as CVS, via de regra, são formadas por [V

(Det) N ], o que é sintaticamente idêntico às estruturas dos predicados verbais compostos

por um verbo pleno (V ), seguido de um objeto direto (N ), que pode ou não ser introduzido por determinante (Det).

Existem várias outras abordagens que objetivam a identiĄcação, extração ou detec- ção de CVS, também chamadas na literatura de construções com verbo leve (ou light verb

2 _{O objeto que Duran et al. (2011) e outros autores designam como verbo leve é o mesmo que nós}

designamos, neste trabalho, como verbo-suporte. Existem diferenças conceituais entre os dois termos, que serão explicadas no Capítulo 7, mas, por enquanto, considerem-se os termos como sinônimos.

constructions - LVC ). Essas abordagens podem ser baseadas: (i) apenas em informação

linguística, como o grau de composicionalidade dos constituintes das CVS, padrões sin- táticos ou anotação de corpus com CVS; ou (ii) apenas em informação estatística, como, por exemplo, medidas de associação ou técnicas de co-ocorrência de palavras; ou ainda (iii) em abordagens híbridas que levam em consideração tanto as informações linguísti- cas quanto estatísticas (STEVENSON; FAZLY; NORTH, 2004; TAN; KAN; CUI, 2006; FAZLY; STEVENSON, 2007; CRUYS; MOIRÓN, 2007; WANG; IKEDA, 2008; DIAB; BHUTADA, 2009; TU; ROTH, 2011; GURRUTXAGA; ALEGRIA, 2011). Os métodos híbridos são os mais comuns hoje em dia para a identiĄcação, extração ou detecção de expressões multipalavra em corpus.

Stevenson, Fazly e North (2004) propõem uma medida estatística para mensu- rar o grau de aceitabilidade das construções com verbo leve, com base em propriedades linguísticas, principalmente na ordenação de classes de complementos semanticamente se- melhantes. Tan, Kan e Cui (2006) e Tu e Roth (2011) construíram diferentes sistemas de aprendizagem que incorporam sistematicamente medidas estatísticas informativas e contextos locais especíĄcos. Os dois trabalhos diferem entre si em relação ao conjunto de dados anotados e os conjuntos de verbos considerados para a anotação. Fazly e Steven- son (2007) usam medidas estatísticas linguisticamente motivadas para distinguir subtipos de combinações de verbo-nome. Cruys e Moirón (2007) apresentam um método híbrido baseado em semântica e estatística, com vistas a identiĄcar combinações de [V Prep N ] em Alemão. Esse método é baseado em preferências de seleção para ambas as categorias: um nome usado como verbo, e um verbo usado como nome, nos casos de nominalização. Wang e Ikeda (2008) propõem regras de tradução baseadas em padrões sintáticos, visando à tradução de CVS do Japonês para o Chinês. Diab e Bhutada (2009) identiĄcaram os graus de idiomaticidade e classiĄcaram combinações de [V N ], usando um método super- visionado de aprendizagem de máquina que combina diferentes características linguisti- camente motivadas. Gurrutxaga e Alegria (2011) exploraram várias técnicas para extrair automaticamente combinações de [N V ] em Basco, usando uma abordagem híbrida que considera as complexas combinações de características, tais como a institucionalização, a não-composicionalidade e a Ąxidez léxico-sintática dos constituintes.

Vários outros trabalhos que seguem a mesma linha podem ser citados, mas ressalte- se que todos eles consideram CVS como um tipo de expressão multipalavra (MWE) e nenhum deles analisa as propriedades linguísticas inerentes a essas construções.

Por Ąm, reĄra-se ainda ao trabalho de Barreiro et al. (2014), que avaliaram dois sistemas de tradução automática, o OpenLogos (baseado em regras) e o Google Translate (baseado em métodos estatísticos), na tarefa de traduzir construções com verbo-suporte em cinco línguas: Francês, Alemão, Italiano, Português e Espanhol. Para realizar os expe- rimentos e a avaliação, os autores produziram um conjunto de 100 frases que analisaram

como CVS e o anotaram manualmente. Como resultado da avaliação dos dois sistemas, os autores concluíram que o Google Translate traduz melhor as CVS do que o OpenLogos, atribuindo esse resultado ao rico conhecimento lexical do primeiro sistema.

O conceito de CVS que os autores adotaram, naquele trabalho, é diferente do que adotamos aqui. Para Barreiro et al. (2014, p.37), Şuma CVS é uma expressão multipalavra ou um predicado complexo, que consiste em um verbo semanticamente fraco (o verbo- suporte) e um nome predicativo (que é o mais comum), ou um adjetivo predicativo ou um advérbio predicativoŤ3_.

Para justiĄcar a deĄnição adotada de CVS, os autores usam exemplos como: (i) fa-

zer uma apresentação (make a presentation), que é uma CVS formada pelo verbo-suporte fazer e o nome predicativo apresentação; (ii) fazer isso simples (make it simple), que tam-

bém é considerado uma CVS formada pelo verbo-suporte fazer e o adjetivo predicativo

simples; (iii) ser signiĄcativo (be meaningful), como CVS formada pelo verbo-suporte ser

e o adjetivo predicativo signiĄcativo; (iv) ser conhecido como (be known as) e estar en-

volvido em (be involved in), como CVS do tipo construção com verbo-suporte adjetival

preposicional, por serem formadas por um verbo-suporte (ser ou estar), um adjetivo pre- dicativo (conhecido ou envolvido) e uma preposição (como ou em); dentre outros exemplos. Pela abordagem que adotamos, apenas o exemplo (i) é, de fato, uma CVS. No exemplo (ii), fazer deveria ser classiĄcado como verbo-operador causativo, que indica fazer com

que isso seja simples ou tornar isso simples. Os exemplos (iii) e (iv), em nossa análise,

são construções adjetivais formadas por um verbo de cópula (ser ou estar), que não é um

Vsup, e um adjetivo predicativo.

As construções que Barreiro et al. (2014) identiĄcam como CVS são chamadas por outros autores de predicados complexos (DURAN et al., 2011) ou expressões multipalavras (multiword expressions) (CALZOLARI et al., 2002; DIAB; BHUTADA, 2009; SAG et al., 2002). Há diferentes objetos linguísticos sendo considerados como um tipo único de construção.

Este é o último capítulo dessa parte introdutória da tese. Neste capítulo, oferece- mos ao leitor um breve panorama dos estudos linguísticos sobre a classiĄcação dos verbos em Português. Indicamos alguns dicionários (BORBA, 1991; BUSSE, 1994) e trabalhos acadêmicos (CANÇADO; GODOY; AMARAL, 2012; LEVIN, 1993; BAPTISTA, 2012) que propuseram diferentes classiĄcações verbais, seja sintática seja semântica. Em seguida, indicamos também trabalhos que descrevem tipos especíĄcos de construções verbais, tais como as construções causativas (CANÇADO, 2010; GROSS, 1981) e as expressões Ąxas

3 _{Tradução minha. Do original: ŞA SVC is a multiword or complex predicate consisting of a semantically}

weak verb (the support verb), and a predicate noun (most commonly), a predicate adjective, or a predicate adverbŤ (BARREIRO et al., 2014, p.37).

(VALE, 2001) etc. Esses trabalhos serão utilizados, posteriormente, para fazer a análise e descrição das construções com o verbo dar.

Ainda neste capítulo, apresentamos os principais estudos sobre a identiĄcação e descrição das CVS, tanto em Português quanto em várias outras línguas. Por Ąm, apre- sentamos o estado da arte do processamento automático de CVS. Apesar de haver muitos estudos que propõem a identiĄcação ou extração automática de CVS em corpora, grande parte desses estudos consideram as CVS como expressões multipalavras e não analisam sua estrutura sintática interna.

A partir do próximo capítulo, que analisa as construções em que dar funciona como verbo pleno, inicia-se a primeira parte de análise e descrição das construções com o verbo dar em Português.

4 O verbo pleno dar

Os verbos plenos são também chamados de verbos distribucionais, pois são eles os responsáveis pela distribuição dos argumentos, ou seja, são eles que selecionam seus argumentos. Para Travaglia (2003), que estuda processos de gramaticalização, o primeiro estágio dos fenômenos linguísticos, a partir de onde se iniciam os processos de gramati- calização, é aquele em que os verbos têm seu signiĄcado lexical pleno e seus objetos se referem tipicamente a um objeto concreto. Com base nessas restrições, reconhecem-se oito subtipos do verbo dar como pleno: (i) o verbo com complemento dativo; (ii) com com- plemento reduzido (ou apagado); (iii) com complemento locativo; (iv) com complemento quantiĄcador; (v) com complemento instrumental; (vi) com complemento não-restrito in- troduzido pela prep com; (vii) o verbo transitivo-predicativo; e (viii) o verbo pleno com complemento espaço-temporal.

In document Rv. 4 på Gran, nyttiggjering av svartskifer: sluttrapport og erfaringer (sider 87-91)