• No results found

Klassifisering av Leirskifer med XRF

DEL 2. KLASSIFISERING OG IDENTIFISERING AV SVART LEIRSKIFER, INKLUDERT ALUNSKIFER,

5. Klassifisering av svart leirskifer

5.1. Metode for identifisering og klassifisering av svart leirskifer

5.1.2. Klassifisering av Leirskifer med XRF

2.2.1 A ferramenta Unitex

Para recensear todas as ocorrências do verbo dar, foi utilizada a ferramenta Unitex 3.1 Beta, que permite a busca e o processamento de qualquer lexia em grandes corpora em tempo real. As informações linguísticas estão disponíveis no Unitex por meio de dicionários eletrônicos e gramáticas, representados por autômatos de estados Ąnitos.

O Unitex dispõe de dicionários eletrônicos de todas línguas em que ele funciona (Inglês, Finlandês, Francês, Alemão, Grego, Coreano, Italiano, Norueguês, Polonês, Por- tuguês Brasileiro, Português Europeu, Russo, Espanhol, Sérvio e Tailandês). A ferramenta faz distinção entre palavras simples e compostas, e entre formas canônicas (lematizadas) e as formas Ćexionadas. Além disso, os dicionários também contêm informações morfo- lógicas e sintáticas, tais como categorias gramaticais (part-of-speech - POS) e etiquetas morfológicas de lema, gênero, número, grau, pessoa, tempo e modo.

A partir do comando <dar>, o programa recenseia todas as ocorrências das formas Ćexionadas do verbo dar. Um dos problemas inerentes a essa busca é que o Unitex não faz análise sintática para etiquetar as POS, o que pode gerar uma grande quantidade de informações desnecessárias para esta pesquisa. Das 66.798 ocorrências de dar no corpus, cerca de 30.000 não deveriam ser classiĄcadas como verbos, e sim como substantivo, preposição ou pronome, tais como nos exemplos seguintes:

(2.1) A história deste país provou que a indexação salarial não protege o poder de

compra. [Ex.R]

(2.3) Nada havia que descortinasse a vida desse grupo social. [Ex.R]

(2.4) Três garotas, que irão em breve ao ar, batizadas de Dá, Dá e Dá. [Ex.R] (2.5) Carlos Alberto Spinelli, morador da Barra e dono da DerTee Laden. [Ex.R]

Em (2.1), a forma deste, que é uma contração da preposição de com o pronome demonstrativo este, confunde-se com a forma verbal deste na segunda pessoa do singular (tu) do pretérito perfeito do indicativo. O substantivo dados, em (2.2), tem a mesma forma do verbo dar no particípio plural. Já a forma desse, em (2.3), que é a junção da preposição de com o pronome demonstrativo esse, confunde-se com a forma verbal desse, na primeira e terceira pessoas do singular (eu e ele) no pretérito imperfeito do subjuntivo. A forma Dá, usada em (2.4) como nome próprio, confunde-se com a forma verbal dá, na terceira pessoa do singular do presente do indicativo. Por Ąm, a forma Der, que também é usada como nome próprio de empresa, em (2.5), é homônima da forma der da primeira e terceira pessoas do singular (eu e ele) no futuro do subjuntivo.

A análise para a seleção do que é verbo e descarte daquilo que não o é foi feita manu- almente, conferindo caso a caso. Dentre as ocorrências que o Unitex retornou, encontram- se também formas verbais compostas Ű ou locuções verbais Ű tais como vem dando, foram

dados, tinha dado, se fossem dados, etc., o que garante a eĄcácia da ferramenta na tarefa

de reconhecimento das formas Ćexionadas de dar, pois o Unitex é capaz de recuperar todas essas ocorrências.

O Unitex permite também a construção de grafos, que podem ser usados para fazer buscas por padrões sintáticos ou por combinações de padrões lexicais. Os grafos são um tipo de representação formal utilizado em abordagens estruturais para a descrição de línguas e é também um recurso disponível no Unitex. A seguir, apresenta-se um exemplo de grafo do Unitex:

Figura 1 Ű Exemplo de grafo produzido no Unitex Fonte: Elaborado pela autora

Os grafos são autômatos de estados Ąnitos e são lidos da esquerda para a direita: a seta mais à esquerda indica o primeiro estado do grafo e o quadrado dentro de um círculo (mais à direita) indica o estado Ąnal. Entre os estados inicial e Ąnal, existem vários estados

intermediários, que são representados pelas caixas (retângulos horizontais). Os caminhos entre um estado e outro são indicados por meio de linhas e setas.

Esse grafo em especíĄco descreve as regras de abreviação de marcadores discursi- vos, tais como ou seja, isto é e por exemplo. O grafo possui quatro caminhos: o primeiro deles busca pela letra ŞpŤ, seguida de ponto Ąnal (p.), que deve ser imediatamente se- guido da sequência Şex.Ť. Depois o grafo segue para o estado Ąnal, indicado pelo quadrado dentro do círculo. O segundo caminho também possui dois estados intermediários, a Ąm de cobrir expressões como Şi.e.Ť; e assim ocorre com os outros caminhos do grafo.

Pelo Unitex, também se pode intersectar os grafos de referência com tabelas de da- dos, como por exemplo, as tabelas do L-G, e gerar automaticamente grafos de resultados, que instanciam os dados das tabelas nos grafos. A forma como esse recurso foi utilizado no âmbito desta tese será explicado, pormenorizadamente, no Capítulo 12.

2.2.2 O concordanciador WebCorp Live

Após a seleção de todo o material linguístico a ser analisado, foi necessário con- sultar as propriedades formais e distribucionais das construções, bem como veriĄcar as transformações que as frases admitem. Como algumas dessas propriedades ou transfor- mações não se veriĄcavam no corpus PLN.Br Full, recorremos também à web, por meio do concordanciador WebCorp Live3, para atestar os usos em uma quantidade maior de dados.

O WebCorp (The Web as a corpus) é um conjunto de ferramentas que permite o acesso à World Wide Web como um corpus voltado à busca de informação linguística. O WebCorp oferece basicamente dois tipos de busca: simples e avançada. A busca simples inclui os campos: keyword (palavra-chave ou palavra de busca), seleção do buscador, sen-

sitive case (seleção de palavras iniciadas por maiúsculas ou minúsculas), span (extensão

do contexto da palavra-chave, isto é, se queremos 4, 5, 6 ou mais palavras à esquerda e à direita da palavra de busca), e a língua sobre a qual queremos obter informações.

A busca avançada (advanced options), por sua vez, oferece outros Ąltros, além dos incluídos na busca simples: domínio na web (.br, .es; .uk, .it, etc.), sites populares e área ou tema (word Ąlter) relacionado à busca. Por exemplo, para buscar informações sobre o uso do nome cadeira somente no Português Brasileiro podemos inserir o domínio .br, excluindo, assim, a busca de textos escritos nos demais domínios de topo associados a países de Língua Portuguesa.

A proposta do WebCorp é basicamente a mesma dos outros motores de busca, tais como o Google ou o Yahoo search: utilizar a web como corpus. Neste trabalho, demos

preferência para o uso da ferramenta WebCorp por ser mais linguisticamente motivada do que outros motores de busca.

2.2.3 A ferramenta CorpusAnnotator

Foi utilizada a ferramenta CorpusAnnotator (SUISSAS, 2014) para auxiliar no processo de anotação do corpus. Como parte da avaliação da tarefa, procedemos à anota- ção de uma amostra do corpus PLN.Br Full, que servirá como corpus de referência para avaliar a performance do sistema STRING.

Essa ferramenta foi desenvolvida em Java e precisa de dois arquivos com extensão .txt para funcionar: (i) um arquivo com todas as frases a serem anotadas (uma frase por linha); e (ii) um arquivo de parametrização com todas as formas de singular e plural dos nomes predicativos, com o objetivo de assinalar em cada frase a palavra-alvo da anotação, neste caso, o Npred. A Fig. 2 apresenta um exemplo de frase a ser anotada.

Figura 2 Ű Exemplo de frase a ser anotada no CorpusAnnotator Fonte: Tela da ferramenta CorpusAnnotator (SUISSAS, 2014)

Para cada frase a ser anotada, há apenas um par candidato a CVS, o qual está indicado entre parênteses no início da frase, conforme se veriĄca pela Fig. 2.

No canto superior esquerdo, um contador indica o número da frase corrente. Na Fig. 2, a frase a ser anotada é a 48, de um total de 2.646.

Nesta Seção, explicamos o funcionamento da ferramenta de anotação de corpus, em linhas gerais. As questões especíĄcas sobre a anotação em si, as etiquetas (SVC- STANDARD, SVC-CONVERSE, VOPC ou OTHER) a serem atribuídas e os resultados dessa anotação serão apresentados na Seção 12.3, na Parte III.

2.2.4 A ferramenta ReCal 0.1 Alpha for3+ Coders

A ferramenta ReCal 0.1 Alpha for3+ Coders foi utilizada para calcular a con- cordância entre os anotadores4. Essa versão da ferramenta difere da versão anterior por permitir o cálculo da concordância entre três ou mais avaliadores. A versão anterior da ferramenta ReCal permitia a comparação apenas entre 2 avaliadores.

Para proceder ao cálculo da concordância entre anotadores, é preciso que os dados da anotação sejam numéricos e tabulados em colunas: em cada coluna devem constar os dados de cada anotador. O arquivo a ser analisado deve ter extensão .csv. A Fig. 3 mostra um exemplo da saída da ferramenta ReCal 0.1 Alpha for3+ Coders.

Figura 3 Ű Exemplo da saída da ferramenta ReCal 0.1 Alpha for3+ Coders Fonte: Output da ferramenta ReCal 0.1 Alpha for3+ Coders

Nesse exemplo, foram considerados 3 anotadores (N coders 3 ), 640 frases a serem anotadas (N cases 640 ) e 1.920 sequências de anotações (N decisions 1920 ), considerando- se os três anotadores.

A saída da ferramenta apresenta 4 medidas para a avaliação da concordância, as quais são indicadas nas 4 tabelas: (i) a primeira tabela (Average Pairwise Percent

Agreement) corresponde à porcentagem de concordância entre cada par de anotadores,

considerando-se os três anotadores; (ii) a segunda tabela (FleissŠ Kappa) indica o coe- Ąciente Kappa de Fleiss (1971), que é uma medida estatística que compara o grau de concordância efetivamente observado entre um número Ąxo de avaliadores e a concordân- cia que seria esperada se as anotações fossem aleatórias; (iii) a terceira tabela (Average

Pairwise CohenŠs Kappa) indica o coeĄciente Kappa de Cohen (1960), que também é uma

medida estatística que avalia a concordância entre pares de avaliadores, também chamada de inter-annotator agreement ou inter-rater agreement; e (iv) a última tabela (Krippen-

dorffŠs Alpha (nominal)) apresenta o coeĄciente Alpha de Krippendorff (1970), que é uma

medida estatística que calcula a concordância obtida quando se codiĄca um conjunto de unidades de análise em termos dos valores de uma variável.

Nesta Seção, limitamo-nos a apresentar a ferramenta para o cálculo da concordân- cia entre anotadores. Os resultados da concordância para a anotação feita neste trabalho serão apresentados na Seção 12.4.