Micro inclusion inventory - Petrography of garnets in the Tørdal pegmatites

3. Results

3.2 Petrography of garnets in the Tørdal pegmatites

3.2.3 Micro inclusion inventory

Apresentam-se a seguir alguns trabalhos recentes na área e que se relacionam ao nosso.

3.3.1 Utilização de Aprendizado de Máquina

3.3.1.1 Sistema IIIT

Pingali et al. (2007) atingiram a melhor medida pelo método da Pirâmide19_na

DUC de 2007, com seu sistema IIIT. Eles focaram na chamada tarefa Update

Ver Seção 5.1.

Summarization, que consiste em construir um sumário sob a assunção de que o leitor já leu um conjunto de textos sobre o tópico.

Os autores propuseram uma medida que leva em conta dois fatores: a importância individual da sentença e sua relação com o tópico. Para o fator de importância individual, foi utilizado um modelo Naïve-Bayes com o propósito de relacionar os conjuntos de palavras do texto candidato com as palavras dos textos já lidos.

Principais vantagens: a associação da relevância por meio de uma componente individual, não relacionada ao tópico, e a outra componente vinculada ao tópico; embora não detalhado pelos autores, é realizado um procedimento para diminuir a redundância no texto final produzido.

Principais desvantagens: abordagem é mais adequada para o tipo de tarefa específico da DUC.

3.3.1.2 Utilização de Support Vector Machines (SVM)

Li et al. (2007) propuseram um sistema que utiliza o método de aprendizado de máquina conhecido como SVM - Support Vector Machines (Vapnik 1998) para a tarefa Update Summarization. Ao todo, seis características foram utilizadas, incluindo uma característica baseada na similaridade medida pela WordNet entre a sentença e o tópico. O sistema foi o quinto mais bem colocado e foi avaliado pelas métricas ROUGE-2 e ROUGE-SU4 (Lin e Hovy 2003).

Principais vantagens: SVMs são considerados como um dos métodos estado-da-arte da área de Aprendizado de Máquina (Vapnik 1995; Witten e Frank 2005).

Principais desvantagens: os autores relatam que poderia ter sido utilizado um processo melhor de geração dos dados de treino e que também características mais elaboradas deveriam ser utilizadas.

3.3.1.3 Utilização de Support Vector Machines (SVM) e Treino Dirigido pela ROUGE

Galanis e Malakasiotis (2008) propuseram um sumarizador baseado no modelo de regressão por Support Vector Machines, de forma semelhante ao trabalho de Li et al. (2007). A tarefa foi a mesma, Update Summarization, na TAC de 2008. A diferença principal é que utilizaram um processo diferente de geração dos dados de treino, utilizando como variável de saída a média entre as medidas ROUGE-2 e ROUGE-SU4. Ou seja, o modelo proposto busca determinar sentenças que tem uma boa média entre essas medidas.

Pela avaliação realizada, o sistema foi o quinto colocado quando julgado pelas medidas ROUGE-2 e ROUGE-SU4, atingindo os índices de 0,113 e 0,165 respectivamente. Esses índices ficam acima do sumarizador de Li et al.

Principais vantagens: mesmas do modelo de Li et al. (2007) e a utilização de métricas específicas da área no processo de treino.

Principais desvantagens: os autores relatam que não atingiram bom desempenho em avaliações humanas por não empregaram nenhum mecanismo de reescrita e tratamento de redundância.

3.3.1.4 Utilização de Support Vector Machines (SVM) e Seleção Automática de Características

Schilder et al. (2008) utilizaram 8 características e também o método de regressão baseado em Support Vector Machines, de forma semelhante a Li et al. (2007). Porém, utilizaram um procedimento de seleção automática de características, que leva em conta as correlações entre cada característica e a saída desejada Efron et al. (2004). Porém, esse método de seleção não leva em conta a redundância entre as características.

O sistema foi o quarto colocado na avaliação pelo Método da Pirâmide, em relação a outros 35 sistemas.

Principais vantagens: mesmas do modelo de Li et al. (2007) e a utilização de seleção automática de características.

Principais desvantagens: o método de seleção de características poderia levar em conta a redundância entre elas.

3.3.1.5 Utilização de grandes conjuntos de características

Wong et al. (2008) propuseram um sumarizador que utiliza 15 características numa abordagem envolvendo aprendizado de máquina.20_{Eles argumentam que}

considerar a importância das sentenças por apenas um ponto de vista, ou característica, não é efetivo. Assim, sugerem a utilização de muitas características combinadas por meio de aprendizado de máquina. De forma semelhante ao sistema SuPor (Módolo 2003), eles utilizaram características superficiais e métodos completos mapeados como características. Por exemplo, o método TextRank (Mihalcea 2005) foi utilizado como característica.

Os autores utilizaram para comparação os algoritmos SVM e Naïve-Bayes. Também utilizaram um processo conhecido como Co-training que busca suprir a falta de dados rotulados (exemplos manuais) combinando dados rotulados e não rotulados para treinar os dois classificados simultaneamente.

Através das métricas ROUGE-1, ROUGE-2 e ROUGE-L os autores compararam suas abordagens entre si (SVM isolado, Naïve-Bayes isolado e co-

training) com corpora das DUCs de 2001 e 2007. Eles verificaram que o método de

co-training traz resultados em geral melhores quando há poucos dados rotulados disponíveis.

Principais vantagens: utilização de um grande conjunto de características; utilização de método para contornar o problema da utilização de corpus de treino pouco expressivo.

Principais desvantagens: devido à utilização de muitas características, o sistema proposto provavelmente é bastante sensível a quais conjuntos de características são utilizadas, assim como o sistema SuPor.

Pelo nosso conhecimento trata-se do trabalho que havia utilizado o maior número de características até o momento.

3.3.2 Sumarização utilizando lógica nebulosa

Kiani-B e Akbarzadeh-T (2006) propuseram um sumarizador que utiliza uma abordagem híbrida genético-nebulosa para determinar as sentenças mais relevantes para inclusão no texto. Através de um processo de treino não-supervisionado o algoritmo proposto maximiza uma série de funções de fitness, entre elas a presença de palavras no extrato que também estão no título do texto original.

São utilizadas seis características como variáveis nebulosas, a saber: • Número de palavras da sentença que estão no título;

• Se a sentença é a primeira a figurar no parágrafo; • Se a sentença é a última a figurar no parágrafo; • O número de palavras da sentença (tamanho);

• O número de radicais da sentença, obtidos removendo-se stopwords e realizando-se o processo de stemming;

• O número de palavras importantes tais como “most”, “very”, etc.

Para avaliação dos resultados, os autores utilizaram um corpus de textos jornalísticos de tópicos variados e de tamanho não especificado. As medidas focadas foram Precisão, Cobertura e F-Measure entre as sentenças extraídas e as que constavam no extrato manual. Os autores relatam desempenho superior ao sumarizador comercial Copernic e à ferramenta AutoResumo do Microsoft Word. Em

F-Measure, o sistema obteve 0,752 contra 0,62 e 0,26 do sumarizador Copernic e da ferramenta AutoResumo, respectivamente.

Principais vantagens: a utilização de lógica nebulosa pode ser interessante à tarefa de SA já que diferenciar uma sentença boa de uma ruim pode ser considerado um pouco nebuloso até mesmo na tarefa manual.

Principais desvantagens: avaliação não focou em medidas mais atuais para sumarização automática; características utilizadas são apenas superficiais.

In document The distribution and enrichment of scandium in garnets from the Tørdal pegmatites, and its economic implications (sider 34-49)