• No results found

3.4 Application design

3.4.3 Tools

Pelo exposto e pelo objetivo da pesquisa no que tange à classificação automática, este trabalho se apóia nos pressupostos teóricos metodológicos advindos do PLN, mais especificamente na subárea de Aprendizado de Máquina (AM). Nas palavras de Rezende (2003), AM é uma subárea da Inteligência Artificial que pesquisa métodos computacionais relacionados à aquisição de novos conhecimentos, novas habilidades e novas formas de organizar o conhecimento já existente. Monard e Barauskas (2003)

compartilham com essa definição ao afirmarem que o AM vale-se da construção de sistemas capazes de adquirir conhecimento de forma automática.

No Brasil, muitas pesquisas foram realizadas sobre Aprendizado de Máquina e classificação automática de gênero, assuntos, bem como seleção de atributos, a saber:

 Galho e Moraes (2003), que apresentaram um protótipo para a categorização automática de notícias, em português, utilizando a técnica de similaridade difusa.

 Moraes e Strube de Lima (2007), que estudaram categorização hierárquica de documentos, utilizando determinado algoritmo para classificar os assuntos de uma grande coleção de textos escritos em língua portuguesa, o corpus PLN- BR CATEG, criado no âmbito do projeto PLN-BR12 (BRUCKSCHEN, et al., 2008).

 Silva e Vieira (2005, 2007), que estudaram os grupos gramaticais e sintáticos em categorização automática, e também a categorização de textos: Categorização de Textos da Língua Portuguesa com Árvores de Decisão e Informações Linguísticas.

 Matsubara (2004), que realizou uma pesquisa de mestrado sobre Algoritmo de Aprendizado supervisionado Co-Training e sua aplicação na rotulação de documentos.

 Sanches (2003), que desenvolveu, também no mestrado, o trabalho Aprendizado de máquina semi-supervisionado: proposta de um algoritmo para rotular exemplos a partir de poucos exemplos rotulados.

 Nogueira (2009), que pesquisou, também no mestrado, a avaliação de métodos não-supervisionados de seleção de atributos para mineração de textos.

 Martins (2003), que desenvolveu a tese intitulada Uma abordagem para pré- processamento de dados textuais em algoritmos de aprendizado.

Como se observa, são várias as pesquisas sobre aprendizado de maquina e categorização. Ressalte-se que há diversos sistemas de aprendizado de máquina, os quais possuem características particulares e comuns que possibilitam sua classificação quanto à linguagem de descrição, modo, paradigma e formas de aprendizado. Sendo assim, as estratégias de aprendizado são as seguintes: Aprendizado por Hábito, Instrução, Dedução, Analogia e, por fim, Indução, que será realizada nesta pesquisa.

Segundo Monard (1997), tais estratégias apresentam crescente complexidade de inferência, na seguinte ordem:

1. Aprendizado por hábito: o aprendiz não precisa desempenhar nenhuma inferência sobre a informação fornecida. O conhecimento é diretamente assimilado pelo aprendiz.

2. Aprendizado por instrução: o aprendiz adquire conceitos de uma fonte, mas não copia diretamente a informação fornecida para a memória, ele engloba a seleção dos fatos mais relevantes e/ou uma transformação da informação fonte em formas mais apropriadas.

3. Aprendizado por dedução: o aprendiz adquire um conceito através de dedução sobre o conceito já adquirido.

4. Aprendizado por analogia: o aprendiz adquire um novo conceito modificando a definição de um conceito semelhante já conhecido

5. Aprendizado por indução: é a forma de inferência lógica que permite que conclusões gerais sejam obtidas de exemplos particulares. O aprendiz adquire um conceito fazendo inferências indutivas sobre os fatos apresentados.

O aprendizado indutivo pode ser dividido em supervisionado, não-supervisionado e semissupervisionado. Contudo, independente da estratégia, existem modelos comuns a todos. De acordo com Monard e Baranauskas (2003) são os seguintes:

 Simbólico: sistemas de aprendizado simbólico que buscam aprender construindo representações simbólicas de um conceito através de análise de exemplos e contra-exemplos desse conceito. As representações simbólicas estão tipicamente na forma de alguma expressão lógica, árvore de decisão, regras ou rede semântica.

 Estatísticos: sistemas que utilizam modelos estatísticos para encontrar uma boa aproximação do conceito induzido. Dentre os métodos estatísticos, destacam-se os de aprendizado Bayesiano, que utilizam um modelo probabilístico baseado no conhecimento prévio do problema, o qual é combinado com exemplos de treinamento para determinar a probabilidade final de uma hipótese.

 Baseado em exemplos: uma forma de classificar um exemplo é lembrar- se de outro similar cuja classe é conhecida e assumir que o novo exemplo terá a mesma classe.

 Conexionista: são as famosas Redes Neurais, as quais são construções matemáticas simplificados inspiradas no modelo biológico do sistema nervoso. Sua representação envolve unidades altamente interconectadas e, por esse motivo, o nome conexionismo é utilizado para descrever a área de estudo.

 Evolutivo: consiste de uma população de elementos de classificação que competem para fazer a predição.

3.2.1 Aprendizado de Máquina Supervisionado

Como já foi mencionado, o aprendizado de máquina supervisionado é por indução. Tem como objetivo induzir conceitos a partir de exemplos que estão pré- classificados, ou seja, os exemplos estão rotulados com uma classe conhecida, ou conceito. Já no aprendizado não supervisionado os exemplos não possuem uma classe correspondente. Nesse caso, as tarefas podem ser relacionadas com o agrupamento dos exemplos (ou clustering) com uma descrição compacta de um subconjunto de dados, denominado sumarização, ou com a caracterização, por meio de regras de associação, do quanto à presença de um conjunto de atributos implica na presença de algum outro conjunto distinto de atributos nos mesmos exemplos. O processo de aprendizado supervisionado é caracterizado pela apresentação de dados de treinamento a um algoritmo de aprendizado, o indutor. Cada exemplo possui uma classe associada. Há também o conceito de atributo, que é uma característica ou uma informação que visa descrever o exemplo, o qual pode ter ou não um rótulo associado. Esse rótulo é a classe do exemplo e representa um atributo especial que descreve uma instância do fenômeno de interesse, que é o conceito que se deseja induzir em tarefas de classificação (Martins, 2003).

Candido Jr. (2008), no contexto do corpus histórico, exemplifica que para um metadado, como data de edição, é possível criar as classes século XVI, século XVII e século XVIII. A partir de um conjunto de textos datados desses três séculos, um classificador pode ser treinado e utilizado para identificar novos textos sem datação conhecida, criados durante esses séculos. Isso é permitido por meio da descrição de traços linguísticos presentes nos textos.

Os métodos de classificação automática aplicados nesta pesquisa foram alguns dos algoritmos classificadores disponibilizados no ambiente Weka (Waikato Environment for Knowledge Analysis)13, que é formado por um conjunto de implementações de algoritmos de diversas técnicas de Mineração de Dados. Entre os classificadores disponibilizados, são utilizados os seguintes:

 os que se utilizam de modelos estatísticos: Naive Bayes e Bayes Net; SMO14  os baseados em redes neurais: Multilayer Perceptron e RBFNetwork;

 os que utilizam modelos simbólicos, particularmente, árvore de decisão: J48 e NBTree.

13 http://www.cs.waikato.ac.nz/ml/weka/ 14 Sequential Minimal Optimisation