Um fator importante para a seleção semântica efetuada no SAAO é que os atributos incluídos são exatamente aqueles que apresentam a melhor relação semântica, visto que foram analisados por um especialista e mapeados em suas devidas classes. Enquanto isso, o Weka eliminará atributos apenas levando em conta análises matemáticas (ganhos de informação e outras análises estatísticas), ou seja, é complicado comparar um procedimento puramente semântico com outro procedimento efetivamente matemático e trazer estatísticas de qual foi o melhor método. Portanto, a primeira análise que mostra fatores quantitativos deve ser mostrada com certas ressalvas.
Essa primeira comparação tem o objetivo de mostrar os atributos selecionados no SAAO e os atributos selecionados nos algoritmos do Weka. Primeiramente utilizando todo o conjunto de atributos e executando alguns algoritmos de seleção de atributos do Weka como o Cfs (Correlation-based Feature Subset Selection), InfoGain, ReliefF etc. Todos os algoritmos de seleção de atributos efetuam a seleção levando em conta um atributo central, ou seja, o analista pretende descobrir quais os atributos que estão mais relacionados a esse atributo. Então, Como a base de dados que está sendo analisada contém informações sobre pacientes que tem ou tiveram câncer, então uma possível primeira análise seria: existe alguma relação entre as características sociais e o tipo de câncer apresentado pelo paciente? Não é possível
fazer esse tipo de analise semântica nos algoritmos do Weka, ou o especialista escolhe manualmente um a um cada atributo, ou especifica um atributo central e executa o processo de seleção. Então, nesse caso, o atributo mais adequado seria o tipo de câncer e ao ser executado com o algoritmo Cfs apresentou os seguintes resultados:
Figura 49 - Saída da seleção usando Cfs. Fonte: Weka
Como pode ser visto na figura acima o Cfs selecionou 12 dos 50 atributos existentes no banco de dados, onde cada um deles foi listado. O resultado em termos quantitativos foi bastante satisfatório, resultando na eliminação de mais de 75% dos atributos. Porém, deve-se levar em consideração a importância desses atributos selecionados para o processo de descoberta de conhecimento e até mesmo para o objetivo colocado nessa mineração que era verificar o relacionamento entre o tipo de câncer e as características sociais do paciente. Para o algoritmo PrincipalComponents que trabalha primeiramente com uma matriz de correlação e depois ranqueia os atributos, obteve-se 14 atributos. Ou seja, novamente um número pequeno de atributos em relação a quantidade original. Logo abaixo será mostrada uma tabela com os resultados obtidos nesses e em outros algoritmos para seleção de atributos embutidos no Weka (todos os algoritmos foram executados com seus dados de configurações em formato padrão).
Algoritmo de Seleção de Atributos Quantidade de Atributos selecionada
Cfs 12
Principal Components 14
ReliefF 17
InfoGain 16
Tabela 3 - Quantidade de atributos por algoritmo.
Pela análise da tabela acima se percebe que o melhor algoritmo em termos quantitativos foi o Cfs e o último lugar ficou com o ReliefF. Muitos desses algoritmos classificam os atributos por ranqueamento e não selecionam certa quantidade, ou seja, o especialista vai visualizar a classificação dada pelo mesmo e decidir a exclusão desse atributo dos dados que serão avaliados.
Para fazer a seleção dos atributos considerados importantes no SAAO o analista precisa apenas selecionar as categorias que mais se evidenciam no contexto das informações que serão estudadas. Partindo da pergunta feita na seleção anterior, no SAAO é necessário apenas selecionar as classes que apresentam maior relacionamento nesse contexto e o ambiente evidencia os atributos mapeados para que possam ser adquiridos na ferramenta Weka.
Figura 50 - Seleção de Categorias.
Na seleção feita na figura acima duas classes são adicionadas por meio do botão <Adiciona> e os atributos pertencentes as mesmas podem ser adquiridos clicando no botão <WekaQuery>, sendo devolvidos na forma de uma consulta SQL para ser usada no Weka.
Nesse caso, a classe <Caracterisricas_Sociais> e <Neoplasias> contém 21 atributos mapeados.
Figura 51 - Atributos resultantes da Consulta.
A primeira comparação quantitativa já pode ser feita, e como o Weka teve seus algoritmos para seleção de atributos com quantidade variando entre 12 e 16 seleções, o resultado do SAAO está um pouco acima da quantidade analisada pelos algoritmos, especificando 21 atributos no contexto especificado. Porém, os 21 atributos terão total relação com características sociais e o tipo de câncer apresentado pelo paciente, mesmo que a quantidade seja maior essa desvantagem pode trazer diversos benefícios e ampliar a interação semântica no processo de seleção de atributos. Na figura 48 é mostrado o processo de visualização dos atributos resultantes do protótipo SAAO e inserção dos mesmo no Weka por meio de uma conexão direta com o banco de dados e execução da consulta SQL resultado da
Figura 52 - SQL Viewer no Weka.
Como mais um critério avaliativo, um especialista de domínio (médico) foi consultado e em resposta ao relacionamento entre as características sociais e o tipo de câncer deveria especificar entre os atributos selecionados, por ambos os processos, quais os que ele considera mais correlacionados e possíveis de trazerem melhores resultados para os algoritmos de associação, classificação etc. Logo abaixo foi criada mais uma tabela com as classificações dadas:
Algoritmo Ótimo Bom Regular Ruim
Cfs x
Principal Components x
ReliefF x
InfoGain X
SAAO x
Tabela 4 - Classificação do especialista de domínio (médico).
É possível concluir, pela tabela acima, que o desempenho dos algoritmos para seleção dos atributos levando em conta a pergunta base teve a média regular. Com exceção do algoritmo InfoGain que foi considerado bom, pois apresentou melhores atributos e não considerou alguns que os outros algoritmos inseriram e consecutivamente depreciaram o poder de classificação do modelo. Para o SAAO foi considerada a seleção ótima, visto que os atributos selecionados foram aqueles os quais os próprios especialistas classificaram. Por isso
mesmo, na fase inicial desse estudo de caso foi apresentado que a comparação de modelos matemáticos com modelos puramente semânticos são de difícil verificação. Realmente pode ser descrita nesse ponto uma pequena desvantagem do SAAO, pois o mapeamento dos atributos deve existir a priori para que o processo de seleção possa ser efetivado e esse procedimento trás certo custo que de certa forma é suprido pela riqueza de informações pós mapeamento.
5.3.2 Segunda Análise Comparativa: Usando o SAAO em Conjunto aos Algoritmos para