• No results found

Para se escolher o classificador a ser utilizado pelo sistema, foram feitos testes preliminares considerando-se algumas metodologias alternativas de classificac¸˜ao, tais como o SVM (Cristianini e Shawe-Taylor, 2000; Crammer e Singer, 2001). Especificamente, foram comparadas as acur´acias dos classificadores Bayesiano e SVM considerando-se situac¸˜oes envolvendo as sete esp´ecies de Ei- meria de galinha e um conjunto de 14 caracter´ısticas. Uma vez que os resultados obtidos n˜ao in- dicaram um desempenho superior da metodologia SVM, decidiu-se usar a metodologia Bayesiana.

7.1. DISCUSS ˜AO 107 De fato, resultados levemente melhores foram conseguidos com o classificador Bayesiano por simi- laridade. Al´em disso, uma raz˜ao adicional que motivou essa escolha ´e fato de que o classificador Bayesiano ´e muito mais simples de ser implementado para um sistema interativo que trabalha em tempo real.

Embora a abordagem Bayesiana fornec¸a resultados probabil´ısticos, algumas t´ecnicas baseadas na f´ormula de Bayes tamb´em geram resultados n˜ao probabil´ısticos. Assim, t´ecnicas que usam como func¸˜ao de densidade a normal, por exemplo, definem regi˜oes que por sua vez s˜ao representadas atrav´es de func¸˜oes discriminantes (Duda et al., 2001), n˜ao alterando a classificac¸˜ao final. Nesse caso, para cada elemento ´e gerado um escore de classificac¸˜ao. Usando-se a distˆancia de Mahalano- bis, pode-se interpretar os resultados como sendo de similaridade da imagem consulta em relac¸˜ao ao prot´otipo do conjunto de treinamento, da´ı a denominac¸˜ao atribu´ıda ao classificador (por similari- dade).

Por outro lado, o classificador que usa como func¸˜ao de densidade Dirichlet (Carlin e Louis, 1996; Pereira e Stern, 1999, 2001), fornece resultados probabil´ısticos de classificac¸˜ao e est´a baseado no c´alculo n˜ao param´etrico da densidade, da´ı a sua denominac¸˜ao como classificador por probabilidade. Para se obter uma alta taxa de acerto, foi preciso inicialmente se determinar o tamanho m´ınimo do conjunto de treinamento. Essa taxa poderia variar em func¸˜ao da estrutura interna dos classifica- dores, mas, principalmente, pela escolha das caracter´ısticas usadas para a discriminac¸˜ao. Conforme apresentado no item 6.2.3, ambos os classificadores (por similaridade e probabil´ıstico) estabilizam as suas taxas de acerto a partir de cerca de 96 elementos por esp´ecie, o que est´a em concordˆancia com o relatado por (Jain et al., 2000), que recomenda usar como exemplos de treinamento um n´umero pelo menos dez vezes maior do que o de caracter´ısticas. Em nosso trabalho, com Eimeria de gali- nha, obtivemos uma estabilizac¸˜ao da taxa de acerto com 9 a 10 caracter´ısticas. Resultados similares foram obtidos com as esp´ecies de Eimeria de coelho.

Na Figura 6.1 verifica-se que o classificador por similaridade sempre apresenta uma melhor m´edia de taxa de acerto nas distintas proporc¸˜oes de conjunto de treinamento. O mesmo ´e observado quando s˜ao aplicadas distintas estrat´egias de amostragem do classificador (“Todos contra Todos”, “Partic¸˜ao aleat´oria” e Leave One Out) sendo que, o classificador por similaridade atinge 85% contra 80% do classificador por probabilidade, aproximadamente (Figura 6.2). Analisando-se as matrizes de confus˜ao (Tabelas 6.5 - 6.10), verifica-se que o classificador por similaridade apresenta melhores resultados em todas esp´ecies, exceto em E. acervulina. Isso pode sugerir que o classificador por probabilidade ´e bom para discriminar a esp´ecie E. acervulina, e o classificador por similaridade para as demais esp´ecies. Note-se que a diferenc¸a na taxa m´edia de acerto para as esp´ecies E. praecox, E. tenella e E. necatrix ´e significativamente superior com o uso do classificador por similaridade.

O uso da taxa m´edia de acerto (acur´acia) n˜ao necessariamente garante que o classificador com maior acerto seja o melhor, pois a acur´acia assume que a distribuic¸˜ao das classes ´e constante e que as mesmas est˜ao relativamente balanceadas (Provost e Fawcett, 1997), uma situac¸˜ao que nem sempre se apresenta em problemas do mundo real. Por outro lado, o uso de curvas ROC ajuda a ter uma vis˜ao mais geral do desempenho do classificador. Como pode ser visualizado na Figura 6.4, o clas- sificador por probabilidade apresenta curvas melhores do que as do classificador por similaridade, ainda que as taxas m´edias de acerto foram melhores com o classificador por similaridade. Uma poss´ıvel interpretac¸˜ao (Fawcett, 2006) desse resultado ´e de que o classificador por probabilidade ´e mais “conservador”, isto ´e, realiza classificac¸˜oes positivas somente com uma alta evidˆencia, pro- duzindo assim poucos falsos positivos. Por outro lado, como conseq¨uˆencia desse comportamento, esse classificador tamb´em produz um menor n´umero de verdadeiros positivos. O classificador por similaridade, por sua vez, pode ser considerado mais “liberal”, por realizar classificac¸˜oes positivas com pouca evidˆencia, resultando em um maior n´umero de classificac¸˜oes corretas, mas com uma taxa de falsos positivos tamb´em maior.

O classificador por probabilidade gera como resultado um conjunto de probabilidades de um dado elemento pertencer a cada uma das classes utilizadas no processo de classificac¸˜ao. Quando a probabilidade desse elemento pertencer a uma classe ´e muito alta, isto corresponde a dizer que h´a evidencias suficientes para se tomar a decis˜ao de classific´a-lo nessa classe. Por outro lado, quando a probabilidade desse elemento pertencer `a classe n˜ao ´e muito alta, ainda que seja esta a classe de maior probabilidade, isto significa que as evidˆencias est˜ao distribu´ıdas em outras classes com um menor peso. Por exemplo, seja o vetor de classificac¸˜ao abaixo, cujas probabilidades est˜ao expressas por valores entre 0 e 1:

(0, 6; 0, 3; 0, 1; 0, 0; 0, 0; 0, 0; 0, 0)

O fato do elemento apresentar 60% de probabilidade de pertencer `a primeira classe significa que existe de fato um conjunto grande de evidˆencias que suportam essa classificac¸˜ao, ainda que existam probabilidades significativas de o elemento pertencer `a segunda ou terceira classes.

Por outro lado, analisemos o vetor de probabilidade abaixo, relativo a um segundo elemento: (0, 30; 0, 20; 0, 10; 0, 05; 0, 05; 0, 15; 0, 15)

Embora a primeira classe apresente a maior probabilidade, h´a uma distribuic¸˜ao de probabilidades relativamente altas nas demais classes, cuja soma ´e de 70%. Portanto, isso significa que as evidˆencias de suporte `a classificac¸˜ao do elemento na primeira classe s˜ao bem menores.

Analisado o mesmo elemento sob um classificador por similaridade, os resultados apresentados refletem escores e, portanto, sua soma n˜ao ´e a unidade. Assim, um vetor de similaridade do primeiro

7.1. DISCUSS ˜AO 109 elemento do exemplo acima seria:

(0, 85; 0, 72; 0, 45; 0, 1; 0, 0; 0, 0; 0, 0)

Novamente existe uma forte evidˆencia de que o elemento seja pertencente `a classe 1. Contudo, como esse elemento tamb´em apresenta um alto valor de similaridade com a segunda classe, n˜ao se pode ter tanta confianc¸a no resultado quanto no caso do classificador por probabilidade.

Concluindo, o problema de avaliac¸˜ao dos classificadores n˜ao ´e trivial e, portanto, n˜ao consiste em simplesmente se determinar qual dos classificadores foi o melhor, mas, sim, em se analisar os resultados obtidos sob distintas perspectivas de classificac¸˜ao. Nesse sentido, os resultados dos dois classificadores oferecem dois pontos de vista diferentes fornecendo maiores evidˆencias para ajudar o usu´ario a tomar a decis˜ao final. Uma tabela com resultados comparativos dos dois classificado- res, usando-se o conjunto de 3891 imagens de Eimeria, est´a dispon´ıvel publicamente no enderec¸o http://puma.icb.usp.br/coccimorph/classification/classification.html.