• No results found

Deployment of valve tree using fibre rope

9. Results and discussion

9.4. Deployment of valve tree using fibre rope

As medidas dinâmicas têm como característica a atualização dos pesos no decorrer do processo de classificação. Como mencionado anteriormente, foram utilizados métodos diferentes para realizar o cálculo desses pesos. Um dos métodos é baseado na utiliza- ção de técnicas de distância entre dois padrões, chamadas de distância de Mahalanobis e euclidiana, denominados de DistM e DistE, respectivamente. Outra maneira de reali- zar esse cálculo foi empregando uma metodologia de dar recompensa ou punição caso o classificador tenha acertado ou errado o padrão anterior, denominado de RP .

A metodologia de pesos dinâmicos que utiliza para seu cálculo a distância de Maha- lanobis é feita calculando a distância entre dois padrões, o padrão atual com o padrão

3. Sistemas Multi-Classificadores (SMC’s) 47 anterior. Essa distância é baseada na correlação entre variáveis pelas quais diferentes padrões podem ser identificados e analisados. Essa técnica é uma maneira útil de de- terminar similaridades de um não conhecido conjunto de teste para um conhecido. Essa distância se difere da distância euclidiana, pois ela utiliza uma matriz de covariância entre os elementos de um vetor. Uma característica das técnicas que utilizam distâncias é que o quanto menor o valor da distância encontrada entre dois padrões analisados, mais pró- ximos eles estão, dessa forma, poderíamos dizer que os dois padrões pertencem à mesma classe. A equação da distância de Mahalanobis pode ser vista na Equação 3.4.

d(~x, ~y) =

s

(~x − ~y)T X−1(~x − ~y), (3.4)

onde :

• d(~x, ~y) é a medida de distorção entre o vetor x e o vetor y. • X é a matriz diagonal de covariância do conjunto de dados.

Uma das medidas de dissimilaridade que utiliza distância, a qual é bem empregada para técnicas de AM, é a distância euclidiana (Equação 3.5). Essa técnica mede a distância entre as coordenadas de diferentes padrões, e se refere à hipotenusa do triângulo formado pela ligação dos pontos e a distância entre as duas coordenadas. Diferente da distância de Mahalanobis, a euclidiana não leva em consideração a variância da distribuição do conjunto de dados. A distância euclidiana entre dois padrões P = (p1, p2, ...pn) e Q =

(q1, q2, ..., qn), é definido como: d(~x, ~y) = p(p1− q1)2+ (p2− q2)2+ ... + (pn− qn)2 = v u u t n X i=1 (pi− qi) 2 (3.5)

Os pesos dinâmicos utilizando as duas medidas de distância, mencionadas anterior- mente, podem ser calculadas de acordo com o Algoritmo 4. Tanto a utilização da medida de distância de Mahalanobis quanto a da distância euclidiana utilizam a mesma metodo- logia descrita nesse algoritmo, e uma observação que pode ser feita é que as distâncias são combinadas com a utilização tanto da medida IR quanto da MD, que são medidas estáticas previamente calculadas. A combinação dos pesos estáticos com os pesos dinâ- micos é feito por uma soma entre os resultados obtidos por estes pesos, isso quer dizer, ao encontrar o peso dinâmico para um determinado padrão de um determinado classificador,

3. Sistemas Multi-Classificadores (SMC’s) 48 antes de realizar a classificação deste padrão, será feito a soma deste peso dinâmico com o peso estático, previamente calculado para este classificador.

Algoritmo 4 Cálculo dos pesos dinâmicos utilizando distâncias

1: Ler e definir número de padrões de teste (np) 2: Definir quantidade de classificadores base (c) 3: Selecionar a técnica de distância a ser utilizada

4: Selecionar a metodologia de peso estático que será utilizada 5: Associar o peso estático escolhido com o primeiro padrão de teste 6: para cada iteração p = 2, 3, ..., np faça

7: para cada iteração i = 1,2, ..., c faça

8: Calcular a distância selecionada do padrão p para o padrão p-1 do classificador i 9: Atualizar os pesos da classe verdadeira para o padrão p do classificador i 10: fim para

11: Obter C∗ combinando a saída de todos os i classificadores base de acordo com a metodologia de combinação para o padrão p

12: fim para

Outra metodologia empregada para adquirir pesos dinâmicos a partir do conjunto de teste foi denominada de RP . Essa metodologia utiliza uma técnica de dar uma recom- pensa para o padrão que foi corretamente classificado por um determinado classificador, e dar uma punição para o caso deste classificador ter errado a classe deste padrão. O funcionamento dessa metodologia é descrita no Algoritmo 5.

Algoritmo 5 Cálculo dos pesos dinâmicos utilizando recompensa ou punição

1: Ler e definir número de padrões de teste (np) 2: Definir quantidade de classificadores base (c)

3: Selecionar a metodologia de peso estático que será utilizada 4: Associar o peso estático escolhido com o primeiro padrão de teste 5: para cada iteração p = 2, 3, ..., np faça

6: para cada iteração i = 1,2, ..., c faça 7: se i acertou classe p-1 então

8: Calcular o peso do padrão p do classificador i junto com Recompensa 9: senão

10: Calcular o peso do padrão p do classificador i junto com Punição 11: fim se

12: fim para

13: Obter C∗ combinando a saída de todos os i classificadores base de acordo com a metodologia de combinação para o padrão p

14: fim para

Como pode ser visto no Algoritmo 5, quando o classificador acertou a classe do padrão anterior ao padrão atual, este padrão irá receber uma recompensa, caso contrário, o padrão atual receberá punição. A metodologia utilizada para calcular o valor da recompensa que o padrão corretamente classificado irá receber, pode ser visto na Equação 3.6. Para calcular

3. Sistemas Multi-Classificadores (SMC’s) 49 o valor da punição, que é onde o padrão anterior ao atual foi incorretamente classificado, a Equação 3.7 foi construída.

Recompensapi=

1 − (Θpi− αpic)

const , (3.6)

onde:

• Θipé o valor mais alto obtido pelo classificador i para o padrão p.

• αpicé o valor obtido pelo classificador i para o padrão p para a classe corretamente

classificada (c).

• const é uma constante.

A metodologia de dar recompensa caso o classificador tenha acertado a classe do padrão anterior, pode ser exemplificado da seguinte forma: um determinado classificador classificou corretamente o padrão anterior para a classe′

B′

e foram obtidos para as classes

′ A′ , ′ B′ e′ C′

os seguintes valores de confiança 0.22, 0.47 e 0.31, respectivamente. Para o padrão atual, esse classificador obteve os seguintes valores de confiança, seguindo a mesma ordem de classes (′

A′

,′

B′

e′

C′

), 0.26, 0.41 e 0.33. O valor da recompensa deste classificador será o valor de′

B′ encontrado no padrão anterior menos o valor desta mesma

classe para o padrão atual, esse resultado obtido é diminuído de 1 e dividido por uma constante de valor igual a 10. Sendo assim, o valor da recompensa para a classe′

B′

para o padrão atual deste classificador será igual a 0.094.

P unicaoip=

αpic− τip

const , (3.7)

onde:

• αpicé o valor da classe que deveria ter sido escolhida (c) pelo classificador i para o

padrão p.

• τipé o valor obtido pelo classificador i para o padrão p.

• const é uma constante.

Para os mesmo exemplos apresentados na metodologia de recompensa, a metodologia de punição funciona da seguinte maneira, exemplificando: se o classificador classificou incorretamente o padrão anterior dizendo que era da classe ′

B′

3. Sistemas Multi-Classificadores (SMC’s) 50

A′, o padrão atual receberá como punição o valor da classe′B′ do padrão anterior (0.47) menos o valor da classe′

A′

deste mesmo padrão (0.22), e o resultado é dividido por uma constante de valor igual a 10. Neste exemplo, o valor da punição que será dado para o padrão atual será igual a 0.025. Ou seja, o valor de confiança do padrão atual na classe

A′

será diminuido de 0.025.

Como pode ser visto, em ambos os métodos dinâmicos de calcular pesos são utilizados também os métodos de pesos estáticos, onde estes são calculados previamente. Essa metodologia foi empregada com a ambição de dar uma maior relevância à importância da resposta que cada classificador forneceu para cada padrão em relação à cada classe, utilizando tanto a distância, com a característica de dar um peso maior aos padrões mais próximo, quanto a dar recompensa ou punição para os classificadores que mais acertaram ou erraram a classe dos padrões.

Capítulo 4

Metodologia dos Experimentos

Neste capítulo são detalhados os procedimentos que foram realizados para as execuções dos experimentos. Na Seção 4.1 são descritos com detalhes os três conjuntos de dados que serviram de base para as execuções dos algoritmos individuais e de multi-classificação. Para assegurar que uma medida verdadeira esteja sendo estimada pelos classificadores, foi feito o uso de uma técnica de validação cruzada (cross-validation) para realizar as execuções dos algoritmos de AM (Seção 4.2.1). Além disso, foi implementado um teste estatístico chamado de teste de hipótese (Seção 4.2.2), que é utilizado para verificar se há diferença estatística entre os resultados obtidos por cada classificador. Na Seção 4.3 é feita uma descrição sobre como os experimentos foram realizados, e na Seção 4.4 é explicado como foram empregadas as medidas de diversidade nos resultados obtidos pelos algoritmos executados.

4.1 Conjuntos de dados

Para a realização do trabalho proposto, os algoritmos descritos anteriormente (Capítulo 2) foram treinados em três conjuntos de dados distintos. O primeiro conjunto apresenta informações sobre amostras de proteínas, o segundo apresenta informações sobre ima- gens de partículas de um determinado vírus e o terceiro trata do câncer de mama e foi desenvolvida pela Universidade de Winsconsin.

Todos os conjuntos de dados utilizandos apresentam uma quantidade suficiente de padrões para o treinamento, e pelo motivo dos experimentos utilizando o conjunto de par- tículas não apresentaram resultados satisfatórios, foi decidido, utilizar um outro conjunto apresentando a mesma quantidade de classes. Esse procedimento foi realizado para veri- ficar se o fraco desempenho obtido pelos classificadores foi influênciado pela quantidade de classes, que neste caso são apenas duas.

4. Metodologia dos Experimentos 52 As configurações gerais dos conjuntos de dados utilizados são apresentadas na Tabela 4.1, e pode ser visto que os conjuntos apresentam quantidades de padrões, atributos e classes diferentes um do outro. Dessa forma, é possível investigar o desempenho que a metodologia proposta irá apresentar ao tentar classificar padrões em conjuntos de dados que apresentam características diferentes. Nas Seções 4.1.1, 4.1.2 e 4.1.3, os conjuntos de dados de proteínas, partículas e de câncer são respectivamente descritos com maiores detalhes.

Conjunto de dados de Proteínas Qtd Padrões Qtd Atributos Qtd Classes

582 126 5

Conjunto de dados de Partículas Qtd Padrões Qtd Atributos Qtd Classes

2400 18 2

Conjunto de dados de Câncer Qtd Padrões Qtd Atributos Qtd Classes

620 9 2

Tabela 4.1: Configuração geral dos conjuntos de dados que foram utilizados nos experi- mentos.