DEL III VEDERLAGSRISIKOEN
8.4 Force majeure virkningene – kvalitetsforpliktelsen
A análise de sensibilidade paramétrica consiste em um método útil para estimar a influência dos parâmetros definidos pelo usuário no comportamento do algoritmo. A configuração dos parâmetros em algoritmos bioinspirados normalmente tem papel importante no desempenho e operação do algoritmo e, portanto, a avaliação dos mesmos contribui para uma aplicação mais efetiva da técnica proposta.
No caso particular do dcBoids, os principais parâmetros a serem avaliados são:
1) Área de percepção do Boid: define o tamanho do raio dentro do qual um Boid é capaz de perceber e interagir com seus vizinhos. Quanto maior este raio, maior a abrangência da área de percepção, impactando assim em como as regras de movimentação são ativadas.
2) Velocidade do Boid: a velocidade dos Boids varia ao longo da execução do algoritmo, mas está compreendida em um intervalo pré-determinado. Sendo assim, este parâmetro também precisa ser avaliado a fim de se identificar como a velocidade dos Boids influencia a qualidade dos agrupamentos.
3) Tamanho do ambiente: o tamanho do ambiente pode influenciar ou não o voo dos Boids. Uma análise de sensibilidade em relação a esse parâmetro permitirá observar se há relação entre o tamanho do ambiente e a distância de voo entre os clusters, bem como facilidade de dispersão dos Boids ainda não agrupados.
4.1.4 MEDIDAS DE AFINIDADE
Um elemento central na tentativa de identificar clusters de objetos que podem estar presentes em bases de dados é o conhecimento de quão próximos ou distantes os objetos estão entre si. Muitas técnicas de agrupamento têm como ponto de partida uma matriz n n a qual reflete uma medida quantitativa de proximidade. Dois indivíduos estão próximos quando sua dissimilaridade ou distância é pequena, ou, dito de outra forma, sua similaridade é alta. A medida de afinidade utilizada neste trabalho será a distância euclidiana, amplamente utilizada na literatura.
4.1.5 MEDIDAS DE AVALIAÇÃO
As medidas de avaliação aplicadas em tarefas de agrupamento de dados podem ser dividas em dois tipos (ARABIE, HUBERT e DE SOETE, 1996): internas e externas. As medidas internas são aquelas baseadas em alguma função de similaridade entre os objetos e que visam avaliar os agrupamentos através das distâncias inter e/ou intragrupos, ou seja, elas não assumem conhecimento algum sobre os grupos existentes na base. As medidas externas avaliam os agrupamentos através da comparação com um agrupamento ideal, ou seja, os grupos de todos os objetos são conhecidos a priori.
4.1.5.1 Medidas Internas
Nas medidas internas não existe um agrupamento conhecido para os dados, sendo que a análise do agrupamento é feita utilizando apenas as informações intrínsecas aos dados e, normalmente, estas medidas são utilizadas como funções objetivo em algoritmos baseados em busca por agrupamentos ótimos de dados. No caso particular dessa dissertação, será utilizada uma única medida interna para a avaliação de desempenho, o Índice de Dunn (1974).
O índice de Dunn é baseado na ideia de se identificar clusters como regiões compactas e bem separadas de dados. Para cada conjunto de grupos, onde ci representa o centroide do i-ésimo
grupo deste conjunto, o índice de Dunn, D, é calculado por meio da seguinte fórmula:
onde é a distância entre os grupos e (distância intergrupo), é a distância intragrupo do grupo e n é o número de grupos. O objetivo do índice de Dunn é descobrir a razão entre a menor distância entre dois objetos de grupos distintos e a maior distância entre objetos de um mesmo grupo. O índice de Dunn é limitado ao intervalo [0, ∞] e deve ser ma- ximizado. Para efeitos de visualização, nos gráficos que representam os experimentos, o índi- ce aparece normalizado no intervalo [0, 1] para cada bateria de execução dos testes.
4.1.5.2 Medidas Externas
Estas medidas avaliam o quão correto está um agrupamento proposto em relação a um agrupamento ótimo conhecido a priori, ou seja, os objetos estão previamente rotulados e o agrupamento proposto pelo algoritmo é analisado de forma a se determinar o quão próximo ele está dos grupos rotulados. Muitas vezes, estas medidas são utilizadas para avaliar diferentes agrupamentos de uma mesma base de dados, a fim de determinar qual é o melhor deles. As principais medidas externas de agrupamento são a Acurácia, a Entropia, a Pureza e o Índice de Jaccard:
a) Acurácia: indica a porcentagem de objetos que foram agrupados corretamente. Para que o resultado de um agrupamento tenha acurácia 100%, todos os objetos devem ter sido agrupados exatamente da forma como o agrupamento correto dos dados indica. Para
calcular a acurácia, basta dividir o número correto de classificações pelo número total de classificações:
onde ncc é o número correto de classificações e ntc é o número total de classificações. b) Entropia: mede a homogeneidade dos grupos, ou seja, o número de objetos agrupados em
relação à classe correta. Baixa entropia indica clusters mais homogêneos. O cálculo da entropia é feito para cada grupo de forma isolada, e depois é calculada a entropia global através do somatório das entropias obtidas para cada grupo, ponderado pelo tamanho de cada grupo:
onde é um grupo com tamanho e é o número de objetos da i-ésima classe presen- te no cluster
c) Pureza: indica a razão da classe dominante no grupo em relação ao tamanho do próprio grupo. Assim como a entropia, a pureza deve ser calculada para cada grupo individualmente e, em seguida, obtém-se o valor da pureza global realizando o somatório das purezas ponderadas pelo tamanho cada grupo:
onde é um grupo com tamanho e é o número de objetos da i-ésima classe pre- sente no cluster
d) Índice de Jaccard: aplicado para avaliar a similaridade entre partições diferentes de um mesmo conjunto de dados. O nível de concordância entre um conjunto de rótulos C e um resultado de agrupamento K é determinado pelo número de pares de pontos atribuídos ao mesmo grupo em ambas as partições:
onde a é o número de pares de pontos com o mesmo rótulo em C e atribuído ao mesmo grupo em K; b é o número de pares de pontos com o mesmo rótulo, porém em grupos di- ferentes, e c é o número de pares em um mesmo grupo, porém com rótulos diferentes. Este índice produz um resultado no intervalo [0, 1], onde o valor 1 indica que os clusters C e K são idênticos.
4.2 SENSIBILIDADE PARAMÉTRICA
Esta seção possui o objetivo de analisar e discutir a sensibilidade do algoritmo dcBoids em relação aos seus principais parâmetros de entrada. Em particular é estudada a influência dos seguintes parâmetros:
A = {120,240,360,480,600,720}: representa o diâmetro em pixels da área de percepção de cada Boid;
T = {400,600,800,1000,1200}: representa o tamanho em pixels do lado do quadrado que constitui o ambiente de voo dos Boids;
V = {5,10,15,20,30,40,50}: representa a velocidade máxima (pixels) com a qual os Boids se movimentam pelo ambiente.
Em todos os testes desta seção será utilizada a base de dados Animais, pela sua simplicidade e capacidade do algoritmo em resolvê-la com 100% de acurácia para dois grupos (aves e mamí- feros).
4.2.1 TAMANHO DO AMBIENTE
Nesta seção é apresentado o número de iterações necessárias para se atingir a estabilidade do agrupamento, para cada uma das possíveis configurações do ambiente. A Tabela 2 mostra as combinações possíveis entre os parâmetros A e T e a quantidade de iterações para atingir a estabilidade nestas configurações.
Tabela 2: Relação entre o tamanho do ambiente e o número de iterações até a estabilização do algoritmo dc-
Boids para a base de dados Animais.
T 400 600 800 1000 1200 A 120 180 240 380 410 840 240 60 180 220 180 430 360 20 80 100 130 220 480 20 40 70 160 600 20 30 80 720 20 40
Como pode observado na Tabela 2 (média arredondada de 10 execuções), existe uma relação direta entre o tamanho do ambiente e a área de percepção, com a quantidade de iterações ne- cessárias para se atingir a estabilidade no algoritmo. Com base apenas nestes valores não se pode afirmar que existe uma relação exata entre a área de percepção e esta quantidade de ite- rações. Porém, a tabela deixa claro que o número de iterações diminui conforme o tamanho da área de percepção se aproxima do tamanho lado do quadrado. Cabe ressaltar que apesar do aumento da área de percepção diminuir a quantidade de iterações, nem sempre essa é uma boa estratégia. Em bases com muitos objetos o efeito pode ser contrário, pois quanto maior a área de percepção, mais custoso computacionalmente o algoritmo ficará, uma vez que quanto mais vizinhos um Boid enxergar em uma dada iteração, mais cálculos terão de ser feitos a fim de se encontrar a próxima posição a ser ocupada por este Boid.