2 Migration from Poland to Norway
2.3 Values and Expectations
2.3.1 Wealth
Como mencionado na seção 2.3.3, a qualidade do agrupamento está relacionada à capacidade de encontrar o número de grupo ótimo e maximar um critério de otimalidade para um certo índice. Para avaliar a qualidade dos índices foi proposto um experimento com a finalidade de investigar a capacidade dos índices identificarem a quantidade de grupos para um determinado conjunto de dados. Portanto, utilizando o Algoritmo 3 para encontrar o melhor número de grupos, foi executado o seguinte procedimento.
Para avaliar os índices de validação de agrupamento foi realizado o experimento apli- cado no trabalho (HAVENS; BEZDEK; PALANISWAMI, 2012), no qual o autor investigou um
conjunto de índices adaptados para o paradigma kernel. Neste trabalho, para cada con- junto de dados sintético e reais, é executado o método IbFcM-B com distância dKM para
cada número de grupos c, cmin c cmax. Posteriormente, é armazenado o número de
grupos escolhido (pelo critério de ótimo) para cada índice de validação. Assim, os índices V+
CR, VP C+ , VM P C+ e V −
P E, abordados na seção 2.3.3.1, foram utilizados sem modificação
enquanto os índices V− CI, V
− XB e V
−
F S foram adaptados para intervalos, como mostra a
seção 4.2.
O experimento foi repetido 31 vezes variando as sementes usadas na etapa de inici- alização. A iteração do método IbFcM-B acaba quando max{|µnew
ik − µoldik |} 10−3 ou o
número de iterações exceda 10.000 (o número máximo de iterações nunca foi alcançado em todos os testes). Além disso, foi utilizada a ordem admissível Xu e Yager (Def 2.2.10) para comparar os intervalos quando necessário, e para todos os conjuntos de dados, cmin = 2 e
cmax = 10.
A Tabela 17 contém os resultados do experimento para o conjunto de dados sintéticos. A última linha da tabela apresenta o número total de vezes que cada índice escolheu c igual ao número de grupos conhecido. Assim, em cada conjunto de dados sintéticos é apresentado o número de grupos escolhido por um índice e a quantidade de vezes este número foi escolhido, de um total de 31 repetições.
Por exemplo, para o conjunto de dados 3Dim V+
CR obteve 4(31), ou seja, o índice V + CR
escolheu c = 4 31 vezes de 31 repetições. Outro exemplo: Para o conjunto Sun o índice V−
F S obteve 4(26), significa que o índice V −
F S escolheu c = 4 em 26 das 31 repetições.
Dito isso, o 4 na linha total para o índice V+
CR indica que o índice rand preferiu c igual
ao número conhecido de grupos a priori na maioria das 31 repetições em 4 conjunto de dados.
Para estes, conjunto de dados, muitos dos índices de validação escolheram c igual ao número de grupos conhecidos a priori. Embora, V+
P C, V − P E e V
−
F S tenham obtido uma
performance inferior aos demais. Conjunto Número de Dados Grupos V + CR VCI− VF S− V + M P C V + P C VP E− VX B− 2Dim 2 2(31) 2(31) 4(9) 2(31) 2(31) 2(31) 2(31) 3Dim 4 4(31) 4(31) 4(29) 4(31) 4(31) 4(31) 4(31) 5Dim 4 4(21) 4(21) 4(8) 4(21) 2(31) 2(31) 4(21) Sun 5 5(22) 5(22) 4(26) 4(28) 4(31) 2(31) 5(22) Total —– 4 4 2 3 2 2 4
Tabela 17: Número de grupos escolhidos para vários índices de validação nos conjunto de dados sintéticos.
A Tabela 18 apresenta os resultados do experimento para validar os índices em dados reais. Os quatro conjuntos de dados reais utilizados foram apresentados na seção anterior. A última linha da tabela mostra o número de vezes que cada índice preferiu o número de grupos igual ao número de grupos conhecido.
Diferentemente do conjunto de classes sintético, no experimento com conjuntos de dados reais, os índices não conseguiram ter sucesso em obter c igual ao número de grupos conhecido a priori. É importante evidenciar que o melhor particionamento para algum índice pode ser completamente diferente da estrutura dos grupos, conhecida a priori. O índice V−
XB parece ter se beneficiado com a anomalia da distância entre dois centros
possa conter 0, afetando positivamente na sensibilidade do problema da sua função ser monotônica decrescente a medida que o número de grupos cresce.
De um modo geral, apenas o índice V−
XB conseguiu encontrar c igual ao número co-
nhecido de grupos para a base Peixes, do mesmo modo apenas o índice V+
CR para a base
de dados Carros, e somente o índice V−
CI para a base de dados Temperatura. Isto é um
bom exemplo de que não existe um índice perfeito, ou seja, todos os índices falharão ou obterão sucesso para algum conjunto de dados.
Conjunto Número de Dados Grupos V + CR VCI− VF S− V + M P C V + P C VP E− VX B− Agaricus 2 2(31) 2(31) 2(31) 2(31) 2(31) 2(31) 2(31) Peixe 4 5(8) 8(11) 10(27) 10(24) 10(24) 10(22) 4(21) Carros 4 4(29) 6(15) 6(9) 3(31) 2(31) 2(31) 6(26) Temperatura 4 2(30) 4(25) 10(9) 2(21) 2(31) 2(31) 2(15) Total —– 2 2 1 1 1 1 2
Tabela 18: Número de grupos escolhidos para vários índices de validação em conjunto de dados reais.
5.4 Considerações Finais
Neste capítulo, foram apresentados os resultados das aplicações dos métodos propostos em 4 bases artificiais e 4 bases reais usualmente empregadas para avaliar agrupamento de dados simbólico do tipo intervalo. Os resultados indicam que os modelos propostos conseguem encontrar boas partições sobre os dados. Para o conjunto de dados sintéticos não houve uma diferença significante entre as distâncias, no entanto, cada uma das versões do IbFcM apresentou melhores resultados que o IbckM. Isto pode ter acontecido devido à estratégia realizada de crispar a matriz de pertinência intervalar pelo IbckM, pois uma grande quantidade de informação é perdida.
O experimento com conjuntos de dados reais mostrou que é adequado utilizar i- métricas para agrupamento de dados simbólicos, pois ao utilizar a distância dKM, foram
obtidos os melhores resultados para o índice V+
CR, em todos os conjuntos investigados.
Embora a distância dI também seja valorada em intervalos, ela não apresentou resultados
significantes em relação às distâncias valoradas num número real. Como a distância dI é
uma operação que retorna um intervalo mais estreito que dKM, isto pode ter contribuído
para sua baixa performance no conjunto e dados reais.
Além disso, as variações do método IbFcM apresentaram, sempre os melhores resulta- dos para os conjuntos de dados real. Para cada conjunto de dados uma variação do IbFcM acabou sendo superior às demais. Isso é um bom exemplo da necessidade de utilizar (e investigar) mais H-operadores para a transformação da matriz de pertinência intervalar numa matriz pontual. Apenas no conjunto de dados Temperatura o método IbckM apre- sentou resultados similares às versões do IbFcM, em todas as distâncias. O uso de índices internos junto com a função objetivo como critérios para selecionar as melhores partições se mostrou adequado, visto que a escolha da ordem para comparar os intervalos é um fator que deve implicar nos resultados obtidos e não temos garantias sobre a minimização da função objetivo pelas funções de pertinência e atualização dos centros. Assim, a utilização de mais critérios colabora para minimizar a sensibilidade desses fatores.
Por fim, o uso de técnicas de validação apresentou dois cenários bem diferentes: en- quanto nos conjuntos artificias os índices identificam o número de grupos igual ao conhe- cido, nos conjuntos de dados reais eles apresentaram baixa performance.
6
Conclusão
Diversos trabalhos encontrados na literatura investigam o problema de agrupar um conjunto de dados simbólicos do tipo intervalo (CHAVENT; LECHEVALLIER, 2002; BOCK,
2003; SOUZA; CARVALHO, 2004a; CARVALHO et al., 2006; IRPINO; VERDE, 2008; VARGAS, 2012). Muitos deles utilizam distâncias que retornam uma medida precisa quando operam duas entidades imprecisas ou que representa variabilidade. O trabalho de VARGAS é o
que mais se aproxima do que foi desenvolvido nesta dissertação, onde o autor utiliza distâncias valoradas em intervalos para o processo de agrupamento de dados simbólicos do tipo intervalo.
Neste trabalho foi investigado o uso de algoritmos de agrupamento para dados sim- bólicos intervalares baseados em i-métricas, IbckM e IbFcM. Estes métodos são extensões do FCM e ckMeans. A principal diferença nos algoritmos foi criar uma extensão intervalar para o cálculo da matriz de pertinência seguindo o paradigma da Representação Interva- lar(SANTIAGO; BEDREGAL; ACIOLY, 2006). Na extensão optou-se por adaptar as funções que minimizam a função objetivo do FCM clássico, cálculo da pertinência e atualização dos centros, ao invés de partir da função objetivo por causa de problemas na garantias da derivada intervalar. Apesar disso, intuitivamente as novas funções de certa forma bus- cam a minimizar a função objetivo mas não temos a garantia a cada iteração. Apesar do processo de agrupamento não esteja guiado pela minimização de uma função objetivo, os resultados apresentaram boa qualidade, principalmente com o uso de índices de validação internos como sugerido em alguns trabalhos (ANDERSON et al., 2010).
Posteriormente, foi necessário adaptar o cálculo dos centros de funções que trans- formassem a matriz de pertinência intervalar em pontual, nesse caso, uma família de H-operadores. O objetivo é calcular as matrizes pertinência fuzzy carregando as impre- cisões dos dados de entrada, e calcular os centros com valores de pertinência pontuais que, de algum modo, interpretam as pertinências intervalares. A grande diferença deste trabalho desenvolvido nesta dissertação e os demais é o momento em que é realizado o arrendondamento. Pois, nos trabalhos encontrados na literatura, esse arrendondamento é
feito pelo cálculo da distância. Nesta dissertação atrasamos o arrendondamento para após o cálculo da matriz de pertinência intervalar, com o objetivo de preservar as incertezas dos dados de entrada que usam dados intervalares. De certo modo, mesmos as pertinências pontuais (mapeadas por uma função H) carregam as imprecisões dos dados.
Para avaliar os resultados obtidos pelo processo de agrupamento, foi realizada a adap- tação de alguns índices para dados intervalares, na qual a abordagem era substituir opera- ções clássicas de intervalos por algumas mais estreitas, permitindo a análise dos resultados de forma mais próxima a usual, apesar da perda da corretude.
Foram investigados dois métodos nesta dissertação: IbFcM e IbckM. O método IbFcM é representado por três variações nas funções H, IbFcM-B, IbFcM-MP e IbFcM-XU. Esses algoritmos para o agrupamento de dados simbólicos do tipo intervalo, e os índices, foram implementados na linguarem Python usando o pacote Mpmath. Este pacote faz a mani- pulação das operações sobre intervalos e tem a capacidade de trabalhar com alta precisão numérica em operações de ponto flutuante.
Foram realizados experimentos com conjuntos de dados sintéticos e reais. Nos con- juntos sintéticos, o objetivo é que os experimentos possam fornecer informação sobre o impacto do uso de i-métricas em agrupamento de dados simbólico do tipo intervalo. As distâncias valoradas em R usadas para comparação com a proposta deste trabalho não apresentaram uma diferença significativa que pudesse aferir sobre o objetivo do expe- rimento. Em alguns casos, todas as distâncias com os métodos propostos conseguiram boas partições. Apenas o método IbckM apresentou resultados com qualidade inferior aos demais.
Também foram realizados experimentos com dados simbólicos reais do tipo intervalo, com os conjuntos Agaricus, Carros, Peixes e Temperatura de Cidades. Para realizar o experimento com dados reis, utilizou-se índices internos como critérios para a escolha da melhor partição e o índice Correct Rand (V+
CR) funcionou como forma de avaliar os
métodos e distâncias. A i-métrica KM apresentou maiores V+
CR em comparação com as
outras distâncias e trabalhos relacionados para todos os conjuntos de dados utilizados. Dito isso, este trabalho contribuiu para o amadurecimento de métodos adaptados para matemática intervalar, em especial, problemas de agrupamento que precisam relaci- onar objetos imprecisos, podendo servir como ponto de partida para outras abordagens intervalares para agrupamento de dados.
6.1 Contribuições
As principais contribuições deste trabalho são descritas a seguir:
• A aplicação de i-métricas para a literatura de Análise de Dados Simbólicos;
• A utilização de uma família de funções para interpretar pertinências intervalares no contexto de agrupamento;
• Desenvolvimento de um conjunto de ferramentas computacionais para o agrupa- mento de dados simbólico do tipo intervalo. Os algoritmos investigados e os índices de validação para a análise de agrupamento foram implementados na linguagem Python. Os dados resultantes dos experimentos ficam armazenados em estruturas de dados e podem ser usados em futuras investigações.