• No results found

Own previous migration experience

2 Migration from Poland to Norway

2.2 Own previous migration experience

Na análise de agrupamento de dados, algumas vezes é preciso responder perguntas do tipo: "Na Figura 3, qual dos resultados de agrupamento devemos escolher?" Mas, o processo de avaliação é muito mais complexo que responder essa simples pergunta.

A escolha do método de agrupamento e da distância apropriada são tarefas difíceis em agrupamento de dados. Necessitam do conhecimento específico sobre o domínio da aplicação (FRIEDMAN; HASTIE; TIBSHIRANI, 2009). Além disso, o resultado obtido após a

Figura 3: O conjunto de dados consiste em 3 grupos, mas qual resultado das partição é melhor?

Por isso, é necessário conhecer mais sobre os dados antes de aplicar o algoritmo de agrupa- mento. Dito isso, um novo tipo de problema surge: identificar corretamente os parâmetros específicos para cada algoritmo de agrupamento. Por exemplo, algoritmos baseados no k- Means precisam ser informados sobre o número de grupos. A necessidade de conhecimento prévio sobre alguns parâmetros cria uma contradição, pois algoritmos de agrupamentos são mais indicados quando pouco se conhece sobre o conjunto de dados. Assim a qualidade do agrupamento obtido depende fortemente destes parâmetros e não necessariamente em encontrar apenas bons modelos de similaridade e dissimilaridade(REZAEE, 2010).

Portanto, há a necessidade de uma avaliação adicional dos resultados obtidos pelos algoritmos de agrupamento. Alguns trabalhos (DAVIES; BOULDIN, 1979; BEZDEK; PAL,

1998; MAULIK; BANDYOPADHYAY, 2002; REZAEE, 2010; WANG; ZHANG, 2007) procuram

resolver essa contradição. A análise de índice de validação pode perfeitamente ajustar os parâmetros para um resultado de qualidade. A qualidade do resultado é obtida pelo número de grupos encontrado e o critério de otimização de cada índice. O resultado obtido é ótimo se o número de grupos for o que melhor se ajusta ao conjunto de dados, e o critério de otimalidade do índice seja a maior possível. Pois, se o número estimado de grupos for diferente do conjunto de dados o valor do critério do índice se deteriora(REZAEE, 2010).

Portanto, na análise de índices de validação o foco, em geral, é encontrar o número ótimo de grupos(KIM; RAMAKRISHNA, 2005; WANG; ZHANG, 2007).

grupos e um índice de validação, o Algoritmo 3 é o processo que usualmente determina o número ótimo de grupos.

Algoritmo 3: Procedimento para identificar o número ótimo de grupos Entrada: O - Conjunto de dados, [cmin, cmax] - números de grupos,

AGRUPAMENTO - Algoritmo de agrupamento, INDICE- Função que calcula o índice de avaliação.

Dados: indbest- Guarda o melhor valor do índice.

Saída: cbest - Número ótimo de grupos.

c cmin

enquanto c  cmax faça

U, V AGRUP AMENT O(c, O) ind INDICE(U, V)

se ind > indbest então

indbest ind

cbest c

c c + 1;

Como observado acima, a tarefa de encontrar a partição ótima, bem como o número ótimo de grupos, é difícil por si só e pode envolver algumas contradições. Por isso, existe um grande número de abordagens para avaliar e comparar a qualidade das soluções de agrupamentos que refletem, em geral, os aspectos de separação e compacidade dos grupos.

2.3.3.1 Tipos de índices de Validação

Índices internos e externos são as duas principais categorias de validação de agru- pamento. A principal diferença é o uso de informação externa ao agrupamento para a validação do agrupamento. Índices internos, nos quais a informação externa não está disponível, avaliam a qualidade do agrupamento utilizando apenas o resultado obtido pelo algoritmo de agrupamento (BEZDEK; PAL, 1998; KIM; RAMAKRISHNA, 2005; WANG; ZHANG, 2007), e índices externos utilizam informações externas, em geral, o rótulo das

classes. Em aplicações do mundo real, nem sempre a informação externa está disponível, assim índices internos podem ser aplicados em um número maior de cenários.

A maioria dos índices internos de validação combinam duas propriedades:

Compacidade: Mede a proximidade dos elementos de um grupo. Exemplo é a variância, que indica quão diferentes os membros são. Assim, uma baixa variância indica que os elementos estão muito próximos. Por outro lado, podemos relacionar compacidade como uma medida dentro do grupo.

Separabilidade : Indica o quão distantes dois grupos estão. A distância entre elemen- tos representativos, geralmente o protótipo, de dois grupos diferentes é um bom exemplo. Em outras palavras, é a medida entre grupos diferentes.

Entretanto, alguns índices internos são limitados na habilidade de calcular compaci- dade e separabilidade, obtendo valores incorretos. Várias abordagens que medem a com- pacidade sofrem quando o número de grupos tende ao número de objetos. Além disso, algumas medidas de separação são incapazes de diferenciar estruturas geométricas na for- mação dos grupos, pois são baseadas apenas na informação do protótipo, como ilustrado na Figura 4(REZAEE, 2010).

Figura 4: Duas partições fuzzy diferentes (U(a), V(a)) e (U(b), V(b)) com a mesma distância

entre os protótipos mas com diferentes orientações para o mesmo conjunto de dados (REZAEE, 2010).

Portanto, é desejável a utilização de um conjunto de índices para avaliação do re- sultado do agrupamento. WANG; ZHANG propuseram classificar os índices de validação

de agrupamento pela informação necessária para calculá-los. A seguir alguns índices são apresentados:

Índices que envolvem somente a matriz de pertinência Os índices com + indicam que as melhores partições são obtidas com o maior valor do índice, enquanto com − indicam que as partições são escolhidas com o menor valor. Alguns dos índices a seguir utilizam o valor minimizado de Jm(U, V) (Equação 2.21).

(i) Coeficiente da Partição (V+

P C):BEZDEK; PALdefiniram uma medida baseada

na minimização total das interseções dos pares em U. O índice pode assumir valores em [1/c, 1]. Em geral, para encontrar o número ótimo de grupos resol- vemos: V+ P C = max{VP C(U)}. VP C(U) = 1 n c X i=1 n X k=1 u2ik (2.25)

(ii) Entropia da Partição (V−

P E):BEZDEK; PALdefiniram uma medida escalar da

quantidade de incerteza sobre U. O índice pode assumir valores em [0, logc a],

onde a é a base do logaritmo. Em geral, para encontrar o número ótimo de grupos, resolvemos V− P E = min{VP E(U)}. VP E(U) =− 1 n c X i=1 n X k=1 uiklog uik (2.26)

(iii) Coeficiente de Partição Modificado (V+

M P C): Ambos VP C+ e V −

P E sofrem

com o problema da monotonicidade em c, em outras palavras, crescem ou descressem monotonicamente a medida que c cresce. DAVE propôs uma modi-

ficação no V+

P C para reduzir essa tendência. O índice pode assumir valores em

[0, 1]. Em geral, para encontrar o número ótimo de grupos do índice resolvemos VM P C+ = max{VM P C(U)}. VM P C(U) = 1− c c− 1(1− V + P C) (2.27)

Índices que envolvem a matriz de pertinência e o conjunto de dados (iv) Fukuyama e Sugeno (V−

F S):FUKUYAMA; SUGENO definiram uma medida que combina a

incerteza sobre U com representação geométrica dos grupos formados. Con- siderando v = Pi=1

c vi/c, o número ótimo de grupos o índice é dado por

V−

F S = min{VF S(U, V, X)}.

VF S(U, V, X) = Jm(U, V)−Km(U, V) = c X i=1 n X k=1 um ikd(xk, vi)2− c X i=1 n X k=1 um ikd(vi, v)2 (v) Xie e Beni (V−

XB): PAL; BEZDEK generalizaram o índice XB, para qualquer

m. O índice é focado nas duas propriedades, compacidade e separação, onde o numerador indica a compacidade da partição fuzzy, enquanto o denominador indica uma forte separação entre os grupos. O número ótimo de grupos é dado por V− XB = min{VXB(U, V, X)}. VXB(U, V, X) = Jm(U, V)/n Sep(v) = Pc i=1 Pn k=1(uik)md(xk, vi)2 n mini6=jd(vi, vj)2

Índice envolvendo as partições crisp e o conjunto de dados (vi) C-Index (V− CI):

HUBERT; LEVINdefiniram um estimador de coesão normalizado para partições

além disso pode assumir valores em [0, 1). O número ótimo de grupos do índice é dado por V−

CI = min{VCI(X, C)}. Considere C = {C1, . . . , C1} (c-partições

crisp) a partição crisp obtida pelo algoritmo de agrupamento e x ⇠C y indi-

cando que os objetos x e y estão na mesma partição C, ou seja, x, y 2 Ci.

Seja S(X, C) a soma de todas as distâncias dentro dos grupos, definida por

S(X, C) = X

xi⇠Cxj

d(xi, xj). (2.28)

Seja nw o número de pares em C, tal que nw = |{{x, y} ✓ X|x ⇠C y}|.

Seja Smin(X, nw), Smax(X, nw) a soma das nw menores e maiores, respecti-

vamente, distâncias considerando todos os pares de objetos de X. Defini- das por Smin(X, nw) =

X min i6=j(nw){d(xi, xj)| 1  i  n, 1  j  n} e Smax(X, nw) = X max i6=j (nw){d(xi, xj)| 1  i  n, 1  j  n}, respectivamente. O índice V−

CI por ser definido por

VCI(X, C) =

S(X, C)− Smin(X, nw)

Smax(X, nw)− Smin(X, nw)

(2.29)

Índice envolvendo informação externa Índices externos são preferencialmente utili- zados quando o rótulo “verdadeiro” está disponível. Medidas externas são usadas para comparar a similaridade dos dois agrupamentos, o estimado e o real. É im- portante destacar que os índices externos são naturalmente guiados (bias) pelo ró- tulo informado. E o agrupamento “verdadeiro” pode não coincidir com os rótulos dos grupos. Existem vários índices externos na literatura, entre eles: índice Rand (RAND, 1971), Fowlkes-Mallows (FOWLKES; MALLOWS, 1983), Mirkin Metric (DON- GEN, 2000), Jaccard (JACCARD, 1901). Dentre os critérios externos, é apresentado

o Correct Rand.

(vii) Correct Rand (V+

CR)(HUBERT; ARABIE, 1985). Seja P = {P1, . . . , Pi, . . . , Pm}

a partição conhecida (a priori) com m grupos e Q = {Q1, . . . , Qj, . . . , Qk} a

partição crisp (estimada) com k grupos obtida do algoritmo de agrupamento. A informação da associação entre as partições P e Q pode ser resumida na matriz de contingência [nij]mk ilustrada na Tabela 5, onde nij indica o número

de objetos que são comuns aos grupos Pi e Qj.

O índice pode assumir valores em [−1, 1], onde o valor 1 indica que a partição Q corresponde exatamente a partição conhecida P , enquanto valores próximos de 0 (ou negativos) indicam que as partições são associados ao acaso. O número

P1 P2 . . . PK

Q1 n11 n12 . . . n1k

Q2 n21 n22 . . . n2k

... ... ... ... ... Qm nm1 nm2 . . . nmk

Tabela 5: Matriz de contingência, nij =|Pi\ Qj|

ótimo de grupos é dado por V+

CR = max{VCR(P, Q)}. VCR(P, Q) = m X i=1 k X j=1 ✓ nij 2 ◆ − ✓ n 2 ◆−1 mX i=1 ✓ ni• 2 ◆Xk j=1 ✓ n•j 2 ◆ 1 2 " m X i=1 ✓ ni• 2 ◆ + k X j=1 ✓ n•j 2 ◆# − ✓ n 2 ◆−1 mX i=1 ✓ ni• 2 ◆Xk j=1 ✓ n•j 2 ◆ (2.30) em que;n 2 <

= n(n−1)2 e nij representa o número de objetos no grupo Pi e grupo

Qj, ni• indica o número de objetos no grupo Pi, n•j indica o número de objetos

em Qj, e n é o número total de objetos no conjunto de dados.

Nesta seção, foram introduzidos os conceitos básicos do agrupamento de dados. O modelo geral dos principais métodos de agrupamento foi apresentado, bem como suas particularidades. Além disso, descreveu-se as técnicas tradicionais de validações de agru- pamentos de dados.