• No results found

Como mencionado anteriormente, os conjuntos de dados sintéticos são ideais para testar os métodos propostos em situações controladas. Com esse tipo de dados é possí- vel verificar a aplicabilidade da proposta de trabalho em problemas que constatadamente possuem complexidade espacial.

No entanto, a validade de um trabalho científico possui seu maior valor quando exis- tem problemas da realidade que podem ser resolvidos através dele. Em vista disso, foram selecionadas algumas aplicações onde as medidas e algoritmos aqui propostos podem ser úteis.

Dentro do repositório UCI (University of California, Irvine)1existem alguns conjun- tos de dados que podem ser usados na análise de agrupamento. Nesse contexto, foram selecionadas bases em diferentes domínios para testar os algoritmos utilizados neste tra- balho. As bases envolvem dados nas áreas de reconhecimento de escrita, segmentação de imagens, bioinformática e reconhecimento de padrões.

Todos as bases selecionadas possuem dados com dimensão igual ou superior a três e são, em sua maioria, totalmente desbalanceadas, o que dificulta o processo de agrupa- mento. As informações relevantes referentes a esses conjuntos de dados são resumidos na Tabela5.2.

Conjunto de dados k Distribuição dos pontos n d iris 3 50,50,50 150 4 pendigits 4 1144,1144,1056,1055 4399 16 skin 2 1026,3974 5000 3 wine 3 59,71,48 178 13 wisconsin 2 458,241 699 10

Tabela 5.2: Conjuntos de dados reais.

Cada base de dados possui sua própria origem e particularidades. Para entender me- lhor a constituição de cada uma delas, um pequeno resumo é feito individualmente em seguida.

iris: essa é talvez a mais conhecida base de dados a ser encontrada na literatura de reconhecimento de padrões. O conjunto de dados contém três classes de 50 exemplos cada um, onde cada classe se refere a um tipo da planta íris. Uma classe é linearmente separável e as outras 2 não são, havendo, inclusive, uma sobreposição entre as elas. Cada amostra é composta de quatro atributos que representam o comprimento e largura das pétalas e sépalas.

pendigits: o conjunto de dados contém caracteres escritos por diferentes pessoas. De fato, a base de dados é constituída de 250 amostras produzidas por 44 escritores. Os dígitos foram escritos usando uma mesa digitalizadora com 500 × 500 pixels. Somente as coordenadas (x,y) da escrita foram usadas para construir o conjunto de dados. Para que todos os exemplos fiquem com o mesmo número de atributos, os pontos são reamostrados no espaço. Cada novo ponto é representado por uma sequência de T elementos, sendo (xt, yt)t=1T . Nesse caso, a base disponibilizada utiliza T = 8, o que faz com que todos

os pontos tenham 16 atributos, cada um. Como alguns algoritmos usados na análise comparativa possuem restrições quanto ao número de pontos (pelo alto uso de memória), foram selecionados somente os caracteres referentes aos números pares do conjunto de dados.

skin: o conjunto de dados é composto pela amostragem aleatória dos valores RGB de imagens de rostos de várias faixas etárias (jovens, adultos e idosos), grupos de raça (branca, afrodescendente e asiática), e gêneros. O tamanho total da amostragem é 245057 exemplos, das quais 50859 são as amostras de pele e 194198 são de não-pele. Nova- mente, devido a questões de restrição de alguns métodos, essa base de dados passou por um processo de reamostragem, onde foram coletados 5000 exemplos aleatoriamente para constituir a nova base utilizada neste trabalho.

wine: esses dados são o resultado de uma análise química de vinhos cultivados na mesma região da Itália, mas derivados de três cultivos diferentes. A análise determinou as quantidades de 13 constituintes encontrados em cada um dos três tipos de vinhos. Os atributos são referentes a itens como quantidade de álcool, intensidade de cor, proporção de magnésio, etc.

wisconsin: conjunto de dados composto por dados de câncer de mama obtidos dos hospitais da Universidade de Wisconsin. Os exemplos são referentes a 699 amostras citológicas extraídas em diferentes datas de pacientes com câncer ou saudáveis. Cada amostra é composta por 10 atributos com informações sobre as células coletadas.

Com esses cinco conjuntos de dados, espera-se que a proposta de trabalho seja testada em diferentes domínios relativos à análise de agrupamentos.

5.1.2.1 Dados de Imagens

Além dos conjuntos reais mostrados na seção anterior, ainda podemos aplicar os mé- todos e medidas propostas em tarefas complexas, como a segmentação de imagens, cujo objetivo maior é facilitar a análise de uma imagem através da mudança de sua representa- ção por uma forma mais simples. Nesse sentido, as técnicas de agrupamento vêm sendo bastante utilizadas para construir essa representação, uma vez que um conjunto de pixels com características semelhantes pode ser aglomerado em um único grupo viabilizando tal representação.

Neste trabalho, uma análise mais detalhada sobre a segmentação de imagens é feita como forma de mostrar o funcionamento da proposta de trabalho em aplicações reais. Sendo assim, algumas imagens foram retiradas do já conhecido repositório Berkeley 2

para esse fim.

A segmentação proposta é baseada nas cores da imagem. Portanto, foram escolhidas imagens cujas partes possam ser separadas através das cores. As imagens selecionadas podem ser visualizadas na Figura5.5.

Para segmentar as imagens, foram construídos conjuntos de dados para cada uma delas utilizando o seguinte procedimento: cada ponto do conjunto de dados é formado pelos valores RGB de uma janela de nove pixels em torno de pontos aleatórios da ima- gem. Sendo assim, cada ponto é composto por 27 atributos referentes aos nove pixels que

(a) church (b) horses

(c) g3

compõe a janela.

Todas as imagens possuem 154401 pixels, com formato 481 × 321 ou 321 × 481. Se fôssemos usar todos os pixels para produzir os conjuntos de dados, alguns algoritmos usa- dos na comparação teriam problemas para construir o agrupamento, já que isso implicaria em um uso muito alto de memória pelas bases com 154401 × 27 exemplos.

Para evitar esse tipo de problema, uma amostragem da imagem é feita utilizando uma quantidade menor de pixels. Para todas as imagens, foram usados 5000 pixels aleatori- amente coletados para compor a base de dados. Após o processo de agrupamento, um classificador k-NN (JAIN; DUBES, 1988) é construído para rotular o restante dos pon- tos a partir da rotulagem inicial feita durante o agrupamento. Note que essa abordagem, cria-se um referencial do poder de generalização das técnicas comparadas.