Kapittel 3: Resultater fra den kvantitative undersøkelsen
3.10 Om strukturer
Durante a década de 90, a Floresta de Decisão teve forte concorrência por parte do método de classificação SVM. Neste último método procura-se definir um híper-plano, no espaço de características
CAPÍTULO 4. FUNDAMENTOS TE RICOS
n-dimensional, por forma a distinguir as diferentes classes. A colocação do híper-plano é realizada de modo a maximizar a distância entre o ponto mais próximo e o híper-plano. A fácil compreensão e a possibilidade de desenvolver uma estrutura de otimização percetível foram propriedades que forneceram popularidade ao método de classificação SVM. Porém, as Florestas de Decisão destacaram-se dada a sua capacidade intrínseca em lidar com problemas de segmentação multi-classe. A sua capacidade de generalização e eficiência foram também propriedades que permitiram dar ainda mais destaque à Floresta de Decisão [112--114].
A Floresta de Decisão resulta da conjugação de várias árvores de decisão. As árvores de decisão fo- ram introduzidas por Breimanet al.[115] em meados da década de 80. A árvore de decisão é entendida como um classificador fraco, pois a sua capacidade de classificação é ligeiramente superior à de uma classificação aleatória. Porém, o treino conjunto destes classificadores resulta num classificador forte capaz de assegurar precisão e capacidade de generalização. Através da combinação linear dos vários classificadores fracos obtém-se um classificador final capaz de se correlacionar fortemente com a verda- deira classificação. Para a obtenção do classificador forte deve-se na fase de treino, de cada classificador fraco, atribuir pesos distintos às amostras. Deste modo, em cada estágio de treino o classificador fraco seguinte procura dar mais peso aos dados cujo desempenho do classificador fraco anterior foi menor. O procedimento descrito é designado deboosting[37, 111].
4.3.1.1 Árvores de Decisão
Uma árvore de decisão é um grafo com uma configuração própria, correspondendo a uma coleção de nodos e vértices dispostos de forma hierárquica. Os nodos internos são designados de nodos de divisão ao par que os nodos terminais correspondem às folhas. Todos os nodos exceto a raiz (nodo inicial) têm um e um só vértice de chegada, associado e dois vértices de partida, pelo que, contrariamente ao que se constata na maioria dos grafos, uma árvore de decisão não é um grafo cíclico. A estrutura de um grafo encontra-se presente na figura 4.5.
Figura 4.5: Estrutura de um grafo com a configuração em árvore. Adaptado de [37].
CAPÍTULO 4. FUNDAMENTOS TE RICOS
complexidade através da aplicação de uma série de testes de baixa complexidade. Cada nodo interno é responsável pela aplicação de um dos testes de modo a permitir a sucessiva divisão dos dados até se alcançar uma folha. Deste modo, em cada folha encontra-se a resposta mais provável com base na série de divisões anteriormente efetuadas. Perante um conjunto de pontos, estes são sujeitos a um grupo de testes realizados sobre as propriedades que caracterizam cada ponto, gerando um resultado binário (verdadeiro ou falso). Com base no resultado é realizada a separação dos dados pelos nodos filhos até se alcançar o nodo terminal. Com o avançar dos testes realizados, o grau de confiança aumenta, explicado pelo aumento da separabilidade de dados não relacionados [37, 114].
O desempenho de uma árvore de decisão é superior quando os testes associados a cada nodo interno se encontram bem definidos e ainda os métodos de divisão dos dados são os corretos para o problema. A árvore de decisão, baseando-se num processo supervisionado, na fase de treino, otimiza os parâmetros de cada nodo interno, responsáveis pela divisão dos dados que minimizem a função de energia, selecionada previamente. Com a fase de treino pretende-se que na fase de teste cada nodo interno seja capaz de distinguir novos dados pelos seus nodos filhos, de forma apropriada [37, 114].
4.3.1.2 Formulação Matemática
Um objeto, quando alvo de análise por parte de uma árvore de decisão, é representado matemati- camente por um vetor v = (x1, x2, ..., xd) ∈ ℜd, onde cada um dos componentes de v corresponde à uma propriedade que o caracteriza. Aos elementos do conjunto, xi, designam-se de características. As características computadas variam mediante o problema em causa. A título de exemplo, na área das ciências da visão v corresponde a umvoxelna imagem, ao par que xi é o resultado de um conjunto de filtragens efetuadas sobre a intensidade do respetivovoxel. O tipo e o número de características variam de acordo com o tipo de dados presentes e a aplicação. Em termos, teóricos o espaço dimensional defi- nido pelo vetor de características pode ser extremamente vasto ou mesmo infinito. Contudo, em termos práticos, não existe a necessidade de um número vasto de características mas sim um subconjuntoℜd′ capaz de assegurar e providenciar informação precisa e discriminativa, ou seja, d′ << d. [37]
As características correspondem à informação sobre a qual cada nodo da árvore de decisão efetua o teste associado. Assim sendo, as características são sujeitas à função de teste de cada nodo. A função de teste de um nodo divisão j é dada por: [37]
h(v, θj) :ℜd×T → 0, 1 (4.5) O resultado da função de teste é binário, variando de acordo com condição aplicada. Na equação 4.5
θj ∈ T corresponde aos parâmetros de divisão dos dados associados ao nodo j, enquanto T representa o espaço de todos os parâmetros da árvore. Em conformidade com o resultado da função de teste, à chegada do ponto v ao nodo j este é enviado para o nodo filho esquerdo ou direito. Os modelos que definem as funções de teste podem ser de dois tipos: lineares e não-lineares. Nos modelos lineares a separação dos dados pela função de teste é realizada com recurso a uma linha ou um híper-plano com coordenadas homogéneas. Por outro lado, no caso dos modelos não-lineares a separação dos pontos é realizada através da definição de híper-planos com superfícies de graus de liberdade superior, como é o
CAPÍTULO 4. FUNDAMENTOS TE RICOS
caso de uma superfície quadrática [37].
4.3.1.3 Treino e Teste
Na fase de treino, alternativamente designada de faseoffline, é utilizado um conjunto de dados de treino de modo a, automaticamente, definir a melhor combinação de parâmetros das funções de divisão
h(v, θ) para cada nodo interno j. Em cada j nodo, de acordo com o subconjunto de treino de Sj é aprendida a função objetivo que melhor separa os dados de Sj pelos seus nodos filhos SjLe SjR. Com a aplicação da fase de treino procura-se então a maximização da função objetivo, descrita matematicamente pela expressão 4.6 [37].
θj = argθ∈Tmax I(Sj, θ) (4.6)
A maximização da função objetivo é alcançada através da procura da melhor combinação de variáveis, para a divisão de um conjunto de amostras Sj definidos por um conjunto de parâmetros discretos θ. Os subconjuntos resultantes da divisão SL e SR, que correspondem aos nodos filhos esquerdo e direito respetivamente, são definidos por: [37]
SjL(Sj, θ){(v, y) ∈ Sj|h(v, θ) = 0}
SjR(Sj, θ){(v, y) ∈ Sj|h(v, θ) = 1}
(4.7) Como se pode averiguar pelas expressões 4.7, na fase de treino existe uma marcação y associada a cada objeto que não é mais do que a classificação final que a árvore procura apresentar num dos seus nodos filho. Na divisão dos dados não ocorre sobreposição de informação, isto é, o subconjunto presente no nodo SL
j e no nodo SjRnão contêm objetos em comum. É esta última característica que permite que, à medida que se percorre a árvore, o subconjunto dos dados formados seja mais puro e intrínseco de uma classe c∗[37].
A função objetivo implementada é importante para assegurar precisão na classificação, visto que esta tem influência no percurso realizado pelas amostras, ao longo da árvore de decisão. A divisão dos dados, realizada pela função objetivo, tem por base modelos de energia. O modelo mais comum aplica o conceito de ganho de informação, I, para assegurar uma separação dos dados gradual e mais precisa. A separação dos dados em subconjuntos com características mais semelhantes resultam numa redução da medida de incerteza associada a uma variável aleatória, o que desencadeia um aumento de I. A redução de incerteza é monitorizada pela entropia, H [37].
I = H(S)− ∑
i∈L,R
|Si|
|S|H(Si) (4.8)
Na equação 4.8, H corresponde à entropia, que para o caso de distribuições discretas (problemas de classificação) é dada pela expressão 4.9 [37].
H(S) =−∑
c∈C
CAPÍTULO 4. FUNDAMENTOS TE RICOS
A entropia contabiliza o conjunto de todas as classes C definidas para um dado problema. Na equação 4.9, p(c) representa a distribuição empírica resultante das amostras de treino pertencentes ao conjunto
S, ou seja, a expressão que os dados pertencentes a uma classe c têm no conjunto S. A distribuição é
obtida através do histograma normalizado de cada uma das classes. O ganho de informação I, definido em 4.8 resulta então da diferença da entropia calculada para o conjunto original e a soma das entropias para os subconjuntos S, L.
Para além da entropia existem outros critérios de separação dos dados, destacando-se a razão de erros de classificação e a impureza de Gini [116].
A razão de erros de classificação, E, consiste na proporção de dados classificados como classe c∗ mas que na realidade, na classificação manual correspondem a uma classe distinta ci, conforme o que se encontra na expressão 4.10 [116, 117]. E(S) = 1 S ∑ i∈S 1se(ci ̸= c∗) = 1− p(c∗) (4.10)
Por outro lado, a impureza de Gini [118] é uma função objetivo que quantifica a probabilidade de um determinado ponto ser mal classificado caso este fosse aleatoriamente classificado em conformidade com a distribuição das classes num determinado nodo. Assim a combinação de parâmetros de um nodo é melhor quanto maior for a impureza de Gini, descrito pela expressão 4.11.
G(S) =∑
c∈C
p(c)(1− p(c)) = 1 −∑
c∈C
p(c)2 (4.11)
O presente critério de separação dos dados é ainda uma ferramenta útil para computar a importân- cia relativa de um dado conjunto de características. Esta última propriedade faz da impureza de Gini uma função objetivo interessante de ser utilizada na área da imagem médica, pois permite avaliar se as características que têm mais impacto no classificador permitem discriminar melhor as regiões ou estru- turas associadas de relevo, por exemplo, regiões patológicas. A importância de uma dada característica é obtida através do somatório dos decréscimos da impureza de Gini, que ocorrem em todos os nodos da árvore. [37, 118]
Após a estimação dos parâmetros para cada um dos nodos internos da árvore, os nodos terminais (folhas) compreendem um subconjunto de pontos cujo comportamento é similar. Assim sendo, é possível associar a cada uma das folhas, uma das classes definidas para o problema, visto que os dados são similares. Através da distribuição condicionada definida pelo conjunto de dados presentes em cada folha, é possível definir as probabilidades posteriores de cada classe, p(c|v). A classe, c∗ é atribuída a um dado ponto através da probabilidade de maior valor1presente na folha [37], ou seja:
c∗ = argcmax p(c|v) (4.12)
Mediante um ponto ainda não observado v′, são aplicados os vários testes previamente selecionados de modo a atribuir uma classificação ao objeto em questão. Com base nas características que definem
1Do inglês:Maximum A-Posteriori
CAPÍTULO 4. FUNDAMENTOS TE RICOS
v são aplicadas as funções de teste, selecionadas durante a fase de treino, de modo a que o ponto
alcance um dos nodos terminais. Iniciando-se o teste na raiz da árvore, de acordo com o resultado binário providenciado pela função de teste, o objeto é enviado para o nodo interno esquerdo ou direito. O procedimento é repetido até que v′ alcance um nodo folha. No nodo folha, através do estimador é associado uma classe, c∗ao valor de entrada v′. Todo este processo é designado de teste de uma árvore de decisão que exige que as funções de divisão nos nodos internos e os estimadores nos nodos folha se encontrem já com os seus parâmetros otimizados, numa fase prévia de treino [37].