• No results found

Kapittel 3: Resultater fra den kvantitative undersøkelsen

3.11 Om vigsling

Uma floresta de decisão aleatória resulta de um agregado de árvores de decisão. Cada uma das árvores é aleatoriamente diferente das restantes, como se pode constatar na figura 4.6, onde 3 árvores diferentes, para o mesmo conjunto de dados v, produzem resultados distintos. Uma floresta de decisão aleatória assenta nos mesmos princípios enunciados para a árvore de decisão. O facto de cada uma das árvores ser aleatoriamente diferente permite diminuir a correlação dos dados entre as previsões realizadas por cada uma das árvores, o que resulta numa grande capacidade de generalização e robustez na fase de classificação. Através do parâmetro de aleatoriedade ρ, é controlada a quantidade de aleatoriedade intrínseca de cada árvore e ainda o grau de correlação entre as diferentes árvores de uma floresta [37, 114].

Figura 4.6: Resultado produzido por diferentes árvores treinadas em condições aleatórias e portanto distintas. Adaptado de [37].

A aleatoriedade é assegurada na fase de treino e pode ser assegurada de dois modos distintos. O primeiro modo baseia-se na realização de uma amostragem aleatória do conjunto de treino. A grande motivação por detrás desta filosofia é a redução dooverfitting. A amostragem aleatória do conjunto de treino não se serve da totalidade dos dados o que leva a que o treino seja mais imediato. Contudo, a existência de desperdício de informação de treino para ajustar os parâmetros de cada árvore não é vantajoso visto que pode limitar a capacidade de generalização da floresta. Daí que surgiu uma segunda abordagem, designada de otimização aleatória dos nodos. Recordando a expressão 4.6, na otimização

CAPÍTULO 4. FUNDAMENTOS TE RICOS

aleatória do nodo, ao invés de se otimizar todo o conjunto de parâmetros T (que acarreta grande custos de eficiência) recorre-se de um pequeno conjunto Tj ⊂ T quando se encontra a treinar o nodo j. Vulgarmente, |T | = ∞, isto é, o número de parâmetros a estimar é de elevada ordem, pelo que se torna necessária a definição do parâmetro extra ρ = |Tj| que controla o grau de aleatoriedade, idêntico para todas as árvores. O parâmetro ρ∈ 1, ..., T define então a quantidade de informação a utilizar em todos os nodos de todas as árvores, sendo que ρ = 1 significa que apenas um parâmetro aleatório é selecionado, enquanto que ρ =|T | utiliza todos os parâmetros. Numa floresta, em que ρ = |T | todas as árvores são idênticas sendo o seu grau de correlação máximo [37].

Após a fase de treino, durante o teste, cada um dos pontos v é simultaneamente colocado em cada uma das árvores da floresta. Mediante o resultado definido pelo vetor de características associado a v, este alcança os nodos terminais de cada uma das árvores presentes na floresta com uma classificação associada. Através da combinação de todas as classificações providenciadas pelas árvores da floresta, com recurso à técnica de MAP aplicada à probabilidade posterior total, obtém-se a classificação final. A classificação final pode ser alcançada através da média das probabilidades das árvores da florestas (equação 4.13) ou através da multiplicação dos resultados de cada uma das árvores seguida da aplicação de uma função de partição (Z). Visto que as árvores de decisão não são estatisticamente independentes, a função de partição tem como finalidade assegurar a normalização probabilística (4.14) [37, 114].

p(c|v) = 1 T Tt=1 pt(c|v) (4.13) p(c|v) = 1 Z Tt=1 pt(c|v) (4.14)

4.3.2.1 Influência dos Híper-parâmetros de uma Floresta

No treino da Floresta de Decisão, para além de se otimizar a função objetivo de cada nodo das árvores de decisão procura-se também otimizar a estrutura de cada árvore. Este processo de otimização deve ser adequado ao problema de classificação. Em termos hipotéticos poder-se-ia pensar que uma Floresta de Decisão teria uma melhor desempenho quanto maior for a profundidade das árvores de decisão que a constituem. Porém, profundidades elevadas podem conduzir a que o número de pontos que chegam às folhas ser reduzido, conduzindo a umoverfitting aos dados de treino. Deste modo, o desempenho e robustez de uma Floresta de Decisão é influenciado por um conjunto de híper-parâmetros [119]:

• Profundidade das árvores --- com o aumento da profundidade as árvores adquirem uma maior sensibilidade na separação dos dados e por conseguinte classificações com um maior grau de confiança. Porém, em florestas com um valor de profundidade elevado, a divisão dos dados passa a ser de tal forma elevada queoutlierspodem passar a ser classificados como uma classe isolada, o que se traduz na presença deoverfitting. O classificador fica adaptado ao conjunto de treino de modo a que precisão e generalização da floresta é limitada aquando da classificação do conjunto de teste. Adicionalmente, uma profundidade elevada pode resultar em árvores de decisão não

CAPÍTULO 4. FUNDAMENTOS TE RICOS

balanceadas. A regra de ouro para a definição da profundidade das árvores de uma floresta passa pela avaliação da dimensão do espaço de características e do tipo de problema em estudo [119, 120].

• Número de árvores --- O tamanho de uma floresta deve ser tanto maior quanto os recurso compu- tacionais o permitirem. Em cada árvore de decisão a função de separação define um limite rígido de separação entre os pontos das classes. Este fenómeno advém do facto de cada árvore ser treinada de forma diferente das restantes, pois o subconjunto de pontos de treino é distinto. Con- sequentemente, cada árvore apresenta um grau de confiança elevado (em regiões de incerteza) aquando da classificação de objetos de teste, o que é indesejado. Assim ao combinar o resultado das diferentes árvores pertencentes a uma mesma floresta, a classificação de objetos com carac- terísticas próximas dos objetos de treino é mais eficaz e ao mesmo tempo, para objetos fora da zona de confiança a classificação é mais insegura (difusa) [119].

• Função de divisão --- os modelos selecionados para definir a função de divisão dos dados em cada um dos nodos internos de uma árvore desempenha um papel principal na qualidade da classificação e ainda na eficiência do resultado. O modo como varia a confiança do estimador à medida que os pontos de teste se distanciam dos dados de treino deve ser tido em consideração. A figura 4.7 contém um exemplo prático do desempenho de diferentes modelos [119].

Figura 4.7: Mapa de certeza de uma floresta treinada com diferentes funções de divisão dos dados: o modelo linear (a) de eixos alinhados e modelos curvilíneos de linhas orientadas (b) e secções cónicas (c). Adaptado de [37].

CAPÍTULO 4. FUNDAMENTOS TE RICOS

• Aleatoriedade ρ --- um maior valor de ρ conduz a uma menor correlação entre as árvores da mesma floresta, aumentado assim a capacidade de generalização, visto que as árvores se tornam únicas e diferentes entre si. A aleatoriedade é útil em reduzir o número de parâmetros a otimizar, espe- cialmente em funções de divisão não lineares. Contudo, a confiança geral é diminuída, podendo este problema ser compensado por um aumento da profundidade das árvores. Quando ρ procura apenas otimizar um único parâmetro do espaço total de parâmetros de θ, a classificação torna-se computacionalmente demorada [119].

• Características --- a fase de desenvolvimento das características a introduzir no classificador é dependente do problema em estudo, bem como das estruturas a identificar. Assim sendo, o espaço dimensional de características deve ser tal que permita a discriminação entre as diferentes classes, sem grande dispersão dos dados e sobreposição mínima entre as classes [119].

• Proporção das amostras --- árvores não balanceadas, ou seja, com uma desproporção na expres- são de cada uma das classes devem ser evitadas. O porquê desta afirmação reside no facto na presença de uma árvore não balanceada, esta corresponder a uma cadeia de nodos com pouca capacidade discriminativa entre as diferentes características, conduzindo a uma capacidade de ge- neralização de baixo grau. A amostragem é então um passo fundamental para que exista equilíbrio na distribuição entre as diferentes classes [121].