Oppsummering - Enerett på behandling av husholdningsavfall i EØS

Este trabalho apresentou o sistema automático jogador de Damas híbrido ACE-RL-

Checkers que combina as técnicas de aprendizagem de máquina Elicitação Automática de Casos, Aprendizagem por Reforço e Mineração de Padrões Sequenciais. Tal combinação

permite ao agente ser dotado de um mecanismo dinâmico de tomada de decisões que se adapta ao perfil de seu oponente no decorrer de um jogo e lida com a fragilidade do agente associada ao problema do cold-start nas fases iniciais do jogo de Damas, que é quando o agente nada sabe sobre o perfil de seu oponente.

Nessa direção, primeiro foi construído a “identidade” do sistema ACE-RL-Checkers, isto é, o módulo tomador de decisões estático baseado em Rede Neural de Perceptron Mul-

ticamadas e treinado por Aprendizagem por Reforço. Tal módulo corresponde ao agente

automático LS-VisionDraughts que combina AG com uma eficiente estratégia de busca baseada em algoritmo Alfa-Beta, tabela de transposição, aprofundamento iterativo e or- denação parcial da árvore de busca. Os resultados obtidos no capítulo 4 demonstram que apesar do LS-VisionDraughts ser bastante eficaz em suas tomadas de decisão, tal ar- quitetura apresenta o inconveniente de ser extremamente previsível, executando sempre o mesmo movimento diante de um mesmo tabuleiro e independente do adversário. Note que tal comportamento não permite ao agente LS-VisionDraughts evoluir seu nível de jogo, evitando alcançar tabuleiros de jogos desfavoráveis (que o leva a derrota), quando enfrenta adversários mais difíceis. Em outras palavras, LS-VisionDraughts não é capaz de evoluir seu nível de jogo observando sua própria experiência contra diferentes adversários. Neste sentido, com o objetivo de introduzir uma abordagem não determinística de tomada de decisão, na sequência, o presente trabalho reproduziu o agente automático CHEBR que é uma arquitetura jogadora de Damas baseada apenas em Elicitação Automática de Casos. Tal agente foi proposto por Powell e faz uso de uma abordagem probabilística que realiza exploração pseudo-aleatória no espaço de busca com o objetivo de aprender a jogar Damas automaticamente. Essas explorações pseudo-aleatórias permitem que o agente apresente

152 Capítulo 7. Conclusão e Trabalhos Futuros

um comportamento extremamente adaptativo e não determinístico. Entretanto, conforme apresentado na seção 5.7.1, ao avaliar CHEBR contra LS-VisionDraughts, foi observado uma alta frequência de tomada de decisão aleatória por parte do agente CHEBR, fato que comprometeu seu desempenho nos torneios.

Considerando tais fatos, a arquitetura híbrida ACE-RL-Checkers foi proposta e imple- mentada no capítulo 5, combinando primeiramente, as habilidades das abordagens de AM

Aprendizagem por Reforço e Elicitação Automática de Casos, ao mesmo tempo em que

elimina as suas fragilidades. Mais especificamente, com o conhecimento provido pela rede

MLP do LS-VisionDraughts foi possível direcionar a exploração aleatória da Elicitação Automática de Casos para regiões mais promissoras no espaço de busca, fato que refinou

a qualidade das tomadas de decisão e reduziu a quantidade de execução de movimentos aleatórios. Por outro lado, a nova dinâmica aleatória do ACE-RL-Checkers também in- troduziu adaptabilidade ao agente, uma vez que as tomadas de decisão passaram a não ser mais determinísticas e sim, baseadas na dinâmica corrente de jogadas de seus opo- nentes. Com tal abordagem híbrida, ACE-RL-Checkers superou os agentes CHEBR e

LS-VisionDraughts em diversos jogos de torneio realizados.

Além disso, também foram investigadas, no capítulo 5, duas novas estratégias alterna- tivas para calcular o valor do rating dos casos gerados no contexto do ACE-RL-Checkers. A estratégia Memória Positiva Geral mostrou ser superior às estratégias de Decaimento

de Memória e Memória de Confiança Superior. Tal estratégia contribuiu para reduzir

significantemente o percentual de novas ações aleatórias geradas pela técnica EAC, bem como a quantidade total de casos armazenados na biblioteca do SRBC.

Por outro lado, ao conceber a arquitetura híbrida baseada em AR e EAC, é necessário evitar a seguinte fragilidade: nas fases iniciais do jogo em que a quantidade de casos dis- poníveis na biblioteca da técnica EAC é extremamente baixa em função do exíguo conhe- cimento do perfil do adversário, o desempenho do agente é geralmente comprometido pela alta frequência de execução de movimentos aleatórios sobre o tabuleiro. Tal fragilidade ocorre devido a dois motivos: primeiro, porque a biblioteca de casos é sempre inicializada (zerada) para cada oponente com o qual o agente interage, isto é, o agente começa jo- gando sem nenhum conhecimento sobre seu adversário; segundo, devido às características inerentes à técnica EAC, a tomada de decisão dinâmica do agente é guiada, ora pelo perfil do adversário – que é quando casos são recuperados da biblioteca, ora aleatoriamente – que é quando a técnica EAC não recupera nenhum caso da biblioteca. Essa última situ- ação ocorre em função do próprio mecanismo EAC de seleção pseudo-aleatória de casos optar por explorar novas regiões no espaço de busca ou em função da biblioteca não pos- suir informações suficientes reunidas sobre um determinado perfil de jogo do adversário (situação em que há escassez de casos). Visando atacar tal fragilidade, no capítulo 6 foi implementado uma versão estendida que incorpora na arquitetura do ACE-RL-Checkers um novo módulo baseado na técnica de Mineração de Padrões Sequenciais. Tal módulo

In document Enerett på behandling av husholdningsavfall i EØS (sider 91-101)