• No results found

3. Results

3.3. Types of terminally-ill patients in the ICU, criteria for declaring a

O jogador automático de Damas VisionDraughts [11] é a base sobre a qual se funda- menta o jogador IIGA.

Apesar de o IIGA ter a mesma estrutura do VisionDraughts, algumas adaptações foram feitas no VisionDraughts para que ele atendesse as necessidades do MP-Draughts. Essas necessidades são: diminuir o máximo possível a interferência humana no processo de aprendizagem do jogador; e adaptar o conjunto de características usada pelo jogador de modo a inserir características essenciais tanto para começo quanto para final de jogo. Para reduzir a interferência humana no processo de aprendizagem do jogador, a pos- sibilidade de utilização da base de dados com jogadas de final de jogo admitida pelo VisionDraughts foi retirada da estrutura do IIGA. Com a retirada dessa bas,e o jogador não terá mais "suporte"para saber se um dado estado S de tabuleiro (com oito peças ou menos) representa estado de vitória, empate ou derrota antes que o jogo termine. Para saber o resultado do jogo envolvendo o estado S de tabuleiro, o jogador terá que conduzi-lo até o final.

O módulo de acesso à base de dados de final de jogo fornece ao agente jogador ca- pacidade de anunciar, antes do final da partida, se um estado do tabuleiro com até oito peças representa vitória, derrota ou empate. A utilização da base de dados para as fases finais do jogo agiliza o processo de escolha da melhor ação a ser executada por um jogador automático. Além disso, torna mais eficiente o processo de escolha da melhor ação na medida em que substitui heurística por informação perfeita presente nas bases (vitória, derrota ou empate). Como a base de dados foi retirada no IIGA, o processo de treina- mento ficou mais demorado, e as escolhas de movimentos já não são tão precisas como quando é utilizada a base de dados. A eficiência do jogador IIGA foi prejudicada pela retirada da base de dados, mas foi favorecida quando se observa o fator "interferência humana", visto que esse fator foi consideravelmente reduzido, o que atende a expectativa em relação ao jogador proposto.

No que tange às características de jogo de Damas usadas pelo jogador durante o pro- cesso de aprendizagem, a seleção delas continua sendo feita, manualmente, assim como é

feita no VisionDraughts e no NeuroDraughts. Todavia, as características usadas no IIGA contêm duas características a mais do que as usadas pelo VisionDraughts: diagonalmo- ment e threat, totalizando 14 características (conforme tabela 5.1), ou seja, a representação NET-FEATUREMAP do tabuleiro é obtida pelo mapeamento C: B → N14.

Cada atributo do tabuleiro NET-FEATUREMAP (ver seção 4.1.2) é convertido para sua representação binária respeitando-se a quantidade de bits previstos para as caracte- rísticas adotadas (segunda coluna da tabela 5.1). Cada um desses bits alimentará um neurônio da entrada da rede MLP.

CARACTERÍSTICAS N◦ BITS PieceAdvantage 4 PieceDisadvantage 4 PieceThreat 3 PieceTake 3 Advancement 3 DoubleDiagonal 4 BackRowBridge 1 CentreControl 3 XCentreControl 3 TotalMobility - MOB 4 Exposure 3 KingCentreControl 3 Threat 3 DiagonalMoment 4

Tabela 5.1: Conjunto de Características implementadas no jogador MP-Draughts A figura 5.3 mostra o novo fluxo de aprendizagem do jogador sem a base de dados de final de jogo. Veja que os módulos são bastante parecidos com os do sistema Vision- Draughts. A exceção é a base de dados de final de jogo que não está presente na estrutura do IIGA.

O fluxo mostrado na figura 5.3 é resumido a seguir:

1. Estado Corrente → percepção → Módulo Eficiente de Busca: o algoritmo de busca eficiente recebe como parâmetro de entrada o estado corrente do tabuleiro do jogo. A partir de então, ele monta uma árvore de busca com intuito de descobrir qual a melhor jogada a ser executada;

2. Módulo Eficiente de Busca → nós folhas → Módulo NET-FEATUREMAP: os estados da camada mais profunda da árvore de busca, chamados folhas, são enviados para o módulo NET-FEATUREMAP, que aplicará a conversão de tabuleiro aos mesmos. O mapeamento NET-FEATUREMAP é feito com base em funções que descrevem as próprias características do jogo de Damas [42], [43];

Figura 5.3: Fluxo de aprendizado do IIGA: um sistema de aprendizagem para fases iníci- ais/intermediárias de jogos de Damas

3. Módulo NET-FEATUREMAP → avaliação nós folhas → Rede Neural Arti- ficial: o módulo NET-FEATUREMAP converte as folhas da árvore mapeando-as na camada de entrada da rede neural multicamadas;

4. Rede Neural Artificial → valores nós folhas → Módulo Eficiente de Busca: a rede neural multicamadas recebe um estado do tabuleiro mapeado em sua camada de entrada e retorna, em seu único neurônio da camada de saída, um valor entre -1.0 e +1.0, representando a avaliação do estado de entrada sob a ótica do jogador automático. Tal valor, denominado predição do estado de entrada, é retornado para o módulo de busca que o utilizará com o propósito de descobrir a melhor ação a ser executada;

5. Módulo Eficiente de Busca→ melhor ação → Estado Corrente: após montar a árvore de busca e utilizar os módulos de mapeamento e rede neural para avaliar as folhas da árvore, o algoritmo de busca propaga, de baixo para cima, a melhor ação a ser executada pelo agente jogador;

6. Estado Corrente → movimento → Próximo Estado: de posse da melhor ação a ser executada, o estado do tabuleiro é modificado com a realização de uma ação concreta para um próximo estado;

7. Próximo Estado→ percepção → Módulo NET-FEATUREMAP: esse novo estado do tabuleiro do jogo é enviado para o módulo NET-FEATUREMAP , como anteriormente.

módulo NET-FEATUREMAP , agora, mapeia esse novo estado diretamente na entrada da rede neural multicamadas. Note que agora, não se usa o módulo de busca;

9. Rede Neural Artificial → predição melhor ação → Aprendizagem TD: assim que o novo estado é mapeado na camada de entrada da rede neural, um novo valor (predição) é obtido no seu único neurônio de saída;

10. Aprendizagem DT → ajuste de pesos → Rede Neural Artificial: essa nova predição, recém calculada, é utilizada juntamente com a última predição, anterior- mente calculada no neurônio de saída, para atualizar todos os pesos da rede neural multicamadas;

11. Rede Neural Artificial: → próximo passo → Novo Estado Tabuleiro : a partir de agora, com os pesos da rede atualizados, o jogo passa para um novo estado de tabuleiro (estado atingido depois de um movimento);

12. Novo Estado Tabuleiro: → próximo passo → Estado Corrente: o fluxo retorna ao estágio inicial e o procedimento começa a se repetir até o fim de uma partida de treinamento.

O processo de treinamento do IIGA é o mesmo seguido pelo VisionDraughts [11]: self-play com clonagem. A ideia básica do treinamento por self-play com clonagem é treinar um jogador em vários jogos contra uma cópia de si próprio. A partir de um certo momento, o oponente com menor nível de desempenho é descartado, e o oponente com maior nível de desempenho é clonado para que outros jogos sejam realizados, e o novo jogador com o maior nível de desempenho seja selecionado para clonagem. O processo se repete até que um jogador com alto nível de desempenho seja obtido.