Hierarquia de espa¸co de estados das decis˜oes dos agentes
Um agente ´e uma entidade que recebe sensa¸c˜oes, originadas do ambiente, e responde com a¸c˜oes que afetam o ambiente, causando efeitos, Russel e Norvig (44), conforme foi apresentado na se¸c˜ao 2.1. Na opini˜ao de Sutton e Barto (50), um agente ideal ser´a aquele que sempre age com o intuito de maximizar seus crit´erios de performance, n˜ao considerando somente benef´ıcios locais, mas tamb´em os globais.
Na arquitetura cl´assica de agentes, conforme apresenta a figura 2.1 do Cap´ıtulo 2 - Arquitetura Cl´assica de Agentes, quando uma percep¸c˜ao ´e observada por interm´edio dos sensores, a camada de controle ´e imediatamente disparada pelo estado corrente. A camada de controle determina como as percep¸c˜oes devem ser processadas e mapeadas em seq¨uˆencias de a¸c˜oes de dom´ınio.
As a¸c˜oes dos agentes, na arquitetura cl´assica, s˜ao de dois tipos: a¸c˜oes de dom´ınio e a¸c˜oes de controle. As a¸c˜oes de execu¸c˜ao, ou de dom´ınio, s˜ao a¸c˜oes primitivas. As seq¨uˆencias dessas a¸c˜oes alcan¸cam v´arios objetivos, que afetam o ambiente.
A pesquisa usada como referˆencia, Raja e Lesser (38), toma como referˆencia uma vis˜ao simplificada das a¸c˜oes dos agentes, que somente considera o racioc´ınio sobre o processamento dos recursos necess´arios para que as a¸c˜oes possam ser completadas. O comportamento da execu¸c˜ao de uma a¸c˜ao primitiva ´e caracte- rizado usando distribui¸c˜oes estat´ısticas, a quantidade de recursos utilizados, a possibilidade de completar com sucesso a a¸c˜ao e contribuir para a utilidade da tarefa.
A¸c˜oes tomadas pela camada de controle s˜ao chamadas a¸c˜oes de controle. Os agentes s˜ao caracterizados pelo tipo de a¸c˜oes de controle que realizam: agentes reflexivos agem de maneira reativa, respondendo de maneira imediata `as per- cep¸c˜oes; agentes baseados em meta agem de maneira a atingir seus objetivos; agentes baseados em utilidades agem de maneira a maximizar suas recompensas. A camada de controle faz parte da arquitetura cl´assica de agentes e tem so- mente uma op¸c˜ao para o processamento de controle, com o custo fixado, em termos de uso dos recursos. O processamento do controle ir´a raciocinar sobre as a¸c˜oes de dom´ınio, que precisam ser realizadas pelos efetuadores.
Para facilitar o racioc´ınio expl´ıcito sobre as a¸c˜oes de controle e seus custos, uma nova categoria de a¸c˜oes, chamadas a¸c˜oes de controle em n´ıvel meta, ´e intro-
Figura 4.1: Fluxo de controle em um agente racional, Raja (37).
duzida, conforme pode ser observado na figura 4.1. Nela, pode ser observada a presen¸ca de trˆes n´ıveis: camada de controle em n´ıvel meta, camada de controle e, por ´ultimo, execu¸c˜ao e monitoramento do subsistema. Na figura, a chegada de nova mensagem aciona o controle em n´ıvel meta.
A arquitetura de agentes cl´assica ´e extendida com controles em n´ıvel meta que raciocina, com o aux´ılio da aprendizagem por refor¸co, sobre as a¸c˜oes de controle e verifica `as maneiras alternativas para realiz´a-las.
A chegada de disparos perceptivos, na camada de controle em n´ıvel meta, determina quais tarefas os agentes devem realizar. A camada de controle dos agentes determina como as tarefas s˜ao escolhidas, ser˜ao processadas e mapeadas, em seq¨uˆencias de a¸c˜oes.
As a¸c˜oes de controle podem ser descritas em um ou mais caminhos. Um caminho ´e baseado na vis˜ao das a¸c˜oes de controle, como um algoritmo que pode ser interrompido, em qualquer ponto, para obter a solu¸c˜ao. O uso dos recursos pode ser controlado pela determina¸c˜ao de quando parar o algoritmo. O outro caminho ´e o uso de diferentes algoritmos que realizam a¸c˜oes de controle, representando o compartilhamento em termos de uso dos recursos e utilidade com precis˜ao.
As a¸c˜oes de controle em n´ıvel meta otimizam a performance mediante a esco- lha do dom´ınio de seq¨uenciamento e das a¸c˜oes de controle. Para tanto, incluem- se as a¸c˜oes de acordo com a forma como as tarefas s˜ao tratadas, levando em considera¸c˜ao seus prazos de execu¸c˜ao, deadlines e tamb´em a quantidade de pro- cessamento a ser alocada. A quantidade de processamento a ser alocada deve
ser requerida previamente, assim como outros recursos de dom´ınio e a¸c˜oes de controle, no tempo apropriado.
O controle em n´ıvel meta pode ser tamb´em visto como um problema de decis˜ao seq¨uencial. A essˆencia de problemas de decis˜ao seq¨uencial ´e que as decis˜oes s˜ao tomadas tendo como referˆencia os efeitos em termos imediatos e distantes e a escolha da melhor a¸c˜ao corrente. Essa a¸c˜ao corrente depende criticamente do tipo das a¸c˜oes futuras e tamb´em das a¸c˜oes que ser˜ao tomadas nos pontos de decis˜ao no futuro, justificativa para o uso de aprendizagem. A limita¸c˜ao dos recursos dos agentes causa a escolha de a¸c˜oes em n´ıvel meta correntes, que influenciam na disponibilidade dos recursos para escolhas de a¸c˜oes no futuro.
O controle em n´ıvel meta efetivo necessita das informa¸c˜oes de performance alcan¸cadas, no passado para prever sobre o futuro, e tamb´em, para n˜ao tomar decis˜oes cegas, em cada ponto do processo de tomada de decis˜ao.
Raz˜oes que justificam a dificuldade do problema
As dificuldades em lidar com ambientes incertos e dinˆamicos s˜ao conseq¨uˆencia da:
1. complexidade da informa¸c˜ao, que caracteriza o estado do agente ou dos outros agentes que interagem entre si;
2. variedade de resposta com custos diferenciados, em termos da disponibili- dade dos parˆametros;
3. prazos de execu¸c˜ao, associados com as tarefas;
4. m´edia alta de incerteza, causada pela chegada de tarefas, de maneira n˜ao determin´ıstica, e a¸c˜oes de dom´ınio primitivas;
5. decis˜oes que s˜ao freq¨uentemente n˜ao-observ´aveis, de maneira imediata, e provavelmente tˆem efeitos de decr´escimo significantes.
No controle em n´ıvel meta proposto por Raja e Lesser (38), os agentes s˜ao capazes de possuir m´ultiplas tarefas e objetivos concorrentes. Cada tarefa ´e re- presentada usando a estrutura de tarefa com prazo de execu¸c˜ao e a utilidade potencial, que pode ser atingida como resultado da completude.
A estrutura das tarefas descreve uma ou mais das possibilidades para que as tarefas sejam executadas. Tais alternativas s˜ao expressas, como uma hierarquia de abstra¸c˜ao, que s˜ao como instancia¸c˜oes de a¸c˜oes b´asicas. As instancia¸c˜oes de a¸c˜oes primitivas s˜ao chamadas de a¸c˜oes de dom´ınio.
As a¸c˜oes de dom´ınio s˜ao caracterizadas por apresentarem qualidades esperadas e distribui¸c˜ao de dura¸c˜ao, podendo ser escalonadas e executadas. As informa¸c˜oes sobre os relacionamentos das tarefas indicam qu˜ao b´asica s˜ao as a¸c˜oes, ou qu˜ao abstrata ´e a tarefa.
As informa¸c˜oes sobre os relacionamentos que afetam as caracter´ısticas, quali- dade e tempo, mediante a estrutura das tarefas. As caracter´ısticas dos recursos, os quais as tarefas est˜ao em consumo, s˜ao tamb´em inseridas nas estruturas das tarefas.
Classifica¸c˜ao das decis˜oes em n´ıvel meta
Existem cinco tipos de disparos que acionam o controle em n´ıvel meta:
1. chegada da nova tarefa, vinda do ambiente;
2. presen¸ca de uma tarefa, no conjunto de tarefas atuais, ou seja, que est˜ao no escalonamento corrente e requeiram negocia¸c˜ao com um agente que n˜ao ´e local;
3. falha de negocia¸c˜ao para atingir um compromisso;
4. decis˜ao de escalonar um novo conjunto de tarefas, ou permanˆencia das atu- ais;
5. desvio significante da performance esperada.
O controlador em n´ıvel meta ´e invocado quando um dos cinco disparos ocorre. A escolha de qual evento de disparo foi deliberado em conseq¨uˆencia do dom´ınio de aloca¸c˜ao de tarefas e de outros dom´ınios similares. Esses eventos ocorrem freq¨uentemente em horizontes finitos com determinadas considera¸c˜oes.
O controlador em n´ıvel meta ´e definido, de maneira espec´ıfica, como um me- canismo baseado em disparos, e n˜ao como um componente que ´e invocado em in- tervalos de tempo bem definidos, pelas seguintes raz˜oes: ´e uma ativa¸c˜ao peri´odica que pode ocorrer em ambientes restritos e lida com um custo computacional des- necess´ario.
O controle em n´ıvel meta pode acontecer, de maneira que n˜ao seja freq¨uente e efetiva, nos v´arios ambientes dinˆamicos. O seu mecanismo baseado em disparo ´e uma solu¸c˜ao geral que manipula o espectro inteiro do ambiente, sem varrˆe-lo por completo. Por conseguinte, um mecanismo baseado em disparo ´e apropri- ado para dom´ınios nos quais as atividades requeiram controle em n´ıvel meta e
n˜ao chegaram, necessariamente, em forma de distribui¸c˜ao uniforme. Se as ati- vidades chegaram recentemente, m´etodos de ativa¸c˜ao peri´odicas, que n˜ao devem ser freq¨uente, durante per´ıodos recentes, devem ser aproveitados em per´ıodos de inatividade.
Um exemplo de evento de disparo, que n˜ao foi inclu´ıdo, ´e a situa¸c˜ao em que uma, dentre v´arias a¸c˜oes primitivas, sai fora do controle e continua a execu¸c˜ao. Nesse caso, o tempo de t´ermino ´e esperado como baixo uso de aloca¸c˜ao dos re- cursos. Embora o evento esteja lidando com a baixa performance, n˜ao adiciona disparos por duas raz˜oes: n˜ao ocorre freq¨uentemente; e, desde que outros dispa- ros ocorram com muita freq¨uˆencia, o controlador em n´ıvel meta ser´a invocado, brevemente, ao inv´es de posteriormente, e ainda ser´a reconhecido o baixo uso dos recursos e ser´a abortada a a¸c˜ao que aconteceu com erros.
Algumas caracter´ısticas de problemas de dom´ınios, como o tipo controle em n´ıvel meta, descrito neste cap´ıtulo, devem fornecer melhorias na performance - ´e quando o agente internamente gera um novo objetivo como resultado das percep¸c˜oes observadas. Esses objetivos podem ser revisados, como resultado das a¸c˜oes de percep¸c˜oes internas e seus efeitos no ambiente. As an´alises dos objetivos encadeiam, por meio da camada de controle, o processo no qual o agente recebe um objetivo, ou conjunto de objetivos, sendo os mesmos entradas e sa´ıdas de uma seq¨uencia de m´etodos execut´aveis, com restri¸c˜oes no tempo de in´ıcio e t´ermino e na utilidade esperada. O controle em n´ıvel meta ´e um processo de decidir entre as seguintes op¸c˜oes:
• descartar o objetivo e n˜ao analis´a-lo;
• atrasar a an´alise do objetivo;
• raciocinar sobre a quantidade de objetivos e prosseguir na an´alise deles;
• determinar o contexto da an´alise do objetivo - se analisar um objetivo ´unico, ou v´arios com uma perspectiva de agente ´unica, ou ainda analisar os obje- tivos ´unicos, ou m´ultiplos, no contexto para facilitar as metas dos agentes.
O controle em n´ıvel meta ´e ´util em situa¸c˜oes que a an´alise dos objetivos s˜ao caras, em outras palavras, nas quais o custo acumulado afeta a performance dos agentes. O controle em n´ıvel meta ´e ´util tamb´em quando o custo da an´alise de um objetivo ´e significantemente mais caro que o custo das a¸c˜oes de controle em n´ıvel meta. Ele tamb´em ´e ´util quando uma escolha tem de ser feita sobre o tipo de an´alise do objetivo e as op¸c˜oes para an´alise do objetivo tˆem custos diferentes, de maneira significativa, e produz resultados com utilidades diferentes.
Em algumas situa¸c˜oes, o controle em n´ıvel meta deve ser visto como efetivo e, ainda como uma alternativa n˜ao t˜ao cara, para tomar decis˜oes em an´alise de objetivos mais caros. Por exemplo, quando um objetivo chega, e o seu prazo para t´ermino ´e apertado, o controle em n´ıvel meta ir´a rapidamente, de maneira n˜ao t˜ao cara computacionalmente, determinar qual objetivo dever´a ser descartado e, portanto, desconsiderado. A an´alise do objetivo deve tomar a mesma decis˜ao depois de completar as computa¸c˜oes que tˆem custos pr´oprios associados. Na falta do controle em n´ıvel meta, estes custos podem contribuir para a degrada¸c˜ao da performance.