Myte og historie - Utviklinga av historiske spel i Noreg

Figura 4.7: Exemplos de seleção de features. Imagem original no canto superior es- querdo, um primeiro exemplo de seleção de features no canto superior direito, um se- gundo exemplo no canto inferior esquerdo e sem seleção de features no canto inferior direito. (max( H(k) 2 ;δxk+ H(k) 2 gx);max( H(k) 2 ;δyk+ H(k) 2 gy)) (4.7) (min(S0 x H(k) 2 ;δxk+Sk x H(k) 2 +gx);min(S0 y H(k) 2 ;δyk+Sk y H(k) 2 +gy)) (4.8)

4.3 Seleção de features guiada por processo de atenção

visual

Conforme discute-se no início deste capítulo, na arquitetura proposta, uma parte do sistema de visão é constituída pela interação entre três componentes: sistema cognitivo, controle de atenção e mapa de saliências. A interação entre essas partes determina como o processo de atenção se comporta ao longo do tempo de acordo com a tarefa sendo reali- zada e todo o complexo contexto no caso de robôs autônomos onde existe a possibilidade de múltiplas tarefas e eventos externos inesperados que devem ser levados em conta.

A posição do centro da fóvea e os parâmetros de fóvea dependem da tarefa sendo realizada. Por exemplo, se a tarefa é a realização de tracking, então deve-se manter a fóvea ao redor das features mais relevantes do objeto. Se as features estão igualmente distribuídas ao longo do objeto, de forma geral, é melhor manter o centro da fóvea no

52CAPÍTULO 4. SELEÇÃO FOVEADA DEFEATURESGUIADA POR ATENÇÃO VISUAL

Algoritmo 5: Algoritmo utilizando foveamento para obter features SURF em uma

imagem, onde Lxx(i;j;E), Lyy(i;j;E)e Lxy(i;j;E)são os filtros Laplacianos na es-

cala E centralizados em(i;j)e aplicados nas direções x, y e xy, respectivamente.

Entrada: I, w, h: imagem I de tamanho wh

Entrada: Fx;Fy: coordenada da fóvea

Entrada: S_m: tamanho do último nível

Entrada: G: fator de crescimento

Entrada: m: número de níveis menos um

Entrada: η: vetor contendo a oitava de cada nível

Entrada: B: vetor de descarte de níveis

Entrada: Ht: limiar do determinante da matriz Hessiana

Entrada: H_q: tamanho do filtro Haar na camada q

Saída: c: conjunto de features

S0;x w

S0;y y

parak 0 até m faça

3 seB[k] então 4 oitava η[k℄ 5 p 2oitava 1 6 δx k(S0 ;x Sm;x +2Fx)=(2m) 7 δy k(S0 ;y Sm ;y +2Fy)=(2m) 8 Sk;x (kSm ;x k S0 ;x +mS0 ;x )=m 9 Sk;y (kSm ;y k S0 ;y +mS0 ;y )=m 10

// Tamanho do maior filtro hessiano

m H1p

// Limite inferior e SUperior da delimitação

Lx max(m,δx Gx) 12 Ly max(m,δy Gy) 13 Ux min(S0;x,δx +Sk ;x +Gx) 14 Uy min(S0;y,δy +Sk ;y +Gy) 15

paraq 1 até 4 faça

parai Ly atéUyincrementando p faça

paraj L_xatéU_xincrementando p faça

18 dx Hx(i;j;Hqp) 19 dy Hy(i;j;Hqp) 20 dxy Hxy(i;j;Hqp) 21

sedxdy 0:81dxydxy > Ht então

adicionar(i;j;Hqp)ao conjunto c

centro do objeto detectado. Um problema ocorre se o sistema visual perde a posição ideal do centro da fóvea. Nesse caso, se a fóvea é posicionada longe do objeto, o sistema pode

4.3. SELEÇÃO DEFEATURESGUIADA POR PROCESSO DE ATENÇÃO VISUAL53 se tornar instável sem achar o objeto. Um outro exemplo é percorrer o campo visual para examinar o ambiente. Nesse caso, o sistema visual pode mover o centro da fóvea sistematicamente pelas regiões salientes da imagem. Outra possibilidade é utilizar atenção bottom-up e mover o centro da fóvea para uma região saliente.

Os estímulos bottom-up podem influenciar no sistema de atenção visual determinando a posição do centro da fóvea. Em uma possível aplicação, por exemplo, pode-se mover o centro da fóvea para uma região saliente com uma ponderação maior para movimentos no intuito de mover o foco da atenção para um possível objeto arremessado contra o robô.

Considerando que parte das tarefas em atenção top-down requer uma maior quanti- dade de informações na região requisitada pela atenção, é suficiente posicionar o centro da fóvea para essa região. Uma questão que surge é como uma tarefa se relaciona ao mó- dulo de atenção visual. Entre tarefas elementares que envolvem atenção top-down estão a busca exploratória e a tarefa de tracking. A subseção a seguir explora possibilidades de interação entre a tarefa de tracking e o módulo de atenção visual de forma que o sistema de visão seja robusto.

4.3.1 Atenção top-down em tracking

Em uma tarefa de tracking utilizando extração foveada de features, propõe-se sele- cionar somente partes do conjunto de features que são importantes na manutenção do

tracking. Features podem existir em escalas diferentes e se o objeto é aproximadamente

paralelo ao plano da câmera, então a escala das features pode ser estimada. Por exemplo, se o objeto está próximo da câmera, features de escalas maiores do objeto são casadas com as features de baixa escala do objeto comparativo. Por outro lado, se o objeto está longe da câmera, features de escalas menores do objeto são casadas com as features de alta escala do modelo.

Um diagrama para gerenciamento de tracking que utiliza o modelo de foveamento proposto pode ser visto na Figura 4.8. Se em determinado instante de tempo o objeto é detectado, o centro da fóvea é reposicionado para uma nova posição. No modelo de aten- ção proposto, a posição do centro da fóvea é alterada para o centro do objeto detectado. Caso o objeto não seja detectado no instante atual, o centro da fóvea precisa ser reposi- cionado para alguma posição que favoreça a redetecção do objeto. Cinco estratégias são apresentadas no diagrama:

Estratégia - manter a última posição do centro da fóvea:

seja Ft a posição no tempo t e Ct o centróide real do objeto no tempo t, então caso

o tracking for perdido, faz-se Ft+1

=Ft. Se o objeto não foi detectado por conta

de uma falsa detecção, essa estratégia tem o efeito de ignorar uma falsa detecção caso a detecção anterior tenha sido realizada com sucesso e Ct+1

Ct, ou seja, não

houve mudança rápida na posição do objeto e a última posição do centro da fóvea também é uma boa estimativa para o próximo instante de tempo.

Estratégia - baseado nos últimos n quadros:

utiliza os n últimos quadros para predizer uma nova posição; utilizando uma média ponderada dos últimos n quadros ou aplicando um filtro de Kalmann;

54CAPÍTULO 4. SELEÇÃO FOVEADA DEFEATURESGUIADA POR ATENÇÃO VISUAL

Estratégia - desabilitar o foveamento:

consiste em desabilitar o foveamento seja através da não execução do foveamento ou seja aumentando o fator de crescimento para um valor representativamente infi- nito. Nesse último caso, desde que observando os parâmetros utilizados. um pico de processamento ocorre devido ao aumento repentino no número de features;

Estratégia - incrementar o fator de crescimento:

o processo de recuperação ocorre de maneira gradual, com o tempo de processa- mento aumentando proporcionalmente ao aumento do número de features; pode-se nesse caso limitar um crescimento máximo de forma a não aumentar demasiada- mente o tempo de processamento.

Estratégia - utilização de atenção bottom-up:

como descrito anteriormente, um mapa de saliência pode ser usado para mover o centro da fóvea para uma região saliente em resposta a estímulos bottom-up. Nos experimentos que utilizam essa estratégia, cada vez que se perde a detecção do ob- jeto, o mapa de saliência é calculado, um limiar é aplicado nesse mapa e o centro da fóvea é deslocado para o centróide das regiões salientes. Como também afirmado anteriormente, o modelo de foveamento proposto utiliza somente um foveamento por vez. Dessa forma, assume-se que esse centróide esteja próximo do centro do objeto. Diversos algoritmos podem ser utilizados nesse caso, mas se o objeto não é mais detectado por conta de um movimento rápido do objeto, então o movimento é uma feature importante no cálculo do mapa de saliências. Com isso em mente, utiliza-se o mapa de saliências proposto por Butko [Butko et al. 2008], uma vez que demonstra ser rápido e também eficiente em enfatizar informações de movimento (vide Figura 5.5). Realizando-se um experimento onde o mapa de saliências é cal- culado na imagem original escalonado para 20% do tamanho original utilizando o mapa de saliências proposto por Butko, constata-se uma redução do tempo de processamento de 330ms por quadro para cerca de 6ms por quadro.

Uma questão que surge nesse tipo de sistema é como saber se o objeto foi detectado ou não sem conhecimento prévio. Neste trabalho, considerando que a imagem do objeto retangular é projetada como um quadrilátero na imagem a ser processada, utiliza-se a seguinte heurística: um objeto é considerado detectado quando a diferença entre as duas diagonais desse quadrilátero é menor que 10% da maior diagonal e a distância média entre os descritores que foram casados é menor que 0.20. Os descritores são normalizados de forma que a distância máxima possível é 2. Exemplo de detecções consideradas bem- sucedidas e mal-sucedidas podem ser vistas na Figura 4.9.

Se há mais de um objeto, há duas possibilidades. Embora seja difícil para os humanos fovear mais de uma região ao mesmo tempo, é possível fovear quantas regiões forem necessárias via software. Como consequência, o tempo de processamento é incrementado se os mesmos parâmetros são usados. Uma opção é reduzir a atenção ou informações visuais para cada objeto de forma que o tempo de processamento médio continue por volta do mesmo valor. Outra opção é fovear cada objeto e processá-los em sequência. O modelo proposto neste trabalho realiza somente um foveamento por vez. Se dois objetos, por exemplo, exigem atenção top-down, então o sistema de visão presta atenção a um dos objetos em um momento e ao outro objeto em um momento seguinte.

In document Utviklinga av historiske spel i Noreg (sider 84-87)