Utilizamos valores angulares no lugar do número de pixels nas direções da largura e da altura da imagem para determinar a localização de um determinado pixel numa imagem.
4.3. RECONSTRUÇÃO GEOMÉTRICA BASEADA EM COORDENADAS POLARES39 Assim, deslocamos o centro do eixo de pixels, geralmente localizado no canto superior direito, para o centro da imagem.
Esta notação permite relacionar-se facilmente os pontos na imagem com o cone ab- soluto Ω da imagem, demonstrado no Capítulo 2, centralizado no centro de projeção da câmera, utilizando-se o modelo de orifício. Devido a aquisição das imagens ser feita em pixels, é necessário converter a posição de um ponto na imagem de pixels para ângulos. Para tal conversão, é necessário obter-se as frações entre a posição do ponto, em pixels, e a largura e a altura da imagem, também expressa em pixels. Em seguida relacionar estas frações aos ângulos de abertura horizontal e vertical da câmera. Esta notação é ilustrada na figura 4.5, para o caso de uma imagem de 320 por 240 pixels de uma câmera com ângulo de abertura horizontal igual a 70oe ângulo de abertura vertical igual a 52.5o.
Figura 4.5: Comparação das notações para representação das imagens
É necessário o conhecimento ou obtenção dos ângulos de abertura horizontal e ver- tical da câmera. Estes valores podem ser obtidos na documentação do fabricante ou ex- perimentalmente de forma simples. Posicionando-se a câmera a uma distância conhecida de um objeto com escala métrica, é possível verificar os limites desta escala visualizados na imagem da câmera. Repetindo-se este processo nas direções horizontal e vertical é possível calcular o ângulo de abertura em uma destas direções, como ilustra a figura 4.6, o qual é dado por:
AH= 2 ∗ arctaneh
d (4.4)
AV = 2 ∗ arctanev
Figura 4.6: Esquema para medição dos ângulos de abertura da câmera Onde eh= ef h− eih 2 ev= ef v− eiv 2
Sendo que AH é o ângulo de abertura horizontal da câmera, AV é o ângulo de abertura vertical da câmera, d é a distância entre o centro óptico da câmera e o objeto com a escala métrica, ehe evrepresentam metade da variação de escala visualizada pela câmera, sendo ef h, ef vo valor final da escala visualizada e eih, eiv o valor inicial da escala visualizada, respectivamente nas direções horizontal e vertical.
Estes parâmetros de abertura vertical e abertura horizontal da câmera são invariáveis para câmeras que não apresentam lentes de magnificação, zoom. Logo podem ser con- siderados parâmetros intrínsecos constantes à variação da distância focal das câmeras, ilustrados na figura 4.7. No caso do modelo de câmera utilizado neste trabalho, Creative nx Ultra, o ângulo de abertura horizontal equivale a 70o e o ângulo de abertura 52.5o, respectivamente. Considera-se a imagem retificada, onde as imagens ∏′ e∏ são planos paralelos entre si, diferindo apenas no valor da distância focal. Neste caso, a conversão da notação de pixel para ângulos é feita segundo as equações 4.6 e 4.7:
α = xp l ∗ AH − AH 2 (4.6) β =yp a ∗ AV − AV 2 (4.7)
4.3. RECONSTRUÇÃO GEOMÉTRICA BASEADA EM COORDENADAS POLARES41
Figura 4.7: Invariância da representação por coordenadas polares em relação à distância focal
onde α é o ângulo na direção horizontal, β é o ângulo na direção vertical, xpé a posição x de um ponto p, yp é a posição y do ponto p, AH é o ângulo de abertura horizontal da câmera, AV é o ângulo de abertura vertical, l é a largura da imagem e a a altura da imagem.
Exemplificando a utilização desta notação, os pontos na imagem 4.5 possuirão os seguinte valores:
• a = 120,80 pixels = -8,75o,8,75o • b = 200,80 pixels = 8,75o,8,75o • c = 120,160 pixels = -8,75o,-8,75o • d = 200,160 pixels = 8,75o,-8,75o
Adicionando-se a distância euclidiana entre um ponto p e o centro da imagem aos ângulos α e β temos as coordenadas polares tridimensionais deste ponto. Utilizando- se esta notação de coordenadas polares tridimensionais como coordenadas da imagem relacionamos diretamente a geometria da cena com a geometria da imagem através dos ângulos α e β. A distância euclidiana entre o centro óptico da câmera e o objeto em cena, no mundo, é equivalente à distância euclidiana entre o centro da imagem e o ponto p, na imagem. Logo, esta notação de coordenadas polares simplifica o mapeamento das coordenadas de mundo em coordenadas de imagem, pois existe uma representação direta da distância entre objeto e a câmera.
Para a obtenção da distância euclidiana entre o centro da imagem e um ponto nesta imagem, é necessário o conhecimento de alguma informação geométrica adicional sobre a cena. para relacionar a distância expressa em pixels na imagem para uma distância métrica no mundo. Informações geométricas adicionais sobre ambientes desconhecidos são improváveis de ocorrer, porém, utilizando-se um sistema de visão estéreo com os
ângulos de juntas e distância entre os centros ópticos das câmeras conhecidas, é possível obter esta distância e conseqüentemente a profundidade da cena.
Efetuando-se o mapeamento das coordenas de mundo (métricas tridimensionais), em coordenadas da imagem, (pixels bidimensionais), utilizando-se apenas a disparidade en- tre as imagens, não é possível reconstruir metricamente uma cena, sendo necessário o conhecimento da distância focal.
Utilizando-se uma distância focal fixa, a reconstrução geométrica será próxima da real apenas para distâncias próximas da qual o padrão estava quando se efetuou a calibração da câmera, segundo Zhang []. Utilizando um sistema de autocalibração, é possível calcular as diferentes distâncias focais entre objetos e a câmera, durante a execução desta. Assim, para calcular-se a profundidade de forma precisa, é necessário calcular a distância focal para todos os pontos desejados.
Como os ângulos de abertura horizontal e vertical da câmera são constantes à vari- ação da distância focal, e a notação de coordenadas polares tridimensionais relaciona diretamente a geometria da cena com a geometria da imagem, esta notação demonstra- se adequada para o problema da visão estéreo e reconstrução geométrica de uma cena por simplificar o processo, sendo possível recuperar de maneira simples a distância focal para cada ponto através desta notação. A reconstrução geométrica da cena é simplificada, através da utilização de dois pares de coordenadas polares. Os ângulos destes pares são obtidos pelas imagens das câmeras, e o conhecimento dos ângulos de juntas e as distância entre os centros ópticos das câmeras, permite estimar a distância entre os objetos e as câmeras.
Na estereoscopia, a reconstrução da cena basea-se no princípio da triangulação retifi- cada das imagens, demonstrado no Capítulo 3. Esta triangulação fornece a noção de pro- fundidade. Para obtermos uma maior precisão da tridimensionalidade da cena devemos considerar o posicionamento dos objetos em cena, efetuando correções na profundidade devido à posição, já que os objetos estão distribuídos na cena e não ocupando a posição central.
A distância PM obtida por triangulação retificada na etapa de reconstrução geométrica da cena representa a distância euclidiana entre o centro da cabeça estéreo, representado pelo ponto M, e um ponto P na imagem. Esta distância só será igual a profundidade do ponto P caso este esteja alinhado verticalmente e horizontalmente com o ponto M. Logo é preciso relacionar esta distância com a geometria da cena para obter-se a profundidade do ponto P. Recuperando-se a posição tridimensional do ponto P em relação ao robô, é possível calcular a profundidade deste ponto a partir da distância PM. A figura 4.8 demonstra a relação entre PM, o ângulo αM e a profundidade z.
A profundidade z é a projeção da distância PM no eixo z, e a inclinação de PM em relação ao eixo z é representada pelo ângulo αM 4.8. O valor de αM é desconhecido, porém, é facilmente calculado pela equação 4.8 como a média dos valores dos ângulos αO e αO′menos o valor do ângulo de "pan"θ1 da cabeça estéreo. Os ângulos αO e αO′ são calculado segundo a equação 4.6.
αM=
αO+ αO′
4.3. RECONSTRUÇÃO GEOMÉTRICA BASEADA EM COORDENADAS POLARES43
Figura 4.8: Representação das projeções da distância PM no plano horizontal A cena possui uma estrutura tridimensional. Logo a profundidade z será a projeção de PMsobre o eixo z se o ponto P estiver alinhado verticalmente com o ponto M na cabeça estéreo. Devido o robô ser projetado para locomover-se em ambientes desconhecidos, as câmeras são posicionadas de forma a visualizar o piso a distâncias próximas ao robô, portanto, geralmente, o robô apresenta um valor positivo para o ângulo de "tilt"θ2 da cabeça estéreo. A figura 4.9 demonstra a relação entre PM, os ângulos βM, θ2 e β e a profundidade z.
O valor de βM é desconhecido, porém é facilmente calculado pela equação 4.9. Este ângulo βM é semelhante para ambas as câmeras e para o ponto médio M, pois as câmeras movimentam-se de forma dependente em relação ao conjunto da cabeça estéreo.
βM= 90 − θ2− AV 2 + iy a∗ AV (4.9) onde θ2 é o ângulo de "tilt"da cabeça estéreo, AV é o ângulo de abertura vertical da câmera, iy é a coordenada y da posição do ponto P na imagem e a é a altura da imagem. Os dois primeiros são representados em graus e os dois últimos em pixels.
Assim, podemos calcular as projeções da distância PM obtida pela estereoscopia através dos ângulos αM e βM, obtendo-se as coordenadas polares tridimensionais para o ponto P em relação ao ponto M e recuperando-se a profundidade deste ponto em relação ao robô, conforme mostrada na figura 4.10.
A figura 4.11 representa o esquema detalhado da estrutura tridimensional da cena ilustrada na figura 4.10. Onde O é o centro óptico da câmera direita, O′é o centro óptico da câmera esquerda, M é o ponto médio entre os dois centros ópticos, (ix, iy) são as coor- denadas do ponto de interesse P, z é a profundidade do ponto de interesse em relação ao
Figura 4.9: Representação da projeção da distância PM no plano vertical
Figura 4.10: Esquema simplificado da representação por coordenadas polares relacio- nando a cabeça estéreo e um ponto P
robô, POY é a projeção de PO sobre o plano vertical, POX é a projeção de PO sobre o plano horizontal, POY′é a projeção de PO′sobre o plano vertical, POX′é a projeção de PO′sobre o plano horizontal, PMY é a projeção de PM sobre o plano vertical, PMX é a projeção de PM sobre o plano horizontal, αM é o ângulo correspondente ao deslocamento horizontal do ponto P em relação a M, αO é o ângulo correspondente ao deslocamento
4.4. AUTOCALIBRAÇÃO ATRAVÉS DAS COORDENADAS POLARES 45