Refleksjon - Mennesker i en rehabiliteringsprosess

Com a promessa de proporcionar um acesso pleno de significados ao mundo multimídia, a pesquisa em sistemas de RIA ainda está em sua infância. Concentrada no desenvolvimento de

processos e ferramentas de indexação automática, que possam extrair significados e conceitos de audiovisuais sem a interferência humana direta, busca também o aprimoramento de métodos de indexação híbrida, isto é de anotação interativa entre homem e computador. Diversos problemas podem ser minimizados com a associação das extremadas capacidades visuais e mentais humanas com os poderosos recursos da informática.

A subjetividade certamente dificulta que a indexação reflita totalmente as necessidades in- formacionais do usuário, por outro lado técnicas que visem a aproximar o contexto da indexação, ou do anotador, às exigências do usuário, podem reduzir esta dificuldade. A restrição de domí- nios permite uma busca mais acurada, e a criação de ontologias procura no âmbito da anotação garantir que conteúdos semanticamente semelhantes sejam cruzados, mesmo quando descritos por sujeitos distintos com vocabulários distintos. Isto permite que uma anotação seja pesqui- sada por critérios semanticamente semelhantes, mas não iguais. No entanto, as ontologias ainda não resolvem a questão dos grupos de interesse diversos que podem criar e pesquisar metadados segundo conceitos e objetivos distintos.

Uma indexação comunitária pode facilitar a aproximação entre os contextos do criador, do anotador e do utilizador do filme. A participação dos membros da comunidade na anotação per- mite compreender melhor as necessidades específicas de cada grupo e garantir mais confiança e relevância (SHABAJEE; MILLER; DINGLEY, 2002; OLIVEIRA, 2008). Neste caso, diferentes graus de acesso ao repositório de informação permitem 4 modos de anotação:

• Comunidades de confiança (trusted): organizações que fornecem e validam informação e que se consideram seguras sob o ponto de vista da validade e relevância;

• Comunidades moderadas: membros específicos da comunidade produzem e validam as anotações, sendo responsáveis pela gestão da informação;

• Anotações abertas: podem ser feitas por qualquer usuário do sistema, e serem moderadas ou não;

• Anotações de terceiros: outros utilizadores registram suas anotações sobre os conteúdos do sistema, e não existe controle sobre essa informação.

Anotações de todos os tipos tem se tornado comuns na Internet, num processo chamado etno- classificação, isto é, classificação popular ou Folksonomia por meio de etiquetas (tags) anexadas aos arquivos pelos seus criadores ou utilizadores e usadas como palavras-chave na recuperação

(CATARINO; BAPTISTA, 2007).

Recentemente, muitos elementos textuais foram incorporados nos formatos de arquivos de imagem digital como metadados explicitamente incluídos com diversas funcionalidades, por exemplo: os padrões EXIF, – que permite o registro de dados técnicos de operação –; e IPTC – que guarda comentários e marcas de copyright e localização por GPS (Global Positioning Sys- tem). Para fluxos de imagens os padrões MPEG permitem que informação de diversas fontes se- jam referenciadas em um arquivo XML anexado ao vídeo consistindo de descrições e anotações em vários níveis de abstração e granularidade. São esquemas de descrição que configuram uma estrutura de metadados que pode ser utilizado de múltiplas maneiras, de forma que do mesmo objeto é possível extrair mais de uma representação, adaptando a indexação ao contexto situacio- nal de necessidade de informação do usuário. A conveniência do princípio da poli-representação de unidades fílmicas foi destacada por Cordeiro (2000, p. 85) e TARÍN (2006) e tem sido usado para personalizar apresentações multimídia (SCHERP; BOLL, 2005), buscas (CRUZ; MOTTA, 2006) e até sistemas que automatizam a produção de roteiros (ADAMS; VENKATESH, 2005).

Outras aplicações baseadas em MPEG-7 foram reportados por (DUTRA; TAROUCO; KON- RATH, 2004; SANTOS; NETO, 2004) e uma avaliação das ferramentas para anotação foi feita por Doller, Lefin e Kosch (2007). A utilização didática foi discutida por Dallacosta, Dutra e Tarouco (2004), e para a TV Digital brasileira por Silveira et al. (2003), Gradvohl (2005).

Jaimes et al. (2005) chama a atenção para os novos caminhos da RIA, que passam pelo apro- veitamento intensivo dos padrões (como o MPEG-7) e na consolidação de processos baseados em metadados, que devem ser aplicados de forma mais contextual e recorrer à anotação de base comunitária, com a exploração de fontes cada vez mais diversificadas.

A normas MPEG (SOTT; CANTARELLI, 2006; SRINIVASAN; DIVAKARAN, 2005) são conjuntos de ferramentas para auxílio à indexação de produtos audiovisuais, como interfaces de anotação e aplicativos de busca, sendo a solução de armazenamento e identificação de con- teúdo mais promissora atualmente. O MPEG-7 suporta vários graus de abstração, permitindo a classificação de elementos de baixo nível e de informações semânticas de alto nível. O MPEG- 21 procura a definição de uma unidade essencial de distribuição e transação denominada “Item Digital”, que mantém um registro de utilização do recurso e inclui uma norma de “Direitos de Expressão de Linguagem” que define direitos, permissões e restrições de conteúdos digitais entre

criadores e consumidores de conteúdo.

Os elementos mais importantes da norma MPEG-7 são os descritores, os esquemas de des- crição, uma linguagem de definição de descrição e as ferramentas de sistema:

• Descritor - uma representação de uma característica. Um descritor define a sintaxe e a semântica da representação da característica. Descritores foram criados para descrever características de baixo nível, que podem ser extraídas automaticamente, como cor, textura, localização e tempo;

• Esquema de Descrição - descreve características audiovisuais de alto nível, como regiões, segmentos e objetos, que devem ser extraídas com a ajuda de ferramentas auxiliares. É composto por vários Descritores e outros Esquemas de Descrição. Define a estrutura e semânticas dos relacionamentos entre seus componentes;

• Linguagem de Definição de Descrição - uma linguagem que permite a criação de novos Es- quemas de Descrição e Descritores e a extensão e modificação dos Esquemas de Descrição e Descritores existentes;

• Ferramentas de Sistema - softwares que dão suporte à multiplexação de descrições, sin- cronização de descrições e conteúdos, mecanismos de troca e codificações para armazena- mento e transmissão, e gerenciamento e proteção da propriedade intelectual.

A Figura 2.17 apresenta a interface do software Frameline42, para anotação de audiovisuais no padrão MPEG-7. Observa-se a disposição de campos para identificação de pessoas (who), de assuntos (what), de tema (ou tópico, thread), de eventos, de local e de tempo, além de um valor de relevância para o item. Outra ferramenta popular é o conjunto Caliph & Emir43.

42_{http://www.frameline.tv/}

Figura 2.17: Interface para anotação MPEG-7 do programa Frameline 47. Fonte:http://www.frameline.tv/software_notate.php

O padrão MPEG-7 vem se consolidando como uma framework de preferência, mas tam- bém existem sistemas de indexação de vídeos baseados em diversos outros padrões, como as extensões para o Dublin Core, descritos em Agnew e Kiesner (2001). Explorando um outro pa- radigma existem simulações para a criação de um sistema puramente visual de anotação, em que o conteúdo das imagens é descrito por signos que representam elementos imagéticos, como ide- ogramas que, uma vez conhecidos, formam um tipo de anotação que é independente da língua44. Esquemas de anotação abrem muitas possibilidades interessantes para aperfeiçoamento da indexação de vídeos como a proposta por Salway (1999), que relata um experimento no domí- nio da Dança, onde sugere correlacionar a informação visual a frases ou sentenças completas, que posteriormente são anexados ao filme como “textos colaterais”. Após submeter os filmes à descrição e interpretação por expertos, estas anotações são traduzidas para uma “linguagem da Dança” e o texto obtido é apresentado simultaneamente ao vídeo formando assim um sistema de

“conhecimento enriquecido” (knowledge-rich), adequado a ambientes educacionais. O conceito foi retomado por Westermann et al. (2005, p. 305) na forma de EMMO (Enhaced Multimedia MetaObjects), um novo objeto digital que reúne o conteúdo, a descrição e a funcionalidade de um arquivo audiovisual.

A combinação de anotações comunitárias descentralizadas e recuperação multimodal para realizar buscas por exemplo (QBE) em vídeo e música, com a utilização da plataforma UIMA (cf p. 76), está sendo testado com o sistema SAPIR45 (Search in audio-visual content using peer- to-peer information retrieval), um projeto europeu de larga escala apoiado por grandes empresas ligadas ao IST46. Em uma outra linha Schroeter, Hunter e Kosovic (2003) relatam uma aplicação de anotação em videoconferência que permite a discussão e a indexação colaborativa em tempo real. Entre outras motivações, estas pesquisas buscam consolidar os novos parâmetros do tele- trabalho, onde recursos como estes são estruturais.

Uma experiência de “computação assistida por humanos”(Human-Aided Computing) utiliza as respostas inconscientes do cérebro para aprimorar a aprendizagem dos sistemas de reconhe- cimento visual. Uma pessoa ao ver uma imagem pode perceber mais informação do que chega a conscientizar, assim a leitura das ondas cerebrais pode ser usada para marcar os momentos em que há o reconhecimento de um objeto específico na imagem, e de forma muito mais rápida do que na anotação manual (KAPOOR; SHENOY; HORVITZ, 2008).

Além da informação visual que pode ser obtida do fluxo de imagens, a informação textual, na forma de diálogos e narrações ou legendas, créditos e outros elementos gráficos podem ser extraídos de um fluxo de vídeos. Símbolos gráficos podem ser lidos por programas do tipo OCR, e assim, quando há legendas não é difícil se obter a informação de fala. Mas no caso de do- cumentários brasileiros isto raramente ocorre, sendo necessário então a utilização de programas que decodifiquem a fala humana, que é o assunto da próxima seção.

In document Mennesker i en rehabiliteringsprosess (sider 86-91)