4. De moralske grensene
4.1 En verden av likeverd?
4.2.1 Arbeidsetikken – vilje og engasjement
Compreendendo todo o processo de recuperação de imagens baseado em conteúdo e suas técnicas, podemos explanar sobre alguns métodos conhecidos para mensurar o desempenho de um sistema CBIR. Detalhamos aqui os seguintes métodos de avaliação de desempenho de sistemas: as medidas de precisão e revocação, precisão em k, Mean
2.3. Métodos de Avaliação dos sistemas de recuperação 49
2.3.1 Precisão x Revocação
As duas medidas mais eĄcazes e frequentemente utilizadas no contexto de recuperação de imagens são a precisão e a revocação. Estas medidas são, primeiramente, deĄnidas por um caso simples, por exemplo, sistema de recuperação de informação (Information
Retrieval (IR)) que tem como objetivo retornar um conjunto de documentos de acordo
com a consulta (query) (MANNING; RAGHAVAN; SCHÜTZE, 2008).
A precisão (P) é a fração de documentos recuperados que são relevantes, já a revocação (R) é a fração de documentos relevantes que são recuperados (WEN; ZHANG; RAMA- MOHANARAO, 2014). Estas noções podem Ącar mais claras examinando a seguinte tabela de contingência (veja a Tabela 1):
Tabela 1 Ű Tabela de contingência (modiĄcado de (MANNING; RAGHAVAN; SCHÜTZE, 2008)).
Relevantes Não Relevantes
Recuperado verdadeiros positivos (𝑣𝑝) falsos positivos (𝑓𝑝) Não recuperado falsos negativos (𝑓𝑛) verdadeiros negativos (𝑣𝑛) A precisão e revocação são formuladas da seguinte maneira:
𝑃 = 𝑣𝑝
(𝑣𝑝 + 𝑓𝑝) (6)
𝑅= 𝑣𝑝
(𝑣𝑝 + 𝑓𝑛) (7)
As medidas de precisão e revocação concentram-se na avaliação do retorno de ver- dadeiros positivos, perguntando qual a porcentagem dos documentos relevantes que são encontrados e quantos falsos positivos também foram retornados. Em um bom sistema, a precisão geralmente diminui à medida que o número de documentos recuperados au- menta. Em geral, deve-se tolerar apenas uma certa quantidade de revocação enquanto admite apenas uma certa porcentagem de falsos positivos.
A Figura 9 mostra um exemplo de gráĄco de precisão e revocação, no qual duas curvas são apresentadas, 𝑋 e 𝑌 . De acordo com a Figura 9 as curvas apresentam comportamentos diferentes, ou seja, os algoritmos aplicados para a recuperação são distintos. Analisando a curva 𝑋, nota-se que a mesma contém valores altos de precisão para níveis de revocação baixos, signiĄcando que a busca realizada pelo usuário retorna as imagens relevantes nas primeiras posições, o que pode ser interessante quando apenas as 20 ou 30 primeiras imagens são importantes. Enquanto que a curva 𝑌 apresenta maior precisão que a curva
𝑋 para níveis de alta revocação, este comportamento é ideal para um usuário que deseje
garantir que todas as imagens relevantes foram recuperadas de fato.
Em casos em que para o usuário o importante é a quantidade de resultados bons que serão exibidos na primeira página ou nas três primeiras páginas, particularmente nas pesquisas na web, é interessante utilizar a precisão em uma posição Ąxa, chamada de precisão em k.
50 Capítulo 2. Fundamentação Teórica
Figura 9 Ű Exemplo de gráĄco de precisão e revocação.
2.3.2 Precisão em k
A precisão em k (precision at k) é um fator de medida em todos os níveis de revocação, e que objetiva medir a precisão Ąxa em baixos níveis de resultados recuperados, tal como 10 ou 30 documentos. Isto é chamado como Şprecision at kŤ, onde o k é a posição Ąxa da precisão, por exemplo Şprecisão em 10Ť. A vantagem é que não é necessário avaliar qualquer tamanho do conjunto de documentos relevantes. E as desvantagens são mínimas, em que as medidas de avaliação normalmente utilizadas, e que não têm uma boa medida (ou seja, número pequeno de documentos relevantes para uma consulta), tem uma forte inĆuência na precisão em k.
Apresentamos a seguir uma outra medida que tem mostrado uma boa descriminação e estabilidade, chamada de Mean Average Precision (MAP), a seguir.
2.3.3 Mean Average Precision
Entre as medidas de avaliação, o Mean Average Precision (MAP) é o que tem demons- trado uma boa discriminação e estabilidade, fornecendo uma medida de um único valor de qualidade entre os diferentes níveis de revocação (MANNING; RAGHAVAN; SCHÜTZE, 2008). O MAP é a média do Average Precison (AP), e a AP pode ser deĄnida como a média dos valores das precisões obtidas pelo conjunto de top k documentos existentes após cada documento relevante recuperado, assim, calcula-se a média dos valores sobre as informações das precisões. Isto é, para uma única consulta 𝑞j ∈ 𝑄, AP é a média das
2.3. Métodos de Avaliação dos sistemas de recuperação 51
lista ranqueada, e este valor é então calculado sobre o conjunto de consultas 𝑄:
𝑀 𝐴𝑃(𝑄) = 1 ♣ 𝑄 ♣ |Q| ∑︁ j=1 1 𝑚j mj ∑︁ k=1 precisão(𝑅jk) (8)
Onde 𝑅jk é o conjunto de resultados ranqueados, iniciando dos melhores resultados
até chegar ao item 𝑑k. Quando um documento relevante não é recuperado de todos5, o
valor da precisão na Eq. (8) é feita para ser 0.
Utilizando o MAP, os níveis de revocação Ąxos não são escolhidos e não possuem interpolação. O valor MAP para uma coleção de teste é a média aritmética dos valores das precisões médias para uma única informação da precisão. Isto tem o efeito de ponderação equivalente para cada informação, mesmo que muitos documentos sejam relevantes para algumas consultas, ao passo que, poucos são relevantes para outras consultas.
Por Ąm, apresentamos, a seguir, uma medida de avaliação que realiza uma ponderação nos resultados, sendo que os resultados corretos que estão nas primeiras respostas têm um peso maior do que as que estão nas últimas posições das respostas, esta medida é chamada de Discounted Cumulative Gain (DCG).
2.3.4 Discounted Cumulative Gain
A avaliação de desempenho Discounted Cumulative Gain (DCG) foi proposta por Järvelin e Kekäläinen (JÄRVELIN; KEKÄLÄINEN, 2002), e é considerada como uma estatística que pondera resultados corretos. Os resultados localizados nas posições na frente de uma lista, têm um peso maior do que os resultados corretos mais ao Ąnal da lista de classiĄcação, supondo que o usuário não considerará os elementos próximos ao Ąm da lista.
(DUPRET; PIWOWARSKI, 2013) relatam que existem duas interpretações para essa métrica, que são a utilitário e a probabilística. Olhando do ponto de vista utilitário, considera-se que a utilidade de um documento para um usuário diminui quando o docu- mento tem um ranqueamento baixo. Já para o probabilístico, considera-se que todos os documentos não são examinados com a mesma probabilidade, isto é motivado pelo fato que a escolha do documento tem uma probabilidade de acordo com sua posição no rank, ou seja, se o documento está nas últimas posições, a probabilidade de ser escolhido pelo usuário é menor do que o documento que está nas primeiras posições.
EspeciĄcadamente, a lista de classiĄcação 𝑅 é convertida para uma lista 𝐺, em que os elementos 𝐺i têm valor 1 se os elementos 𝑅i estão na classe correta e o valor 0 caso
5
Um sistema não pode ordenar todos os documentos em uma coleção como resposta para uma consulta, ou pelos menos pode ser baseado no envio de apenas os top k resultados para cada informação da precisão.
52 Capítulo 2. Fundamentação Teórica
contrário. O DCGk é então deĄnido como a seguir (SHILANE et al., 2004):
𝐷𝐶𝐺k = 𝐺1+ k ∑︁ i=2 𝐺i log2(𝑖) (9)
onde o 𝑘 é a posição do 𝑟𝑎𝑛𝑘𝑖𝑛𝑔 da lista 𝐺.
Para que seja possível a comparação do desempenho de diferentes algoritmos, os valores dos DCGs obtidos de cada algoritmo devem ser normalizados (MANNING; RAGHAVAN; SCHÜTZE, 2008). Então, o resultado obtido da Eq. (9) é dividido pelo DCGk máximo
possível que corresponde ao ranqueamento perfeito, que será chamado de IDCGk Ű Ideal
DCGk (por exemplo, seria os 𝑘 primeiros elementos que estão todos classiĄcados na classe
correta). A Eq. (10) mostra a normalização do DCG (nDCG).
𝑛𝐷𝐶𝐺k= 𝐷𝐶𝐺k 𝐼𝐷𝐶𝐺k , 𝐼𝐷𝐶𝐺k= 1 + k ∑︁ i=2 1 𝑙𝑜𝑔2(𝑖) , 𝑘 ⊘♣ 𝐶 ♣ (10)
onde ♣ 𝐶 ♣ é o número de elementos relevantes.
Os valores de nDCGkvariam no intervalo de [0,1]. Os resultados do nDCG de todas as
consultas podem ser totalizados em uma média aritmética para que seja usado como valor do desempenho do algoritmo utilizado e quanto maior este valor, melhor é o resultado.
Por Ąm, foram apresentados neste capítulo alguns aspectos importantes a serem con- siderados no processo de recuperação de imagem baseado em conteúdo como: extração de características, medidas de similaridade, consultas por similaridade e métodos de ava- liação de sistemas CBIR para avaliar a qualidade dos resultados obtidos.
No próximo capítulo são descritas algumas abordagens para caracterizar um conjunto de imagens com intuito de otimizar a recuperação.
53