THE LAW
A. Admissibility
Um sistema é uma coleção de componentes organizada para função ou conjunto de funções, é composto por componentes inter-relacionados organizados para propósitos definidos (ISO, 2010; IEEE, 1990; ISO, 2008a; IEEE, 2016). Sistemas de informação são sistemas desenvolvidos para identificar e recuperar recursos de informação, repre- sentar atributos de recursos, organizar recursos e organizar representações de recursos. Os processos geralmente presentes em sistemas de informação são desenvolvimento de coleção, representação, organização e recuperação da informação (JACOB,2004).Gilliland
(2008) relaciona as seguintes atividades no desenvolvimento de sistemas de informação: identificar esquemas de metadados e aplicá-los de modo a atender necessidades de quem cria e necessidades de quem usa informação, definir granularidade e outros aspectos dos metadados necessários para se alcançar os objetivos definidos, garantir que os vocabulários controlados sejam atuais e garantir que as terminologias sejam as apropriadas.
Um sistema de armazenamento e recuperação da informação (information storage
and retrieval system) engloba operações, equipamentos e software por meio dos quais recur-
sos de informação são indexados e armazenados de tal modo que possam ser recuperados em resposta a solicitações realizadas por meio de comandos aceitos pelo sistema (NISO,
2005). Os primeiros sistemas de recuperação da informação surgiram da necessidade de organizar repositórios centrais tais como bibliotecas. Na medida em que computadores se tornaram comercialmente disponíveis, eles passaram a integrar sistemas de recuperação da informação (KOWALSKI; MAYBURY, 2002). Existem diversas classes de sistemas de recuperação da informação, por exemplo, sistema de recuperação da informação em linha (online) e sistema de recuperação da informação na Internet. Nos sistemas de recuperação
da informação em linha (online), frequentemente a informação é representada por pro- fissionais e são usados vocabulários controlados. Por sua vez, os sistemas de recuperação da informação na Internet caracterizam-se pelo uso de algoritmos para automatizar a indexação e ordenar resultados. Esses sistemas são usados em ambiente com as seguintes características: pouco controle de qualidade na produção de informação; presença de recursos de informação em diversos idiomas, tamanhos e formatos; presença de recursos de informação não estruturados ou pouco estruturados; e raro uso de vocabulários controlados (CHU, 2010;LEWANDOWSKI,2005;ROWLEY; HARTLEY,2008). Como características da recuperação da informação na World Wide Web, Baeza-Yates e Ribeiro-Neto (2011) relacionam coleção com grande quantidade de recursos, recursos distribuídos entre sítios, recursos conectados por hiperligações (hyperlink) e grande quantidade de consultas. Para
Maarek (2011), certas características frequentemente apresentadas por recursos de informa- ção na World Wide Web resultam em desafios ao processo de recuperação da informação. Por exemplo, as seguintes: distribuição, volatilidade, quantidade, falta de estruturação, redundância, qualidade e heterogeneidade. No contexto da World Wide Web, Maarek
(2011) também menciona dificuldades dos usuários para expressar consultas e interpretar resultados.
3.4.3.1 Avaliação de sistema de recuperação da informação
Um importante objetivo de um sistema de recuperação da informação é recuperar todos os recursos relevantes e o mínimo de recursos irrelevantes. Para recuperar informação, os usuários dessa classe de sistema geralmente traduzem as suas necessidades de informação em consultas formuladas por meio de linguagens providas por esses sistemas (BAEZA- YATES; RIBEIRO-NETO, 2011). Segundo Kowalski e Maybury (2002), uma medida de sucesso de um sistema de recuperação da informação é quanto ele consegue minimizar o tempo gasto pelo usuário para encontrar a informação necessária, excluído o tempo para leitura de itens relevantes. Um sistema de recuperação da informação deve minimizar o tempo gasto na composição da busca, na execução da busca e na leitura de itens irrelevantes ao usuário. Kowalski e Maybury (2002) destacam que sistemas de recuperação da informação têm papel no suporte aos usuários na geração de consultas e na apresentação de resultados em formatos que facilitem a determinação da informação relevante. Para esses autores, são obstáculos: ambiguidades em linguagens, limitações do usuário, e diferenças entre o vocabulário do usuário e o usado por autor do recurso de informação. Entre as limitações dos usuários de sistemas de recuperação da informação, Kowalski e Maybury
(2002) citam a falta de conhecimento do vocabulário no domínio dos recursos consultados e a falta de foco na informação necessária.
Em sistema de recuperação da informação, a informação pode ou não ser recuperada em resposta à consulta do usuário (KOWALSKI; MAYBURY, 2002). Um sistema de recuperação da informação pode ser avaliado segundo diversos critérios. Nesse contexto,
avaliar é determinar sistematicamente o grau com o qual é atendido certo critério (IEEE,
2016). A seguir, são listadas medidas de avaliação de sistema de recuperação da informação: custo, tempo de resposta (tempo entre a submissão da consulta e o retorno dos resultados), precisão (precision) e revocação (recall). A figura 6 apresenta relações entre alguns dos conceitos anteriormente citados.
Figura 6 – Medidas de avaliação de sistema de recuperação da informação
Fonte: Elaborado pelo autor
A precisão mede a exatidão dos resultados, a capacidade de um sistema recuperar apenas recursos relevantes, de um sistema suprimir informação irrelevante. É calculada dividindo-se a quantidade de recursos relevantes recuperados pela quantidade total de recursos recuperados. A precisão pode ser interpretada como a probabilidade de um recurso recuperado ser relevante (BINKLEY; LAWRIE, 2010; GLUSHKO, 2013; NISO, 2005;
ROWLEY; HARTLEY, 2008). Alta precisão indica quantidade elevada de recursos de informação relevantes no resultado (GÖDERT; HUBRICH; NAGELSCHMIDT, 2014). A revocação mede o quão completo é um conjunto de resultados, quanto dos recursos relevantes em uma coleção foi recuperado. É uma medida da capacidade de um sistema recuperar informação relevante. É calculada dividindo-se a quantidade de recursos relevantes recuperados pelo total de recursos relevantes em uma coleção. Pode ser interpretada como a probabilidade de um artefato relevante ser recuperado (BINKLEY; LAWRIE, 2010;
GLUSHKO,2013;NISO,2005;ROWLEY; HARTLEY,2008). SegundoAitchison, Bawden e Gilchrist (2000), em geral, é inversa a relação entre precisão e revocação, um ganho na revocação tende a ser acompanhado por uma perda na precisão e vice-versa. A figura 7 é uma representação do cálculo dessas medidas de avaliação de sistema de recuperação da informação.
Figura 7 – Elementos no cálculo de precisão e de revocação
TOTALIDADE DE RECURSOS
RELEVANTES RECUPERADOS RECURSO NÃO RELEVANTE E NÃO RECUPERADO RECURSO NÃO RELEVANTE E RECUPERADO RECURSO RELEVANTE E NÃO RECUPERADO RECURSO RELEVANTE E RECUPERADO
PRECISÃO = TOTAL DE / ( TOTAL DE + TOTAL DE ) REVOCAÇÃO = TOTAL DE / ( TOTAL DE + TOTAL DE )
Fonte: Elaborado pelo autor
Nesse contexto, Chu (2010) considera difícil definir relevância e determinar os recursos relevantes em um sistema. Kowalski e Maybury (2002) definem como relevante o recurso que contém informação que auxilia o usuário a responder sua questão e, como irrelevante, o recurso que não provê informação útil. Segundo Baeza-Yates e Ribeiro-Neto
(2011), relevância é uma avaliação pessoal dependente de tarefa e contexto. Para Gödert, Hubrich e Nagelschmidt (2014), relevância é um conceito fundamental à recuperação da informação, que mede o acordo entre a necessidade de informação representada pela consulta formulada e a informação recuperada. Strasunskas e Tomassen (2010) consideram que o processo de avaliação de sistema de recuperação da informação pode ser centrado no sistema ou no usuário. Ainda segundo Strasunskas e Tomassen(2010), algumas avaliações indicam que sistemas de recuperação semântica da informação apresentam melhoras em relação a sistemas de recuperação da informação tradicionais. Morato, Sanchez-Cuadrado e Dimou (2013) sugerem, como critérios para avaliação de sistemas de recuperação semântica da informação, a capacidade do sistema eliminar ambiguidades e do sistema gerar resultados derivados de relações entre conceitos. Finalmente, em Strasunskas e Tomassen (2010) é proposto um arcabouço para avaliação de aplicações de busca semântica. Segundo esse arcabouço, qualidade de sistema, qualidade de ontologia e qualidade de consulta têm impacto na qualidade dessas aplicações.