4: T EORETISK TILNÆRMING
4.3 Musikken og kroppen
Atributos temporais também estabelecem relacionamentos relevantes em coleções de notícias, arquivos de e-mails ou artigos científicos, nas quais um atributo temporal informa qual foi a data/hora que uma notícia foi publicada, um e-mail foi enviado, ou um artigo científico foi publicado. Apesar de nem sempre ser tratada explicitamente, a componente temporal é fundamental para entender e analisar mudanças nos tópicos em coleções de documentos indexadas temporalmente. Trata-se de um problema difícil, que vem atraindo crescente atenção nos últimos anos.
Vários autores tentam adaptar técnicas existentes para visualização de documentos, como
tag clouds, para tratar coleções indexadas temporalmente. A técnica SparkClouds (Lee et al., 2010), por exemplo, mostra uma sparkline (um gráfico de linha simplificado) debaixo
de cada termo para evidenciar a variação na sua frequência ao longo do tempo. Cui et al. (2010) introduziram uma técnica que obtém uma sequência de tag clouds, buscando preservar a coerência semântica e de localização espacial dos termos ao longo do tempo. Cada tag
cloud da sequência é associada a um gráfico de tendência, que expressa a sua significância
temporalmente. A significância de uma tag cloud é maior quando essa traz mais informação por si só e compartilha pouca informação (termos) com as tag clouds adjacentes a ela.
Entretanto, a análise temporal de coleções de documentos é um processo muito mais complexo do que aquele que pode ser capturado por tag clouds variantes no tempo. A seguir são apresentadas técnicas relevantes encontradas na literatura para a visualização temporal de coleções de documentos.
ThemeRiver A metáfora de um “rio” é frequentemente aplicada na visualização temporal
de documentos, como no protótipo ThemeRiver (Havre et al., 2002) que descreve mudanças temáticas ocorridas em um conjunto de documentos ao longo do tempo. Temas selecionados são representados utilizando a metáfora de um ‘rio’ que corre da esquerda para a direita, associado à evolução do tempo. Esse ‘rio’ é composto por camadas coloridas, que representam os temas, e cuja largura é proporcional à força (número de ocorrências) do tema na coleção em um determinado instante de tempo. A largura total em um determinado ponto indica a força total dos temas selecionados. Temas podem desaparecer e depois ressurgir com a mesma cor e ordem em relação aos outros temas. O usuário também pode adicionar marcadores
para indicar eventos históricos que possam estar relacionados com as mudanças temáticas. O foco desta abordagem está em mudanças temporais relativas à frequência dos temas. Não é apresentado nenhum evento de transição, como a junção de dois ou mais tópicos para formar outro.
A Figura 3.8 mostra uma visualização, gerada com o ThemeRiver, de um conjunto de documentos referentes à crise cubana-americana ocorrida em 1960. A visualização foi anotada manualmente pelos autores com eventos externos que podem ter gerado mudanças na frequência de certos temas.
Figura 3.8: ThemeRiver: metáfora de um rio para indicar mudanças temáticas relativas a frequência ocorridas ao longo do tempo em uma coleção de documentos referentes à crise cubana-americana em 1960. Extraído de Havre et al. (2002).
O ThemeRiver é classicamente utilizado como exemplo de visualização temporal de documentos, mas, apesar da técnica ser interessante e inovadora, ela apresenta algumas limitações. Os autores não esclarecem como são escolhidos os temas a serem visualizados, o que vem a ser uma etapa fundamental e crítica. Supõe-se que essa escolha seja baseada no número de ocorrências de um termo dentro da coleção, o que nem sempre é uma abordagem adequada. Outra limitação ocorre quando um grande número de temas for selecionado, já que o uso de cor para diferenciá-los pode ocasionar uma baixa distinção visual.
TIARA A ferramenta TIARA (Text Insight via Automated Responsive Analytics) (Liu et al.,
2012) também busca evidenciar a evolução temporal do conteúdo dos tópicos de uma coleção de documentos. A técnica de extração de tópicos Latent Dirichlet Allocation (LDA) (ver Seção 2.2.2) é aplicada para determinar automaticamente quais são os tópicos abordados pela coleção, permitindo gerar uma representação visual baseada nos tópicos. Para determinar exatamente que documentos pertencem a cada tópico segundo o modelo LDA, somente probabilidades de um documento d pertencer a um tópico t maiores do que 0,3 são
consideradas.
Para permitir a análise da evolução temporal do conteúdo de uma coleção, esta ferramenta seleciona automaticamente palavras-chave temporais para cada tópico. Dada uma coleção, primeiro os documentos são separados em subcoleções, cada uma associada a um intervalo de tempo diferente. Então, para um tópico em particular no qual é provável um conjunto de palavras, as palavras mais “importantes” são determinadas para cada subcoleção segundo dois critérios: (1) se uma palavra ocorre frequentemente nesta subcoleção ela é importante; (2) porém, se esta palavra também ocorre frequentemente nas demais subcoleções, sua importância é diminuída. A frequência das palavras é medida por meio de uma mistura da frequência terms frequency (tf) com a probabilidade de ocorrência daquela palavra naquele tópico segundo o modelo LDA.
Para visualizar os tópicos extraídos por LDA e suas palavras-chave temporais, a ferramenta utiliza um gráfico de área empilhado com eixo central. Cada camada colorida representa um tópico e é preenchida com tag clouds de palavras-chave temporais, representando a mudança no conteúdo dos tópicos ao longo do tempo. A altura de cada camada muda ao longo do tempo, pois representa a força daquele tópico naquele instante de tempo, medida com base no número de documentos abordando o tópico.
A Figura 3.9 mostra os 8 tópicos mais importantes (prováveis) em uma coleção de 10.000
e-mails pessoais dos autores. O primeiro tópico (cor verde), por exemplo, aborda as palavras
“harvest, table, data. . .” em março, enquanto que em agosto as palavras “java, code, vjit. . .” são mais mencionadas. Um sumário do segundo tópico considerando todo o intervalo de tempo é apresentado por uma tooltip.
Figura 3.9: TIARA: sumário visual criado para 10.000 e-mails em 2008. Extraído de Liu et
al. (2012).
A metáfora visual utilizada assemelha-se à adotada pelo ThemeRiver, porém com maior poder de representação dos tópicos. No entanto, considera-se somente um número fixo de
tópicos ao longo do tempo, ignorando que tópicos podem sofrer, por exemplo, junções ou subdivisões. Também somente alguns poucos tópicos mais prováveis, segundo o modelo LDA, são mostrados simultaneamente.
TextFlow A ferramenta TextFlow (Cui et al., 2011), desenvolvida pelos mesmos autores
da ferramenta TIARA, também busca analisar a evolução temporal dos tópicos de uma coleção de documentos, porém focando sua análise na detecção de eventos críticos entre os tópicos – surgimento, junção, subdivisão e desaparecimento de tópicos. Primeiramente, um conjunto de tópicos (representados por grupos de documentos) e seus eventos críticos são detectados automaticamente por meio da técnica de agrupamento evolucionário Processo Hierárquico Incremental de Dirichlet (Teh et al., 2006). De modo a auxiliar o usuário na identificação do conteúdo dos tópicos e entender os principais motivos que impulsionaram o surgimento dos eventos críticos, correlações entre palavras-chave são detectadas por meio da contagem de suas coocorrências nos documentos. Esta informação é então representada visualmente como um fluxo de tópicos, formado por três elementos visuais: correntes que representam os tópicos; marcadores em vermelho que representam eventos críticos e são colocados nos instantes que eles ocorrem; e linhas azuis que representam as palavras-chave, com seu entrelaçamento significando interações entre essas palavras-chave. Também existem dois outros componentes visuais nessa ferramenta que ajudam a compreender o conteúdo de um tópico selecionado no fluxo de tópicos: uma tag cloud que exibe os termos mais frequentes para o tópico selecionado; e uma linha do tempo que mostra os snippets para os documentos pertencentes ao tópico selecionado ordenados temporalmente (somente aplicável a coleções de notícias).
Em Cui et al. (2011), os autores mostram a aplicação dessa ferramenta para uma coleção de 993 artigos científicos publicados nas conferências IEEE Information Visualization (InfoVis) e IEEE Visualization (Vis) de 2001 até 2010. A Figura 3.10 mostra o fluxo de tópicos relacionado aos tópicos da conferência InfoVis. O evento crítico “d”, por exemplo, indica que
Figura 3.10: TextFlow: fluxo de tópicos para parte dos artigos publicados na conferência
IEEE Information Visualization (InfoVis) de 2001 até 2010. Pares de palavras-chave com
setas e letras identificando eventos foram adicionados manualmente. Extraído de Cui et al. (2011)
o tópico “document/temporal” (caracterizado pelas palavras-chave explore e document) tornou- se um tópico importante na conferência InfoVis perto de 2009. O tópico “document/temporal” também é bastante relacionado aos tópicos “exploration/analytics” e “structure/layout”. Já a palavra-chave ‘analytic’, por exemplo, tornou-se relevante em 2006, o que coincide com a primeira edição do simpósio IEEE Symposium on Visual Analytics Science and Technology (IEEE VAST ). Esse simpósio acontece juntamente com as conferências InfoVis e Vis desde
2006.
Uma limitação dessa técnica é a escolha de palavras-chave significantes. Se somente algumas palavras-chave são incluídas no fluxo de tópicos, muita informação é perdida. Por outro lado, se muitas palavras-chave são mostradas, a visualização pode sofrer de oclusão visual.
CiteSpace II Segundo Chen (2006a), áreas de pesquisa apresentam dois padrões de citação:
artigos clássicos que são consistentemente citados ao longo do tempo e artigos transitórios com picos de citação por curtos períodos de tempo, sendo o segundo padrão mais comum do que o primeiro. O caráter transitório na citação de artigos ocorre devido à tendência de pesquisadores citarem os artigos publicados mais recentemente. Os artigos transitórios podem estar associados a novas descobertas científicas ou tendências de pesquisa, sendo responsáveis pela transformação de uma área de pesquisa. A ferramenta CiteSpace II (Chen, 2006a) constrói representações visuais que mostram como as frentes de pesquisa e as bases intelectuais mudam ao longo do tempo e seus padrões transitórios.
Termos da frente de pesquisa são identificados pelo algoritmo de detecção de bursts de palavras de Kleinberg (2002), que retorna uma lista ordenada dos bursts de palavras – quando uma palavra tem um aumento repentino e significante no seu uso durante um intervalo de tempo – e o intervalo de tempo no qual eles ocorreram. A base intelectual é formada por grupos de artigos citados por artigos que incluem os termos da frente de pesquisa. A representação visual final é uma grande rede híbrida que evidencia o mapeamento dos artigos das bases intelectuais e termos das frentes de pesquisa ao longo do tempo, composta tanto por nós que representam os artigos da base intelectual como por nós que representam os termos da frente de pesquisa. Três tipos de arestas ocorrem nesta rede: coocorrência de termos da frente de pesquisa; co-citação de artigos da base intelectual; e termos da frente de pesquisa citando artigos da base intelectual.
A abordagem “dividir para conquistar” é utilizada para criar essa rede híbrida. O intervalo de tempo que abrange o conjunto de artigos analisados é particionado em segmentos temporais. Redes híbridas são geradas para cada um desses segmentos, aplicando-se o algoritmo Pathfinder Network Scaling (PFNet) (Schvaneveldt, 1990) para reduzir o número de arestas e reter somente as arestas mais importantes para cada segmento. Redes de diferentes segmentos de tempo têm parte dos nós e arestas em comum. Como último passo, essas redes devem ser agrupadas, o que é alcançado pela união de todos os nós e pela seleção
somente das arestas que não violam uma condição de desigualdade triangular em áreas de sobreposição entre redes. A medida de centralidade betweenness – que mede a importância do nó para a rede – é utilizada para identificar e destacar nós pivôs nos quais ocorrem mudanças de paradigma ao longo do tempo.
A Figura 3.11a ilustra os atributos visuais utilizados para representar cada artigo da base intelectual como um nó composto por anéis, um anel para cada segmento de tempo a partir da publicação do documento. A cor de um anel representa o segmento de tempo correspondente, de acordo com o mapeamento que associa cores a segmentos de tempo, apresentado na parte inferior da figura. A largura de um anel é proporcional ao número de citações que um artigo obteve em determinado segmento de tempo. O número próximo ao centro dos nós é o número de citações obtidas durante todo o intervalo de tempo. Arestas indicam a co-citação de artigos, com a cor da aresta indicando o ano da primeira co-citação. Para facilitar a identificação dos nós pivôs, este tipo de nó é destacado com um anel roxo na parte mais externa. Já os termos são representados simplesmente por seus caracteres no
layout com tamanho proporcional ao peso de seu burst.
A Figura 3.11b apresenta uma rede relativa a uma coleção de 1.776 artigos sobre terrorismo publicados entre 1990 a 2003. O grupo no canto superior esquerdo em verde está relacionado a ferimentos em ataques terroristas, e sua frente de pesquisa inclui os seguintes termos: body
injuries e terrorist bombing. Já um agrupamento no canto superior direito em amarelo-laranja
está relacionado a pesquisas na área de saúde em resposta a ameaças de armas químicas e biológicas, e contém os termos health care e chemical weapon. Por fim, o grupo no canto inferior em laranja está relacionado aos impactos psicológicos do ataque terrorista de 11 de Setembro de 2001, contendo os termos September 11, United States e post-traumatic stress
disorder.