Musikken og kroppen - T EORETISK TILNÆRMING

4: T EORETISK TILNÆRMING

4.3 Musikken og kroppen

Atributos temporais também estabelecem relacionamentos relevantes em coleções de notícias, arquivos de e-mails ou artigos cientíﬁcos, nas quais um atributo temporal informa qual foi a data/hora que uma notícia foi publicada, um e-mail foi enviado, ou um artigo cientíﬁco foi publicado. Apesar de nem sempre ser tratada explicitamente, a componente temporal é fundamental para entender e analisar mudanças nos tópicos em coleções de documentos indexadas temporalmente. Trata-se de um problema difícil, que vem atraindo crescente atenção nos últimos anos.

Vários autores tentam adaptar técnicas existentes para visualização de documentos, como

tag clouds, para tratar coleções indexadas temporalmente. A técnica SparkClouds (Lee et al., 2010), por exemplo, mostra uma sparkline (um gráﬁco de linha simpliﬁcado) debaixo

de cada termo para evidenciar a variação na sua frequência ao longo do tempo. Cui et al. (2010) introduziram uma técnica que obtém uma sequência de tag clouds, buscando preservar a coerência semântica e de localização espacial dos termos ao longo do tempo. Cada tag

cloud da sequência é associada a um gráﬁco de tendência, que expressa a sua signiﬁcância

temporalmente. A signiﬁcância de uma tag cloud é maior quando essa traz mais informação por si só e compartilha pouca informação (termos) com as tag clouds adjacentes a ela.

Entretanto, a análise temporal de coleções de documentos é um processo muito mais complexo do que aquele que pode ser capturado por tag clouds variantes no tempo. A seguir são apresentadas técnicas relevantes encontradas na literatura para a visualização temporal de coleções de documentos.

ThemeRiver A metáfora de um “rio” é frequentemente aplicada na visualização temporal

de documentos, como no protótipo ThemeRiver (Havre et al., 2002) que descreve mudanças temáticas ocorridas em um conjunto de documentos ao longo do tempo. Temas selecionados são representados utilizando a metáfora de um ‘rio’ que corre da esquerda para a direita, associado à evolução do tempo. Esse ‘rio’ é composto por camadas coloridas, que representam os temas, e cuja largura é proporcional à força (número de ocorrências) do tema na coleção em um determinado instante de tempo. A largura total em um determinado ponto indica a força total dos temas selecionados. Temas podem desaparecer e depois ressurgir com a mesma cor e ordem em relação aos outros temas. O usuário também pode adicionar marcadores

para indicar eventos históricos que possam estar relacionados com as mudanças temáticas. O foco desta abordagem está em mudanças temporais relativas à frequência dos temas. Não é apresentado nenhum evento de transição, como a junção de dois ou mais tópicos para formar outro.

A Figura 3.8 mostra uma visualização, gerada com o ThemeRiver, de um conjunto de documentos referentes à crise cubana-americana ocorrida em 1960. A visualização foi anotada manualmente pelos autores com eventos externos que podem ter gerado mudanças na frequência de certos temas.

Figura 3.8: ThemeRiver: metáfora de um rio para indicar mudanças temáticas relativas a frequência ocorridas ao longo do tempo em uma coleção de documentos referentes à crise cubana-americana em 1960. Extraído de Havre et al. (2002).

O ThemeRiver é classicamente utilizado como exemplo de visualização temporal de documentos, mas, apesar da técnica ser interessante e inovadora, ela apresenta algumas limitações. Os autores não esclarecem como são escolhidos os temas a serem visualizados, o que vem a ser uma etapa fundamental e crítica. Supõe-se que essa escolha seja baseada no número de ocorrências de um termo dentro da coleção, o que nem sempre é uma abordagem adequada. Outra limitação ocorre quando um grande número de temas for selecionado, já que o uso de cor para diferenciá-los pode ocasionar uma baixa distinção visual.

TIARA A ferramenta TIARA (Text Insight via Automated Responsive Analytics) (Liu et al.,

2012) também busca evidenciar a evolução temporal do conteúdo dos tópicos de uma coleção de documentos. A técnica de extração de tópicos Latent Dirichlet Allocation (LDA) (ver Seção 2.2.2) é aplicada para determinar automaticamente quais são os tópicos abordados pela coleção, permitindo gerar uma representação visual baseada nos tópicos. Para determinar exatamente que documentos pertencem a cada tópico segundo o modelo LDA, somente probabilidades de um documento d pertencer a um tópico t maiores do que 0,3 são

consideradas.

Para permitir a análise da evolução temporal do conteúdo de uma coleção, esta ferramenta seleciona automaticamente palavras-chave temporais para cada tópico. Dada uma coleção, primeiro os documentos são separados em subcoleções, cada uma associada a um intervalo de tempo diferente. Então, para um tópico em particular no qual é provável um conjunto de palavras, as palavras mais “importantes” são determinadas para cada subcoleção segundo dois critérios: (1) se uma palavra ocorre frequentemente nesta subcoleção ela é importante; (2) porém, se esta palavra também ocorre frequentemente nas demais subcoleções, sua importância é diminuída. A frequência das palavras é medida por meio de uma mistura da frequência terms frequency (tf) com a probabilidade de ocorrência daquela palavra naquele tópico segundo o modelo LDA.

Para visualizar os tópicos extraídos por LDA e suas palavras-chave temporais, a ferramenta utiliza um gráﬁco de área empilhado com eixo central. Cada camada colorida representa um tópico e é preenchida com tag clouds de palavras-chave temporais, representando a mudança no conteúdo dos tópicos ao longo do tempo. A altura de cada camada muda ao longo do tempo, pois representa a força daquele tópico naquele instante de tempo, medida com base no número de documentos abordando o tópico.

A Figura 3.9 mostra os 8 tópicos mais importantes (prováveis) em uma coleção de 10.000

e-mails pessoais dos autores. O primeiro tópico (cor verde), por exemplo, aborda as palavras

“harvest, table, data. . .” em março, enquanto que em agosto as palavras “java, code, vjit. . .” são mais mencionadas. Um sumário do segundo tópico considerando todo o intervalo de tempo é apresentado por uma tooltip.

Figura 3.9: TIARA: sumário visual criado para 10.000 e-mails em 2008. Extraído de Liu et

al. (2012).

A metáfora visual utilizada assemelha-se à adotada pelo ThemeRiver, porém com maior poder de representação dos tópicos. No entanto, considera-se somente um número ﬁxo de

tópicos ao longo do tempo, ignorando que tópicos podem sofrer, por exemplo, junções ou subdivisões. Também somente alguns poucos tópicos mais prováveis, segundo o modelo LDA, são mostrados simultaneamente.

TextFlow A ferramenta TextFlow (Cui et al., 2011), desenvolvida pelos mesmos autores

da ferramenta TIARA, também busca analisar a evolução temporal dos tópicos de uma coleção de documentos, porém focando sua análise na detecção de eventos críticos entre os tópicos – surgimento, junção, subdivisão e desaparecimento de tópicos. Primeiramente, um conjunto de tópicos (representados por grupos de documentos) e seus eventos críticos são detectados automaticamente por meio da técnica de agrupamento evolucionário Processo Hierárquico Incremental de Dirichlet (Teh et al., 2006). De modo a auxiliar o usuário na identiﬁcação do conteúdo dos tópicos e entender os principais motivos que impulsionaram o surgimento dos eventos críticos, correlações entre palavras-chave são detectadas por meio da contagem de suas coocorrências nos documentos. Esta informação é então representada visualmente como um ﬂuxo de tópicos, formado por três elementos visuais: correntes que representam os tópicos; marcadores em vermelho que representam eventos críticos e são colocados nos instantes que eles ocorrem; e linhas azuis que representam as palavras-chave, com seu entrelaçamento signiﬁcando interações entre essas palavras-chave. Também existem dois outros componentes visuais nessa ferramenta que ajudam a compreender o conteúdo de um tópico selecionado no ﬂuxo de tópicos: uma tag cloud que exibe os termos mais frequentes para o tópico selecionado; e uma linha do tempo que mostra os snippets para os documentos pertencentes ao tópico selecionado ordenados temporalmente (somente aplicável a coleções de notícias).

Em Cui et al. (2011), os autores mostram a aplicação dessa ferramenta para uma coleção de 993 artigos cientíﬁcos publicados nas conferências IEEE Information Visualization (InfoVis) e IEEE Visualization (Vis) de 2001 até 2010. A Figura 3.10 mostra o ﬂuxo de tópicos relacionado aos tópicos da conferência InfoVis. O evento crítico “d”, por exemplo, indica que

Figura 3.10: TextFlow: ﬂuxo de tópicos para parte dos artigos publicados na conferência

IEEE Information Visualization (InfoVis) de 2001 até 2010. Pares de palavras-chave com

setas e letras identiﬁcando eventos foram adicionados manualmente. Extraído de Cui et al. (2011)

o tópico “document/temporal” (caracterizado pelas palavras-chave explore e document) tornou- se um tópico importante na conferência InfoVis perto de 2009. O tópico “document/temporal” também é bastante relacionado aos tópicos “exploration/analytics” e “structure/layout”. Já a palavra-chave ‘analytic’, por exemplo, tornou-se relevante em 2006, o que coincide com a primeira edição do simpósio IEEE Symposium on Visual Analytics Science and Technology (IEEE VAST ). Esse simpósio acontece juntamente com as conferências InfoVis e Vis desde

2006.

Uma limitação dessa técnica é a escolha de palavras-chave signiﬁcantes. Se somente algumas palavras-chave são incluídas no ﬂuxo de tópicos, muita informação é perdida. Por outro lado, se muitas palavras-chave são mostradas, a visualização pode sofrer de oclusão visual.

CiteSpace II Segundo Chen (2006a), áreas de pesquisa apresentam dois padrões de citação:

artigos clássicos que são consistentemente citados ao longo do tempo e artigos transitórios com picos de citação por curtos períodos de tempo, sendo o segundo padrão mais comum do que o primeiro. O caráter transitório na citação de artigos ocorre devido à tendência de pesquisadores citarem os artigos publicados mais recentemente. Os artigos transitórios podem estar associados a novas descobertas cientíﬁcas ou tendências de pesquisa, sendo responsáveis pela transformação de uma área de pesquisa. A ferramenta CiteSpace II (Chen, 2006a) constrói representações visuais que mostram como as frentes de pesquisa e as bases intelectuais mudam ao longo do tempo e seus padrões transitórios.

Termos da frente de pesquisa são identiﬁcados pelo algoritmo de detecção de bursts de palavras de Kleinberg (2002), que retorna uma lista ordenada dos bursts de palavras – quando uma palavra tem um aumento repentino e signiﬁcante no seu uso durante um intervalo de tempo – e o intervalo de tempo no qual eles ocorreram. A base intelectual é formada por grupos de artigos citados por artigos que incluem os termos da frente de pesquisa. A representação visual ﬁnal é uma grande rede híbrida que evidencia o mapeamento dos artigos das bases intelectuais e termos das frentes de pesquisa ao longo do tempo, composta tanto por nós que representam os artigos da base intelectual como por nós que representam os termos da frente de pesquisa. Três tipos de arestas ocorrem nesta rede: coocorrência de termos da frente de pesquisa; co-citação de artigos da base intelectual; e termos da frente de pesquisa citando artigos da base intelectual.

A abordagem “dividir para conquistar” é utilizada para criar essa rede híbrida. O intervalo de tempo que abrange o conjunto de artigos analisados é particionado em segmentos temporais. Redes híbridas são geradas para cada um desses segmentos, aplicando-se o algoritmo Pathﬁnder Network Scaling (PFNet) (Schvaneveldt, 1990) para reduzir o número de arestas e reter somente as arestas mais importantes para cada segmento. Redes de diferentes segmentos de tempo têm parte dos nós e arestas em comum. Como último passo, essas redes devem ser agrupadas, o que é alcançado pela união de todos os nós e pela seleção

somente das arestas que não violam uma condição de desigualdade triangular em áreas de sobreposição entre redes. A medida de centralidade betweenness – que mede a importância do nó para a rede – é utilizada para identiﬁcar e destacar nós pivôs nos quais ocorrem mudanças de paradigma ao longo do tempo.

A Figura 3.11a ilustra os atributos visuais utilizados para representar cada artigo da base intelectual como um nó composto por anéis, um anel para cada segmento de tempo a partir da publicação do documento. A cor de um anel representa o segmento de tempo correspondente, de acordo com o mapeamento que associa cores a segmentos de tempo, apresentado na parte inferior da ﬁgura. A largura de um anel é proporcional ao número de citações que um artigo obteve em determinado segmento de tempo. O número próximo ao centro dos nós é o número de citações obtidas durante todo o intervalo de tempo. Arestas indicam a co-citação de artigos, com a cor da aresta indicando o ano da primeira co-citação. Para facilitar a identiﬁcação dos nós pivôs, este tipo de nó é destacado com um anel roxo na parte mais externa. Já os termos são representados simplesmente por seus caracteres no

layout com tamanho proporcional ao peso de seu burst.

A Figura 3.11b apresenta uma rede relativa a uma coleção de 1.776 artigos sobre terrorismo publicados entre 1990 a 2003. O grupo no canto superior esquerdo em verde está relacionado a ferimentos em ataques terroristas, e sua frente de pesquisa inclui os seguintes termos: body

injuries e terrorist bombing. Já um agrupamento no canto superior direito em amarelo-laranja

está relacionado a pesquisas na área de saúde em resposta a ameaças de armas químicas e biológicas, e contém os termos health care e chemical weapon. Por ﬁm, o grupo no canto inferior em laranja está relacionado aos impactos psicológicos do ataque terrorista de 11 de Setembro de 2001, contendo os termos September 11, United States e post-traumatic stress

disorder.

In document "Getting into the groove" : en diskusjon om groove og musikkterapi (sider 32-37)