3: P ERSPEKTIVER PÅ MUSIKK OG HELSE
3.2 Hva er musikkterapi?
O modelo vetorial reflete o conceito de que a informação contida em um documento pode ser representada pela soma das informações contidas nos termos que o compõem. No entanto, esta representação sofre um prejuízo causado pelo aumento da dimensionalidade do modelo. Modelos de tópicos (Blei et al., 2003; Griffiths; Steyvers, 2002, 2004; Hofmann, 1999, 2001) são baseados na ideia de que documentos são formados por uma mistura de tópicos, na qual um tópico é determinado por uma distribuição probabilística de termos. Nesses modelos, o número de tópicos é bem inferior ao tamanho do vocabulário de uma coleção, e determinado pelo usuário, ao mesmo tempo esses tópicos acumulam mais informação semântica. Dessa forma, pode-se ter uma representação vetorial na qual no lugar de termos como atributos
temos tópicos, enquanto as medidas de influência (os valores freqij) medem a probabilidade
de um tópico na geração de um documento.
Um modelo de tópico é um modelo generativo que especifica um procedimento proba- bilístico pelo qual documentos são gerados. Para cada documento, este modelo determina uma distribuição probabilística de tópicos, que especifica a probabilidade de cada tópico aparecer naquele documento. Para cada tópico é especificada uma distribuição probabilística de termos, que determina a probabilidade de cada termo do vocabulário ocorrer dado aquele tópico.
A Figura 2.2 ilustra um modelo de tópicos em suas duas abordagens: o modelo generativo e o problema da inferência estatística desse modelo. O modelo generativo descreve como termos em um documento são gerados com base em variáveis latentes (as distribuições probabilísticas de tópicos e de termos). A Figura 2.2a ilustra o modelo generativo com dois tópicos. Os tópicos 1 e 2 são relacionados aos temas dinheiro e rios, e são ilustrados como conjuntos de termos apresentando diferentes distribuições. Documentos distintos podem ser produzidos escolhendo-se termos de um tópico, dependendo do peso (valores nas setas) daquele tópico naquele documento. Por exemplo, os documentos 1 e 3 foram gerados pela amostragem somente dos tópicos 1 e 2, respectivamente, enquanto o documento 2 foi gerado por probabilidades iguais para os dois tópicos. Na Figura 2.2a, os sobrescritos associados aos termos nos documentos indicam de qual tópico essa palavra foi amostrada. Observe que um mesmo termo pode pertencer a mais de um tópico. Isso permite que modelos de tópicos capturem polissemia em documentos, quando um mesmo termo tem vários significados. Em contrapartida, na inferência do modelo generativo, ver Figura 2.2b, o objetivo é achar o
melhor conjunto de variáveis latentes que explicam os termos observados em documentos conhecidos, assumindo que este foi o modelo que de fato gerou esses documentos.
(a) Processo generativo. (b) Inferência estatística.
Figura 2.2: Modelo de tópicos: (a) Processo generativo; (b) Problema da inferência estatística dos tópicos que geraram uma coleção de documentos. Extraído de Steyvers e Griffiths (2007). Todas as diferentes técnicas de modelos de tópicos possuem a mesma ideia fundamental: se
temos T tópicos, podemos escrever a probabilidade do i-ésimo termo (wi) em um documento
segundo Equação (2.4). P(wi) = T X j=1 P(wi | zi = j)P (zi = j) (2.4)
onde zi é uma variável latente que indica o tópico do qual o i-ésimo termo foi retirado;
P(wi|zi = j) é a probabilidade do termo wi ocorrer dado que o j-ésimo tópico foi escolhido;
e P (zi = j) é a probabilidade de escolhermos o j-ésimo tópico para o atual documento.
Tal distribuição varia para cada documento. Para simplificar a notação, geralmente utiliza- se φ(j)
wi = P (wi|zi = j) e θ
(d)
j = P (zi = j), onde d é o índice de um documento. Essas
probabilidades definem distribuições probabilísticas multinomiais φ e θ – as principais variáveis latentes (desconhecidas) que desejamos inferir. Como apresentado na Figura 2.3, um modelo de tópicos pode ser visto como uma fatoração de matrizes, na qual os dados podem ser representados pelas matrizes φ e θ. A distribuição φ é representada por uma matriz com um número de linhas igual ao tamanho do vocabulário da coleção e número de colunas igual ao número de tópicos (T ) – cada célula contém a probabilidade de um determinado termo ocorrer em um determinado tópico. A distribuição θ é representada por uma matriz com um número de linhas igual ao número de tópicos e um número de colunas igual ao número de documentos – cada célula contém a probabilidade de um determinado tópico ocorrer em um determinado documento.
Modelo generativo. Dentre as várias técnicas para modelagem de tópicos existentes, o Latent
Figura 2.3: Visão de um modelo de tópicos por meio de fatoração de matrizes. Extraído de Steyvers e Griffiths (2007).
a Equação (2.4) com uma distribuição Dirichlet a priori em θ com parâmetro α – o que simplifica o problema de inferência estatística. Essa distribuição Dirichlet a priori também promove uma suavização, determinada pelo parâmetro α, na distribuição probabilística de tópicos (θ). Quanto maior α, maior a suavização: os documentos são influenciados por vários tópicos no modelo – o que dilui as probabilidades. Já para α < 1 (muito utilizado na prática), o modelo favorece apenas alguns tópicos para cada documento, atribuindo uma alta probabilidade a esses tópicos. Griffiths e Steyvers (2004) exploraram uma variante do modelo discutido por Blei et al. (2003) colocando também uma distribuição Dirichlet a priori em φ com parâmetro β. Este parâmetro também promove uma suavização, mas na distribuição probabilística de termos para um tópico (φ).
Inferência Estatística. O algoritmo Gibbs Sampler (Griffiths; Steyvers, 2004), um tipo de Cadeia de Markov de Monte Carlo, provê um método eficiente para inferir estatisticamente o modelo de tópicos para coleções de documentos grandes. Uma Cadeia de Markov de Monte Carlo é construída de forma a convergir para o modelo de tópicos que melhor descreve como os dados foram gerados. Em cada iteração a cadeia muda de estado, esse algoritmo considera
cada termo wi na coleção de documentos por vez, e estima a probabilidade de que esse termo
tenha ocorrido devido a cada tópico, condicionado pelas atribuições de todos os outros termos até o momento. A partir dessa distribuição condicional, um tópico é amostrado como o novo
tópico para o termo wi. As atribuições iniciais de tópicos para cada termo são aleatórias, mas
mesmo assim ocorre uma conversão após em média 1.000 iterações. No entanto, o modelo inferido não é determinístico, i.e., para duas execuções com os mesmos parâmetros para o mesmo conjunto de dados obtém-se resultados diferentes, mas muito similares.
O algoritmo Gibbs Sampling fornece estimativas diretas de zi para todas as palavras. No
entanto, para representação de documentos o interesse reside na matriz φ. A distribuição multinomial representada por φ é utilizada para representar os documentos, utilizando os
tópicos como atributos e pode ser calculada a partir das variáveis zi, de acordo com fórmulas
apresentadas por Griffiths e Steyvers (2004), que também oferecem fórmulas para calcular θ. Boas escolhas para os parâmetros α e β irão depender do número de tópicos a serem inferidos (T - outro parâmetro a ser determinado pelo usuário) e do tamanho do vocabulário de termos. Segundo Steyvers e Griffiths (2007), os valores α = 50/T e β = 0, 01 funcionam
bem para a maioria das coleções de documentos.
A escolha do número de tópicos T pode afetar a interpretabilidade e a qualidade dos resultados, portanto deve ser cuidadosa. Um número de tópicos muito pequeno irá gerar tópicos muito amplos, enquanto valor muito alto irá resultar em tópicos não interpretáveis, que representam uma combinação não significativa de palavras. A escolha do parâmetro deve depender, em parte, do tamanho da coleção, mas segundo McCallum (2002) o intervalo
T = [200, 400] costuma produzir resultados razoavelmente detalhados para a maioria das
coleções. Também existem métodos objetivos para determinar o número de tópicos. Griffiths e Steyvers (2004) discutem uma abordagem de seleção baseada em uma estimativa da probabilidade posterior do modelo, a probabilidade daquele modelo ter gerado a coleção de documentos em questão, para vários valores de T . O número de tópicos a ser utilizado é aquele que obteve a maior probabilidade posterior. No entanto, isso implica em calcular o modelo de tópicos múltiplas vezes. Outros métodos para determinar o número de tópicos também são discutidos por Buntine (2009).
Antes de aplicar o LDA a uma coleção de documentos, também é indicado aplicar operações de pré-processamento como a eliminação de stopwords e o stemming dos termos. Remoção de tópicos não ativados. A Figura 2.4 mostra a distribuição probabilística de tópicos para um artigo segundo um modelo LDA com T = 100 inferido para uma coleção de 17.000 artigos publicados na Science. Apesar da distribuição de tópicos determinar que qualquer tópico pode ser utilizado para gerar o artigo, somente uma parte dos tópicos foi ativado, i.e., tiveram uma alta probabilidade. Em geral, alguns tópicos sempre apresentam probabilidades baixas para todos os documentos. Dessa forma, se a probabilidade média do tópico para todos os documentos for inferior a um limiar κ, é possível removê-lo da matriz θ para evidenciar as probabilidades dos demais tópicos, o que é executado removendo a coluna correspondente a esse tópico na matriz θ. A Equação (2.5) define essa condição baseada na probabilidade média do j-ésimo tópico para uma coleção com n documentos:
Pn i=1θ
(i)
j
n < κ (2.5)
O valor κ = 0.01 é adotado como padrão com base em teste empíricos, i.e., tópicos que em média não contribuem mais que 1% na geração dos tópicos são eliminados.
Essa operação é opcional e foi desenvolvida no contexto deste trabalho ao observarmos que produzia bons resultados. Se essa operação for executada, é necessário normalizar as distribuições probabilísticas de tópicos para que todos os vetores tenham novamente norma Euclideana unitária após essa operação, i.e., θ(d) =PT
j=1θ (d)
Figura 2.4: Distribuição probabilística de tópicos para um documento segundo um modelo LDA estimado com T = 100. Extraído de Blei (2012).