3.6 Beam diagnostics
3.6.6 Transverse profile measurements
das ferramentas computacionais desenvolvidas, tanto da Clas- sificação de Palavras quanto da Classificação de Usuários. Buscou-se, identificar os sentimentos dos usuários da rede social em relação à presidente Dilma Rousseff, na época das manifestações de rua ocorridas na metade do ano de 2013. A. Base de Dados
A base de dados usada neste trabalho foi gentilmente forne- cida pelo Laboratório de estudos sobre Imagem e Cibercultura - Labic (www.labic.net), que a coletou do Twitter com a palavra-chave Dilma e foi rastreada do dia 12 de Julho de 2013 ao dia 09 de Agosto de 2013, período este em que ocorreu uma série de protestos no Brasil. Essa base de dados possui um total de 47.499 tweets postadas por 23.611 usuários diferentes. Os tweets coletados são compostos por vários campos informação, como geolocalização, data, idioma, dentre outros. Neste trabalho foram usados somente os campos dos usuários que postaram os tweets e o texto em si.
B. Experimento da Classificação de Palavras
Para o experimento da Classificação de Palavras, buscou- se identificar os adjetivos associados ao alvo pelos usuários. A palavra alvo (entidade) escolhida foi Dilma, pois era de interesse identificar o sentimento dos usuários a respeito da presidente. Para a extração dos adjetivos próximos do alvo aplicou-se uma janela de busca de tamanho 10 (N = 10).
As palavras extraídas e identificadas como adjetivos foram salvas em um arquivo com a sua respectiva frequência. Depois disso, foi definida a polaridade de cada um dos adjetivos usando como referência a lista de adjetivos sementes já classificados. Ao todo, 500 adjetivos foram extraídos com as suas respectivas classificações.
Foram gerados, a partir das informações obtidas, os parâme- tros para a definição dos nós e das arestas. Após uma série de tentativas e inspecionadas diferentes formas de visualização,
Figura 2. Resultado da Classificação de Palavras. Palavras positivas estão em azul, negativas em vermelho e neutras em branco. Quanto maior a quantidade de vezes que a palavra apareceu próxima ao alvo, maior o tamanho do nó.
Figura 3. Resultado da Classificação de Palavras sem a polaridade neutra.
chegou a conclusão que aplicando um layout pizza, com o alvo como o nó central, oferecia uma melhor visualização. A Figura 2 ilustra a visualização obtida no Gephi (https://gephi.org) para a classificação das palavras. Já a Figura 3 ilustra a mesma informação da figura anterior, mas sem a polaridade neutra.
Uma análise foi realizada com as seis palavras mais fre- quentes, sendo duas da classe positiva, uma da classe negativa e três da classe neutra. Na classe das palavras positivas foram identificadas as palavras: bom e melhor; na classe das palavras negativas foi identificada: baixo; e na classe neutra: evangélico, indissociável e nacional, conforme mostradas na Figura 2. A Tabela I mostra cada uma das palavras com a sua respectiva frequência e classificação.
A análise foi realizada individualmente, porém, é importante realçar que a identificação do sentimento geral não é uma tarefa trivial, e essa tarefa é ainda mais complicada quando
Tabela I
AS SEIS PALAVRAS MAIS FREQUENTES DA CLASSIFICAÇÃO DE PALAVRAS.
Palavras Frequência Classificação
bom 207 positiva melhor 178 positiva evangélico 165 neutra indissociável 140 neutra baixo 119 negativa nacional 114 neutra
ela é realizada manualmente sobre uma grande quantidade de dados. Então, para tornar a análise mais viável do ponto de vista de validação humana, foi realizada uma seleção aleatória de um conjunto de aproximadamente 30 tweets com a ocorrência de cada uma das palavras, sendo 10 da parte inicial da base de dados, 10 do meio e outros 10 do final da base. O resultado da análise é mostrado a seguir.
• bom: apesar da palavra ter a polaridade positiva, como o sentido que a própria expressa, apresentou uma conotação contrária em uma boa parte dos tweets, mostrando que ela não necessariamente indicava que as pessoas estavam se expressando a favor da presidente;
• melhor: poucos foram os tweets analisados em que a palavra melhor foi usada para elogiar o governo Dilma. Grande parte deles se mostrou com um tom de ironia, uns com usuários sugerindo a presidente Dilma tornar o Brasil num país melhor;
• evangélico: esta palavra aparece com grande frequência próxima a Dilma por se tratar da fase em que o projeto de atendimento às vítimas de estupro foi aprovado, então, os parlamentares da bancada religiosa do Congresso insa- tisfeitos com a decisão, tentaram pressionar a presidente Dilma para o veto deste projeto de lei. Sendo assim, esta palavra, apesar da sua classificação neutra, foi trazida em um contexto negativo diante do assunto tratado;
• indissociável: a palavra é expressa no sentido da presi- dente Dilma não ser dissociável com o ex-presidente Lula. Isso ocorreu ainda no contexto nas manifestações, o qual a presidente concluiu uma entrevista dizendo: “Ninguém, ninguém, quando conquista direitos, quer voltar para trás. Democracia gera desejo de mais democracia. Inclusão social exige mais inclusão” [12];
• baixo: essa palavra possui a sua polaridade muito bem definida, e aparece na maioria dos tweets avaliados em contextos como a baixa popularidade da Dilma, greves gerais e os frequentes protestos em função disso; • nacional: na maioria dos tweets ela aparece com a sua
neutralidade. Porém em alguns casos ela foi expressa como um nível de sentimento da população, mais espe- cificamente negativo: “decepção nacional”.
C. Experimento da Classificação de Usuários
No experimento de Classificação de Usuários buscou-se identificar os sentimentos dos usuários com relação a presi- dente Dilma, de forma a identificar aqueles que se sentem satisfeitos, os que se opõem e aqueles que não apresentaram uma posição definida com relação ao governo.
Figura 4. Resultado da Classificação de Usuários. Usuários que são favoráveis a Dilma estão em azul, as que se opõem estão em vermelho e usuários sem uma posição definida estão em branco. Usuários que postaram mais tweets possuem um tamanho de nó maior.
Figura 5. Resultado da Classificação de Usuários sem polaridade neutra.
A palavra alvo (entidade) escolhida foi novamente Dilma, e para a extração dos adjetivos próximos do alvo definiu-se uma janela de busca de tamanho 10 (N = 10), igual ao realizado para a classificação de palavras.
Os adjetivos foram classificadas de acordo com a lista de adjetivos sementes. Os tweets de cada usuário foram classifica- dos individualmente. Para tweets classificados positivos foram associadas as polaridades de valor um, negativos o valor menos um e neutros o valor zero. Para classificar o usuário é realizada a soma dos valores das polaridades dos tweets.
Dessa forma, temos: o alvo (Dilma), os aspectos de cada sentimento (adjetivos), a polaridade do sentimento, o detentor deste sentimento (usuário) e a intensidade do sentimento (número de tweets postados por cada usuário). Ao todo, foram
classificados os tweets de 23.611 usuários.
Os parâmetros para a definição dos nós e das arestas do grafo foram gerados a partir das informações extraídas. Para a visualização do grafo foi utilizado o layout pizza, com o alvo como o nó central, conforme a visualização da classificação de palavras. A Figura 4 ilustra a visualização obtida no Gephi para a classificação dos usuários. A Figura 5 ilustra a visualização obtida no Gephi para a classificação dos usuários sem a polaridade neutra.
A análise dos resultados da Classificação de Usuários foi feita através de um comparativo com os dados mostrados no artigo “Dilma nas redes sociais: o fim da bipolaridade política e o desejo de radicalizar mudanças” de Malini [8], [7]. Identificamos que Malini realizou a análise em um corpus de 170 mil tweets, o qual 48 mil deles estão fortemente conectados e os classificou em três grandes grupos: o grupo de oposição a Dilma, o grupo denominado por ele de “Dilmista” e o grupo “das ruas”.
Duas diferenças consideráveis do trabalho de Malini com o trabalho presente é que todo o esforço do trabalho de Malini foi feito de forma manual e a base de dados foi diferente. A coletada foi num período semelhante e possui alguns dos usuá- rios que foram objetos de análise. Com isso, tentou-se igualar os grupos definidos em [8], sendo os tweets classificados como positivos (Dilmista), negativos (Anti-Dilma) e neutros (o das ruas).
Dos usuários que foram mencionados em [8] e que estavam presentes na base de dados usada nos experimentos, foi encontrado uma média de aproximadamente cinquenta por cento de concordância entre os grupos informados por Malini e os indicados pelo modelo proposto neste trabalho. Embora o resultado não tenha sido tão elevado, vale ressaltar que as bases de dados eram distintas. Além disso, o presente trabalho buscou trabalhar no contexto mais simples da Análise de Sentimentos, pois é sabido que a ironia é extremamente difícil de ser detectada e este é um elemento que existe, principalmente em contextos da política. Outro agravante são as sentenças negativas, que podem modificar completamente o sentimento transmitido por uma frase, mas que, no entanto, não foi tratado nos experimentos realizados neste trabalho devido a sua complexidade.