• No results found

Tabela 5.4: Distribuição de tweets por categoria do dataset RepLab2014 em Espanhol.

Setor Categoria Quantidade de tweets

Automotivo Cidadania 646 Governo 66 Inovação 91 Liderança 58 Performance 232 Produtos e Serviços 3608 Indefinido 856 Local de Trabalho 130 Bancário Cidadania 1139 Governo 1431 Inovação 16 Liderança 90 Performance 488 Produtos e Serviços 903 Indefinido 1118 Local de Trabalho 86

5.3

Avaliação do Passo Agrupamento de Publicações

Esta seção apresenta e analisa os resultados obtidos pelo MDCoI após o passo Agrupa- mento de Publicações (que corresponde a tarefa de identificação de dimensões de repu- tação no RepLab2014), onde, para sua execução, é necessário fornecer o número nt de

palavras que irá compor o enriquecimento das publicações, o método de enriquecimento das publicações, o limiar γ de similaridade mínima para o agrupamento inicial das publi- cações, gerando grupos puros, e o limiar β de similaridade mínima para agrupar os grupos similares.

De acordo com os objetivos do desafio, deve-se agrupar as publicações de acordo com as dimensões de reputação, descritas na Tabela 5.2. Apesar de serem dimensões bem definidas, o MDCoI, após a etapa de obtenção de grupos puros, gera uma quantidade maior de grupos do que a definida no desafio (Tabela 5.5). Portanto, para completar o algoritmo é executada a etapa opcional Agrupamento de Grupos Similares.

Assim, são feitos dois experimentos. O primeiro avalia a pureza dos grupos (precisão) gerados pelo MDCoI em cada variação de seus parâmetros, na etapa de obtenção de grupos puros. E o segundo avalia os grupos gerados pelo MDCoI após a etapa Agrupamento de Grupos Similares, comparando os resultados com o baseline.

5.3 Avaliação do Passo Agrupamento de Publicações 29

na base de teste da coleção.

5.3.1

Avaliação da Geração de Grupos Puros

Os valores experimentados para o nt foram 0, 1, 5, 10, 15 e 20, e para o limiar de

similaridade γ foram 0,80, 0,85, 0,90, 0,95 e 1,00. A precisão de cada grupo foi calculada em relação a dimensão mais representativa (com maior quantidade) dentro de cada grupo. Depois foi calculada uma precisão ponderada usando o percentual das publicações da dimensão considerada a cada grupo. Grupos com apenas uma publicação não foram considerados no cálculo da precisão.

A Tabela 5.5 mostra os resultados obtidos com as variações dos parâmetros nt e

γ. Cada combinação mostra o número de grupos gerados, a precisão (ponderada) e a porcentagem de resultados avaliados.

Nota-se na Tabela 5.5 que, quando o γ = 1, os resultados são os mais precisos quando nt é fixado, porém são os que possuem a menor porcentagem de publicações classificadas,

ou seja, a quantidade de grupos com apenas uma publicação é muito grande.

Eliminando os resultados com γ = 1, o efeito do enriquecimento das publicações é notado quando a variação sem enriquecimento, nt= 0, apesar de na maioria dos casos, ter

a porcentagem de publicações classificadas acima de 90%, a precisão de seus resultados é baixa em relação às publicações que receberam enriquecimento. Em média possui 60,4% de precisão contra 64,0%, 66,9%, 69,9%, 72,7% e 69,7% para os valores de nt iguais a 1,

5, 10, 15 e 20 respectivamente.

Dentre os resultados que usaram o enriquecimento das publicações, é possível no- tar que os resultados quando γ = 0, 80 e γ = 0, 85 possuem a precisão maior e menor quantidade de grupos gerados comparado a os outros valores de γ.

5.3.2

Avaliação da Etapa Agrupamento de Grupos Similares

Como os resultados desta etapa podem retornar um número maior de grupos do que o correto, de acordo com a quantidade de dimensões de reputação consideradas, para comparar os resultados obtidos (MDCoI que é um método não supervisionado) contra os obtidos pelo método vencedor do desafio (método supervisionado), foi feito o seguinte para calcular a precisão, revocação, F1 e acurácia nas dimensões de reputação: a cada dimensão

5.3 Avaliação do Passo Agrupamento de Publicações 30

Tabela 5.5: Precisão dos resultados com a variação do nt e do γ.

Quantidade Publicações

nt γ de Grupos Precisão Classificadas

0 0,80 59 0,586 0,991 0 0,85 144 0,595 0,982 0 0,90 316 0,602 0,964 0 0,95 687 0,725 0,926 0 1,00 1839 0,788 0,561 1 0,80 469 0,788 0,941 1 0,85 533 0,792 0,886 1 0,90 633 0,813 0,786 1 0,95 669 0,829 0,578 1 1,00 496 0,912 0,092 5 0,80 79 0,768 0,986 5 0,85 273 0,774 0,952 5 0,90 493 0,790 0,859 5 0,95 636 0,823 0,612 5 1,00 285 0,968 0,056 10 0,80 20 0,769 0,995 10 0,85 80 0,789 0,976 10 0,90 332 0,772 0,912 10 0,95 565 0,817 0,686 10 1,00 226 0,982 0,045 15 0,80 10 0,769 0,997 15 0,85 14 0,768 0,988 15 0,90 132 0,788 0,953 15 0,95 527 0,791 0,801 15 1,00 233 0,975 0,046 20 0,80 7 0,769 0,995 20 0,85 82 0,772 0,979 20 0,90 324 0,771 0,917 20 0,95 607 0,805 0,700 20 1,00 215 0,977 0,042

dimensão; as publicações pertencentes aos grupos não atribuídos foram consideradas falsos negativos, ou seja, erros obtidos pelo MDCoI.

Para fazer a comparação com o resultado do desafio RepLab2014, executou-se a ter- ceira etapa do passo 2, variando o limiar de similaridade β, com os valores de 0,75, 0,80, 0,85, 0,90, 0,95 e 1,00. Como dito anteriormente, a verificação da similaridade entre os grupos foi feita usando centroide, single linkage, complete linkage ou average linkage.

A Figura 5.1 mostra a média para os valores de precisão, revocação, F1 e acurácia para cada um dos valores de ntdefinidos anteriormente. Observe que, nestes gráficos, cada

5.3 Avaliação do Passo Agrupamento de Publicações 31

comparação entre grupos. Analisando os valores do nt, observa-se que quanto menor é este

valor, mais próxima a publicação enriquecida está da publicação original, porém, quanto maior ele fica, mais termos são adicionados, podendo tornar a publicação enriquecida mais genérica. Pelos gráficos, é possível notar que para nt = 15, em média, foram obtidos os

melhores resultados, considerando as métricas precisão, revocação, F1 e acurácia.

Figura 5.1: Valores médios obtidos variando a quantidade de termos nt.

A Tabela 5.6 mostra os melhores resultados obtidos pelo MDCoI, em termos de acu- rácia, usando o número de termos nt para o enriquecimento igual a 15. Comparados ao

uso do complete linkage e do average linkage, o ganho usando o centroide é de aproxima- damente 105%, usando a métrica acurácia. Considerando as métricas precisão, revocação e F1, os ganhos são de aproximadamente 26%, 64% e 44%, respectivamente. Os resul- tados obtidos pelo single linkage foram desconsiderados, pois geraram apenas um grupo, agrupando todos as publicações.

Para os demais experimentos e comparações, foi escolhida a configuração do MDCoI que usa centroide com γ = 0, 85, β = 0, 80 e nt= 15.

A Tabela 5.7 compara o resultado do MDCoI contra o baseline. Observa-se que o MDCoI teve ganhos para precisão, revocação, F1 e acurária em torno de 1,6%, 121%, 61% e 7,5%, respectivamente.

5.3 Avaliação do Passo Agrupamento de Publicações 32

Tabela 5.6: Melhores resultados obtidos pelo MDCoI com nt = 15 e γ = 0, 85.

Abordagem Precisão Revocação F1 Acurácia Grupos

Centroide, β = 0, 75 0,7624 0,8554 0,8062 0,7993 8 Centroide, β = 0, 80 0,7624 0,8554 0,8062 0,7993 8 Average Linkage, β = 0, 75 0,6069 0,5201 0,5601 0,3890 9 Average Linkage, β = 0, 80 0,6069 0,5201 0,5601 0,3890 9 Complete Linkage, β = 0, 75 0,6069 0,5201 0,5601 0,3890 9 Complete Linkage, β = 0, 80 0,6069 0,5201 0,5601 0,3890 9 Single Linkage, β = 0, 75 0,4898 1,0 0,6575 0,4898 1 Single Linkage, β = 0, 80 0,4898 1,0 0,6575 0,4898 1

Tabela 5.7: Comparação do MDCoI com o baseline uogTr_RD_4

Abordagem Precisão Revocação F1 Acurácia Grupos

uogTr_RD_4 0,7502 0,3861 0,5016 0,7431 7

MDCoI 0,7624 0,8554 0,8062 0,7993 8

possível notar que quando as publicações não estão contextualizadas, i.e., não há adição de novos termos (enriquecimento), sua acurácia é baixa por conta da quantidade de conjuntos finais gerados. A medida que o contexto aumenta a acurácia também aumenta, mas se a adição de termos for grande, a publicação enriquecida fica com um contexto mais genérico, o que faz com que o resultado convirja para um único grupo de publicações, abaixando a acurácia novamente.

Figura 5.2: Variação do valores do nt no MDCoI Centroide com γ = 0, 85 e β = 0, 80

A Figura 5.3 mostra os resultados, em termos de acurácia, variando apenas o método de comparação de grupos similares. Observa-se que há uma grande variação nos resultados neste caso. Isso ocorreu porque cada método tem um desempenho melhor dependendo dos valores atribuídos ao γ e β.

Variando apena o γ, como mostrado na Figura 5.4, observa-se o inverso do que aconte- ceu ao variar o nt, onde, com valores baixos de γ, as publicações tendem a serem agrupadas