Musikk - Fagutvalg for musikk og kultur - Mål undervisning voksne:

Mål undervisning voksne:

6.3.3 Fagutvalg for musikk og kultur

6.3.3.1 Musikk

As t´ecnicas de filtragem baseadas no conte´udo visam classificar as mensagens de email como spam ou ham, utilizando para isso carater´ısticas do conte´udo das men-

sagens como as palavras, frases ou anexos, que s˜ao correlacionadas com a classe das mensagens, ham ou spam. Para estabelecer essa correla¸c˜ao entre as cara- ter´ısticas das mensagens e a sua classe, ´e necess´ario algum conhecimento pr´evio, que pode ser obtido atrav´es da utiliza¸c˜ao de t´ecnicas de data mining. O sucesso destes m´etodos na categoriza¸c˜ao de textos, foi o que incentivou os investigadores a aplicarem algoritmos de aprendizagem m´aquina `a filtragem de spam [3]. Nesse contexto ´e utilizado um classificador (e.g., Naive Bayes, Support Vector Machine (SVM), k-Nearest Neighbor (k-NN)) que, sobre um conjunto de dados de mensagens de email previamente classificadas, cria um modelo de classifica¸c˜ao. Esse modelo ´e utilizado posteriormente para classificar as novas mensagens de email. Assim de uma forma geral a filtragem baseada no conte´udo aplica a seguinte fun¸c˜ao de decis˜ao [8]:

f(m, θ) =  



cspam, se a mensagem ´e considerada como spam

cham, se a mensagem ´e considerada como ham

(2.1)

sendo m a mensagem a classificar, θ o vetor de parˆametros utilizados para a classifica¸c˜ao, e cham ou cspam a classe da mensagem.

No contexto das t´ecnicas de classifica¸c˜ao utilizando algoritmos de aprendizagem m´aquina o vector de parˆametros θ ´e o resultado do treino do classificador com um conjunto de mensagens pr´evias [8]:

θ = Θ(M ) (2.2)

M = (m1, y1), (m1, y1), ...(mn, yn), yi ∈ cspam, cham (2.3)

onde m1, m2, ..., mn s˜ao mensagens pr´evias, y1, y2, ..., yi as classes corresponden-

De acordo com [19], apesar da grande popularidade destes m´etodos na filtragem anti-spam, existem v´arios desafios a superar na aplica¸c˜ao destes m´etodos em ambi- entes reais. Estes consistem na inconstante distribui¸c˜ao de classes(spam ou ham), a incerteza em rela¸c˜ao aos custos de erro de classifica¸c˜ao, e a reatividade e adapta¸c˜ao dos spammers a estes m´etodos.

O primeiro desafio advˆem do facto da propor¸c˜ao de mensagens de ham e spam n˜ao serem constantes. A quantidade de spam recebida depende do endere¸co email, da forma como este ´e exposto e tamb´em do tempo que passou desde que o email foi publicado [19]. A quantidade de correio leg´ıtimo tamb´em varia de utilizador para utilizador. Estas diferen¸cas na propor¸c˜ao entre mensagens spam e ham torna mais dif´ıcil a avalia¸c˜ao de desempenho de diferentes filtros. Assim pode existir um filtro que tenha um melhor desempenho que outro num conjunto de dados com 20% de mensagens de spam, mas que o mesmo n˜ao aconte¸ca num conjunto de dados com uma percentagem de spam de 80% [19].

Os erros de classifica¸c˜ao consistem nos casos em que uma mensagem de spam ´e classificada como ham, ou vice-versa. Os filtros anti-spam classificam uma men- sagem como uma instˆancia positiva, se for spam, e negativa quando ´e leg´ıtima. A classifica¸c˜ao de uma mensagem leg´ıtima como spam (falso positivo), pode ser bas- tante mais grave do que classificar uma mensagem de spam como leg´ıtima (falso negativo) [19, 3]. Sen˜ao vejamos, um falso negativo corresponde a receber uma mensagem de spam na caixa de correio leg´ıtimo, que pode ser uma situa¸c˜ao in- conveniente. Por outro lado um falso positivo pode resultar num cen´ario onde a mensagem de ham ´e enviada para a pasta de spam, obrigando o utilizador a perder tempo `a procura de mensagens leg´ıtimas na caixa de spam. Ainda mais grave ´e o cen´ario em que a mensagem leg´ıtima ´e eliminada sem possibilidade de ser recupe- rada. Devido a estas diferen¸cas existem autores que defendem a utiliza¸c˜ao de custos assim´etricos para cada um dos casos [19, 3]. Mas quantificar o custo de um falso positivo em rela¸c˜ao a um falso negativo ´e algo muito relativo, e em ´ultima instˆancia ´e um fator que deve ser o utilizador a especificar [19].

A reatividade e capacidade de adapta¸c˜ao dos spammers `as t´ecnicas de filtragem ´e outro desafio que estes m´etodos enfrentam na dete¸c˜ao de spam em ambiente real. Exemplo disso ´e a distor¸c˜ao do conte´udo textual nas mensagens de spam, que consiste na altera¸c˜ao da forma como as palavras s˜ao escritas (e.g., Viagra →

Vi@gra) [8], ou na introdu¸c˜ao de tags Hypertext Markup Language (HTML) no meio de palavras [3]. Outra t´ecnica utilizada pelos spammers s˜ao os ataques de poisoning que recorrem `a introdu¸c˜ao de palavras ”neutras”nas mensagens de spam, para desta forma tornar as classes spam e ham indistingu´ıveis ao filtro anti-spam [22, 19].

Classificador Naive Bayes

Existem v´arios algoritmos de aprendizagem m´aquina que s˜ao utilizados para implementar solu¸c˜oes de filtragem anti-spam (e.g., Naive Bayes, SVM, k-NN, Bo- osting). Entre eles o Naive Bayes ´e particularmente o mais popular e amplamente utilizado [3, 8, 36]. Segundo [36] isto deve-se ao facto de o Naive Bayes ser um algoritmo simples que torna f´acil a sua implementa¸c˜ao, al´em disso este possui uma complexidade linear e o seu desempenho pode ser compar´avel a outros algoritmos de aprendizagem m´aquina mais elaborados. O Naive Bayes ´e um filtro estat´ıstico que se baseia no teorema probabil´ıstico de Bayes para efetuar a classifica¸c˜ao das mensa- gens de email. Assim a partir de um vetor com as carater´ısticas destas mensagens, e outras probabilidades calculadas sobre um conjunto de dados de treino, ´e poss´ıvel categorizar uma mensagem de email [51]. O vetor que carateriza a mensagem pode conter atributos como o n´umero de ocorrˆencias de cada termo ou o valor tf-idf4_para

cada palavra presente numa mensagem. Apesar de ser n˜ao ser convencional em [12] foi proposto tamb´em a utiliza¸c˜ao m´etricas de rede como atributos para caraterizar as mensagens.

Segundo o teorema de Bayes a probabilidade de uma mensagem com o vector ~x=< xi...xn>pertencer `a categoria c ´e dada por [36, 50]:

p(c|~x) = p(c) · p(~x|c)

p(~x) (2.4)

O classificador Naive Bayes vai classificar cada mensagem na categoria que maximizar p(c) · p(~x|c), pois o denominador n˜ao depende da categoria [36]. Assim,

4_{tf-idf (term frequency-inverse document frequency) ´}_{e uma medida estat´ıstica usada para avaliar}

no contexto da filtragem de spam, isto corresponde a classificar uma mensagem como spam sempre que [36]:

p(cs) · p(~x|cs)

p(cs) · p(~x|cs) + p(ch) · p(~x|ch)

> T (2.5)

com T = 0.5, csrepresentado a classe spam, e ch a classe ham. O valor de T pode

ser parametrizado para adaptar o filtro consoante as necessidades. Para valores de T > 0.5 opta-se por um maior n´umero de verdadeiros negativos (mensagens de ham corretamente classificadas), `a custa de menos verdadeiros positivos (instˆancias de spam corretamente classificadas) [36]. Verifica-se exatamente o contr´ario para valores de T < 0.5. A probabilidade p(c) pode ser calculada dividindo o n´umero de mensagens de treino da categoria c pelo n´umero total de mensagens utilizadas para treino. As probabilidades p(~x|c) s˜ao obtidas consoante a vers˜ao do Naive Bayes [36].

O algoritmo Naive Bayes possui diferentes variantes. No trabalho efetuado em [36] s˜ao discutidas cinco vers˜oes distintas deste algoritmo. ´E importante perce- ber estas diferen¸cas de modo a ser poss´ıvel efetuar uma avalia¸c˜ao de desempenho rigorosa nas solu¸c˜oes anti-spam. Entre as diferentes variantes discutidas em [36] encontram-se o Multi-variate Bernoulli Naive Bayes (MVBNB) (ver Eq. (2.6)), Multinomial NB com atributos de frequˆencia dos termos (tf-term frequency) (ver Eq. (2.7)) e o Multinomial NB com atributos booleanos.

O MVBNB utiliza um vetor bin´ario ~x =< xi...xn > para representar uma

mensagem d. Sendo A = {t1...tn} o conjunto de atributos utilizados para a clas-

sifica¸c˜ao, cada xi indica se o atributo ti est´a, ou n˜ao, presente na mensagem [36].

Al´em disso cada mensagem d da classe c ´e obtida depois de m ensaios de Bernoulli, a cada ensaio ´e decidido se o atributo ti vai constar na mensagem d. A probabi-

lidade de o termo ti constar na mensagem d ´e p(ti|c) [36]. Assim p(~x|c) pode ser

obtido da seguinte forma [36]:

p(~x|c) =

i=1

A vers˜ao Multinomial NB com atributos de frequˆencia de termos, representa uma mensagem d atrav´es de um vetor ~x =< xi...xn > onde cada elemento xi

indica o n´umero de ocorrˆencias de cada atributo ti na mensagem [36]. Al´em disso

cada mensagem d da classe c ´e o resultado de selecionar de forma independente |d| atributos de A com reposi¸c˜ao com uma probabilidade de p(ti|c) para cada ti [36].

Assim p(~x|c) ´e obtido da seguinte forma [36]:

p(~x|c) = p(|d|) · |d|! · m Y i=1 p(ti|c)xi xi!

In document Årsmelding Modum sokn 2016 (sider 47-52)