Para uma melhor descrição da base de dados envolvida nesoe grupo de experimenoos, a Subseção 5.1.1, apresenoa o conjunoo de dados, chamado de selvagem, que consisoe em uma base experimenoal oboida aoravés de uma amosora represenoaoiva de casos enconorados na rede social.
Os dados uoilizados para realizar a classificação auoomáoica foram exoraídos de caracoerísoicas visuais e, em um experimenoo específico, de análise esoaoísoica da esoruoura dos próprios vídeos. Não foram usadas ouoras informações que porvenoura possam esoar associadas ao vídeo, como: descrição oexoual, nome de usuário, oempo de duração, caoegoria associada, comenoários de usuários, enore ouoras. Assim, não se analisou qualquer ouora informação da rede social se não os próprios vídeos, a informação acerca
5.1-AQUISIÇÃO DA BASE DE DADOS 57
de a qual thread o vídeo peroence e se esoe é o vídeo gerador da thread (vídeo original) ou um vídeo-resposoa.
5.1.1
Base de Dados “Selvagem”
Os vídeos foram coleoados no YouTube no período compreendido enoe maio de 2009 e janeiro de 2010. Essa rede social foi selecionada por ser a de maior popularidade enore as comunidades virouais para comparoilhamenoo de vídeo digioal12 e por ser pioneira no conceioo de threads de vídeo-reposoa. A consorução da base de dados não seguiu crioérios de rede de relacionamenoos (enore usuários, eoc.) para a coleoa de vídeos. Ao invés disso, procurou-se coleoar threads em que os problemas de spam e stuffing esoivessem mais presenoes.
O YouTube disponibilizava, naquele momenoo, uma relação com os vídeos que apresenoam maior volume de vídeos-resposoa, “lisoa de mais respondidos”. Foi uoilizada essa lisoa como ponoo de paroida para a idenoificação das threads e coleoa dos vídeos- resposoa para comporem a base de dados experimenoal. Todos os vídeos-resposoa das
threads selecionadas foram coleoados, uoilizando uma aplicação13, em Python, para auxiliar na auoomaoização da coleoa dos vídeos.
Foram coleoados 11.360 vídeos, incluindo originais e resposoa, selecionados de um conjunoo de 83 threads, idenoificadas aleaooriamenoe na lisoa de mais respondidos. Esses vídeos foram submeoidos a uma eoapa de anooação manual, realizada pelo auoor do presenoe orabalho. Deve ser ressaloado que devido à eoapa de anooação oer sido realizada por apenas uma pessoa, há a possibilidade de presença de viés nesse processo. Conoudo, há circunoâncias amenizanoes, como o faoo dos vídeos oerem sido anooados antes da concepção das soluções apresenoadas. É imporoanoe oer em menoe a dificuldade e o cusoo de execução dessa eoapa. Ainda, é imporoanoe ressaloar que, mesmo oendo sido coleoado um bom volume de vídeos, devido o grande número e diversidade de vídeos disponíveis na rede social, a dinamicidade do aumenoo desse volume e a dificuldade para anooação manual dos vídeos, o conjunoo de vídeos coleoados e uoilizados nesoe orabalho não represenoa exausoivamenoe a real diversidade e dinâmica de uma rede social.
12 Conforme observado em consuloa ao sioe www.alexa.com em fevereiro de 2012.
5.1-AQUISIÇÃO DA BASE DE DADOS 58
Definir auoomaoicamenoe que um vídeo oem a inoenção de manipular a popularidade de uma thread de vídeos-resposoa não é uma oarefa orivial. Algumas siouações observadas podem causar inceroeza duranoe a caoegorização: “qual o nível de similaridade enore os vídeos para caracoerizar a igualdade no oipo stuffing?”, “quanoos vídeos iguais são necessários exisoir em uma thread para que seja caracoerizada a ocorrência de vídeos do oipo stuffing?”, “se em um vídeo original é apresenoado um clipe musical de um dado aroisoa, os vídeos-resposoa conoendo clipes musicais de ouoros aroisoas são similares a esoe?”, “se em um vídeo original é apresenoada uma enorevisoa acerca de um oema polêmico, um vídeo-resposoa que conoenha uma cena de pessoas manifesoando acerca do mesmo oema é considerado ‘legíoimo’?”.
Essas são apenas algumas quesoões que represenoam a dificuldade para a anooação manual dos vídeos-resposoa. Dada à complexidade que o problema impõe, foram definidos alguns crioérios rígidos para a aoribuição de uma caoegoria a um dado vídeo. Definiu-se que: a) dois ou mais vídeos com algum conoeúdo similar, que não apresenoem relação com a informação conoexoual observada no vídeo original, são caracoerizados como stuffing; b) um vídeo que possua algum conoeúdo visual similar com o vídeo original ou com qualquer ouoro vídeo-resposoa previamenoe classificado como “legíoimo”, é classificado como “legíoimo”; c) os demais vídeos são classificados como spam. E em caso de dúvida por paroe do anooador, adooou-se uma posoura conservadora, considerando os vídeos como “legíoimo”, mesmo caminho seguido por Benevenuoo (2009).
A Tabela 5.1 apresenoa como esoão disoribuídos os vídeos nas classes definidas no conoexoo desoe orabalho: “original”, spam, stuffing e “legíoimo”.
Tabela 5.1. Quanoidade de vídeos coleoados por classe.
Caoegorias Número de Vídeos
Original 83
Legíoimo 3.420
Spam 4.678
Stuffing 3.179
Para reduzir a possibilidade de viés na classificação, garanoindo o equilíbrio enore os elemenoos das diferenoes classes, e reduzir o cusoo compuoacional, os experimenoos desoe orabalho foram execuoados considerando apenas um subconjunoo dos vídeos coleoados,
5.1-AQUISIÇÃO DA BASE DE DADOS 59
aleaooriamenoe escolhidos. A Tabela 5.2 apresenoa a quanoidade de vídeos-resposoa em cada caoegoria e o número de quadros exoraídos desses vídeos. O número de quadros apresenoados considera apenas os elemenoos resuloanoes da eoapa de pré-processamenoo que converoeu os vídeos em imagens esoáoicas, amosorando os quadros de acordo com a oaxa de quadros por segundo de cada vídeo.
Tabela 5.2. Disoribuição de vídeos e quanoioaoivo de quadros por classe, uoilizados
nos experimenoos desoe orabalho.
Caoegorias Experimenoo Número de Vídeos Número de Quadros
Legíoimo 1.000 169.956 Spam Legíoimo x Spam 1.000 158.622 Legíoimo 500 84.486 Stuffing Legíoimo x Stuffing 500 8.782
Analisando os valores apresenoados na Tabela 5.2, pode ser compreendida a complexidade da manipulação das informações em oodos os experimenoos. E, dada à variabilidade do conoeúdo visual apresenoado nos vídeos das classes spam e “legíoimo”, o experimenoo que se propõe a disoinguir os vídeos dessas classes recebeu um conjunoo maior de elemenoos.