5. Discussion and conclusion
5.1 Recommendation for future work
Conforme explicado anteriormente neste trabalho, a necessidade de se encontrar métodos de análise de discurso (e por consequência, de enquadramento) mais sistematizados, baseados em instâncias textuais concretas, levou à proposição de uma Análise de Enquadramento Textualmente Orientada – método crítico de análise de enquadramento da mídia cujo intuito é fornecer ferramentas para uma compreensão mais ampla das relações entre a mesma e os demais aspectos da realidade através de seu principal produto: a notícia. No caso desta pesquisa, o objetivo é desenvolver métodos que auxiliem na percepção e mensuração do enquadramento da cobertura midiática em função de variáveis políticas, tendo como objeto os enquadramentos relativos à nova classe média no momento em que Marcelo Neri estava na FGV e quando ele passou a desenvolver suas pesquisas sobre o assunto no âmbito do governo (possibilitando inclusive um maior entendimento da influência da mídia sobre as tomadas de decisão governamentais).
Segundo Matthes e Kohring, as abordagens metodológicas de análise de conteúdo dos enquadramentos da mídia geralmente se dividem em cinco tipos, não excludentes: hermenêutico, linguístico, holístico-manual, orientado por computador e dedutivo (Matthes, Kohring, 2008:262). Ainda de acordo com os autores, é frequente a perda de padronização e objetividade nas abordagens puramente hermenêuticas, holísticas e dedutivas – limitações que esta pesquisa tenta superar. Para isso, o estudo combina os tratamentos hermenêutico, holístico, linguístico e orientado por computador, apoiando-se fortemente em metodologias computacionais de Linguística de Corpus e Processamento de Linguagem Natural (PLN), já que elas proporcionam a geração de dados estatísticos linguísticos que embasam de maneira mais completa e sistematizada as análises posteriores. Outra grande vantagem do uso de tais ferramentas é o processamento de grandes quantidades de texto e a evidenciação de relações ocultas entre palavras e expressões (consideradas enquanto “termos”) – que podem ser índices significativos de uma abordagem noticiosa predominante em um conjunto de textos, por exemplo. E, para tanto, esta dissertação conta com a parceria da Escola de Matemática Aplicada (FGV/EMAp).
O desenvolvimento de novas ferramentas para análise da mídia – que também tornem possível o estabelecimento de uma genealogia das notícias (ou como, quando, porquê e em que contexto elas surgem) – constitui uma das linhas de pesquisa da EMAp, que está produzindo a Media Cloud BR. O projeto é inspirado na plataforma Media Cloud, produzida pelo MIT Center of Civic Media (através do MIT Comparative Media Studies/Writing e do MIT Media Lab) e a Harvard Law School, e que tem como objetivo estudar os ecossistemas e vieses de cobertura da mídia por meio do rastreamento de milhões de matérias.36
A intenção da EMAp é desenvolver um projeto brasileiro em moldes análogos através de uma equipe multidisciplinar, aplicando na análise da mídia online ferramentas semelhantes às cada vez mais utilizadas na mensuração e compreensão de fenômenos comunicacionais na web – principalmente os de grande escala, tais como o uso das redes sociais nos casos de manifestações de massa contra governos, no Brasil e no mundo. Todavia, o uso de tais ferramentas para analisar os conteúdos da mídia (seja de forma acadêmica ou com fins estratégicos) ainda é pouco difundido, e este trabalho pode contribuir para este campo de estudos.
O apoio fundamental para a Análise de Enquadramento Textualmente Orientada proposta nesta pesquisa vem das ferramentas da Linguística Computacional através de rotinas desenvolvidas pela EMAp. A Linguística Computacional é a área de conhecimento que explora as relações entre Linguística e Informática, tornando possível a construção de sistemas com capacidade de reconhecer e produzir informação apresentada em linguagem natural. Segundo Gabriel de Ávila Othero,
A Linguística Computacional envolve as diferentes áreas de pesquisa tradicionalmente conhecidas em Lingüística [sic] Teórica e Aplicada, como a Sintaxe, a Semântica, a Fonética e a Fonologia, a Pragmática, a Análise de Discurso, etc. Todo esse conhecimento é utilizado para tentar processar (“leia-se compreender e produzir”) as línguas naturais e dominar o conhecimento lingüístico envolvido no domínio de uma linguagem natural. (Othero, 2006: 342)
Ainda de acordo com Othero, a Linguística Computacional pode ser dividida em duas subáreas: a Linguística de Corpus e o Processamento de Linguagem Natural (PLN). A Linguística de Corpus preocupa-se com o trabalho a partir de corpora eletrônicos que contenham amostras de linguagem natural – no caso desta pesquisa, textos digitalizados da mídia.
Geralmente voltados para o estudo de fenômenos linguísticos e sua ocorrência em grandes amostras, os trabalhos envolvendo esse tipo de corpora nem sempre têm o objetivo de produzir algum software ou aplicativo. Nestes casos, cabe à área de PLN a construção de programas capazes de interpretar e/ou gerar informações em linguagem natural. “Essa divisão nem sempre é nítida, uma vez que há muitos trabalhos que envolvem as duas áreas” (Othero, 2006:342), alerta o pesquisador em seu artigo. Este, por exemplo, é o caso das ferramentas usadas nesta pesquisa, já que ela exige o uso de programas que processem o corpus textual, ou seja: que compreendam e produzam informações linguísticas a partir de uma coleção de textos.
3.2. Sobre a mineração de texto
Uma das principais técnicas que combinam as ferramentas de PLN e Linguística de Corpus – além de outras advindas da mineração de dados, machine learning, recuperação da informação e organização do conhecimento – para processar um corpus composto por uma grande quantidade de textos é a de text mining, ou mineração de textos, conforme explicam Ronen Feldman e James Sanger.
A mineração de texto podem ser amplamente definida como um processo de conhecimento intensivo em que um usuário interage com uma coleção de documentos ao longo do tempo por meio de um conjunto de ferramentas de análise. De forma análoga à mineração de dados, a mineração de texto procura extrair informação útil a partir de fontes de dados através da identificação e exploração de padrões interessantes. No caso da mineração de texto, no entanto, as fontes de dados são coleções de documentos e padrões interessantes são encontrados não entre os registros do banco de dados
formalizados, mas nos dados textuais não estruturados nos documentos dessas coleções. (Feldman, Sanger: 2007, 1)37
De acordo com a pesquisadora Marti Hearst, o principal diferencial possibilitado pelo text mining não é o encontro de padrões, mas a capacidade que o método possui de extrair relações que estão ocultas nos textos – o que justamente o transforma em uma excelente ferramenta para análise de discurso. “Na mineração de texto, o objetivo é encontrar informações até então desconhecidas, algo que ninguém sabe ainda, e que por isso não poderia ter sido escrito” (Hearst, 2003)38. Embora muito focada nos usos do text mining na biomedicina, esta explicação é afinada com os objetivos de Fairclough (e, por conseguinte, à proposta de uma Análise de Enquadramento Textualmente Orientada), já que, segundo ele, a análise de discurso deve ser um método crítico. “Crítico implica mostrar conexões e causas que estão ocultas (…)” (Fairclough, 2011:28).
3.3. Lexicometria, ou estatística linguística
De acordo com Patrick Charaudeau e Dominique Maingueneau, a lexicometria – também chamada estatística linguística, estatística lexical ou quantitativa, estatística textual e até análise dos dados em linguística – é uma metodologia de estudo do discurso que se pretende exaustiva, sistemática e automatizada; e embora o termo que a identifique seja recente, a técnica de se medir (ou contar) as unidades lexicais tem origens bastante antigas. (Charaudeau, Maingueneau, 2012:302). Nos dias de hoje, a lexicometria conta com ferramentas computacionais e alia a Linguística de Corpus à Descoberta de Conhecimento em Textos, “possibilitando análises qualitativas a partir de dados de natureza quantitativa” (Bastos, Bercht,
37
Text mining can be broadly defined as a knowledge-intensive process in which a user interacts with a document collection over time by using a suite of analysis tools. In a manner analogous to data mining, text mining seeks to extract useful information from data sources through the identification and exploration of interesting patterns. In the case of text mining, however, the data sources are document collections, and interesting patterns are found not among formalized database records but in the unstructured textual data in the documents in these collections. Moreover, because of the centrality of natural language text to its mission, text mining also draws on advances made in other computer science disciplines concerned with the handling of natural language. Perhaps most notably, text mining exploits techniques and methodologies from the areas of information retrieval, information extraction, and corpus-based computational linguistics. Tradução livre.
38
In text mining, the goal is to discover heretofore unknown information, something that no one yet knows and so could not have yet written down. Tradução livre.
Martins, Wives, 2011:278) em grandes volumes textuais. Ela é, portanto, parte fundamental da mineração de textos – e por conseguinte desta pesquisa, já que se propõe a realizar uma análise textual dos enquadramentos da mídia.
Ainda segundo Charaudeau e Maingueneau, há três operações preparatórias que a lexicometria deve efetuar: (1) a escolha, após a divisão da cadeia textual em unidades que podem ser estudadas; (2) a reunião de um corpus fechado de textos, que dividem esse corpus; (3) e a comparação de resultados quantificados, efetuada com base nas unidades apresentadas nesses textos (Charaudeau, Maingueneau, 2012:302). Sobre o corpus, os autores ressaltam que ele deve ser estabilizado (já que suas partes formam as bases da comparação) e que ele “é, de fato, encarregado de responder às questões que o pesquisador formula e que procura esclarecer, senão resolvê-las, por métodos lexicométricos”. (Charaudeau, Maingueneau, 2012:303).
Apesar de ser um método sistematizado, a lexicometria – assim como todos os outros métodos de análise computacional, linguísticos ou não – depende da interpretação que o pesquisador faz dos dados e da inserção dos mesmos em uma conjuntura, e é isso que pode revelar, nesta pesquisa, os enquadramentos, os atores e interesses que competem para dominar o(s) texto(s). Este processo, inclusive, é sujeito a idas e vindas, e pode ser composto por várias camadas de análise, que complexificam a interpretação do fenômeno a ser investigado.
A interpretação depende das hipóteses formuladas no início (tema da investigação) e das respostas mais ou menos adequadas fornecidas pelo corpus após o tratamento. Várias experiências podem, e frequentemente devem, ser feitas (...) à procura de explicações que resistam às variações de análise. Partindo-se de constatações quantificadas, pode-se assim salientar as inferências de nível em nível (...). É evidente que, por mais que o pesquisador avance em nível de inferência, mais ele perde essa certeza que ele acreditava ter adquirido ao recorrer à lexicometria. (Charaudeau, Maingueneau, 2012:304)
As análises textuais deste trabalho (tanto as lexicométricas quanto as demais) foram geradas no Ipython – uma interface de desenvolvimento para a linguagem
Python que conta com ambientes gráficos e de linha de comando39. A interface de programação Ipython é utilizada pela EMAp e as rotinas utilizadas na presente pesquisa foram desenvolvidas pela própria Escola, utilizando pacotes existentes no ecossistema Python para Processamento de Linguagem Natural (PLN) e também módulos para PLN em Python criados por ela. Tais rotinas utilizam ainda algumas das análises comuns no escopo de PLN, como análises estatísticas linguísticas (frequência de ocorrência, co-ocorrências, etc.), análises morfológicas (part-of-speech tagging, também conhecida POS tagging ou POST), além de Named-Entity Recognition (na sigla em inglês, NER), análise de sentimento, entre outras – que, em conjunto, possibilitam a análise dos enquadramentos da mídia desta dissertação.
3.4. Sobre o corpus da pesquisa
A fim de que os enquadramentos das matérias que citam a nova classe média, ou tratam do assunto, possam ser comparados tendo como base os períodos de tempo em que o economista Marcelo Neri estava na FGV e depois quando foi para o âmbito do governo (assumindo a presidência do Ipea e interinamente a Secretaria de Assuntos Estratégicos, a SAE), o corpus de textos da mídia desta pesquisa foi dividido inicialmente da seguinte forma: dois períodos, tendo como marco central o mês de agosto de 2012 – já que no dia 27 ele foi nomeado presidente do Ipea – e como marco final o mês de maio de 2014, quando ele se tornou ministro-chefe da SAE e teve que deixar o Ipea. Então, para que a primeira divisão do corpus correspondesse ao mesmo período de tempo da segunda (21 meses), fixou-se o início da análise em dezembro de 2010. Assim, temos 21 meses de dezembro de 2010 a agosto de 2012, e 21 meses de setembro de 2012 a maio de 2014. Ao todo, portanto, são 42 meses de análise, divididos em dois grandes ranges de 21 meses. Desta forma, tem-se um corpus homogêneo, que gera um número de textos e de menções suficientemente extenso para serem trabalhados pelas ferramentas acima citadas, sem saturar a pesquisa com dados que não podem ser analisados em tempo hábil.
Devido à limitação de tempo característica do mestrado, escolheu-se trabalhar com as matérias online de apenas um jornal, O Globo – o segundo em circulação
39
“Python é uma linguagem de programação open-source, de alto nível, interpretada, orientada a objetos, funcional, de tipagem dinâmica e robusta. Lançada em 1991 por Guido van Rossum, atualmente possui um modelo de desenvolvimento comunitário, aberto e gerenciado pela organização sem fins lucrativos. (Venâncio, 2014:82)
nacional de acordo com dados da Associação Latino-Americana de Publicidade (ALAP) para janeiro de 201440: 299.821 exemplares. O primeiro lugar, a Folha de São Paulo, registrava circulação de 332.354 exemplares. No entanto, embora a circulação e alcance nacional sejam importantes, o que de fato pesou na escolha de O Globo foram os primeiros fatores de análise. Contabilizadas, as matérias sobre a nova classe média no O Globo no período total de tempo a ser analisado (dezembro de 2010 a maio de 2014) somam 361, enquanto as da Folha são 323. Além disso, os textos do jornal O Globo são tecnicamente melhores para serem processados, pois dependem menos de intervenções manuais na fase de pré-processamento (o que resulta em análises mais precisas). Quanto à escolha da mídia online, deve-se à possibilidade de otimização dos métodos de análise computacional já existentes – desenvolvidos e/ou utilizados pela EMAp – e não oferece nenhum tipo de prejuízo. Pelo contrário: as versões de jornais como O Globo para assinantes (que foi utilizada para a extração das matérias desta pesquisa) funcionam também como arquivos integrais das edições e garantem o acesso a todo conteúdo.
As matérias sobre a nova classe média que compõem a pesquisa foram extraídas pelas ferramentas computacionais de mineração e análise de texto da EMAp a partir da utilização do termo nova classe média enquanto “palavra-chave”. Para a Linguística e as Ciências da Computação, “palavra-chave” se refere, respectivamente, a uma palavra que ocorre no texto com mais frequência do que se espera que ela ocorresse somente por acaso, e à palavra ou identificador que possui um sentido particular para a linguagem de programação. Assim, para extrair as matérias consideradas relativas à nova classe média, o termo nova classe média teve que ser citado no texto ao menos uma vez, a fim de ser identificado pela rotina de programação.
O termo nova classe média não se trata de uma palavra de acordo com a noção de “palavra” na Linguística tradicional. “(...) a palavra é um elemento lingüístico significativo composto de um ou mais fonemas; essa sequência é suscetível de uma transcrição escrita (...) compreendida entre dois espaços em branco (...)”. (Dubois, Giacomo, Guespin, Marcellesi, Marcellesi e Mevel, 2006:450). A referida expressão é composta, portanto, por três palavras. Todavia, em linguagem de programação, este problema é resolvido ao se considerar “nova classe média”, por exemplo, como
40
Disponível em http://www.alap.com.br/noticias/os-50-maiores-jornais-do-brasil-jan14. Acesso em 21 de janeiro de 2015.
unidade de texto inscrita entre dois brancos gráficos da seguinte forma: nova_classe_média. A partir da identificação do termo nova classe média em uma primeira etapa de mineração de textos para a composição do corpus, então, realizam- se as demais camadas de mineração no mesmo – camadas que revelam quais outras palavras (ou colocações) se associam ou co-ocorrem com nova classe média, em que quantidades, de que maneiras e em quais momentos.
Cabe ressaltar, ainda, que esta pesquisa considera apenas os textos das matérias e artigos em conjuntos maiores ou menores, e não as chamadas, e também não diferencia os textos opinativos dos informativos, considerando todos como notícias; o lugar que elas possam ter vindo a ocupar no site do jornal também será desconsiderado, pois esse tipo de análise semiótica não faz parte do escopo da Análise de Enquadramento Textualmente Orientada. Além disso, a posição que as matérias ocuparam perde-se quando elas são arquivadas, e os textos ficam disponíveis apenas através de seus links. Todavia, as datas em que tais notícias foram publicadas são um parâmetro essencial para a análise aqui empreendida, já que as variáveis políticas que podem ter exercido influência nos enquadramentos noticiosos identificados são relacionadas aos mesmos cronologicamente.
A interpretação das informações resultantes das análises sistematizadas dos textos que formam o corpus deste estudo constitui, assim, a camada mais profunda da análise, mas não necessariamente a última, já que é a partir dela que se realizam novas experiências analíticas que têm como objetivo explorar as respostas que os dados gerados fornecem à questão inicial da pesquisa: se, e em que medida, os enquadramentos da mídia sobre a nova classe média mudam quando o economista Marcelo Neri deixa a FGV para atuar na esfera governamental. E é a interpretação de tais dados que constitui a parte hermenêutica da metodologia proposta neste trabalho.
Os resultados estatísticos linguísticos obtidos a partir do corpus de notícias da mídia (como por exemplo, as palavras e colocações mais frequentes, as relações entre elas, frases mais importantes) são associados ao contexto político e social em que se inserem de forma diacrônica, em uma tentativa de desvelar o sentido que assumem além da significância semântica. A partir de padrões e da descoberta de relações entre palavras e expressões é apreendida uma instância de sentido mais abrangente, ancorada no tempo, em que partes significativas dos discursos noticiosos relativos à nova classe média são relacionadas à conjuntura sociopolítica; desta forma, são identificados os enquadramentos preponderantes em determinado período. Vale
sublinhar, também, que este trabalho não possui a intenção de criar categorias de enquadramentos, mas sim de identificá-los e de apreender em que medida variáveis políticas estão inter-relacionadas aos mesmos.
4. Nova classe média: análises empíricas dos enquadramentos do jornal O Globo