2.1 Sosiokulturell læringsteori
2.1.2 Verktyomgrepet
O intuito deste capítulo é aplicar a análise do plano do conteúdo, do modo como apresentada nos capítulos 4 e 5, a um exemplo que simula uma das situações que poderia ocorrer em um caso “real”1. A tarefa é a de classificar um texto questionado como
pertencente a um de três autores suspeitos.
Os capítulos 4 e 5 indicaram que elementos tensivos e do plano do conteúdo, de acordo com a semiótica francesa, podem funcionar como marcadores quando se trata de agrupar ou distanciar autores. Demonstrou-se que a premissa fundamental da atribuição de autoria, ou seja, que a variação intra-autor é menor do que a variação entre autores aplica-se também aos elementos do plano do conteúdo. Todavia, o método pode levantar dúvidas em termos de validade e confiabilidade, já que todos os textos foram coletados pelo próprio pesquisador que realizou a análise2.
No momento da análise, o fato de o analista ter conhecimento da autoria de cada um dos conjuntos analisados poderia, mesmo que de modo inconsciente, enviesar o exame. Problemas como esse são conhecidos como “research artifacts” (STROHMETZ; ROSNOW, 2003). Este termo refere-se a vieses não intencionais ou não controlados que podem afetar as conclusões de um estudo. Segundo Strohmetz e Rosnow (2003, p. 25), é alto o potencial de resultados enviesados quanto maior for a participação de seres humanos na pesquisa, incluindo-se aí o próprio pesquisador, que nunca é um participante “desinteressado”.
Dessa forma, com o propósito de conferir maior validade e confiabilidade ao método de análise sugerido no capítulo 5, foi concebido um “teste cego”. Chama-se de “teste cego” ou “experimento cego” o estudo em que informações que podem tornar os resultados enviesados não são reveladas ao pesquisador (GREEN; PALUCK, 2003, p. 284). Experimentos cegos são comumente utilizados em pesquisas em que uma das variáveis sob estudo pode ser controlada pelo pesquisador. Eles podem se apresentar em !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
1 Ressalta-se que este trabalho não propõe que, num caso real, a análise se concentre apenas no plano do conteúdo, mas que considere também este plano em conjunto com outros elementos linguísticos já avaliados em estudos anteriores.
três níveis: 1) os participantes do estudo não sabem em quê estão sendo avaliados; 2) nem os participantes nem os “experienciadores” (aqueles que aplicam o experimento) sabem do que trata o estudo (double-blind experiment); e 3) nem os participantes, nem os experienciadores, nem os responsáveis pela coleta de dados sabem do que trata o estudo (triple-blind experiment).
Neste estudo, apenas o primeiro dos três níveis acima foi alcançado, já que os autores que contribuíram com o textos não sabiam que se tratava de uma tarefa de atribuição de autoria. Por outro lado, empregou-se outra espécie de blindness, na medida em que o pesquisador-analista não tomou conhecimento prévio das identidades dos autores e nem da autoria do texto tomado como questionado – fatos que poderiam influenciar, ainda que inconscientemente, a sua análise3. Para garantir isso, contou-se com
o auxílio de outro pesquisador4 para a coleta de dados.
Este segundo pesquisador coletou textos de 3 autores5, denominados A, B e C, e
retirou 3 deles – um texto de cada grupo – aleatoriamente. Dentre estes, um texto foi selecionado como texto questionado. Assim, a análise considerou os conjuntos de textos A, B e C (com 10 textos de cada autor) e um texto questionado, sem que se soubesse nada sobre a sua autoria. A identidade do autor do texto questionado foi mantida em segredo pelo segundo pesquisador até o fim da análise. Como já se apontou, a tarefa consistia em tentar demonstrar qual dos três autores mais provavelmente havia escrito o texto questionado, através da análise do plano do conteúdo.
Assim como no capítulo 5, a análise foi conduzida no software Corpus Tool e a extração de dados foi realizada através de scripts desenvolvidos em PERL. Tanto os procedimentos de análise quanto as medidas estatísticas empregadas para se constatar a proximidade entre as amostras (o Índice de Jaccard e a Correlação de Yule) foram os mesmos do capítulo 5 . Cada grupo de textos por autor constituiu uma amostra separada,
!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
3 Para aumentar o nível de blindness e garantir maior validade e confiabilidade das conclusões, o ideal seria pedir que outro analista, ciente do método de análise semiótica realizasse a análise dos mesmos textos, preferencialmente sem saber que se trata de uma análise para fins de identificação de autoria. Por restrições de tempo e também pelo fato de que os analistas que conheço sabem da natureza do meu trabalho, isso não foi realizado neste momento.
4 Meus agradecimentos à colega Júlia Maria França pela coleta dos textos.
denominadas A, B e C; o texto questionado constitui em si uma amostra distinta denominada Q.
Lembremo-nos de que os coeficientes de Jaccard e Yule consideram valores binários, ou seja, não atentam para a frequência absoluta de elementos, mas apenas para o fato de um elemento estar presente ou ausente. Por isso, o fato de haver 10 textos em cada conjunto A, B e C e apenas um texto em Q não representa um problema, uma vez que a frequência – de 1 a 10 – dos três primeiros é convertida para valores binários.
Isso não quer dizer, contudo, que a frequência nunca é levada em conta, já que ela é fundamental para se depreender a consistência de um estilo. Dessa forma, assim como se procedeu nas análises reportadas no capítulo 5, antes de calcular os coeficientes de Jaccard e Yule excluíram-se tanto os elementos que apresentavam frequência igual a 0 em todos os autores, quanto aqueles que estavam presentes em todos (pois eles não são distintivos, já que iguais para todos). Em segundo lugar, a questão da consistência continuou sendo observada: consideraram-se apenas as características presentes em um autor pelo menos 5 vezes.
Uma dificuldade no tocante à consistência se apresenta com a análise do texto questionado. Se estamos julgando consistentes as características que se repetem, que são recorrentes, como determinar tal recorrência em apenas um texto (tão curto quanto os que via de regra se apresentam em casos forenses)? Este seria um problema com relação à validade, não apenas neste método de análise, mas com qualquer elemento linguístico que se considere como marca de autoria. Assim, para o texto questionado consideraram-se quaisquer características presentes e essas foram comparadas com as características mais frequentemente utilizadas em cada grupo de textos.