• No results found

2.3 Kunstnerisk rammesættelse

2.3.7 En løsning

Fulcher e Svalsberg (2013) colocam que os testes podem obedecer duas orientações, quais sejam: os testes normativos de referência (Norm-referenced testing - NRT), que apoiam testes em larga escala, priorizando tanto a variabilidade quanto a comparação e os testes

referenciado por critérios (Criterion-referenced testing - CRT), que auxiliam a avaliação da pontuação, atribuindo a pontuação em domínio específico e formativo. Para aqueles testes que herdam a orientação do movimento (CRT), é aconselhável que tomem como base uma análise cuidadosa do construto e do conteúdo no domínio específico da comunicação.

Na pesquisa desenvolvida por Bouwer et al. (2014), que investiga a validade de inferências feitas com base no desempenho na escrita, tanto dentro do gênero quanto entre eles; algumas implicações para a avaliação da escrita de proficiência são apontadas.

Temos consciência de que as avaliações sobre a qualidade de textos são sempre subjetivas em certa medida. Esta é uma discussão antiga na literatura. Em termos de avaliação escrita considerada válida e confiável, uma das características é que incluem múltiplas tarefas e avaliadores. O estudo de Lee e Kantor (2007) argumenta que é mais eficiente aumentar o número de tarefas na avaliação, do que aumentar o número de avaliadores por tarefa. Isto levanta um ponto importante pois aumentando a quantidade de tarefas e de avaliadores, o critério de confiabilidade da prova escrita estaria mais acomodado.

Cronbach (1972), Shavelson e Webb (1991) e Schoonen (2005), buscam se apoiar na teoria da generalização, que fornece uma estrutura para decidir sobre o número de tarefas e avaliadores, dadas as múltiplas fontes de erros que decorrem das avaliações.

A teoria da generalização compreende uma análise em dois estágios, com características multifacetadas. Na primeira etapa, com base em estimativas de componentes de variância, uma primeira análise é realizada para refletir com precisão as generalizações feitas a partir dos valores observados (ou seja, resultados de qualidade do texto) para a pontuação "Universo" (no caso, a pontuação da proficiência escrita). Para a teoria da generalização, uma pontuação universo é o valor esperado de valores observados de uma pessoa que esteja sendo avaliada sobre todas as observações a que um avaliador pode generalizar. Na segunda etapa, o estudo de decisão D (D study), estima os componentes de variância obtidos a partir da primeira etapa de estudo (estudo-G). Estas pontuações são utilizadas para examinar como as variações no modelo de avaliação afetam o índice de generalização. O objetivo do estudo de decisão D é escolher o número ideal de tarefas e avaliadores que minimiza as chances de erro na avaliação para, consequentemente, aumentar o poder de generalização dos índices de qualidade de texto para escrever proficiência.

Cronbach (1972) aponta que o número ideal de tarefas e de avaliadores depende da finalidade da avaliação ou a decisão se quer tomar. Também é apontada a questão da diferença entre o tipo de teste. ("Teste de habilidade" ou "Teste de comportamento típico").

Schoonen (2012) corrobora esta noção e sugere que pelo menos cinco tarefas e três avaliadores sejam necessárias para tomar decisões válidas e confiáveis sobre as habilidades de escrita. Outro aspecto apontado por Schoonen (2005) é que para a avaliação de produções escritas, variáveis de diversas fontes, que vão além da habilidade escrita dos avaliados contribuem para a variância na pontuação. Alguns destes aspectos de variância são o tópico do texto a ser produzido, o modo do discurso, o gênero (descrição, texto expositivo, narrativo ou argumentativo), dentre outros. Ainda de acordo com Schoonen et al. (2011), é fundamental atentar para objetivo que orienta a avaliação. Em exames de larga escala, a qualidade psicométrica (confiabilidade, validade e eficácia) deve ser considerada. Isto inclui também o uso de medidas automatizadas que além de serem mais econômicas em tempo, porque são menos demoradas, são também menos subjetivas.

Gostaríamos de apontar algumas implicações sobre a dependência do tema a ser desenvolvido nas produções escritas em qualquer que seja o aspecto observado. O tópico da tarefa escrita não só exige o amplo conhecimento lexical específico, mas também o conhecimento sobre a adequação a certas práticas exigidas do gênero em questão. As diferenças de gênero tendem a ser moldadas pela situação retórica na tarefa de escrita, em consequência estão suscetíveis a apresentar a diferenças no texto produzido. Boa parte das pesquisas realizadas até o presente, de uma maneira geral, são consideradas como mostras do mesmo universo de observações admissíveis, sendo usadas para criar generalizações sobre a proficiência do avaliado. No entanto, proceder desta maneira pode colocar em cheque a avaliação, no sentido que coloca confiabilidade e validade no mesmo contínuo.

Esta noção é sustentada na pesquisa de Reed, Burton e Kelly (1985), que demonstra que o tipo de gênero afeta a capacidade cognitiva durante a escrita. Escritores proficientes parecem estar mais cognitivamente envolvidos ao escrever textos do gênero argumentativos e menos envolvidos quando o texto se tratou de um gênero descritivo. No caso dos escritores menos proficientes, foi demonstrado que tinham mais envolvimento ao escrever o gênero descritivo e menos ao escrever narrativas.

Os pontos levantados nos orientam a acreditar que as diferenças em produtos e processos de escrita sugerem que um bom desempenho em um gênero não necessariamente pode prever o mesmo tipo de desempenho em outros gêneros. Para que possamos fazer inferências válidas sobre a proficiência escrita como um todo, as avaliações devem considerar a inclusão de mais de uma tarefa. Mais especificamente o que estamos levantamos é que para uma análise do desempenho escrito, as proposições de mais de uma tarefa, que venham a contemplar temas diversos parece ser um caminho mais adequado. As decisões baseadas na

atribuição de uma nota que avalia o desempenho da escrita são, portanto, afetadas pelo tema a ser desenvolvido. Se o objetivo é ser capaz de generalizar a proficiência escrita, a melhor indicação é que uma maior variedade de temas a serem explorados possa compor as situações de teste.

Nossa pesquisa também revela nos resultados ANOVA que o tema abordado tem efeito sobre a produção escrita. Isto implica que, se diferentes temas não estão incluídos, a avaliação pode estar sendo superestimada (JAUREGI; DE GRAAFF; VAN DEN BERGH, 2012). O presente estudo corrobora os resultados do estudo de Bouwer et al. (2014) evidenciando que a pontuação de produções escritas difere de um tema para outro.