The pure stationary Markovian strategies by the recipient and the donor, (c,a), are assumed to be twice continuously differentiable (C 2 J

Ao longo dos anos, houve mudanças na conceitualização de alguns fatores que permeiam a avaliação de proficiência oral, não apenas acerca das noções de linguagem e de proficiência, mas a atenção se volta também para os parâmetros envolvidos na avaliação da qualidade e aceitabilidade da avaliação. Segundo Scaramucci (2009), tais mudanças se devem à busca de se entender mais precisamente o que se convencionou chamar de testes de desempenho25 e pela complexidade do tema. Consequentemente, a partir dos anos oitenta, o conceito de validade começa a receber contribuições teóricas e é nos anos noventa que houve verdadeiras revoluções acerca do conceito de validade (SCARAMUCCI, op.cit.).

Em sua visão tradicional, entende-se por validade o quanto um teste mede bem o que deve medir (ALDERSON et al, 1995; FULCHER, 2003; WEIR, 2004; FULCHER e DAVIDSON, 2007; entre outros). Ou seja, a validade tem sido entendida como o aspecto que define se um teste avalia adequadamente o que pretende avaliar. Essa visão de validade

A referência que se faz aqui a testes de desempenho se justifica pelo fato de que testes de proficiência oral podem ser também considerados testes de desempenho se a proficiência é avaliada juntamente com outras habilidades e não de uma forma isolada e descontextualizada, segundo Shohamy (1995).

pressupõe a ideia de que, quando se elabora um teste, há a intenção de se medir algo, e esse algo é real e a questão da validade diz respeito a descobrir se um teste realmente mede o que pretende (FULCHER e DAVIDSON, 2007, p. 4).

Segundo Scaramucci (op.cit., p. 31), “validade tem sido definida tradicionalmente como uma característica ou qualidade de um teste, um critério para sua aceitabilidade”. Underhill (1987) inclui a noção de confiabilidade como uma forma específica de validade geral. A confiabilidade, como parte do conceito de validade ainda nas teorias contemporâneas, indica o nível de confiança, consistência e estabilidade de atribuição de notas.

Segundo Underhill (op.cit.), um teste oral não pode ser válido se não for confiável. Do mesmo modo, Scaramucci (op.cit) afirma que a validade, juntamente com a noção de confiabilidade e praticidade, características de um teste, são relevantes no sentido de que um teste não pode ser válido sem ser primeiramente confiável.

Para ser válida, a avaliação necessita ser precisa e consistente. Em contrapartida, um teste pode ser válido sem ser confiável, se não houver, por exemplo, o estabelecimento de critérios claros, nem o preparo de pessoas envolvidas na elaboração e aplicação do teste. De acordo com Fulcher e Davidson (op.cit.), é o conceito central na área de avaliação, sendo a questão a ser considerada em primeiro lugar, não podendo ser tratada após a elaboração e uso de um teste. Por isso, a validade é uma questão importantíssima para as pesquisas na área de avaliação.

A literatura reconhece vários tipos de validade característicos de um instrumento de avaliação, uma vez que a validade, segundo Scaramucci (2009), pode ser estabelecida por meio de métodos diferentes, ainda que pareça não haver acordo acerca dos termos e suas definições. Dentre os tipos de validade, vale mencionar os a validade de face, de conteúdo, de critério, preditiva, de construto.

A validade de face compõe a impressão positiva que os envolvidos têm a respeito do teste. No que diz respeito à validade de conteúdo, esta representa o conjunto maior de tarefas das quais o teste deve ser uma amostra. A validade preditiva faz referência a quanto o teste antecipa o desempenho em algumas situações subsequentes e, segundo Hughes (1989), faz parte da validade de critério, que se refere a quanto os resultados do teste são semelhantes àqueles obtidos por outra avaliação feita simultaneamente. A validade de critério se refere à capacidade preditiva e concomitante do teste, isto é, o quanto os resultados de um teste condizem com resultados posteriores, seja em situações que não de teste ou em outros testes.

Por fim, a validade de construto, é a mais complexa de se explicar, segundo Alderson et al. (1995). Normalmente definida como a representação adequada de uma teoria subjacente ao que deve ser medido, a validade de construto se refere ao quanto um teste corresponde à operacionalização de um modelo teórico (ALDERSON et al, op.cit.; McNAMARA, 2000; FULCHER e DAVIDSON, 2007).

A validade de construto, segundo Fulcher e Davidson (op.cit), é a base de evidência para a interpretação ou uso de um teste , mas as referências são específicas do contexto ao que o teste é designado. Segundo os autores, a maneira como Messick (1989) aborda a questão da validade se tornou um paradigma aceito na área da psicologia, da avaliação e da educação, sendo dominante também na atualidade e assim, a validade de construto parece envolver as validades de conteúdo e de critério. Cabe ressaltar a distinção entre tais validades, conforme mencionado anteriormente. A validade de conteúdo se refere à representatividade do teste, considerando objetivos, assuntos, conteúdos abordados e as tarefas das quais o teste deve ser uma amostra e a validade de critério, ao quanto os resultados de um teste combinam com resultados obtidos por outro teste. Deste modo, a competência é medida por testes de desempenho, que envolvem a validade de conteúdo. O uso da competência em contextos

comunicativos é medido por testes de proficiência, que consequentemente envolvem a validade de construto. (CLARK, 1972, apud SAVIGNON; 1983).

Relevante para a área da avaliação de proficiência, o artigo precursor de Messick (1989) é comumente citado em vários estudos como, por exemplo, o de Fulcher e Davidson (2007). Os autores o mencionam como sendo a principal referência sobre validade, por afirmar que as maneiras tradicionais de se combinar as evidências de validade levam aos três tipos de validade: a de conteúdo, a de critério e a de construto. Porém, segundo Messick (op.cit., p.20), se as evidências de conteúdo e de critério contribuem para o significado das notas, passaram a ser reconhecidas como validade de construto, resumindo-as em uma única categoria.

Para Scaramucci (2009), a definição mais completa de validade de construto é a de Ebel e Frisbie (1991, apud SCARAMUCCI, op.cit.) que a definem como o processo de coleta de evidência para sustentar o argumento de que um teste realmente mede o construto psicológico que os elaboradores pretendem que o teste meça, tendo por objetivo determinar o significado dos escores ou notas do teste para assegurar que eles signifiquem o que se esperava que significassem.

A validade como um conceito unitário e que tem o construto como elemento central de um teste, de acordo com Messick (1989) é “o grau em que evidências empíricas e princípios teóricos sustentam as inferências e as ações adequadas e apropriadas baseadas nas notas de um teste ou outros métodos de avaliação” (MESSICK, op.cit., p. 1326

). Dessa maneira, a visão tradicional de validade é ainda considerada nos dias de hoje, com base em Messick (op.cit.), que revolucionou o conceito. Entretanto, a validade segundo Messick (op.cit.) não é uma característica da avaliação, mas do significado dos seus resultados, segundo Scaramucci

No original: (…) the degree to which empirical evidence and theoretical rationales support the adequacy and appropriateness of inferences and actions based on test scores or other modes of assessment.

(2009). Assim, a crítica parece estar na questão de que não é o teste que é validado, “mas as inferências derivadas dos resultados ou de outros indicadores, assim como as implicações para ação determinadas pela interpretação” (SCARAMUCCI, op.cit., p. 33). Para Scaramucci (op.cit), Messick identifica duas fontes que ameaçam à validade dos instrumentos de avaliação: sub-representação do construto, que compromete a autenticidade, e variância irrelevante ao construto, que compromete a característica do teste em ser direto.

No entanto, Scaramucci (op.cit.) afirma que a principal crítica acerca da visão tradicional de validade era devido ao fato de ser um conceito fragmentado e incompleto, elaborado com base em medidas psicométricas, não considerando as implicações de valor do significado dos resultados como base para ação. Além disso, a autora assevera que não se consideram ainda as consequências sociais do uso de tais resultados, implicando haver necessidade de uma dimensão social e política na avaliação de línguas, uma vez que essa é considerada uma prática social.

Dessa maneira, a visão tradicional de validade é complementada pelo acréscimo de bases consequenciais às bases evidenciais, constituindo assim o novo conceito de validade, que unifica-se em torno da validade de construto, segundo Scaramucci (op.cit). Dessa maneira, a autora aponta as mudanças que ocorreram no conceito de validade.

O novo conceito de validade apresenta seis diferentes tipos de evidência ou métodos para investigar hipóteses, identificados por Messick (1989) e que passam a substituir as três validades do conceito tradicional. Essas seis evidências são denominadas de relativas ao conteúdo, substantiva, estrutural, passível de generalização, externa e consequencial (SCARAMUCCI, op.cit.). A autora apresenta uma tabela, extraída de Chapelle (1999, p. 258, apud SCARAMUCCI, op.cit.), para que as mudanças ocorridas no conceito de validade possam ser esclarecidas (Figura 3).

Figura 3: Resumo dos contrastes entre as concepções de validação tradicional e contemporânea (CHAPELLE, 1999, p. 258, apud SCARAMUCCI, 2009).

A fim de caracterizar melhor a proposta moderna de validade, que segundo Scaramucci (op.cit.) é o verdadeiro paradigma para a discussão da pesquisa e prática em medidas educacionais e psicológicas, cabe apresentar o que tem sido citado como a “matriz progressiva de Messick” (Figura 4). Contudo, cabe ressaltar que a visão de Messick não é de consenso absoluto. McNamara e Roever (2006) consideram que a forma como as consequências e valores socioculturais são incorporadas no conceito de validade um tanto superficial, oferecendo a impressão de não estar bem resolvida, “a relação entre as duas dimensões menos socialmente orientadas da linha superior da matriz e as duas dimensões da linha inferior, o que permanece como uma das questões fundamentais da área”, segundo Scaramucci (op.cit.p. 34).

Figura 4: Matriz progressiva de Messick (1989, p. 20, apud SCARAMUCCI, 2009).

Para Scaramucci (op.cit.), a matriz oferece diretrizes para orientar como evidências podem ser produzidas ou ainda o que constituem métodos para validação. Permite ainda avaliar não somente os testes, mas igualmente suas consequências ou impactos sociais.

As questões de validade exercem um impacto na vida das pessoas, mas não há uma reflexão frequente no que diz respeito às decisões que fazemos sobre validade, conforme afirmam Fulcher e Davidson (2007). Nesse sentido, os autores afirmam que observamos todos os tipos de comportamento, ouvimos o que a s pessoas nos dizem e fazemos inferências que nos conduzem a ações ou percepções. No entanto, os autores alegam que a validade não é colocada formalmente no cotidiano das pessoas, isto é, os tipos de evidências necessárias não são colocados em uma lista, conforme exemplificam os autores. Assim, no que concerne à questão da validade na área de avaliação, vale considerar o exemplo citado sobre colocar as evidências em uma lista, que, segundo com Fulcher e Davidson (op.cit., p. 3),

Na avaliação de línguas, é exatamente o que temos que fazer, para que possamos produzir um conjunto de raciocínios e evidências sobre o quê achamos que uma nota de um teste significa, e as ações que pretendemos ter com base nessa inferência, voltadas para as habilidades, as capacidades ou o conhecimento de um examinando27.

Para os autores, esse posicionamento acerca da validade na área de avaliação significa remover o máximo de incertezas possíveis a respeito do significado das notas. Ou seja, para

No original: In language testing this is precisely what we have to do, so that we can produce a chain of reasoning and evidence from what we think a test score means, and the actions we intend to take on the basis of that inference, back to the skills, abilities or knowledge that any given test taker may have.

Fulcher e Davidson (op.cit), deve-se ter certeza de que as notas representem o que se considera que elas significam, a fim de ser possível tomar decisões que não sejam influenciadas pelo medo de se cometer erros, sendo possível a discuti-las e planejá-las. Ressalta-se a avaliação preocupada com a validade baseada na evidência e tal preocupação advém das relações entre o instrumento de avaliação e o construto que se espera medir.

De acordo com Savignon, op. cit., Fulcher, 1997, Scaramucci, 2000 e Mcnamara, 2000, e conforme mencionado anteriormente, a avaliação de proficiência se baseia nas necessidades reais de uso da língua enfrentadas posteriormente pelo indivíduo que se submete a um teste. A avaliação de proficiência é comprometida com o construto teórico e as suas especificações precisam estar definidas com base em uma análise de necessidades do público- alvo que considere o uso futuro da língua. Por especificações de um teste entendem-se como “documentos explanatórios que dão origem à criação de tarefas de um teste”, segundo Fulcher e Davidson (2007, p. 52). Esses documentos são geralmente sigilosos e internos ao teste. No entanto, alguns exames publicam parte de suas especificações, no intuito de esclarecer alguns aspectos, como o construto do exame ao público alvo.

O termo construto refere-se ao conceito teórico e não observável que representa uma capacidade subjacente medida por um teste (McNAMARA, 2000; FULCHER, 2003). O construto corresponde a, segundo Ebel e Frisbie (1991, p. 108, apud SCARAMUCCI, 2009, p. 32),

“um construto psicológico, uma conceitualização teórica sobre um aspecto do comportamento humano que não pode ser medida ou observada diretamente. Exemplos de construtos são inteligência, motivação para o rendimento, ansiedade, rendimento, atitude, dominância e compreensão em leitura”28

No original: a psychological construct, a theoretical conceptualisation about an aspect of human behaviour that cannot be measured or bserved directly. Examples of constructs are intelligence, achievement motivation, anxiety, achievement, attitude, dominance, and reading comprehension.

Portanto, o termo construto refere-se, em avaliação de línguas, ao atributo mental ou habilidade que um teste mede (READ, 2000). O construto de proficiência é estabelecido a partir das discussões teóricas acerca da natureza da competência linguística.

Para se definir um construto, especialmente quando ele está relacionado à proficiência oral, é necessário que o mesmo esteja associado ao que possa ser observado e que permita se atribuir uma nota, como observa Fulcher (2003). Ou seja, o construto de PO está integrado a aspectos observáveis da oralidade permitindo embasar a atribuição de uma nota ao examinando de maneira válida e confiável. Para Fulcher (op. cit.), há a necessidade de se definir primeiramente o que se pretende testar antes de se considerar, no caso da avaliação oral, a maneira pela qual a PO do avaliado será obtida. Ou seja, é preciso primeiramente definir o construto da PO ou o que a constitui, isto é, o construto é apresentado em termos de componentes e definido durante o processo de elaboração do teste, não podendo ser um construto externo, segundo Scaramucci (2009). A autora conclui que o construto não é universalmente compartilhado e sim definido localmente, situado, uma construção, uma teorização que, de acordo com Ebel e Frisbie (1991, apud SCARAMUCCI, op.cit), deve ser argumentado e teoricamente justificado.

Deste modo, uma definição de construto para um teste de proficiência oral em LE em geral envolve os aspectos ligados à competência na língua, como fonologia, sintaxe, vocabulário, coesão, fluência, capacidade estratégica e conhecimentos textuais, pragmáticos e sociolinguísticos (BACHMAN e PALMER, 1996). Além disso, a definição de construto para um teste de proficiência oral pode ser considerada como a que envolve a competência linguística, a competência estratégica e os mecanismos psicofisiológicos referentes à capacidade linguístico-comunicativa. Além disso, pode também envolver os aspectos estruturais, linguísticos e de comunicação, bem como a noção de capacidade de uso, referindo-se, assim, à proficiência como a capacidade de usar a competência.

Se há a concepção de que a avaliação por meio de testes orais é subjetiva, isso se deve à ausência, na maioria dos testes, de critérios específicos a respeito do que está sendo avaliado, da fundamentação do teste, de como são validadas as notas atribuídas e no que elas se baseiam. Daí a importância da definição do construto de um teste.

Há ainda a necessidade de se considerar alguns aspectos no campo da avaliação de línguas, como a importância das tarefas nesse processo. A próxima subseção apresenta algumas considerações sobre esse tópico.

In document International redistribution : normative foundations and issues of implementation (sider 164-172)