3. Manon Lescaut som intertekst
3.3 En strategisk forteller
Neste número descreve-se o modelo usado como instrumento desta investigação e
com base no qual foi concebido o software Programa de Análise Estatística de Textos
(PAET) descrito em 3.4. e objeto do Manual do Utilizador que constitui o Anexo A deste
trabalho.
A figura 2.2.1.1. descreve a estrutura do sistema que permite, usando os textos dos
professores e manuais escolares, produzir os chamados espaços semânticos, instrumento
fundamental da Análise da Semântica Latente descrito em 2.2.2.
A figura 2.2.1.2. descreve a estrutura do sistema experimental a desenvolver na
avaliação de conhecimentos de uma certa matéria com base em textos produzidos pelos
estudantes ao responderem a questões de resposta aberta e nos espaços semânticos
construídos a partir dos textos dos manuais usados no ensino desse tema.
Figura 2.2.1.1. Armazenamento da informação de base e construção de espaços semânticos a
partir de textos produzidos pelos professores e manuais escolares relativos ao
ensino de certas matérias.
Figura 2.2.1.2. Estrutura do sistema de avaliação de conhecimentos com base em textos de
resposta a questões abertas.
Os significados dos símbolos da figura 2.2.1.1. são as seguintes:
PGBD – Programa de Gestão da Base de Dados
BDT – Base de Dados Textual
PIU – Programa de Interface com o Utilizador
ES – Espaços Semânticos
PLSA – Programa de Construção do Espaço Semântico Latente (ASL)
PRVT – Programa de Representação Vetorial dos Textos
Os textos relevantes para uma análise são os seguintes:
Manuais e outros documentos recomendados para a aprendizagem da matéria
em avaliação.
Exemplo: Manuais escolares usados no ensino do Português e obras de autores
portugueses usados num certo nível de ensino.
Textos – apontamentos produzidos pelos professores de uma certa matéria.
Textos com as respostas dos estudantes aos itens de resposta aberta, contidos
nos testes de exames globais ou formativos.
Exemplo: Resposta dos estudantes do 12º ano a itens de resposta aberta dos
exames nacionais.
Textos com respostas dos estudantes a itens de resposta aberta classificados
pelos professores usando os métodos tradicionais. Estes textos encontram-se em
suportes de papel ou digitais – por exemplo, em textos produzidos com
processadores de texto, em plataformas de ensino ou em formato .pdf, em sítios
da Internet, entre outros. Exclui-se a utilização de programas de
reconhecimento de carateres, Optical Character Recognition (OCR), pelo que
todos os textos manuscritos têm de ser previamente digitalizados antes da sua
introdução no sistema ou então deixados de fora, face ao custo dessa operação.
Todos os textos relevantes são carregados numa BDT – Base de Dados Textual –
através de um Programa de Gestão de Base de Dados (PGBD). Para a estrutura da base de
dados veja o número 3.3. Uma vez na BDT, todos estes textos ficam disponíveis para os
diversos tipos de análise e produção de espaços semânticos especializados.
As análises podem consistir, simplesmente, em contagens dos termos que integram
os textos, em cálculos de índices úteis a diversos usos ou então na criação de
representações vetoriais dos textos e palavras (RVT) que sirvam de base à construção de
Espaços Semânticos (ES) (Landauer, McNamara, Dennis, & Kintsch, 2007) em que
assenta o funcionamento de sistemas de classificação dos textos.
A escolha dos textos específicos a serem usados numa certa análise bem como
daqueles que vão integrar um dado espaço semântico a ser usado na avaliação de
conhecimentos de certa matéria é realizado através do Programa de Interface com o
Utilizador – o programa PIU.
Escolhidos estes textos, o programa PLSA começa por identificar todas as palavras
existentes em todos os textos escolhidos para análise (usando um algoritmo de
identificação de “tokens”) elimina as palavras instrumentais ou funcionais (consultando a
tabela PI) e, eventualmente, identificando / extraindo as raízes das palavras através de um
programa de lematização (Rocha & Coelho, 2009; Orengo & Huyck, 2001, & Alvares
2005).
O resultado é uma tabela de frequências que, para cada “forma” – raiz das palavras
retida para análise – dá a frequência de ocorrência dessa forma em cada um dos textos.
Esta tabela de frequências constitui a chamada representação vetorial dos textos
(RVT), a usar no seguimento da análise. Trata-se de uma tabela de contingência contendo
as frequências de ocorrência das palavras ou formas nos textos do corpus.
Esta tabela – de contingência – é em seguida sujeita a várias transformações, antes
de ser submetida à decomposição em vetores e valores singulares através do programa
PSVD (Eckart & Young, 1936; Landauer, et al., 2007).
O resultado da decomposição em valores e vetores singulares (depois de outras
transformações) constitui o chamado Espaço Semântico (Landauer, et al., 2007).
A cadeia de transformações (acima resumidas) que permite passar de um certo
conjunto de textos para o espaço semântico necessário às operações de treino dos
avaliadores de conhecimentos envolve operações computacionalmente demoradas mas
cujos tempos de execução estão a tornar-se cada vez mais reduzidos face à potência
crescente dos computadores pessoais, os únicos que importa considerar neste projeto. O
tempo de processamento depende, entre outras variáveis, do número de textos e da
respetiva extensão expressa em número de palavras, que têm de ser identificadas através da
operação de tokenização, uma das mais demoradas de todo o processo. Deste modo,
convém guardar o resultado desta fase numa base de dados auxiliar de Espaços Semânticos
(ES) – o que permite, no início de uma sessão, retomar o trabalho já realizado, sem ter de
recalcular, de cada vez, o espaço semântico que interessa.
A figura 2.2.1.2. descreve, por sua vez, o processo que, partindo da BDT (Base de
Dados Textual) e ES (Espaços Semânticos) permite obter classificações ou avaliações dos
conhecimentos, acerca da matéria em avaliação, expressos nos textos das respostas dos
estudantes a itens de resposta aberta contidas nos diversos testes. A partir destes espaços
semânticos podem realizar-se, sobre as respostas aos itens usados nos testes, vários estudos
úteis à atividade do professor, como por exemplo comparações estatísticas dos textos
produzidos pelos vários estudantes, agrupamentos de textos semelhantes, classificações
dos testes, identificação de grupos de palavras usadas por grupos de estudantes e outros.
Se bem que estas comparações possam ser realizadas diretamente sobre as tabelas
de contingência, considera-se que é mais útil realizá-las sobre os “espaços semânticos”
uma vez que as operações de SVD permitem, como se disse, captar semelhanças
semânticas que escapam completamente à tabela de frequências, ainda que presentes
nessas tabelas de modo implícito. É isto o essencial da abordagem designada por ASL.
Um Programa de Interface com o Utilizador (PIU) permite que este não só
identifique quais são os testes e os itens que vão ser objeto de avaliação como alguns
parâmetros relevantes para essa avaliação, como sejam o Método a usar (Método 1,
Método 2, …, Método k). De entre os parâmetros relevantes para uma experiência,
destaca-se o número de dimensões d a usar nos cálculos subjacentes à classificação
(Landauer & Dumais,1997; Landauer, Laham, & Foltz, 2003; Landauer, et al., 2007).
Os resultados da aplicação desses métodos expressam-se em estatísticas e em
gráficos que dependem do método a usar.
No número 2.5. – metodologia – podem ser vistos os pormenores de dois desses
métodos implementados neste trabalho.
In document
Albertine og fortelleren. Om det etiske hos Proust
(sider 44-49)