En strategisk forteller - Manon Lescaut som intertekst

3. Manon Lescaut som intertekst

3.3 En strategisk forteller

Neste número descreve-se o modelo usado como instrumento desta investigação e

com base no qual foi concebido o software Programa de Análise Estatística de Textos

(PAET) descrito em 3.4. e objeto do Manual do Utilizador que constitui o Anexo A deste

trabalho.

A figura 2.2.1.1. descreve a estrutura do sistema que permite, usando os textos dos

professores e manuais escolares, produzir os chamados espaços semânticos, instrumento

fundamental da Análise da Semântica Latente descrito em 2.2.2.

A figura 2.2.1.2. descreve a estrutura do sistema experimental a desenvolver na

avaliação de conhecimentos de uma certa matéria com base em textos produzidos pelos

estudantes ao responderem a questões de resposta aberta e nos espaços semânticos

construídos a partir dos textos dos manuais usados no ensino desse tema.

Figura 2.2.1.1. Armazenamento da informação de base e construção de espaços semânticos a

partir de textos produzidos pelos professores e manuais escolares relativos ao

ensino de certas matérias.

Figura 2.2.1.2. Estrutura do sistema de avaliação de conhecimentos com base em textos de

resposta a questões abertas.

Os significados dos símbolos da figura 2.2.1.1. são as seguintes:

PGBD – Programa de Gestão da Base de Dados

BDT – Base de Dados Textual

PIU – Programa de Interface com o Utilizador

ES – Espaços Semânticos

PLSA – Programa de Construção do Espaço Semântico Latente (ASL)

PRVT – Programa de Representação Vetorial dos Textos

Os textos relevantes para uma análise são os seguintes:

 Manuais e outros documentos recomendados para a aprendizagem da matéria

em avaliação.

Exemplo: Manuais escolares usados no ensino do Português e obras de autores

portugueses usados num certo nível de ensino.

 Textos – apontamentos produzidos pelos professores de uma certa matéria.

 Textos com as respostas dos estudantes aos itens de resposta aberta, contidos

nos testes de exames globais ou formativos.

Exemplo: Resposta dos estudantes do 12º ano a itens de resposta aberta dos

exames nacionais.

 Textos com respostas dos estudantes a itens de resposta aberta classificados

pelos professores usando os métodos tradicionais. Estes textos encontram-se em

suportes de papel ou digitais – por exemplo, em textos produzidos com

processadores de texto, em plataformas de ensino ou em formato .pdf, em sítios

da Internet, entre outros. Exclui-se a utilização de programas de

reconhecimento de carateres, Optical Character Recognition (OCR), pelo que

todos os textos manuscritos têm de ser previamente digitalizados antes da sua

introdução no sistema ou então deixados de fora, face ao custo dessa operação.

Todos os textos relevantes são carregados numa BDT – Base de Dados Textual –

através de um Programa de Gestão de Base de Dados (PGBD). Para a estrutura da base de

dados veja o número 3.3. Uma vez na BDT, todos estes textos ficam disponíveis para os

diversos tipos de análise e produção de espaços semânticos especializados.

As análises podem consistir, simplesmente, em contagens dos termos que integram

os textos, em cálculos de índices úteis a diversos usos ou então na criação de

representações vetoriais dos textos e palavras (RVT) que sirvam de base à construção de

Espaços Semânticos (ES) (Landauer, McNamara, Dennis, & Kintsch, 2007) em que

assenta o funcionamento de sistemas de classificação dos textos.

A escolha dos textos específicos a serem usados numa certa análise bem como

daqueles que vão integrar um dado espaço semântico a ser usado na avaliação de

conhecimentos de certa matéria é realizado através do Programa de Interface com o

Utilizador – o programa PIU.

Escolhidos estes textos, o programa PLSA começa por identificar todas as palavras

existentes em todos os textos escolhidos para análise (usando um algoritmo de

identificação de “tokens”) elimina as palavras instrumentais ou funcionais (consultando a

tabela PI) e, eventualmente, identificando / extraindo as raízes das palavras através de um

programa de lematização (Rocha & Coelho, 2009; Orengo & Huyck, 2001, & Alvares

2005).

O resultado é uma tabela de frequências que, para cada “forma” – raiz das palavras

retida para análise – dá a frequência de ocorrência dessa forma em cada um dos textos.

Esta tabela de frequências constitui a chamada representação vetorial dos textos

(RVT), a usar no seguimento da análise. Trata-se de uma tabela de contingência contendo

as frequências de ocorrência das palavras ou formas nos textos do corpus.

Esta tabela – de contingência – é em seguida sujeita a várias transformações, antes

de ser submetida à decomposição em vetores e valores singulares através do programa

PSVD (Eckart & Young, 1936; Landauer, et al., 2007).

O resultado da decomposição em valores e vetores singulares (depois de outras

transformações) constitui o chamado Espaço Semântico (Landauer, et al., 2007).

A cadeia de transformações (acima resumidas) que permite passar de um certo

conjunto de textos para o espaço semântico necessário às operações de treino dos

avaliadores de conhecimentos envolve operações computacionalmente demoradas mas

cujos tempos de execução estão a tornar-se cada vez mais reduzidos face à potência

crescente dos computadores pessoais, os únicos que importa considerar neste projeto. O

tempo de processamento depende, entre outras variáveis, do número de textos e da

respetiva extensão expressa em número de palavras, que têm de ser identificadas através da

operação de tokenização, uma das mais demoradas de todo o processo. Deste modo,

convém guardar o resultado desta fase numa base de dados auxiliar de Espaços Semânticos

(ES) – o que permite, no início de uma sessão, retomar o trabalho já realizado, sem ter de

recalcular, de cada vez, o espaço semântico que interessa.

A figura 2.2.1.2. descreve, por sua vez, o processo que, partindo da BDT (Base de

Dados Textual) e ES (Espaços Semânticos) permite obter classificações ou avaliações dos

conhecimentos, acerca da matéria em avaliação, expressos nos textos das respostas dos

estudantes a itens de resposta aberta contidas nos diversos testes. A partir destes espaços

semânticos podem realizar-se, sobre as respostas aos itens usados nos testes, vários estudos

úteis à atividade do professor, como por exemplo comparações estatísticas dos textos

produzidos pelos vários estudantes, agrupamentos de textos semelhantes, classificações

dos testes, identificação de grupos de palavras usadas por grupos de estudantes e outros.

Se bem que estas comparações possam ser realizadas diretamente sobre as tabelas

de contingência, considera-se que é mais útil realizá-las sobre os “espaços semânticos”

uma vez que as operações de SVD permitem, como se disse, captar semelhanças

semânticas que escapam completamente à tabela de frequências, ainda que presentes

nessas tabelas de modo implícito. É isto o essencial da abordagem designada por ASL.

Um Programa de Interface com o Utilizador (PIU) permite que este não só

identifique quais são os testes e os itens que vão ser objeto de avaliação como alguns

parâmetros relevantes para essa avaliação, como sejam o Método a usar (Método 1,

Método 2, …, Método k). De entre os parâmetros relevantes para uma experiência,

destaca-se o número de dimensões d a usar nos cálculos subjacentes à classificação

(Landauer & Dumais,1997; Landauer, Laham, & Foltz, 2003; Landauer, et al., 2007).

Os resultados da aplicação desses métodos expressam-se em estatísticas e em

gráficos que dependem do método a usar.

No número 2.5. – metodologia – podem ser vistos os pormenores de dois desses

métodos implementados neste trabalho.

In document Albertine og fortelleren. Om det etiske hos Proust (sider 44-49)