Future Research - Mapping the Purposes of Comparative and International Education Research

As técnicas de redução de características têm como objetivo fundamental diminuir a dimensão dos vetores de características, sem que isso tenha um impacto negativo relevante no resultado final. Esta redução requer, por um lado, identificar e manter o conjunto das características que melhor caracterizam os estados cognitivos a distinguir; por outro, eliminar aquelas que prejudicam o resultado final, por exemplo, por serem irrelevantes ou estarem contaminadas por ruído (Guyon, 2003; Cunningham, 2008). Espera-se que esta redução melhore o desempenho computacional dos algoritmos classificação (com supervisão), quer em termos de tempo de execução, quer em termos de recursos computacionais utilizados.

Os métodos de redução de características podem ser de transformação ou seleção de propriedades, consoante transformem ou escolham as características, e com ou sem supervisão, caso necessitem ou não de conhecer previamente a classificação dos vetores de características. As secções seguintes descrevem com mais detalhe estes tipos de procedimento.

2.5.3.1 Transformação de Características

A transformação de características transforma os vetores originais, através da aplicação de algum tipo de mapeamento, de modo que seja mais fácil selecionar um subconjunto a partir destes novos vetores do que dos originais (Guyon, 2003; Cunningham, 2008). O mapeamento entre as características originais e as transformadas não é direto, de um para um, pelo que não é fácil saber quais os sinais e características originais que foram mantidos.

A Análise de Componentes Principais (Principal Components Analysis ou PCA) é um dos exemplos mais conhecidos e mais usados deste tipo de métodos. Esta funciona sem supervisão (Jolliffe, 1986; Anderson, Stolz, & Shamsunder, 1998; Oliveira, Grigore, & Guimarães, 2009), transformando linearmente o espaço de vetores original (eventualmente correlacionado), com base nos vetores próprios da sua matriz de covariância, num novo sistema de coordenadas não correlacionadas, a que se chama componentes principais. A transformação de um vetor x no vetor u, de componentes principais, pela PCA processa-se do seguinte modo: (2.9)

ui é a i-ésima componente principal, vi, o i-ésimo vetor próprio da matriz de covariância,

ordenado por ordem decrescente de xi, a i-ésima propriedade do vetor de características.

A matriz de covariância quantifica a covariância entre todas as combinações possíveis de dimensões (Lotte F. , Congedo, Lecuyer, Lamarche, & Ar, 2004). Os seus termos diagonais são as variâncias de todas as dimensões; os restantes termos, a covariância entre dimensões. A covariância generaliza a fórmula da variância, medindo o relacionamento linear entre duas propriedades f1 e f2:

(2.10)

Quando a correlação entre propriedades é alta, a magnitude da sua covariância também é alta. A PCA maximiza os termos da diagonal (variância) da matriz de covariâncias e minimiza os restantes termos (redundância). As componentes principais resultantes encontram-se ordenadas pelos correspondentes valores próprios, por ordem descendente de variância, o que facilita a sua seleção. Assume-se neste caso que a relevância de uma componente principal é diretamente proporcional à sua variância: uma propriedade que não varia é provável que não faça variar os resultados. A PCA minimiza a redundância, pois garante que as componentes principais não estão linearmente relacionadas, por serem descorrelacionadas, assegurando assim que não é possível determinar linearmente uma componente a partir de outra.

A Análise Discriminante Linear (ou Linear Discriminant Analysis ou LDA) é um outro exemplo de transformação de características, mas neste caso supervisionado. Esta utiliza funções discriminantes que dividem o espaço da solução em partições correspondentes às classes, sendo também referida no âmbito da análise de EEG (Bostanov, 2004; Nijboer, et al., 2008; Fazli, et al., 2010).

2.5.3.2 Seleção de Características

Na seleção de características procura-se determinar o melhor conjunto mínimo de características, permitindo saber exatamente quais as características que o compõem. Esta selecção pode processar-se segundo vários critérios, nomeadamente a partir de conhecimento do domínio das neurociências ao seleccionar os eléctrodos e ritmos mais associados à linguagem ou ao processamento visual (Oliveira, Grigore, Guimarães, & Duarte, 2010). Como existe mapeamento directo, o resultado desta seleção pode ser posteriormente reincorporado no processo, em sessões subsequentes, ou com novos utilizadores, restringindo o conjunto de sinais e/ou características capturados, extraídos e processados (Guyon, 2003; Cunningham, 2008).

Os métodos de seleção de características são categorizados com base na sua relação de dependência em relação à classificação (Guyon, 2003):

 Se forem independentes da classificação, ocorrendo antes desta, chamam-se

filtros. Nestes, o resultado do algoritmo de classificação não é necessário à

partida, embora seja desejável para a avaliação do seu desempenho.

 Se, por outro lado, usam o algoritmo de classificação para selecionar as características, chamam-se envoltórios;

 Por fim, são embebidos se integram o próprio algoritmo de classificação.

Uma exemplo simples do tipo filtro e sem supervisão consiste em usar a variância

para ordenar as características e, tal como no caso da PCA, seleccionar as que apresentam

uma maior variância (Guyon, 2003; Cunningham, 2008). Outro exemplo, com supervisão, consiste em usar medidas de dissemelhança entre as classes, como é o caso da entropia, para ordenar as características, selecionado as que são mais diferentes.

Um exemplo do tipo envoltório é utilizado por Keirn e Aunon (Keirn & Aunon, 1990) para selecionar propriedades de EEG, a que chamam seleção sequencial para a frente (forward sequential feature selection). Segundo este método, escolhe-se inicialmente a característica que utilizada sozinha determina a melhor classificação. Esta característica é depois testada novamente em conjunção com cada uma das restantes características, selecionando-se o melhor par. O processo é repetido até que o número alvo de características seja atingido. A eliminação recursiva de características (ou recursive channel elimination

ou RCE) é um processo inverso, mas equivalente, e também referenciado no âmbito da

análise de EEG, que retira características uma a uma (Schröder, et al., 2005). O resultado de ambos os métodos é semelhante, mas a duração da pesquisa de características varia consoante o tamanho do conjunto a encontrar: a seleção para frente é mais eficiente se o conjunto a encontrar é pequeno, a RCE, se for grande.

In document Mapping the Purposes of Comparative and International Education Research (sider 99-107)