DEL II Strategi og teoretisk fundament
Kapittel 3 Lærerutdannere og forskere i egen praksis – aksjonsforskningsteoretiske perspektiver aksjonsforskningsteoretiske perspektiver
3.3 Strategi i pedagogisk aksjonsforskning
3.3.6 Utvidet epistemologi for samarbeidende pedagogisk aksjonsforskning
Na Figura 3a é mostrado os voltamogramas das 114 amostras de óleos vegetais estudados. Como pode ser observado, os voltamogramas correspondente as amostras da classe expirada, exibem valores de corrente relativamente menor das demais amostras das classes estudas, isto pode está associado à medida que os óleos envelhecem há um aumento na concentração de ácidos graxos livres e, como resultado, existe a possiblidade de maior formação de sabão dentro da cela eletroquímica causando uma depleção do sinal analítico, portanto, há uma tendência de separação entre as amostras expiradas das demais amostras não expiradas.
Analisando o perfil voltametrico de todas as amostras, uma leve separação pode ser observada entre as amostras de canola e milho, das amostras soja e girassol em torno dos potenciais -0.9 a -0.81V e de -0.15 a -0.09V respectivamente. Também pode ser observado uma pequena diferença entre o perfil do voltametrico da classe canola em relação às demais entre os potenciais -0.580 V a -0.650 V. Esta informação pode ser melhor visualizada nos voltamogramas médios de cada classe apresentada na Figura 3b.
Contudo é praticamente impossível por inspeção visual a distinção entre todos os tipos de óleos vegetais. Dessa forma, o uso de ferramentas quimiométricas tornou-se indispensável para essa tarefa.
Figura 3 – (a) Voltamogramas das 114 amostras de óleos vegetais. (b) Voltamogramas médio amostras de óleos vegetais estudadas ( canola, girassol, milho, soja e expirada).
4.3.1 – Análise por componentes principais
A análise exploratória dos dados foi realizada usando PCA afim de encontrar formação de agrupados entre as diferentes classes estudadas. Na Figura 4a e Figura 4b
é apresentado os escores de PCA para as componentes: PC1 versus PC2 e PC3 versus PC4, respectivamente.
Figura 4 – (a) Gráficos de escores de PC1 x PC2. (b) Gráficos de escores de PC3 x PC4 para as 114 amostras de óleos vegetais estudadas ( canola, girassol, milho, soja e expirada).
Aplicando PCA no conjunto de dados, uma distinção clara entre as amostras óleos expirados e não expirados podem ser vistos ao longo de PC1 (Figura 10a). Com relação as amostras não expiradas, três agrupamentos podem ser observados; dois destes formados por amostras de canola e milho e um último formado pela sobreposição parcial das classes girassol e soja (Figura 10a). Portanto, torna-se necessário o desenvolvimento de modelos baseados em métodos de reconhecimento de padrão supervisionado.
4.3.2 – Formação dos conjuntos de dados
O conjunto de dados foi então dividido em conjuntos de treinamento com 76 amostras (10 canola, 11 girassol, 12 milho, 13 soja e 30 expiradas) e, teste com 38 amostras (5 canola, 5 girassol, 5 milho, 5 soja e 18 expiradas) empregando algoritmo Kernnard-Stone [75].
4.4 - Classificação
4.4.1. – PLS-DA
O modelo PLS-DA foi construído para as cinco classes de óleos estudadas usando validação cruzada completa. O número de fatores ótimos a ser usado no modelo foi determinado com base na função da taxa de erro, e com auxilio dos gráficos dos coeficientes de regressão (ver apendece 1). Dezenove fatores corresponde a menor taxa de erro para o modelo PLS-DA, o perfil da taxa de erro em virtude da inclusão de fatores ao modelo é apresentado na Figura 5.
Para atribuição das amostras a uma dada classe, foi adotatado o limiar usando a função multi objetiva ROC do inglês, Receiver Operating Characteristics.
Figura 5: Número de fatores selecionados para o modelo full PLS-DA
O resultado da classificação PLS-DA é apresentado na Tabela 2 na forma de matriz de confusão. O desempenho do modelo é mostrado em termos dos valores da especificidade, sensibilidade, % TCC para o modelo global e conjuntos de validação cruzada e teste.
Tabela 2: matriz de confusão para classificação PLS-DA
Validação cruzada Test
Classe atribuída Ncv CA GI MI SO EX Nteste CA GI MI SO EX
Classe verdadeira CA 10 10 - - - - 5 4 - 1 - - GI 11 - 9 - 2 - 5 - 5 - - - MI 12 - - 11 1 - 5 - - 5 - - SO 13 - - - 13 - 5 - - - 5 - EX 30 - - - - 30 18 - - - - 18 Sensibilidade 1 0.82 0.92 1 1 0.80 1 1 1 1 Especificidade 1 1 1 0.95 1 1 1 0.97 1 1 TCC (%) conjunto 96 97.4 TCC (%) modelo 96.7
CA: classe canola, GI: classe girassol, MI: classe milho, SO: classe soja, EX: classe expirado, Ncv: número de amostras por classe, para o conjunto de validação cruzada. Nteste: número de amostras para o conjunto de
Como pode ser visto na Tabela 2,o conjunto de validação cruzada resultou em três amostras mal classificadas obtendo uma TCC correspondente a 96%. Uma única amostra foi erroneamente classificada no conjunto de teste, a TCC alcançada nesse conjunto correspondeu a 97,4%, além disto, apenas as amostras pertencentes a classe dos óleos expirados atingiu valor máximo em termos da especificidade e sensibilidade
4.4.2 – Classificação SIMCA
Modelos SIMCA foram construídos individualmente para classe de óleo estudada, o número de PC’s exigidos em cada classe foi determinda tomando como referência, o ponto correspondente a menor taxa de erro em virtude da inclusão de novas componentes principais em cada classe.
O desempenho do SIMCA é apresentado na Tabela 3 em termos dos valores da especificidade, sensibilidade, % TCC correspondente ao modelo global, conjunto de validação cruzada e teste, bem como matriz de confusão para as classes em estudo.
Tabela 3: matriz de confusão para classificação SIMCA
Validação cruzada Test
Classe atribuída Ncv CA GI MI SO EX Nteste CA GI MI SO EX
Classe verdadeira CA 10 10 - - - - 5 5 - - - - GI 11 - 9 - 2 - 5 - 3 - 2 - MI 12 - - 11 1 - 5 - - 5 - - SO 13 - 1 - 12 - 5 - - - 5 - EX 30 - - - - 30 18 - - - - 18 Sensibilidade 1 0,82 0,92 0,92 1 1 0,60 1 1 1 Especificidade 1 0,98 1 0,95 1 1 1 1 0,94 1 TCC (%) conjunto 94,7 94,7 TCC (%) modelo 94,7
CA: classe canola, GI: classe girassol, MI: classe milho, SO: classe soja, EX: classe expirado, Ncv: número de amostras por classe, para o conjunto de validação cruzada. Nteste: número de amostras para o conjunto de
O desempenho em termos da taxa de classificação correta para o modelo global SIMCA correspondeu a 94,7%. No total quatro amostras foram mal classificadas no conjunto de validação cruzada, e apenas nas classes canola e expirados os valores correspondente a sensibilidade eespecificidade foram máximos. No conjunto teste, o máximo valor para sensibilidade, especificidade e taxa de classificação correta ocorreram apenas nas classes canola, milho e expirados.
4.4.3 – SPA-LDA
A Figura 6a apresenta o voltamograma médio das 114 amostras com a indicação dos doze potenciais selecionados pelo SPA-LDA. Observa-se que os potenciais selecionados pelo SPA-LDA se encontram distribuídos em regiões correspondentes a picos dispostos ao longo de todo voltamograma. A Figura 6b mostra os gráficos das funções discriminantes obtidas pelo SPA-LDA. Uma excelente discrimação entre amostras das classes expirados, milho e canola pode ser visualizada na Figura 6b, contundo, as amostras das classes girassol e soja são mais próxima entre si, resultado em um erro apresentado na classificação como apresentado na Tabela 4.
Figura 6 - (a) variáveis selecionadas por SPA-LDA e (b) gráfico de escores para os dados obtidos por
voltametria de onda quadrada para as 114 amostras de óleos vegetais estudadas ( canola, girassol, milho, soja e expirada).
A Tabela 4 apresenta o resultado da classicação obtida pelo modelo SPA-LDA para os conjuntos de validação cruzada e teste.
O desempenho do modelo SPA-LDA para o conjunto de validação cruzada atingiu uma TCC de 100%, consequentemente máximo valores de sensibilidade e especificidade foram obtidos para as cinco classes nesse conjunto. Contudo no conjunto teste, uma amostra da classe girassol foi mal atribuida, e classificada como pertencente a classe soja, resultando em uma taxa de classificação correta igual a 97,4%.
4.4.4 – GA-LDA
O modelo GA-LDA resultou na seleção de seis potenciais que pode ser visualizado no voltamograma médio das 114 amostras apresentado na Figura 7a. Comparando o número de variáveis selecionadas nos modelos SPA-LDA e GA-LDA, o modelo GA- LDA apresenta-se mais parcimonioso, contudo, as variáveis selecionadas nesse modelo resultam em potenciais localizados em regiões com pouca intensidade de corrente,
Tabela 4 - Matriz de confusão para classificação SPA-LDA para os dados obtidos por voltametria de
onda quadrada para as 114 amostras de óleos vegetais estudadas.
Validação cruzada Teste
Classe atribuída Ncv CA GI MI SO EX Nteste CA GI MI SO EX
Classe verdadeira CA 10 10 - - - - 5 5 - - - - GI 11 - 11 - - - 5 - 4 - 1 - MI 12 - - 12 - - 5 - - 5 - - SO 13 - - - 13 - 5 - - - 5 - EX 30 - - - - 30 18 - - - - 18 Sensibilidade 1 1 1 1 1 1 0,80 1 1 1 Especificidade 1 1 1 1 1 1 1 1 0,97 1 TCC (%) conjunto 100 97,4 TCC (%) modelo 98,7
CA: classe canola, GI: classe girassol, MI: classe milho, SO: classe soja, EX: classe expirado, Ncv: número de amostras por classe, para o conjunto de validação cruzada. Nteste: número de amostras para o
resultando em uma tendência de separação menos efetiva como pode ser visto nas funções discriminantes apresentadas na Figura 7b.
Figura 7 - (a) Variáveis selecionadas por GA-LDA e (b) gráfico de escores para os dados obtidos por
voltametria de onda quadrada para as 114 amostras de óleos vegetais estudadas ( canola, girassol, milho, soja e expirada) Fonte própria.
O resultado obtido no modelo GA-LDA em detalhes é apresentado na Tabela 5 na forma da matriz de confusão, taxa de classificação correta, sensibilidade e especificidade. O modelo LDA obtido apartir dos potenciais selecionadas pelo GA, resultou na classificação correta de todas as amostras do conjunto de teste. Contudo, três amostras foram mal classificadas no conjunto de validação cruzada.
Tabela 5- Matriz de confusão para classificação GA-LDA para os dados obtidos por voltametria de onda
quadrada para as 114 amostras de óleos vegetais estudadas
Validação cruzada Test
Classe atribuída Ncv CA GI MI SO EX Nteste CA GI MI SO EX
Classe verdadeira CA 10 10 - - - - 5 5 - - - - GI 11 - 10 - 1 - 5 - 5 - - - MI 12 - - 11 1 - 5 - - 5 - - SO 13 - 1 - 12 - 5 - - - 5 - EX 30 - - - - 30 18 - - - - 5 Sensibilidade 1 0.91 0.92 0.92 1 1 1 1 1 1 Especificidade 1 0.98 1 0.97 1 1 1 1 1 1 TCC (%) conjunto 96 100 TCC (%) modelo 98
4.4.5 – iSPA-PLS-DA
A seleção de intervalos não sobrepostos foi realizada empregando os voltamogramas de todas as amostras sobre as seguintes quantidades de intervalos w 1, 5, 10, 15 e 20. Para utilizar w = 1, o algoritmo iSPA-PLS-DA foi forçado a selecionar um único intervalo, correspondente a menor taxa de erro. Essa estratégia aqui desenvolvida, foi chamada de seleção de intervalo único em Análise Discriminante por Mínimos Quadrados Parciais iPLS-DA. Para w intervalos a serem selecionados, o algoritmo faz uso da etapa de projeção. Validação cruzada foi utilizada para cálculo de todos os modelos iSPA-PLS-DA, onde, o número de fatores utilizados variou de 1 até o número de fatores
encontrado no modelo PLS-DA.
O resultado obtido para cada modelo iSPA-PLS-DA calculado para w = 1, 5, 10, 15 e 20 é mostrado em detalhes na Tabela 6 em termo da taxa de classificação correta.
Avaliando o desempenho obtido pelo algoritmo iSPA-PLS-DA, os modelos que utilizaram w = 15 e 20 intervalos resultaram na mesma TCC (97,4%) para conjunto de validação cruzada. Para o conjunto de teste, o modelo iSPA-PLS-DA para w = 20 intevalos, alcançou uma taxa de classificação correta correspondente a 98,7%. Além disso, a TCC obtida para iSPA-PLS-DA foi superior à PLS-DA e iPLS-DA, as quais
Tabela 6 - Resultados das classificações obtidas, iPLS-DA, iSPA-PLS-DA (w= 5, 10, 15 e 20) e para os
dados obtidos por voltametria de onda quadrada para as 114 amostras de óleos vegetais estudadas.
Modelo
Taxa de Classificação Correta (%)
Fatores Intervalos selecionados Validação
cruzada Teste Global
iPLS-DA (w = 20) 81,6 76,3 79,0 8 1
iSPA-PLS-DA (w = 5) 94,7 89,5 92,1 5 2
iSPA-PLS-DA (w = 10) 96,0 97,4 96,7 5 4
iSPA-PLS-DA (w = 15) 97,4 97,4 97,4 5 4
obtiveram 98,7; 96,5 e 79% de classificações corretas, respectivamente. Por outro lado, comparando-se com os metodos tradicionais com seleção de variáveis individuais, o desempenho de iSPA-PLS-DA é igual ao obtido por SPA-LDA. Neste caso, a diferença entre elas está no número de amostras classificadas incorretamente nos conjuntos de validação cruzada e teste, conforme é mostrado nas matrizes de confusão da Tabelas 4e
Tabela 7 abaixo.
A Figura 9a apresenta o intervalo correspondente ao melhor modelo iPLS-DA obtido apartir da divisão dos voltamogramas em 20 intervalos. Na Figura 9b-e é apresentado os intervalos selecionados para cada modelo iSPA-PLS-DA correspondente a divisão w = 5, 10, 15 e 20.
Tabela 7 - Matriz de confusão para classificação iSPA-PLS-DA (w = 20) para os dados obtidos por
voltametria de onda quadrada para as 114 amostras de óleos vegetais estudadas.
Validação cruzada Teste
Classe atribuída Ncv CA GI MI SO EX Nteste CA GI MI SO EX
Classe verdadeira CA 10 10 - - - - 5 5 - - - - GI 11 - 11 - - - 5 - 5 - - - MI 12 - - 11 1 - 5 - - 5 - - SO 13 - 1 - 12 - 5 - - - 5 - EX 30 - - - - 30 18 - - - - 18 Sensibilidade 1 1 0,92 0,92 1 1 1 1 1 1 Especificidade 1 0,98 1 0,98 1 1 1 1 1 1 TCC (%) conjunto 97,4 100 TCC (%) modelo 98,7
CA: classe canola, GI: classe girassol, MI: classe milho, SO: classe soja, EX: expirado, Ncv: número de amostras por classe, para o conjunto de validação cruzada. Nteste: número de amostras para o conjunto de
Figura 9 - (a) Intervalo selecionado para o modelo iPLS-DA (w = 20) e intervalos selecionados para os
modelos iSPA-PLS-DA (b) iSPA-PLS-DA (w = 5), (c) iSPA-PLS-DA (w = 10), (d) iSPA-PLS-DA (w = 15), iSPA-PLS-DA (w = 20) ( canola, girassol, milho, soja e expirada) (Fonte própria).
4.4.6 – iSPA-SIMCA
Para avaliar do desempenho da classificação utilizando o algoritmo iSPA-SIMCA proposto, os voltamogramas foram divididos nas seguintes quantidades de intervalos w não sobrepostos 1, 5, 10, 15 e 20. Todos os modelos iSPA-SIMCA foram validados utilizando validação cruzada completa, modificando a quantidade de componentes
principais em cada classe partindo de 1 até ao máximo de componentes princiapis encontrado no modelo SIMCA.
Na Figura 10a é apresentado o intervalo selecionado correspondente ao modelo iSIMCA para w = 20 responsável pela maior taxa de classificação correta. Os intervalos selecionados nos modelos iSPA-SIMCA correspondente a divisão em w intervalos igual 5, 10, 15 e 20 são mostrados na Figura 10b-e.
Figura 10 - (a) Intervalo selecionado para o modelo iPLS-DA (w = 20) e intervalos selecionados para os
modelos iSPA-PLS-DA (b) iSPA-PLS-DA (w = 5), (c) iSPA-PLS-DA (w = 10), (d) iSPA-PLS-DA (w = 15), iSPA-PLS-DA (w = 20) ( canola, girassol, milho, soja e expirada).
Na Tabela 8 são apresentados os resultados obtidos nos conjutos de validação cruzada e teste para cada modelo iSPA-SIMCA correspondente as seguintes quantidades de intervalos (w igual a 1, 5, 10, 15 e 20).
Observando-se os resultados de SIMCA, iSIMCA e iSPA-SIMCA na Tabela 8, podemos observar que os melhores resultados para os modelos iSIMCA e iSPA-SIMCA foram alcançados utilizando a divisão de 20 e 5 intervalos, respectivamente. A taxa de classificação correta para iSPA-SIMCA é superior à iSIMCA e SIMCA, as quais obtiveram 98,7; 96 e 95% de classificações corretas, respectivamente. Neste caso, observados que as técnicas com seleção de intervalos melhoram a capacidade classificatória quando comparada com o modelo que emprega o voltamograma completo. Por outro lado, comparando-se com as técnicas tradicionais com seleção de variáveis individuais, o desempenho de iSPA-SIMCA também é igual ao obtido por SPA-LDA. Para iSPA-SIMCA, duas amostras foram classificadas incorretamente no conjunto de validação cruzada (uma de milho como soja e outra de soja como girassol), enquanto para SPA-LDA apenas uma amostra de girassol foi classificada incorretamente como soja no conjunto de teste, conforme é mostrado na matriz de confusão da Tabela 9 abaixo.
Tabela 8 - Resultados das classificações obtidas, iSIMCA, iSPA-SIMCA (w= 5, 10, 15 e 20) e para os
dados obtidos por voltametria de onda quadrada para as 114 amostras de óleos vegetais estudadas.
Modelo
Taxa de Classificação Correta (%)
Fatores selecionados Intervalos Validação
cruzada Teste Global
iSIMCA (w = 20) 92 100 96,0 1-3-1-1-1 1
iSPA-SIMCA (w = 5) 97,4 100 98,7 1-3-1-1-1 2
iSPA-SIMCA (w = 10) 94,7 94,7 94,7 1-3-1-1-1 8
iSPA-SIMCA (w = 15) 96,0 94,7 95,3 1-3-1-1-1 6