A importação dos dados, pré-tratamentos e a construção dos modelos de classificação quimiométricos (PCA, SIMCA, PLS-DA) foi realizada na versão MATLAB 6.5 (Math-Works, Natick, EUA), utilizando o PLS-toolbox (Pesquisa Eigenvector, Inc., Wenatchee , WA, EUA, versão 5.8.2). Diferentes métodos de pré-processamento foram usados, incluindo a derivada e a suavização de Savitzky-Golay, utilizando um polinômio de primeira e segunda ordem, e variando o número da janela de pontos (3, 5, 7 e 15 ) e correção de dispersão (MSC).
54
Todos os modelos foram construídos com validação cruzada, utilizando-se o método ‘leave-one-out’. o número ótimo de componentes PLS foi considerado como sendo, pelo menos, aquele que minimiza a diferença de quadrados entre o valor de referência e os parâmetros medidos (raiz quadrada média do erro de validação cruzada, RMSECV).
55 4 RESULTADOS E DISCUSSÃO
4.1 ESPECTRO ORIGINAL
A Figura 28 mostra os espectros NIR das suspensões de bactérias de duas classes (E. coli e S. Enteritidis). Como pode ser observado há dificuldade, e até mesmo impossibilidade de encontrar diferenças significativas entre as duas classes apenas observando seus espectros puros, isto deve-se ao alto grau de sobreposição de bandas. Estas bandas são originadas do segundo sobretom do estiramento O–H (982 nm), do primeiro sobretom do estiramento O–H (1456 nm), e a combinação de bandas do estiramento assimétrico e deformação angular das vibrações do O–H (1940 nm). Também pode-se observar que houve um desvio da linha de base e bias consistente, que é muito comum para espectros NIR adquiridos por técnica de reflectância difusa devido ao alto espalhamento de luz32.
Figura 28- Espectros NIR originais das suspensões de bactérias E. coli e S.
Enteritidis de 50 amostras, sendo 25 para E.coli e 25 para S. Enteritidis.
(Fonte: a Autora).
Para resolver este problema, alguns pré-tratamentos foram aplicados. O primeiro pré-tratamento utilizado foi uma correção de espalhamento de luz (MSC),
56
realizada para corrigir o efeito de dispersão da luz no espectro de absorção. Esta etapa foi essencial para a aplicação dos outros pré-processamentos. Foram construídos modelos com primeira e segunda derivada de Savitzky-Golay com janelas de 3 a 15 pontos (Apêndice A) nos espectros puros e em regiões específicas. Foi utilizada a derivada porque esta torna as características espectrais das diferentes cepas de bactérias mais proeminentes e por ser muito usada para processar dados espectrais, pois separa sobreposições de bandas de absorção, elimina desvios de linha de base e aumenta a resolução espectral aparente. Estes efeitos são mostrados na Figura 29.
Figura 29- Espectros NIR das suspensões de bactérias E.coli e S. Enteritidis
pré-processada com MSC e segunda derivada de Savitzky-Golay com janela de 15 pontos com atribuição das possíveis estruturas presentes na parece celular
dos gram-negativos.
57
4.2 PCA E SIMCA
Após os pré-processamentos, a faixa de 1000 a 1111 nm foi removida com a intenção de eliminar o ruído espectral e, em seguida, realizou-se a análise de PCA. Um modelo PCA foi construído a partir do conjunto de calibração usando 3 componentes principais, explicando juntos 98,62% do total de variância nos dados após a aplicação do pré-processamento (MSC e primeira derivada Savitzky-Golay com janela de 15 pontos). Como pode ser visto na Figura 30, não há separação clara entre as duas classes. Neste caso, a figura mostra que os escores de PCA resultantes da aplicação desta técnica, para os dados de espectroscopia NIR, não foram capazes de diferenciar as classes de bactérias.
Figura 30- Escores de PCA dos espectros NIR das suspensões de E.coli e S.
Enteritidis.
(Fonte: a Autora).
Os dados deste estudo contêm informações espectrais NIR complexas com diversas fontes de variação (por exemplo, taxa de crescimento, a temperatura e o tempo de incubação, o processo metabólico, as propriedades ópticas da sonda utilizada na obtenção dos espectros, etc.). Os procedimentos para a preparação das amostras deste estudo foram padronizados para minimizar essas influências, gerar informações espectrais consistentes e obter dados reprodutíveis. A
58
concentração média de células bacterianas foi consistentemente 1 × 108 ufc / ml, que forneceu sinais intensos na região NIR. Por isso que o PCA, que é freqüentemente usado como um método de classificação não-supervisionado, não foi capaz de fornecer uma separação suficiente entre as classes, e também pelo fato do mesmo não ser eficaz quando a variação dentro do grupo é maior do que a diferença entre os grupos. Em tais situações, a utilização de métodos de classificação supervisionados deve ser considerada.
Para reduzir o efeito da água nos modelos supervisionados foi removido o pico principal da água (1900 nm), removendo, assim, a banda de estiramento O-H da água.
Antes da construção dos modelos, as amostras foram selecionadas utilizando o gráfico de PCA, pois mostrou-se mais satisfatório em relação à seleção de amostras utilizando o algorítmo Kennard-Stone (Apêndice B). O último não conseguiu diferenciar amostras por grupos, reconhecendo as amostras como sendo de um único grupo, este fato pode ser explicado pela alta variabilidade das amostras.
Foram costruídos modelos SIMCA para cada uma das duas classes usando um total de 50 amostras. Os modelos SIMCA apresentaram um baixo desempenho, como pode ser visto na Tabela 1 que mostra o melhor modelo obtido. Isto deve-se ao fato do modelo SIMCA ser baseado na Análise de Componentes Principais, não sendo capaz de identificar diferenças entre as classes e similaridades dentro de cada classe.
Tabela 1- Modelo SIMCA com segunda derivada na região de 1111-2000nm.
Bactéria
Calibração Previsão
Acertos %Variância Falsos Negativos
Acertos %Variância Falsos Negativos
E.coli 14 93,33 1 8 100 0
59
Atendo ao fato de que os modelos de PCA e SIMCA não foram capazes de diferenciar as duas classes de bactérias, modelos PLS-DA foram construídos. O PLS-DA foi escolhido por levar em consideração valores de X e Y, fornecendo mais informações ao modelo.
4.3 PLS-DA
O conjunto de dados com 256 variáveis (região selecionada) foi utilizado para o modelo de classificação PLS-DA. Durante a construção do modelo, algumas amostras foram removidas, tais como outliers com base na avaliação dos resíduos e T2 de Hotelling (Apêndice C). Modelos de classificação foram
construídos para todas as combinações de E. coli e S. Enteritidis. Os modelos foram validados por validação cruzada. Foi realizada a seleção dos dados de calibração para encontrar as variáveis ideais para a classificação. O modelo PLS- DA foi calculado e validado. O R2, e RMSEC RMSECV para os modelos PLS-DA de calibração foram 0,87, 0,46 e 0,69, respectivamente, para a E. coli. Para S. Enteritidis os valores R2, RMSEC e RMSECV foram 0,87, 0,60 e 0,68, respectivamente. O PLS-DA apresentou um bom desempenho, atingindo uma capacidade de predição de 87,5% para a E. coli e de 88,3% para S. Enteritidis, respectivamente. A Tabela 2 apresenta o resumo dos resultados obtidos para vários modelos de PLS-DA.
Tabela 2- Modelos PLS_DA com primeira e segunda derivada nas regiões (A)
espectro puro e (B) 1111-2000nm.
Bacterium
Calibração Previsão
Acertos Variância Falsos Negativos
Acertos Variância Falsos Negativos E.coli(A)¹ 12 77,70 3 6 75,00 2 S.enteritidis(A)¹ 18 85,70 3 3 58,30 3 E.coli(B)¹ 14 88,88 1 6 85,70 2 S.enteritidis(B)¹ 7 33,33 14 4 75,00 2 E.coli(B)² 13 86,66 2 7 87,50 1
60
S.enteritidis(B)² 19 90,47 2 5 83,33 1
Os resultados dos diferentes modelos com os valores de sensibilidade e especificidade para a validação cruzada e os modelos testados foram calculados. Para os modelos PLS-DA os valores ideais obtidos para a sensibilidade e especificidade foram de 0,87 e 0,83, respectivamente, em modelos de diagnósticos um elevado valor de especificidade é muitas vezes preferido dado que tal reduz o número de falsos positivos.
Os resultados dos modelos PLS-DA sugerem que também é possível a utilização de técnicas quimiométricas e que estas são adequadas para a detecção de bactérias inoculadas em polpa de fruta.
Comparando os resultados obtidos em trabalhos anteriores29,33, pode ser observado que para construção de modelos com bactérias o SIMCA apresenta resultados altos na classificação, porém quando amostras de validação são testadas o modelo torna-se falho. Enquanto que, o PLS-DA, apresenta-se uma boa ferramenta para solucionar problemas de variabilidade dentro da classe, conseguindo bons modelos de validação.
O presente trabalho mostra-se promissor para solucionar deficiencias na indústria de polpa de fruta quanto à análises microbiológica das espécies
Salmonella e Escherichia coli, proporcionando rapidez na análise, podendo o
61
5 CONCLUSÕES
Tendo em vista os resultados obtidos, podemos concluir que é possível utilizar os métodos quimiométricos para diferenciar colônias de bactérias (Escherichia coli e Salmonella Enteritidis) a partir da espectroscopia NIR (1000– 2500 nm). Foi avaliado que o método PLS-DA apresentou melhores resultados.
Os resultados mostraram-se satisfatórios, porém apresentaram falhas na aquisição dos espectros que sofreu variações físicas (temperatura, tempo, etc) e baixa sensibilidade do equipamento. Para solucionar este problema técnicas quimiométricas tem sido desenvolvidas.
Futuramente, o desenvolvimento desta técnica poderá ter um grande potencial na determinação de contaminantes em alimentos, atribuindo rapidez e precisão nas análises de controle de qualidade.
62 REFERÊNCIAS
1. KAEWTATHIP, T.; CHAROENREIN, S. Changes in volatile aroma compounds of pineapple (Ananas comosus) during freezing and thawing,
International Journal of Food Science & Technology. v. 47, p. 985 – 990, 2012.
2. GIACORRELLI, E. J., PY, C. Abacaxi no Brasil. Campinas: Fundação Cargil, 1989.
3. CARROLL, C. K.; BUTEL, J. S. MORSE; S. A. Microbiologia Médica de
Jawetz, Melnick e Adelberg. 25 ed. [S. l.]: Geo. F. Brooks, 2012.
4. INTERNATIONAL COMISSION OF MICROBIOLOGY SPECIFICATIONS IN FOOD. <http://www.icmsf.org/main/articles_papers.html>. Acesso em: fev. 2013.
5. MANNING, S.D. Escherichia coli infections, 1 ed., David Heymann, United States of America: 1971.
5 MURRAY, P.R. Microbiologia Médica, 5 ed., Rio de Janeiro: Elsiever, 2006.
6 KAUFFMAN, F. The serology of the coli group, J. Immunol. v. 57, p. 71- 11, 1947.
8. VERSALOVIC, J. Manual of Clinical Microbiologic, 10 ed., Texas Children’s Hospital: ASM press, 2011.
9. KONEMAN, E.W. Diagnóstico Microbiológico, 5 ed., Buenos Aires: Editora Médica Panamericana S.A., 1999.
10. BRASIL. MINISTÉRIO DA AGRICULTURA E ABASTECIMENTO.
63
Coordenação Geral de Laboratório Animal, 1992.
11. REGINA, J. H. Atlas da Microbiologia de Alimentos, 1 ed. [S.l]: Revista Indústria de Laticínios, 1998.
12. SKOOG, D.A. Princípios de Análise Instrumental, 5 ed. Porto Alegre: Bookman, 2002.
13. PASQUINI, C. Near Infrared Spectroscopy: fundamentals, practical aspects and analytical applications. J. Brasilian Chemical Society, v.14 , p.198-219, 2003.
14. BURNS, D.A.; CIURCZAK, E.W. Handbook of Near-infrared analysis, 3 ed. [S.l]: CRC Press, 2007.
15. NAES, T.; ISAKSSON, T.; FERN, T.; DAVIES, T. A user-friendly guide
to multivariate calibration and classification, UK: NIR Publications,
2002.
16. BARKER, M.; RYENS, W. Partial leat squares for discrimintion, Journal
of Chemometrics, v. 17, p. 166-173, 2003.
17. NEVES, A.C.O. Espectroscopia no infravermelho próximo e métodos
de calibração multivariada aplicados à determinação simultânea de parâmetros bioquímicos em plasma sanguíneo, Natal-RN:
Dissertação de Mestrado-UFRN, 2013.
18. MILLER, J.N.; MILLER, J.C., Statistics and chemometrics for
analytical chemistry, 4 ed. Chinchester: Prentice Hall, 2000.
19. MASSART, D.L.; VANDEGINSTE, B.G.M.; DEMING, S.N.; MICHOTTE, YKAUFMAN, L. Chemometrics: a textbook, In: Data handling in
64
B., p. 385-413, 1998.
20. BRERETON, R. G. Introdution to multivariate calibration in analytical
chemistry, [S.l]: Analyst, 2000.
21. SAVITZKY, A.; GOLAY, M.J.E. Smoothing and differentiation of data by simplified least squares procedures, Analytical chemistry, v. 36, p. 1627-1639, 1964.
22. NEVES, A.C.O.; ARAÚJO, B. L.; VALDERRAMA, P.; MARÇO, P.H.; LIMA, K.M.G. Near infrared spectroscopy and multivariate calibration for simultaneous determination of glucose, triglycerides and high-density lipoprotein in animal plasma, Journal o Pharmaceutical and
Biomedical Analisys, v. 66, p. 252-257, 2012.
23. JOLIFFE, I. T. Principal Component Analysis, 2 ed. UK: Springer, 2002.
24. MATTHIAS, O. Chemometrics, Statistics and Computer Application
in Analytical Chemistry, 2 ed. Weinheim: WILEY-VCH Verlag GmbH &
Co. KGaA, 2007.
25. MARTEN, H.; NAES, T. Multivariate Calibration and Classification, 1 ed. Chichester-UK: NIR Publications, 2002.
26. BARKER, M.; RAYENS, W. Partil Least Squares for discrimination,
Jornal of chemometrics, v. 17, p. 166-173, 2003.
27. SIRIPATRAWAN, U.; MAKINO, Y.; KAWAGOE, Y.; OSHITA, S. Near infrared spectroscopy integrated with chemometrics for rapid detection of
E. coli ATCC 25922 and E. coli K12, Sensors and Actuators B:
65
28. SUTHILUK, P.; SARANWONG, S.; KAWANO, S.; NUMTHUAM, S.; SATAKE, T. Possibility of using near infrared spectroscopy for evaluation of bacterial contamination in shredded cabbage, International
Journal of Food Science and Technology, v. 43, p. 160-165, 2008.
29. AL-HOLY, M. A.; LIN, M.; CAVIINATO, A. C.; RASCO, B. The use of Fourier transform infrared spectroscopy to differentiate Escherichia coli O157:H7 from others bacteria inoculated into apple juice, Food
Microbiology, v. 23, p. 162-168, 2006.
30. MARTOS,C. F.; COSANO,Z. G.; RODRIGUEZ, P.F.; ROJOS, M. R.; Identification and quantification of lactic acid bacteria in a water-based matrix with near-infrared spectroscopy and multivariate regression modeling, Food Anal. Methods, v. 5, p. 19-28, 2012.
31. FORINA, M.; ARMANINO, C.; LEARD, R.; DRAVA, G. A class modeling technique based on potential functions, Journal of Chemometrics, v. 5, p. 435-453,1991.
32. WILLIAMS, P.; NORRIS, K. NIR Technology in the Agricultural and
Food Industries, St. Paul: Am. Ass. Cereal Chemists, 1990.
33. ALEXANDRAKIS, D.; DORVEY, G.; SCANNEL, A. G. M. Detection and identification of bacteria in an isolated system with near-infrared spectroscopy and multivariate analysis, J. Agric. Food Chem., v. 56, p. 3431-3437, 2008.
66 APÊNDICE A - Modelos PLS-DA com MSC e 1ª e 2ª derivada com variação de
janela de 3 a 15 pontos.
Modelo¹ Sensibilidade Especificidade R² Cal RMSEC R² Prev RMSEP PLS-DA S(1D)3Pts 0,000 0,750 0,990 0,046 0,065 0,717 PLS-DA S(1D)5Pts 1,000 0,200 0,972 0,062 0,011 0,757 PLS-DA S(1D)7Pts 0,000 1,000 0,977 0,070 0,069 0,965 PLS-DA S(1D)15Pts 1,000 0,200 0,968 0,066 0,005 0,645 PLS-DA S(2D)3Pts 1,000 1,000 0,917 0,138 0,784 0,302 PLS-DA S(2D)5Pts 0,000 0,667 0,790 0,160 0,024 0,622 PLS-DA S(2D)7Pts 1,000 0,667 0,806 0,211 0,557 0,768 PLS-DA S(2D)15Pts 0,875 0,883 0,870 0,460 0,871 0,680
¹ Pts, Pontos; 1D, 1ª derivada; 2D, 2ª derivada.
Apêndice B: Modelos PLS-DA com seleção de amostras utilizando o algoritmo
Kennard-Stone.
Modelo² Sensibilidade Especificidade R² Cal RMSEC R² Prev RMSEP PLS-DA(1) KS(1D) 0.000 1.000 0.986 0.040 0.044 0.431 PLS-DA(1) KS(2D) 1.000 1.000 0.999 0.005 0.999 0.005 PLS-DA(2) KS(1D) 1.000 1.000 0.999 0.010 0.999 0.010 PLS-DA(2) KS(2D) 1.000 1.000 0.998 0.018 0.998 0.018 PLS-DA(3) KS(1D) 1.000 1.000 0.997 0.016 0.997 0.016 PLS-DA(3) KS(2D) 0.000 1.000 0.958 0.096 0.958 0.096
67 Apêndice C: Gráfico de resíduo e T² Hotelling