• No results found

5. Hjem og arbeidsplass

7.7. Dagligliv i MT26

A análise do QUADRO 3 permite distinguir dois grupos de medidas aplicadas ao índice NNIS e aos escores prognósticos alternativos para avaliar seu desempenho nas amostras de validação. Num primeiro grupo, formado pelo coeficiente G, o escore de Brier, a AROC e a calibração de Cox, o desempenho é medido em função da proximidade do valor da estatística em relaç~o a um valor ideal de referência. Pode-se dizer que o modelo apresenta uma meta a ser alcançada, e que seu desempenho pode ser julgado em função da proximidade a essa meta, que nunca pode ser transposta. Já no segundo grupo de medidas, formado pela estatística χ2 e pelo teste de Cuzick, o modelo deve superar um limiar inferior para que seu desempenho seja considerado diferente da hipótese nula. Entretanto, a partir deste limiar inferior, não existe valor máximo a ser atingido, e o desempenho só pode ser definido em termos comparativos, confrontando-se os valores das estatísticas com os de outro(s) modelo(s).

Em termos gerais, se comparados os valores do coeficiente G, do escore de Brier, das AROC e da calibração de Cox do índice NNIS e dos escores prognósticos alternativos nas amostras de validação (TAB. 14, 28, 42 e 56) com os valores considerados ideais (QUADRO 3), a conclusão mais imediata sugeriria baixo desempenho dos modelos, mesmo para os escores alternativos 2. Porém, no caso específico do índice NNIS e dos escores prognósticos alternativos, a interpretação do desempenho é bem mais complexa e merece considerações adicionais. Conceitualmente, o baixo desempenho de um modelo de risco pode ser atribuído a dois fatores principais:

a) ao baixo poder de explicação das variáveis incorporadas nos modelos; e b) à não inclusão de variáveis importantes para explicar a ocorrência do evento de interesse (JUSTICE et al., 1999; MILLER et al., 1991). Esta conceituação pode ser aplicada para entender o aparente baixo desempenho dos modelos de risco de ISC.

Sobre o primeiro ponto, é fundamental, para a correta interpretação do desempenho do índice NNIS e dos escores prognósticos alternativos de ISC, consignar a proporção de ISC diagnosticadas pela vigilância extra-hospitalar (GASTMEIER, 2006; MANNIËN et al., 2006; THIBON et al., 2002). A proporção de ISC diagnosticadas após a alta hospitalar do paciente impacta no desempenho dos escores através de um fator que não diz respeito ao mérito propriamente dito dos escores, pois está mais ligado à eficiência da metodologia de vigilância das ISC usada pela CCIH. É importante lembrar que os índices SENIC e NNIS foram criados e validados numa época em que a ocorrência das ISC fora do hospital não era amplamente reconhecida. O índice SENIC foi inteiramente derivado a partir de ISC que se manifestaram durante a permanência hospitalar dos pacientes (HALEY et al., 1985b), e a validação original do índice básico NNIS foi feita em amostra de hospitais em que apenas 30% tinham algum tipo de programa de vigilância extra-hospitalar das ISC (CULVER et al., 1991). Para participar do sistema NNIS, não era exigida dos hospitais a condução de qualquer tipo de vigilância extra-hospitalar das ISC (GAYNES et al., 2001). Consequentemente, a vigilância extra- hospitalar no sistema NNIS não era padronizada, e a completude e precisão destas informações eram irregulares (GAYNES et al., 2001; KLEVENS et al., 2007). Isto resultou, certamente, em considerável subdetecção das ISC que se manifestam fora do hospital (KLEVENS et al., 2007), como corroborado pelo fato de que apenas 16% de todas as ISC diagnosticadas entre 1994 e 1998 no sistema NNIS foram detectadas pela vigilância extra-hospitalar (GAYNES et al., 2001). Assim, a validade dos índices SENIC e NNIS para as ISC de início tardio nunca foi abordada pelo sistema NNIS. Estudos mostram que o potencial de contaminação, o escore da ASA e a duração da cirurgia, junto com outros fatores de risco tradicionais de ISC, como o diabetes mellitus, a cirurgia de urgência e o uso de drenos, têm associação fraca com as ISC de desenvolvimento tardio, detectadas por vigilância extra-hospitalar (BYRNE et al., 1994; DANEMAN et al., 2010; DELGADO- RODRÍGUEZ et al., 2001b; MEDINA-CUADROS et al., 1996; OLIVEIRA; CARVALHO, 2004; REID et al., 2002; WEIGELT et al., 1992). Delgado-Rodríguez et al. (2006) observaram AROC 0,52 e 0,69 quando o índice NNIS foi usado para prognosticar a ocorrência de ISC após a alta hospitalar e durante a permanência hospitalar do paciente, respectivamente.

A vigilância extra-hospitalar identifica ISC que tendem a localizar-se mais frequentemente em estratos de risco NNIS baixos, e estudos atestam ausência de associação, ou até mesmo redução, das taxas de ISC pós-alta hospitalar conforme o aumento da faixa de risco NNIS (AVATO; LAI, 2002; DANEMAN et al., 2010; DELGADO- RODRÍGUEZ et al., 2001b; DELGADO-RODRÍGUEZ et al., 2006; PROSPERO et al., 2006). As ISC que se manifestam em pacientes com fatores de risco cl|ssicos s~o mais frequentemente infecções que se apresentam mais cedo após a cirurgia ou em pacientes clinicamente mais graves e com maior permanência hospitalar, tendo, consequentemente, maior chance de serem detectadas por meio da vigilância intra- hospitalar (MANNIËN et al., 2006). Assim, em relação à presença ou ausência dos fatores de risco cl|ssicos de ISC, os pacientes que desenvolvem ISC após a alta hospitalar s~o mais parecidos com os que não desenvolvem qualquer infecção do que com os que a desenvolvem no hospital (DELGADO-RODRÍGUEZ et al., 2001b). Em consequência, é esperado que o índice NNIS e os escores alternativos tenham seu desempenho prejudicado em proporção direta à porcentagem de ISC diagnosticadas após a alta hospitalar. Na análise aqui apresentada, 71% das infecções foram diagnosticadas fora do hospital, sendo esperado que isto reduza o desempenho dos modelos prognósticos estudados.

Em relação à não incorporação de outras variáveis importantes nos escores prognósticos, deve-se enfatizar que modelos de ajuste do risco de ISC estão destinados a controlar só os efeitos das características intrínsecas do paciente ou do procedimento cirúrgico nas taxas de infecção. Fatores de risco que refletem processos de cuidados (i.e., extrínsecos aos pacientes) devem ser deliberadamente excluídos dos modelos, pois o controle por estes fatores irá mascarar, ao invés de revelar, diferenças na qualidade dos cuidados entre instituições ou cirurgiões (GEUBBELS et al., 2006b; KWAAN, 2010). Um destes fatores é, por exemplo, o uso correto de antibióticos profiláticos. O uso de profilaxia antibiótica conforme protocolo reduz a incidência de ISC e a emergência de bactérias resistentes aos antibióticos, e é essencialmente dependente de processos hospitalares (TURNBULL et al., 2005). Assim, é um reconhecido indicador da qualidade do processo assistencial (BRATZLER et al., 2005; DÍAZ-AGERO PÉREZ et al., 2009; PRADO et al., 2002). Neste sentido, a consideração do uso de profilaxia antibiótica como variável candidata para melhorar o desempenho do índice NNIS, defendido por Culver et al. (1991) e por outros autores (KAGEN et al., 2007; KIVI et al., 2008; VERNET et al., 2004), é conceitualmente incorreta (KWAAN, 2010).

Se o ajuste do risco de ISC deve ser feito apenas por fatores intrínsecos, então a capacidade de predição do índice NNIS e dos escores prognósticos alternativos nunca poderá ser perfeita (GEUBBELS et al., 2006b). Consequentemente, as metas de valores ideais de desempenho listadas no QUADRO 3 nunca poderão ser atingidas. Ora, é naturalmente impossível saber que proporção do risco total de ISC é determinada por fatores intrínsecos ou por fatores extrínsecos. Assim, quando lidamos com modelos que ajustam deliberadamente apenas uma parte do risco de ISC, não é possível afirmar que o desempenho dos modelos é bom ou é ruim só pela comparaç~o com um valor ideal de referência, pois este desempenho será, sempre, necessariamente incompleto. Por isto, todas as medidas de desempenho detalhadas devem ser interpretadas em termos comparativos (i.e., melhor ou pior desempenho em relação a outro modelo).

O observado com as medidas de calibração dos escores alternativos nas amostras de validação (TAB. 14, 28, 42 e 56) serve para ilustrar pontos importantes da discussão precedente. Embora, genericamente falando, a boa calibração de um modelo seja característica desejável, é importante notar que para um escore prognóstico que pretende ajustar o risco de ISC apenas por fatores intrínsecos ao paciente, deixando livres fatores dependentes da qualidade dos cuidados assistenciais, a falta de calibração nas amostras de validação deve ser interpretada com muita cautela. Para que um escore prognóstico apresente boa calibração, todos os fatores que influenciam no desfecho (incluindo fatores associados ao paciente e à qualidade dos cuidados) devem ou bem ser incluídos no modelo, ou bem ter a mesma distribuição e comportamento nas amostras de desenvolvimento e de validação (HARRISON et al., 2006). Por este motivo, quando um hospital inicia um programa de garantia da qualidade hospitalar, incorpora processos de cuidados (extrínsecos aos pacientes) que reduzem o risco de ISC e podem se manifestar em falta de calibração de modelos construídos em hospitais que não usam estes programas. Durante os anos transcorridos de coleta de dados para este estudo, os hospitais participantes consolidaram programas de garantia da qualidade hospitalar cujo principal foco era o controle das IACS. Em particular, afiançaram-se protocolos de antibioticoprofilaxia e técnicas de controle de qualidade da esterilização do instrumental cirúrgico, sendo este, certamente, um dos motivos para a ausência de calibração dos escores prognósticos alternativos nas amostras de validação. Apoia esta hipótese o fato de que as taxas de ISC foram sempre menores nas amostras de validação do que nas amostras de desenvolvimento, bem como a observação de que o componente Cox foi o maior responsável pela falta de calibração de muitos escores prognósticos. Neste

particular sentido, a ausência de calibração é desejável, pois não necessariamente reflete um aspecto negativo do modelo de ajuste, mas aspecto positivo dos hospitais.

A calibração inadequada do índice NNIS nas amostras de validação também pode ser interpretada em sentidos diametralmente opostos. Decidir qual destes sentidos é o que explica realmente o comportamento observado requer alto grau de introspecção por parte do pesquisador. A aceitação do pressuposto de que as taxas de ISC publicadas pelo sistema NNIS representam o melhor parâmetro de comparação possível para nossos hospitais, reflexo dos mais altos padrões de qualidade assistencial, metodológico e de vigilância epidemiológica, obriga a aceitar que o desempenho deficiente do índice NNIS em termos de calibração (e de outras medidas que usam probabilidades, como o escalado) é fruto da má qualidade assistencial dispensada nos hospitais locais. Isto implicaria que a procura por referenciais internos de comparação (i.e., os escores prognósticos alternativos) nada mais seria do que um artifício estatístico para burlar o melhor referencial, mudando o patamar para padrão de pior qualidade em que se encaixam os hospitais locais. Para Burke (2003), o sistema NNIS pode ser visto como referencial válido só quando é assumido que seus hospitais possuem programas de controle das IACS com todos os componentes de efetividade necessários. O conjunto das evidências publicadas, entretanto, acode numa direção que conduz a interpretação diferente. A documentação do desempenho fraco do índice NNIS numa variedade de situações no Brasil e mundo afora (vide seções 2.5 e 2.6) e o papel desconhecido da vigilância extra-hospitalar no sistema NNIS (KLEVENS et al., 2007) sugerem que o índice, tal como é definido pelo sistema NNIS, não ajusta eficientemente o risco de ISC na nossa população, tornando questionável seu uso como parâmetro de comparação do desempenho hospitalar no nosso meio (BISCIONE, 2008, 2009; NOGUEIRA, 2009) e em muitos outros contextos (VANDENBROUCKE-GRAULS; SCHULTSZ, 2002). De acordo com Gastmeier (2004), para que conclusões apressadas não sejam tiradas, [...] é crucial que os hospitais se mantenham flexíveis e usem os padrões de vigilância mais apropriados para sua própria situaç~o individual .10 Em suma, a observação de que os escores alternativos 1 melhoraram o desempenho do índice NNIS sugere que a fraca performance do índice NNIS nas amostras de validação não se deveu apenas à exclusão do componente de risco extrínseco de ISC, mas também à especificação deficiente do componente de risco intrínseco de ISC dos nossos hospitais.

10 Documento original em inglês.

Durante a etapa de construção dos modelos logísticos e dos escores alternativos, diversas medidas de desempenho foram usadas para avaliar os benefícios relativos fornecidos pela revisão e pela extensão das variáveis do índice NNIS. Observou-se que a extensão dos modelos logísticos pela incorporação do indicador de vigilância extra-hospitalar esteve associada com desajuste aos dados dos modelos de outras operações do aparelho geniturinário, outras operações do sistema musculoesquelético e histerectomia abdominal. Contudo, isto não impediu que, com poucas exceções, outras medidas de desempenho mostrassem benefícios consistentes dos modelos e dos escores alternativos 2 em relação aos escores alternativos NNIS e 1. Isto vem reforçar um conceito já conhecido na literatura epidemiológica, frisado por Altman & Royston (2000, p. 454, tradução do autor), sobre a interpretação do desempenho dos modelos prognósticos: A utilidade [de um modelo] é determinada por quão bem ele se desempenha na prática, e não pela quantidade de zeros presentes nos valores p associados .11 Aqui, reconhece-se uma concepção pragmática da validade: um modelo estatisticamente inv|lido pode ainda proporcionar informaç~o clínica útil e ser considerado clinicamente v|lido , mas, certamente, um modelo estatisticamente v|lido n~o terá qualquer utilidade se n~o for clinicamente v|lido ALTMAN & ROYSTON, . Nada impede que um bom preditor possa incluir vari|veis n~o significativas , excluir outras que s~o significativas e, ainda, incluir coeficientes sistematicamente viciados (COPAS, 1983). Neste sentido, Stone (1974, p. 113) (tradução do autor lembra: Uma prediç~o n~o é nem verdadeira nem falsa; seria mais correto dizer que, num sentido amplo, ela se desempenha bem ou mal .11 Por este motivo, embora os pressupostos e limitações dos modelos multivariados sejam importantes, eles podem ser considerados de importância secundária quando os modelos são usados com o propósito de fornecer predições conjuntas sobre a ocorrência de um evento (CONCATO et al., 1993).

Outro aspecto importante do desempenho dos modelos prognósticos é ilustrado nos resultados da TAB. 42, referente a outras operações do sistema musculoesquelético. A comparação dos valores do coeficiente G e do teste de Cuzick do índice NNIS e do escore alternativo 2 não ponderado pareceria sugerir que o índice NNIS se desempenhou melhor que o escore alternativo 2. Entretanto, os valores da discriminação, do escalado, da estatística χ2 do modelo e, especialmente, da calibração, favorecem o escore alternativo 2, sugerindo uma conclusão, bem mais robusta, em

sentido oposto ao anterior. Isto demonstra que a avaliação do desempenho de um modelo prognóstico é multidimensional, e que a consideração de aspectos isolados pode levar a conclusões errôneas quanto ao seu desempenho (HARRISON et al., 2006). Pela forma como o coeficiente G trata os empates (vide seção 4.7.4), faixas de risco dominantes localizadas nos extremos da distribuição de valores do escore tendem a aumentar a magnitude da estatística G (GOODMAN; KRUSKAL, 1954; MAIMON, 1978), sem que isto se associe necessariamente com maior discriminação ou calibração do escore. Comparando-se a distribuição dos valores do índice NNIS e do escore alternativo 2 em questão (TAB. 41), é possível perceber que este último dispersou mais suavemente os valores ao longo das faixas de risco, melhorando a discriminação e a calibração, mas reduzindo seu coeficiente G. Ao analisar os estudos publicados que avaliaram o desempenho do índice NNIS e de modelos alternativos de risco de ISC (vide seções 2.5 e 2.6), observa-se que a maioria deles utilizou ou bem uma abordagem qualitativa (i.e., o aumento do risco de ISC com cada faixa de risco), ou bem apenas uma medida de desempenho, sendo quase sempre o coeficiente G ou a AROC, com escassos estudos que usaram as duas medidas simultaneamente ou ainda outras medidas de desempenho. Os resultados aqui apresentados mostram ser essa uma estratégia de avaliação insuficiente e simplista, pois teria conduzido a interpretação diferente daquela sugerida quando foram consideradas todas as medidas de desempenho de forma conjunta.

Esta ausência de avaliações abrangentes torna muito difícil a comparação dos benefícios dos modelos prognósticos alternativos de ISC propostos na literatura em relação aos benefícios observados dos escores alternativos desta pesquisa. Em dados da rede PREZIES (QUADRO 2 e seção 2.6), a incorporação de preditores do risco de ISC adicionais às variáveis do índice NNIS resultou, frequentemente, em modelos significativamente mais complexos. Apesar desta maior complexidade, o aumento da AROC variou discretamente entre 0,01 e 0,20 (GEUBBELS et al., 2006b; KIVI et al., 2008). Outros exemplos, sempre mostrando incrementos discretos , 6) na AROC, podem ser consultados na seção 2.6. No presente estudo, a melhora na discriminação dos escores alternativos 2 não ponderados, em relação ao índice NNIS, manifestou-se em incrementos das AROC que variaram entre 0,05 e 0,24 nas amostras de validação. Já para a estatística G, o escore alternativo 2 não ponderado de outras operações do sistema musculoesquelético apresentou magnitude 0,056 menor que o índice NNIS (TAB. 42), mas o de outras operações do aparelho geniturinário (TAB. 14) e o de histerectomia abdominal (TAB. 56) aumentaram sua magnitude em 0,204 e 0,285, respectivamente. A

estatística G de outras operações do sistema tegumentar, não calculável para o índice NNIS por apresentar apenas uma faixa de risco, foi de 0,628 (TAB. 28). Estes incrementos se comparam favoravelmente em relação a outros modelos alternativos descritos na literatura (seção 2.6).

6.5 CONSIDERAÇÕES SOBRE AS VARIÁVEIS DO ÍNDICE NNIS (NATIONAL NOSOCOMIAL