juni 2008 av miljø- og utviklingsminister Erik Solheim

Para aferir conhecimento a partir dos modelos obtidos foram utilizadas as métricas estatísticas sensibilidade, especicidade e acuidade, obtidas a partir daMatriz de Confusão. AMatriz de Confusão (MC)permite obter 4 tipos de resultados: o número de Falso Negativo (FN) (valores 1 classicados como negativos), o número de Falso Positivo (FP) (valores 0 classicados como

6.4. PROCESSO DE DATA MINING 69 positivos), o número de Verdadeiro Negativo (VN) (valores 0 classicados corretamente) e nalmente, o número de Verdadeiro Positivo (VP), valores 1 classicados corretamente. Através destes valores é possível estimar as métricas estatísticas:

Sensibilidade = V P/(V P + F N ) Especif icidade = V N/(V N + F P ) Acuidade = V P/(V P + F P + V N + F N )

A sensibilidade deteta a ocorrência de casos corretamente classicados como positivos, a especicidade corresponde à identicação de casos corretamente classicados de negativos, enquanto a acuidade refere-se à percentagem total de concordância entre as previsões corretamente efetuadas em todo o data- set [118].

A tabela6.5 apresenta os melhores resultados adquiridos entre os 80 mo- delos induzidos para cada método deDM, abordagem de amostragem e uti- lização (ou não) de oversampling, em termos das métricas destacadas.

A acuidade máxima alcançada, 93%, é obtida pelo cenário 3, através dos métodos AD e NB utilizando o dataset com oversampling e 30% dos dados para teste. Por sua vez, a melhor sensibilidade, ou seja, o modelo com maior facilidade em prever os nascimentos pré-termo (alvo 1 ) toma um valor de 95.71%, segundo o cenário 4, utilizando o dataset com oversampling, através do método SVM e todos os dados para teste. Em termos da especicidade, previsão do alvo 0 (nascimentos termo), alcançou-se 97.52% comSVM, over- sampling e todos os dados para teste.

De forma a escolher os modelos que melhor se apropriam ao problema, foram considerados limites estatísticos superiores a 85% para ambas as mé- tricas. A tabela 6.6 mostra os modelos que vericam esta condição.

70 CAPÍTULO 6. PREVISÃO DE NASCIMENTO PRÉ-TERMO Tabela 6.5: Melhores resultados alcançados em termos das métricas sensi- bilidade (S), especicidade (E) e acuidade (A) para cada método de DM, abordagem de amostragem e dataset.

DM Oversampling Amostragem Cenário S E A

AD Não 30% 3 0.8889 0.9303 0.9300 Não Todos 1 0.2896 0.9723 0.8599 Sim 30% 4 0.8962 0.7181 0.7787 Sim Todos 1 0.8390 0.7465 0.7851 MLG Não 30% 4 0.4221 0.9646 0.9063 Não Todos 4 0.2896 0.9723 0.8599 Sim 30% 1 0.8368 0.7330 0.7738 Sim Todos 4 0.8674 0.7126 0.7687 NB Não 30% 3 0.8889 0.9303 0.9300 Não Todos 1 0.4868 0.9646 0.9271 Sim 30% 4 0.8232 0.7699 0.7934 Sim Todos 1 0.8392 0.7864 0.8104 SVM Não 30% 4 0.1246 0.9505 0.6874 Não Todos 2 0.1023 0.9752 0.4570 Sim 30% 1 0.9207 0.7069 0.7743 Sim Todos 4 0.9571 0.6647 0.7410

Tabela 6.6: Modelo de DM que obedece aos limites estabelecidos, para a previsão de nascimentos pré-termo.

Cenário Modelo Oversampling Amostragem S E A

3 AD, NB Não 30% 0.8889 0.9303 0.9300

6.5 Discussão dos Resultados

É de notar que os melhores resultados em termos de sensibilidade (95.71%) e especicidade (97.52%) não integram o melhor modelo para a previsão de nascimentos pré-termo, presente na tabela 6.6, uma vez que não apresen- tam valores tão signicantes nas restantes métricas usadas na avaliação dos modelos.

Em termos de variáveis, o cenário que alcança os limites denidos é o S3, apresentando bons resultados tanto em termos de sensibilidade como especi- cidade. Isto permite aferir que os fatores de risco mais relevantes a inuenciar

6.6. CONCLUSÃO 71 o nascimento pré-termo são a gestação e algumas condições físicas da utente. Na gura 6.2 observa-se a curva Receiver Operating Characteristic (ROC) para o melhor modelo obtido, que relaciona a sensibilidade e a especicidade e representa o comportamento do modelo para diferentes limites denidos.

Figura 6.2: ROC do melhor modelo a prever o nascimento pré-termo. Numa perspetiva clínica, os resultados alcançados vão permitir a identi- cação de nascimentos pré-termo, dando acesso a uma melhor monitorização e gestão de recursos. Em ambiente real, os prossionais de saúde podem bene- ciar do modelo induzido e das características detetadas para receber alertas de informação acerca de um utente especíco em risco de parto pré-termo, evitando os consequentes eventos adversos, e salvaguardando os recursos, o tempo e a qualidade da instituição de saúde.

6.6 Conclusão

Primeiramente, este estudo permitiu demonstrar a viabilidade de utili- zar variáveis como a gestação, os resultados do CTG e streptococcus, em conjunto com métodos de classicação de DM para prever os nascimentos pré-termo. Através da indução das técnicas de DM AD e NB sobre da- dos recolhidos dos sistemasSAPEe RSE, no CMIN, atingiram-se resultados promissores com valores de sensibilidade e especicidade de 89% e 93%, res- petivamente.

Mais que um modelo de previsão, este estudo ajuda os prossionais de saúde na identicação dos fatores de risco que levam aos nascimentos prema-

72 CAPÍTULO 6. PREVISÃO DE NASCIMENTO PRÉ-TERMO turos. Estes resultados permitem auxiliar o processo de tomada de decisões na maternidade, identicando as utentes em risco, e alertando para a sua monitorização e observação atenta, prevenindo possíveis complicações, e, - nalmente, evitar os partos que não reúnem as condições necessárias.

No futuro, devem ser incorporadas novas variáveis aos modelos de pre- visão e aplicadas novas técnicas de DM, de forma a superar as soluções. A indução de métodos de clustering pode ajudar na criação de grupos de va- riáveis que inuenciam o nascimento pré-termo, aprimorando a extração de novo conhecimento.

Capítulo 7

Previsão do Tipo de Parto

através da Identicação dos

Fatores de Risco Obstétricos

Este capítulo apresenta o segundo estudo conduzido no âmbito daDCBD, a previsão do tipo de parto mais adequado às características de cada utente, através de técnicas de DM. A primeira secção introduz o problema e segue- se de uma breve contextualização e estudos relacionados. O trabalho de- senvolvido é apresentado através das etapas da metodologia CRISP-DM, terminando o capítulo com a discussão dos resultados obtidos e respetiva conclusão.

7.1 Introdução

Numa unidade de cuidados materno-infantis, existem várias técnicas para realizar o parto do bebé. A escolha do procedimento que melhor se adequa ao presente utente constitui uma decisão determinante e condicional ao curto período de tempo existente. Guias clínicos são seguidos pelos prossionais de saúde para suportar esta decisão, no entanto, estas recomendações são limitadas e pouco aplicadas. Nos últimos anos, a técnica cirúrgica cesariana foi exercida em mais de 28% dos partos, e outros métodos instrumentalizados,

74 CAPÍTULO 7. PREVISÃO DO TIPO DE PARTO como a utilização de fórceps e ventosa, foram vastamente aplicados, sem extensiva consideração pelas condições da utente [153,154].

A previsão atempada do tipo de técnica mais adequada para determinado utente iria permitir identicar as grávidas a quem deve ser considerada a utili- zação de métodos instrumentalizados ou cirúrgicos, reduzindo a proporção de procedimentos assistidos prosseguidos com marginal benefício médico. Além disto, através do auxílio ao processo de decisão do prossional de saúde, a instituição de saúde evita a negligência, levando à melhoria da qualidade dos cuidados materno-infantis e do atendimento às utentes [155].

Este estudo visa dar resposta a este problema através da indução de mode- los de classicação deDM, adequados à previsão do tipo de parto compatível com as características únicas da gravidez de cada utente. À semelhança do primeiro estudo elaborado no âmbito da descoberta de conhecimento, a in- formação utilizada é proveniente dosSIs disponíveis na unidade de cuidados materno-infantis do CHP, o CMIN, tornando assim possível a extrapolação de conhecimento útil em relação ao tipo de parto mais adequado e aos seus fatores de risco. Vários modelos de DM foram explorados, obtendo valores de sensibilidade e especicidade de 90% e 80%, respetivamente.

7.2 Contexto e Trabalho Relacionado

Conceptualmente, um parto vaginal refere-se ao método natural de nasci- mento, que não requer qualquer assistência. Por sua vez, quando as condições da grávida requerem suporte adicional, são utilizadas técnicas instrumenta- lizadas, fórceps ou ventosa, adequados em casos de exaustão, prolapso do cordão umbilical e condições neurológicas e cardíacas da mãe. A cesariana surge como a alternativa cirúrgica a estes métodos [153].

Na prática, as circunstâncias a favor ou contra a utilização destas técnicas estão muitas vezes em conito [154]. Os médicos obstetras baseiam as suas decisões nos mínimos benefícios espetáveis da intervenção, tornando-a in- certa, levando a complicações na saúde materna, como necessidade de trans- fusão e paralisia nervosa parcial, e no recém-nascido, desde céfalo-hematomas até hemorragias internas, e outras condições associadas com a utilização des-

7.3. DESCRIÇÃO DO ESTUDO 75 tas técnicas [156,157].

A identicação correta do melhor método para o parto tem sido assunto de alguns estudos, através da observação das características da grávida. Lee e Gay [81], conduziram um estudo em 2004 que testa a hipótese da fadiga e agitação no sono estarem associadas com o tipo de parto e a duração da intervenção, e concluiu que as mulheres com depravação de sono têm mais probabilidade de requerer uma cesariana. A identicação dos atributos obstétricos que inuenciam o parto pode também permitir evitar a utilização de métodos instrumentalizados, fornecendo medidas para controlar os fatores de risco.

7.3 Descrição do Estudo

Neste estudo, à semelhança da previsão dos nascimentos pré-termo, foram induzidos os modelos de DM AD, MLG, NB e SVM, através da tecnologia ODM, para a previsão dos tipos de parto, segundo a metodologia CRISP- DM. Esta metodologia, ferramenta e técnicas estão apresentadas no capítulo 4.4, assim como os motivos para a sua escolha.

Foram considerados 4236 episódios clínicos, ocorridos no CMIN, compre- endidos num período de 1120 dias, entre 2012-07-01 e 2015-01-31.

7.4 Processo de Data Mining

Esta secção descreve o trabalho realizado através das diferentes fases da metodologia CRISP-DM.

7.4.1 Compreensão do Negócio

Essencialmente, o objetivo de negócio deste estudo envolve a previsão do método mais apropriado a ser utilizado numa utente prestes a dar à luz, dadas as suas condições obstétricas. A sensibilidade requerida nesta tarefa e as complicações associadas com alguns procedimentos clínicos são o incentivo para este estudo.

76 CAPÍTULO 7. PREVISÃO DO TIPO DE PARTO Assim, a nalidade do DM é o desenvolvimento de modelos corretos e sensíveis para prever o tipo de parto, a partir dos casos clínicos recolhidos noCMIN, de forma a auxiliar o processo de decisão do médico obstetra.

7.4.2 Compreensão dos Dados

A partir dos registos dos SIs SAPE e RSE, destacados no capítulo 3, fo- ram identicadas as características que poderiam impactar o tipo de parto, e integradas no dataset. Cada instância deste dataset consiste num conjunto de 26 variáveis: Idade, Programado, Motivo, Vigilância, Gestação, Alergias, PG170 (gravidez normal ou ocorrência de eventos inesperados), Peso, Al- tura, Índice de Massa Corporal (IMC), Tipo de sangue, Pressão Arterial Alta (PAA), Pressão Arterial Baixa (PAB), Semanas de Gestação (SG), Es- tado Civil (EC), Cardiotocograa (CTG), RFC,Streptococcus, Rhesus, Peso do Feto, Dilatação, Extinsão, Consistência, Posição, Indíce de Bishop (IB) e Plano de Hodge (PH).

As medidas estatísticas relacionadas com estas variáveis estão presentes na tabela7.1.

Tabela 7.1: Medidas estatísticas das variáveis numéricas do dataset.

Variáveis Mínimo Máximo Média Desvio Padrão

Idade 15 48 30.34 5.74 Peso (kg) 37 154 78.15 13.75 Altura (m) 1.16 1.86 1.63 6.05 IMC (kg/m2) 14.33 51.36 29.48 4.78 PAB (mm Hg) 39 116 78.20 8.29 PAA (mm Hg) 91 200 122.17 10.11 Semanas de Gestação 22 41 38.20 2.25 Peso do Feto (kg) 0.575 4.475 3.051 0.571

Para uma melhor compreensão do dataset, a tabela7.2mostra a percenta- gem de ocorrências associada com as classes de algumas variáveis. Observa-se que a maior parte dos partos não é programado e não apresenta eventos ines- perados durante a gravidez.

A variável alvo Tipo de Parto apresenta os quatro métodos existentes: normal (parto natural), cesariana, fórceps e ventosa.

7.4. PROCESSO DE DATA MINING 77 Tabela 7.2: Percentagem de ocorrências das classes de algumas variáveis do dataset.

Variável Classe Percentagem

Programado Sim 15.76%

Não 84.24%

Vigilância Não Monotorizada 5.95%

Insuciente Monotorizaçao 1.32% Monotorizada 92.73% Gestação Singular 96.70% Múltipla 3.30% PG170 Normal 79.97% Eventos Adversos 20.03% Streptococcus Negativo 78.55% Positivo 12.81% Não realizado 8.64% CTG Patológico 0.25% Suspeito 1.78% Normal 97.97% Rhesus Positivo 78.09% Negativo 21.21% RFC Positivo 78.39% Negativo 21.61% Consistência Mole 37.26% Média 56.23% Dura 6.51% Dilatação 0 12.10% 1-2 38.69% 3-4 41.54% >5 7.68% Extinção 0-30 32.49% 40-50 21.20% 60-70 28.11% 80-10 18.20% Posição Inferior 11.29% Intermédio 57.80% Posterior 30.91%

A gura7.1 mostra a distribuição da informação em relação às classes da variável alvo. É visível que o número de cirurgias para cesariana é bastante

78 CAPÍTULO 7. PREVISÃO DO TIPO DE PARTO elevado, cando muito próximo da percentagem de partos naturais.

Figura 7.1: Distribuição da variável alvo Tipo de Parto pelas suas quatro classes.

7.4.3 Preparação dos Dados

Depois da seleção da informação exposta na secção 7.4.2, foi realizada a fase de pré-processamento dos dados, eliminando todos os registos nulos e com ruído, deixando um dataset com 4236 entradas para ser utilizado pelos modelos de DM. Foi necessário efetuar alguma normalização uma vez que algumas variáveis apresentavam valores inconsistentes, como é o caso do peso das utentes que foi convertido em quilogramas (kg). A idade das grávidas foi adquirida através da transformação das datas iniciais: a data de nascimento e a data do episódio clínico. Esta etapa da metodologia foi efetuada várias vezes, sem restrições na sua ordem.

Neste caso de estudo, após a indução inicial dos modelos, tornou-se neces- sária a transformação do dataset uma vez mais, para melhorar os resultados. Uma dessas alterações consistiu na aplicação da técnica de oversampling ao conjunto de dados, para obter a mesma percentagem de casos para cada tipo de parto. Com vista no processo evolutivo de DM, tornou-se pertinente o estudo do dataset com diferentes distribuições da variável alvo, de forma a encontrar resultados aprimorados. A tabela 7.3 mostra as tentativas abor- dadas.

7.4. PROCESSO DE DATA MINING 79 Tabela 7.3: Diferentes distribuições da variável alvo Tipo de Parto

Abordagem da Variável Alvo Classes

1 (inicial) {Normal}, {Cesariana}, {Fórceps}, {Ventosa}

2 (normal versus instrumentado) {Normal}, { Cesariana, Fórceps, Ventosa}

3 (mais frequente versus menos frequente) {Normal, Cesariana}, { Fórceps, Ventosa}

4 (cesariana versus vaginal) {Cesariana}, {Normal, Fórceps, Ventosa}

7.4.4 Modelação

Os modelos de DM foram induzidos a partir da informação processada e transformada, utilizando as 4 técnicas de DM AD, MLG, NB e SVM. Para cada algoritmo, dois métodos de amostragem foram considerados, o Holdout sampling, que utiliza 30% dos dados para teste, e o Cross validation, onde todos os dados são usados para treino e teste.

Os modelos foram ainda induzidos utilizando o dataset inicial e os da- dos com oversampling, constituindo duas abordagens de dados diferentes. Finalmente, as variáveis foram combinadas em diferentes cenários para iden- ticar que características da grávida representam fatores de risco obstétricos na previsão do tipo de parto. Os cenários considerados estão presentes de seguida:

S1: Todas as variáveis

S2: Idade, Peso, Altura, IMC, Consistência, Dilatação, Extinção, Gestação, Motivo, CTG, IB, PH, Posição, RFC, Rhesus, Streptococcus, SG, EC, PAA, PAB S3: Consistência, Dilatação, Extinção, Gestação, CTG, IB, PH, Posição, RFC, Rhesus, Streptococcus, SG, PAA, PAB

S4: PG170, Consistência, Dilatação, Extinção, Gestação, IB, PH, Posição, SG, Peso do Feto

S5: Idade, PG170, Tipo de Sangue, Peso, Altura, IMC, CTG, RFC, Rhesus, Streptococcus, Gestação, Motivo, Programado, Vigilância, PAA, PAB

Cada modelo desenvolvido pertence a um método de DM (DMM), um cenário (C), um método de amostragem (MA), uma abordagem de dados (AO) e uma organização da variável alvo (A). Assim, um total de 240 modelos deData Mining foram induzidos (5 C * 4 DMM * 2 MA * 2 AO * 4 A).

80 CAPÍTULO 7. PREVISÃO DO TIPO DE PARTO congurações que as utilizadas no estudo anterior (previsão de nascimentos pré-termo).

7.4.5 Avaliação

Da mesma forma que no primeiro estudo no âmbito daDCBD, as métricas estatísticas utilizadas para avaliar os modelos induzidos foram a sensibilidade, a especicidade e a acuidade, obtidas pela matriz de confusão fornecida no ODM.

Na primeira abordagem da variável alvo, existe uma classe para cada tipo de parto, constituindo um alvo não binário, onde só faz sentido considerar a acuidade para avaliar os modelos. A tabela 7.4 apresenta os melhores resultados para esta abordagem inicial.

Tabela 7.4: Melhores resultados alcançados em termos da métrica acuidade para a abordagem da variável alvo inicial (4 classes).

Cenário Método OversamplingAmostragem Acuidade

3 AD Não 30% 0.5081

3 AD Não Todos 0.5057

4 AD Não Todos 0.5068

De um ponto de vista clínico, estes resultados são redundantes, reque- rendo o regresso à fase de preparação para redistribuir a variável alvo em combinações binárias, de forma a alcançar resultados mais razoáveis para a resolução do problema. Os melhores resultados obtidos através da indução dos modelos com as abordagens alternativas da variável alvo, presentes na tabela 7.3, estão destacados de seguida, na tabela 7.4.

A acuidade e a especicidade que apresentam melhores valores, 83.91% e 80.05%, respetivamente, foram ambas obtidas na quarta abordagem à variá- vel alvo (cesarianas (classe 0 ) e partos vaginais (classe 1 )), através do cenário 2 e do método de DM AD, sem oversampling e todos os dados para teste.

O melhor valor da sensibilidade (91.11%) foi alcançado igualmente através dos atributos que constituem o cenário 2, sem oversampling, todos os dados para teste e a técnica de DM MLG, quando a abordagem da variável alvo

7.5. DISCUSSÃO DOS RESULTADOS 81 separava os partos naturais daqueles que requerem assistência (abordagem 2).

Tabela 7.5: Melhores modelos alcançados em termos de acuidade (A), sen- sibilidade (S) e especicidade (E), para as três abordagens da variável alvo (Alvo) adicionais.

Alvo Cenário DM Oversampling Amostragem A S E

2 2 AD Não 30% 0.7200 0.6660 0.7599 3 1 MLG Não Todos 0.5857 0.8904 0.2914 2 MLG Não Todos 0.5899 0.9110 0.3031 2 SVM Não Todos 0.6206 0.8557 0.2792 4 2 AD Não Todos 0.8391 0.8828 0.8005 2 MLG Não Todos 0.7741 0.8427 0.6755 1 NB Não Todos 0.7469 0.8429 0.6298

7.5 Discussão dos Resultados

Numa primeira análise, é possível observar que a utilização de oversam- pling não teve um efeito positivo na indução dos modelos. Por outro lado, o método de amostragem Cross Validation aprimorou os resultados das métri- cas estatísticas avaliadas. Em relação às diferentes distribuições da variável alvo testadas neste estudo é visível que a quarta abordagem, que isola as cesarianas numa classe única, assegura os melhores modelos de DM, com resultados superiores em termos de acuidade. Este efeito é provocado por algumas variáveis, como a dilatação e a consistência que apresentam valores muito especícos no caso do parto por cesariana, tornando a classicação possível. Nesta abordagem, a especicidade apresenta valores superiores, de- monstrando a sua habilidade a prever a classe 0 ; cesarianas. Em contraste, se de um ponto de vista clínico, o modelo mais pertinente é aquele que é sensível a identicar os partos naturais, a melhor abordagem será a terceira, que apresenta excelentes resultados na métrica sensibilidade, demonstrando facilidade a prever a classe 1, partos naturais. A maioria dos resultados que se destacam na tabela 7.4 mostram que os fatores obstétricos que mais in- uenciam o tipo de parto a ser realizado são os atributos que compõem o

82 CAPÍTULO 7. PREVISÃO DO TIPO DE PARTO cenário 2.

De forma a escolher o melhor modelo de DM, um conjunto de limites métricos é considerado, ltrando os modelos que apresentam valores de sen- sibilidade, acuidade e especicidade superiores a 80%, que assegura a quali- dade marginal dos resultados a serem utilizados em ambiente clínico. Assim, o modelo que obedece a estas condições corresponde ao cenário 2, conside- rando o método de DM AD, sem oversampling e todos os dados para teste, a prever partos por cesariana e partos vaginais.

Considerando o problema do estudo, não foi possível encontrar um mo- delo para prever o método mais adequado para determinado parto, separada- mente, mas alcançou-se um modelo que identica com sucesso as cesarianas, constituindo uma ferramenta para auxiliar a decisão médica e administrativa, em relação aos serviços da maternidade, permitindo uma melhor monitori- zação dos pacientes e melhorias na qualidade dos cuidados. Os prossionais de saúde têm agora uma ferramenta extra para ajudar a decidir qual o tipo de parto a considerar, aumentando a conança em ambiente clínico.

7.6 Conclusão

Através de dados reais, recolhidos a partir dos Sistemas de Informação SAPEeRSE, é possível provar a viabilidade de utilizar modelos deDM para prever o tipo de parto mais adequado, considerando as características da utente. Resultados satisfatórios foram obtidos, dado as métricas estatísticas estudadas, pela indução do método de DM Árvores de Decisão, utilizando todos os dados para teste e as características do cenário 2, alcançando 88% de sensibilidade, 80% de especicidade e 84% de acuidade, na previsão de partos por cesariana e partos vaginais.

O melhor modelo induzido e os resultados obtidos serão incluídos noSis- tema de Apoio à Decisão Clínica (SADC)e na plataforma deBusiness Intelli- gence (BI), implementados noCMIN, auxiliando os prossionais de saúde nas suas decisões, e a unidade de cuidados materno-infantis a evitar a negligência e más práticas médicas, em relação aos partos realizados na maternidade.

Capítulo 8

Abordagem baseada em

Clustering para a Caracterização

de Utentes

O presente capítulo explora o estudo elaborado, na temática da Desco- berta de Conhecimento em Bases de Dados (DCBD), para a caracterização das utentes que passam pelo Centro Materno Infantil do Norte (CMIN), de

In document Dokument nr. 15:7 (2007–2008) Spørsmål til skriftlig besvarelse med svar (sider 168-191)