Tal como referido anteriormente, a exploração da informação armazenada no Data Warehouse foi realizada recorrendo à ferramenta Tableau e a algoritmos de Data Mining.
Apresentadas as análises realizadas aos dados, são agora exibidos modelos preditivos e padrões associados a esses dados resultantes da aplicação de técnicas de Data Mining.
Os modelos preditivos permitem a partir da análise de um conjunto de atributos verificar o que ocorreu no passado para determinar qual a tendência futura se o valor desses atributos se mantiver. Para a identificação dos modelos preditivos foram utilizadas árvores de decisão pelo facto de possuírem uma representação simples e um alto nível de interpretação. Para a identificação de padrões nos dados foi utilizado um algoritmo de clustering denominado DBSCAN.
O algoritmo utilizado nas construção dos modelos preditivos foi o JC48 que tal como todos os outros algoritmos de indução de árvores de decisão querer um conjunto de atributos de entrada de saída, o atributo a prever. Os atributos de entrada são usados para prever o resultado do parâmetro de saída. O algoritmo, com base nos atributos de entrada e de predição, estrutura os nós da árvore classificando o que é relevante nos ramos, e percorre um ou mais caminhos para chegar até às folhas.
Com o objetivo de testar a confiança do modelo gerado, os dados da amostra foram divididos em dois conjuntos de dados, dados de treino e dados de teste. Os dados relativos ao conjunto de treino são utilizados para gerar o modelo e os dados relativos ao conjunto de teste são usados para testar o modelo construído.
Para cada modelo apresentado foram testadas as percentagens relativas ao conjunto de treino e conjunto de teste, de forma a verificar a percentagem que maximiza o desempenho dos modelos obtidos. A ferramenta utilizada no processo de Data Mining foi o Weka16
No primeiro modelo preditivo apresentado na Figura 4.34, foram utilizados 50% dos dados para integrar o conjunto de treino e 50% para o conjunto de teste.
Os atributos de entrada utilizados neste modelo foram: sexo, classe_idade e classe_internamento e como atributo preditivo flag_vitima_mortal. Este tenta prever se o paciente resulta, ou não, em vítima mortal de acordo com os atributos de entrada.
Analisando a árvore de decisão obtida prevê-se que os pacientes correspondentes às classes de idade: [0-4], [5-9], [10-13], [25-64], [20-24], independentemente da classe de internamento, não resultam em vítimas mortais. Para o ramo da classe de idade [65+] em conjunção com o atributo classe_d_internamento de valor [1-3] e sem internamento prevê-se que o paciente resulte em vítima mortal ao contrário dos pacientes que integram as restantes classes. O atributo sexo revelou-se irrelevante neste modelo.
Figura 4.34: Árvore de decisão para prever a mortalidade atendendo aos atributos de entrada: sexo, classe_idade e classe_d_internamento.
Analisando a capacidade preditiva do modelo apresentado, obteve-se uma percentagem de 83,66% de dados bem classificados e 16,34% correspondente a dados mal classificados.
No modelo preditivo apresentado na Figura 4.35, foram utilizados 80% dos dados para integrar o conjunto de treino e 20% para o conjunto de teste.
Os atributos de entrada utilizados neste modelo foram: sexo, classe_idade, classe_internamento e desig_distrito e como atributo preditivo, flag_vitima_mortal. Este tenta prever se o paciente resulta, ou não, em vítima mortal de acordo com os atributos de entrada.
Analisando a árvore de decisão obtida prevê-se que os pacientes correspondentes às classes de idade: [0-4], [5-9], [10-13], [25-64], [20-24], independentemente da classe de internamento, do sexo e do distrito, não resultam em vítimas mortais.
No ramo dos pacientes com 65 ou mais anos de idade, em conjunção com o atributo classe_d_internamento, prevê-se que os pacientes que integram as classes [4-6], [7-10], [11-29] e [30+], independentemente do sexo e do distrito, não resultam em vítimas mortais.
Ainda no ramo dos pacientes com 65 ou mais anos de idade em conjunção com a classe de internamento [1-3], com o distrito relativo a Vila Real e sexo feminino, prevê-se que estes não resultam em vítimas mortais, ao contrário de pacientes do sexo masculino. Para esta classe de internamento e para a maioria dos distritos, os pacientes não resultam em vítimas mortais.
Figura 4.35: Árvore de decisão para prever a mortalidade atendendo aos atributos de entrada: sexo, classe_idade, classe_d_internamento e distrito.
Analisando a capacidade preditiva do modelo apresentado, obteve-se uma percentagem de 83,82% de dados bem classificados e 16,18% correspondente a dados mal classificados.
Para a identificação de padrões nos dados foi utilizado um algoritmo de clustering denomiado DBSCAN, recorrendo novamente à ferramenta Weka.
O algoritmo DBSCAN é um algoritmo baseado em densidade e que consegue identificar clusters de forma arbitrária em regiões de alta densidade de pontos localizados em bases de dados espaciais que contenham ruído ou valores isolados. Este algoritmo procura clusters verificando a vizinhança Eps de cada objecto, começando por um objecto aleatório. Se na vizinhança de um objecto p de um cluster, existir pelo menos um número mínimo de objetos, MinPts, é criado um novo cluster com p como centro do cluster. Assim, foi necessário especificar os seguintes parâmetros:
Eps - o algoritmo DBSCAN verifica a quantidade de pontos contidos no raio Eps para cada objecto, e se essa quantidade exceder um determinado número, um cluster é formado;
MinPts - parâmetro que específica o número mínimo de objetos, no raio de vizinhança Eps, que um objecto necessita possuir para ser considerado um ponto central e iniciar a formação de um cluster.
No caso dos padrões obtidos foi utilizado o valor de 0,9 para o parâmetro Eps e 6 para o parâmetro MinPts. De 356082 objetos caracterizados por cinco atributos: sexo, classe_idade, classe_d_internamento, patologia, flag_vitima_mortal foram obtidos 325 clusters.
A aplicação do algoritmo de clustering veio confirmar alguns padrões de incidência das pneumonias já identificados a partir dos dashboards desenvolvidos e das árvores de decisão identificadas.
Concretamente na Figura 4.36, é possível verificar, tendo em conta os atributos classe_idade e patologia, que a incidência de pneumonias é maior nas classes de idade [25- 64] e na classe [65+] para qualquer uma das patologias em análise.
Figura 4.36: Clustering dos atributos: classe_idade, patologia, flag_vitima_mortal.
Na Figura 4.37 é possível verificar tendo em conta os atributos classe_d_internamento e classe_idade que a quantidade de vítimas mortais (representada pela cor encarnada), é maior nas classes de internamento [1-3] e na classe Sem Internamento nos indivíduos pertencentes à classe de idade [65+].
Figura 4.37: Clustering dos atributos: classe_d_internamento, classe_idade, flag_vitima_mortal.
O mesmo se verifica na Figura 4.38, onde as já referidas classes de internamento [1-3] e a classe Sem Internamento atendendo às patologias consideradas caracterizam-se por uma quantidade de vítimas mortais (representada pela cor encarnada) elevada comparativamente com as restantes classes de internamento.
5
CONCLUSÃO E TRABALHO FUTURO
O objetivo principal deste projeto passou pela conceção e implementação de um sistema de Business Intelligence para a análise das Pneumonias e dos incêndios em Portugal Continental.
O sistema integrou ferramentas que permitiram o processo de ETL para extração, transformação e limpeza dos dados de forma a garantir a qualidade destes. Em específico, a tarefa de limpeza dos dados permitiu a identificação de erros e dados omissos nos conjuntos iniciais de dados. Para correção foram pensadas e aplicadas técnicas, de forma a obter valores o mais próximos possíveis do real.
Posteriormente os dados foram importados para duas bases de dados relacionais distintas, com o objetivo de facilitar a integração futura de novos dados no Data Warehouse implementado. Os dados armazenados no Data Warehouse foram analisados recorrendo a uma ferramenta de dashboard denominada Tableau e tecnologias de Data Mining.
A implementação deste sistema permitiu assim, a partir do estudo de determinados indicadores que caracterizam os pacientes, proporcionar um melhor conhecimento acerca das pneumonias que são responsáveis pela morte de uma percentagem significativa da população.
Recorrendo à ferramenta Tableau verificou-se que em 2002, foram registados 31 257 casos de pneumonias, e em 2011, 41 847 casos, resultando num aumento de 33,9%, o que representa 10 590 novos casos. Ao nível das vítimas mortais, este aumento é ainda mais significativo, passando de 4 995 para 8 259 vítimas, representando um aumento de 65%. Algumas das análises efetuadas indicaram que atendendo ao sexo do paciente, a maior percentagem de vítimas mortais verifica-se nos pacientes do sexo masculino e em relação às classes de idade nos pacientes com 65 ou mais anos de idade.
Relativamente ao tempo de internamento conclui-se que os pacientes portadores de pneumonia normalmente permanecem entre [11-29] dias de internamento. De destacar que apenas uma pequena percentagem permanece internada 30 ou mais dias e que uma percentagem de pacientes ainda menor não necessita de internamento. Realçando ainda o facto
de existir uma quantidade significativa de pacientes que não permanecem internados ou então entre [1-3] dias que resultam em vítima mortal.
Relativamente às patologias a Doença cardíaca crónica e Doença Pulmonar crónica foram as mais encontradas em pacientes com pneumonia ao contrário das patologias Doença pancreática crónica e Doença hepática crónica. Destaque para a Doença renal crónica que até ao ano de 2006 era muito pouco frequente e que tem vindo a ganhar proporções significativas desde então.
A integração dos dados dos censos de 2011 relativamente à população residente permitiu a análise da incidência das Pneumonias em Portugal atendendo às diversas classes disponibilizadas pelos censos.
Pela aplicação de técnicas de Data Mining, concretamente de árvores de decisão foram exibidos modelos preditivos que permitiram a partir da análise de um conjunto de atributos verificar o que ocorreu no passado para determinar qual a tendência futura se o valor desses atributos se mantiver. Concretamente nos modelos apresentados foram utilizados atributos como: sexo, classe_d_internamento, classe_idade, distrito, entre outros, para prever se o paciente resulta ou não em vítima mortal. Para além das árvores de decisão foi aplicado o algoritmo DBSCAN que permitiu identificar padrões nos dados que confirmaram os obtidos a partir dos dashboards implementados na primeira análise aos dados.
Para o estudo da possível relação entre as pneumonias e os incêndios recorreu-se ao cálculo matemático da correlação para cada concelho tendo por base o número de pneumonias e a quantidade de área ardida. Com base nas análises efetuadas, dado o número pouco significativo de correlações interessantes não é possível afirmar convictamente que de facto existe uma relação, mas também não é possível afirmar o contrário. Foram descobertos concelhos em que determinados anos apresentam uma relação forte entre os fenómenos em análise, indiciando que alguns dos casos de pneumonias provavelmente tiveram origem no fumo libertado durante o deflagrar de incêndios.
Relativamente a este estudo em concreto, é necessário futuramente utilizar outras estratégias analíticas que permitam confirmar as suspeitas relativas aos resultados obtidos e que permitam até, chegar-se a mais casos de estudo. Assim como estudar mais detalhadamente os dados dos incêndios e calcular novamente correlações atendendo por exemplo, ao número de pneumonias e ao tempo de duração do incêndio. Este último indicador pode revelar-se
importante visto que, quanto mais tempo o incêndio se mantém ativo mais tempo o fumo permanece na região.
Ao nível da infra-estrutura tecnológica implementada, o Data Warehouse pode de futuro ser refrescado, sendo necessário desenvolver os mecanismos de ETL apropriados.
Excluindo a componente de dashboards, todo o sistema foi implementado recorrendo a tecnologia open source, com MySQL para as Bases de Dados e Data Warehouse, Talend Open Studio For Data Integration e Talend Open Studio For Data Quality para o processo de ETL e por fim o Weka para a componente de Data Mining.
6
REFERÊNCIAS
Agrawal, R., Gehrke, J., Gunopulos, D., & Raghavan, P. (1998). Automatic subspace clustering of high dimensional data for data mining applications. Proceedings of the 1998 ACM SIGMOD International Conference on Management of Data SIGMOD 98, 11(1), 94–105.
doi:10.1145/276304.276314
Armando, C. (2007). Data Mining via Redes Neuronais Artificiais e Máquinas de Vectores de Suporte. Universidade do Minho.
Beniwal, S., & Arora, J. (2012). Classification and Feature Selection Techniques in Data Mining, 1(6), 1–6.
Brito, W. M. De, & Semaan, G. S. (2011). UM ALGORITMO GENÉTICO PARA O PROBLEMA DOS K-MÉDOIDES. 10th Brazilian Congress on Computational Intelligence (CBIC’2011), 1–8. Carvalheira Santos, A., Gomes, J., Barata, F., Munhã, J., Ravara, S., Rodrigues, F., … Infarmed.
(2013). Prevenir a doença acompanhar e reabilitar o doente (in Portuguese). Observatório Nacional das doenças Respiratórias. Retrieved from
http://www.fundacaoportuguesadopulmao.org/Relatorio_ONDR_2013.pdf
Daniel, F., Casati, F., Palpanas, T., & Leksiy, C. (2008). Managing Data Quality in Business Intelligence Applications.
Demarest, M. (1997). The politics of data warehousing. http://www.uncg.edu/ism/ism611/politics.pdf.
Dr. Teles de Araújo, A. (n.d.). Pneumonia em Portugal: É Tempo de Agir! Fundação Portuguesa do Pulmão. Retrieved from
http://www.fundacaoportuguesadopulmao.org/PNEUMONIA_EM_PORTUGAL- E_TEMPO_DE_AGIR.html
Duarte, F. J. F. (2008). Optimização da Combinação de Agrupamentos baseado na Acumulação de Provas pesadas por Índices de Validação e com uso de Amostragem. Universidade de Trás-os-Montes e Alto Douro.
Ester, M., Kriegel, H., Sander, J., Wimmer, M., & Xu, X. (1998). Incremental Clustering for Mining in a Data Warehousing Environment. Data Base, 323–333.
Ester, M., Kriegel, H., Sander, J., & Xu, X. (1996). A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise. Computer, 1996(6), 226–231.
Fayyad, U. M., Piatetsky-Shapiro, G., Smyth, P., & Uthurusamy, R. (1996). Advances in
knowledge discovery and data mining. Advances in Knowledge Discovery and Data Mining (Vol. 3918, pp. 380–389). Springer Berlin Heidelberg.
Fayyad, U., Piatetsky-Shapiro, G., & Smyth, P. (1996a). From Data Mining to Knowledge Discovery in Databases. AI Magazine.
Fayyad, U., Piatetsky-Shapiro, G., & Smyth, P. (1996b). Knowledge Discovery and Data Minin: Towards a Unifying Framework. Proc 2nd Int Conf on Knowledge Discovery and Data Mining Portland OR, pp. 82–88.
Frawley, W. J., Shapiro, G. P., & Matheus, C. J. (1992). Knowledge discovery in databases - an overview. Ai Magazine, 13, 57–70.
Gama, J. (2010). Knowledge Discovery from Data Streams (p. 237). Chapman & Hall/CRC. Gangadharan, G. R., & Swami, S. N. (2004). Business intelligence systems: design and
implementation strategies. In Information Technology Interfaces, 2004. 26th International Conference on (pp. 139–144 Vol.1).
Han, J., Kamber, M., & Pei, J. (2012). Data Mining: Concepts and Techniques (The Morgan Kaufmann Series in Data Management Systems) (Third Edit., p. 744). Morgan Kaufmann. Inmon, W. H. (2000). The Data Warheouse Budget.
http://www.datawarehouse.inf.br/papers/inmon%20budget-1.pdf.
Inmon, W. H. (2002). Building the Data Warehouse (3rd Editio.). John Wiley & Sons, Inc. Kantardzic, M. (2011). Data Mining: Concepts, Models, Methods, and Algorithms (Second Edi.,
p. 552). Wiley-Blackwell.
Kaufman, L., & Rousseeuw, P. J. (1990). Finding Groups in Data: An Introduction to Cluster Analysis. John Wiley & Sons.
Khan, R., & Quadri, S. (2012). Business intelligence: an integrated approach. Business Intelligence Journal, 5(1), 64–70.
Madhulatha, T. S. (2012). An Overview on Clustering Methods. IOSR Journal of Engineering, 719–725. Data Structures and Algorithms; Databases.
Ng, R. T., & Han, J. (1994). Efficient and Effective Clustering Data Mining Methods for Spatial. In 20th International Conference on Very Large Data Bases (pp. 144–155).
Normile, C. (n.d.). Business Intelligence for the Telecommunications Industry. Retrieved from http://downloads.actian.com/online/collaterals/bp/JaspersoftBITelecom-BP.pdf
Rao, F., Zhang, L., Yu, X. L., Li, Y., & Chen, Y. (2003). Spatial hierarchy and OLAP-favored search in spatial data warehouse. Proceedings of the 6th ACM International Workshop on Data Warehousing and OLAP - DOLAP ’03, 48. doi:10.1145/956069.956070
Santos, M. Y., Moreira, A., & Carneiro, S. (2001). STICH – A Hierarchical Clustering Algorithm, 1–14.
Santos, M. Y., & Ramos, I. (2006). Business Intelligence : tecnologias da informação na gestão de conhecimento. FCA - Editora de Informática.
Sheikholeslami, G., Chatterjee, S., & Zhang, A. (1998). Wavecluster: A multi-resolution clustering approach for very large spatial databases.
Sheikholeslami, G., Chatterjee, S., & Zhang, A. (2000). WaveCluster: a wavelet-based clustering approach for spatial data in very large databases. The VLDB Journal, 8(3-4), 289–304. Sidemar, J. (2007). Business Intelligence: Por que Business Intelligence? Retrieved May 20,
2014, from http://imasters.com.br/artigo/5415/bi/por_que_business_intelligence/ Turban, E., Sharda, R., Aronson, J. E., & King, D. (2009). Business Intelligence: Um enfoque
gerencial para a inteligência do negócio. Bookman. Retrieved from http://books.google.com/books?id=_Uvqyr32hlMC&pgis=1
Vassiliadis, P., Simitsis, A., & Skiadopoulos, S. (2002). Conceptual modeling for ETL processes. In Proceedings of the 5th ACM international workshop on Data Warehousing and OLAP - DOLAP ’02 (pp. 14–21). ACM Press. Retrieved from
http://dl.acm.org/citation.cfm?id=583890.583893
Wang, W., Yang, J., & Muntz, R. R. (1997). STING: A Statistical Information Grid Approach to Spatial Data Mining. In VLDB ’97: Proceedings of the 23rd International Conference on Very Large Data Bases (pp. 186–195). Morgan Kaufmann Publishers Inc.
Watson, H. J., & Wixom, B. H. (2007). The current state of business intelligence. IEEE Computer, 40(9), 96–99. doi:10.1109/MC.2007.331