A Mineração de Dados (Data Mining) é um conjunto de técnicas automatizadas usadas para extrair ou minerar conhecimento previamente desconhecido ou oculto de grandes quantidades de dados em algum tipo de banco de dados. O significado para esse processo pode receber outras terminologias; a que mais a representa é a descoberta de conhecimento em banco de dados [41]. No contexto deste trabalho, a mineração de dados é empregada para quatro propósitos principais: melhorar a aquisição e retenção do consumidor, reduzir fraude,
identificar ineficiências internas, consertar operações e mapear áreas inexploradas da Internet [7].
Por definição, a mineração de dados produz informação que o usuário não conhecia ou da qual possuía somente hipóteses [42]. Utilizam-se abordagens baseadas em descoberta nas quais o casamento de padrões e outros algoritmos são usados para descobrir relacionamentos chave nos dados. O uso do mecanismo para mineração de informação traz grandes benefícios à extração de conhecimento, pois a assimilação de tais dados não é sempre intuitiva. Com uma mineração bem sucedida, é possível encontrar padrões e relacionamentos e, então, usar essa informação para realizar decisões de negócios de conhecimento dirigido [7].
A introdução da mineração de dados ocasionou uma mudança da manufatura, publicidade e marketing em massa, que possuem suas origens na revolução industrial, para manufatura, publicidade e marketing personalizados e direcionados a seguimentos específicos da população [7].
Com o aumento da globalização econômica e evolução da tecnologia da informação, dados financeiros são gerados e acumulados a uma taxa sem precedentes. Dessa forma, a necessidade iminente por tornar tais dados em informação e conhecimentos úteis atraiu a atenção na indústria de informação nos anos recentes. Claramente, há benefícios comerciais potenciais do emprego de mineração de dados. Tais benefícios podem ser exemplificados por Zhang [43], que discute a importância de mineração de dados para aplicações financeiras especificas e compara as diferentes técnicas de mineração a partir das perspectivas técnicas e de aplicação.
A descoberta de padrões de dados escondidos contribui para estratégias de negócios, para bases de conhecimento, para pesquisa médica e científica e para predizer tendências e comportamentos futuros em mercados financeiros. Ela cria oportunidades para companhias realizarem decisões pró-ativas e dirigidas a conhecimento para ganhar uma vantagem competitiva [43].
Em princípio, a mineração de dados deveria ser aplicada a qualquer tipo de repositório de informação. Isso inclui bancos de dados relacionais, armazéns de dados, bancos de dados transacionais, sistemas de banco de dados avançado, arquivos simplórios e a Internet [41]. Os desafios e técnicas de mineração são diferentes em cada sistema de repositórios.
A mineração de dados é aplicada nos mais diversos ramos. No setor bancário, é utilizada para identificar clientes fiéis, comportamento de uso de cartão de crédito e correlações escondidas entre diferentes indicadores financeiros. Na área de Marketing e comércio, ela é aplicada para se determinar a aceitação de um novo produto, padrões de
comportamento dos consumidores, probabilidade de compra de determinado produto e abrangência das campanhas de marketing. No setor de planos de saúde e de seguros, ela é usada para identificar clientes de risco e de comportamento fraudulento. No campo da medicina, ela é utilizada para inferir a probabilidade de um paciente contrair certa doença, analisar prontuários, identificar terapias para doenças e realizar seqüenciamento genético. No ambiente Web, é usada para determinar perfis de usuário.
Devido às necessidades da indústria de informação, uma arquitetura de banco de dados emergiu recentemente, o chamado armazém de dados (Data Warehouse). Ele é um repositório de múltiplas origens de dados heterogêneos organizado sob um esquema unificado em uma localização central para facilitar a realização de decisão de gerenciamento. Esse repositório realiza armazenagem e entrega de quantidades massivas de dados. A vantagem do Data Warehousing é a consolidação e o gerenciamento de informações de bancos de dados díspares por um único banco [7].
Assim, quando dados sobre processos de organizações se tornam prontamente disponíveis e de fácil acesso, se torna economicamente viável realizar a mineração neles [7]. Para analisar esses bancos de dados, é preciso realizar uma análise em profundidade, como classificação de dados, agrupamento e caracterização de mudanças de dados ao longo do tempo [41].
Na realidade, o conceito “mineração de dados” atribuído a esses tipos de sistemas pode ser mais bem expresso como “descoberta de conhecimento”, sendo que a mineração de dados é somente uma tarefa dentro de todo o processo para se descobrir informações úteis dentro de um conjunto de dados.
O processo de descoberta de conhecimento consiste em uma seqüência iterativa de passos efetuados nos dados. Os passos executados são: a limpeza, que corresponde à remoção de ruído e inconsistências; a integração, que consiste na combinação de múltiplas origens; a seleção, que recupera informações do banco de dados relevantes para a tarefa de análise; a transformação, que consolida os dados em formas apropriadas para mineração por efetuar operações de sumarização ou agregação; a mineração, que consiste no processo de aplicação de métodos para extração de padrões de dados; a avaliação de padrão, que corresponde à identificação dos padrões que realmente representam conhecimento baseado em algumas medições de importância; e a apresentação do conhecimento, que consiste em técnicas de visualização que são usadas para apresentar conhecimento minerado para o usuário.
A arquitetura simplificada de um sistema de descoberta de conhecimento pode possuir os seguintes componentes: banco de dados e servidor de banco de dados; base de
conhecimento, que contém o domínio de conhecimento; máquina de mineração de dados; módulo de avaliação de padrão e interface gráfica do usuário. A classificação desses sistemas pode ser realizada de acordo com os tipos de bancos de dados minerados, de conhecimento minerado, de técnicas utilizadas e de aplicações adaptadas [41].
A máquina de mineração de dados pode utilizar diversas técnicas, com abordagens diferentes, para encontrar padrões no repositório de dados. Muitas dessas técnicas foram originadas nas pesquisas de inteligência artificial dos anos 80 e 90 [7]. Através delas, os sistemas de mineração de dados são capazes de descobrir padrões em várias granularidades e em diferentes níveis de abstração. Essas técnicas são utilizadas para descrever características ou predizer eventos e comportamentos.
As técnicas utilizadas pela mineração de dados são: a caracterização de dados é o resumo das características gerais ou aspectos de uma classe alvo de dados; a discriminação de dados é uma comparação dos aspectos gerais de objetos de dados da classe alvo com aspectos gerais de objetos de uma classe ou de um conjunto de classes contrastantes; a análise de associação é o descobrimento de regras de associação mostrando condições atributo-valor que ocorrem freqüentemente em um certo conjunto de dados; a classificação é o processo de busca de um conjunto de modelos ou funções que descrevem e distinguem classes ou conceitos de dados; a análise de agrupamento (clustering) agrupa os objetos em conjuntos de afinidade, baseando-se no princípio de maximizar as similaridades internas das classes e minimizar as similaridades entre as classes [41]; a análise marginal ou de exceções é um processo de busca de objetos que não consentem com o comportamento ou modelo geral dos dados, ao passo que testes estatísticos auxiliam na técnica para se encontrar comportamentos gerais; e a análise de evolução descreve e modela regularidades ou tendências para objetos que possuem comportamento que muda ao longo do tempo.
A classificação é provavelmente a mais comum atividade na atualidade, ela é capaz de usar o modelo para predizer a classe de objetos cujo rótulo é desconhecido. Essa técnica auxilia a descobrir as características dos consumidores e fornecer um modelo para predizer quem eles são.
As técnicas de mineração utilizam ferramentas computacionais como redes neurais, algoritmos genéticos, inferências estatísticas, indução de regras e visualização de dados. Essas técnicas geralmente produzem cinco tipos de informação: associações, seqüências, classificações, agrupamentos e previsão, que levam a aplicações que podem gerar saídas, como características demográficas de consumidores, predições, padrões de uso fraudulento de
cartão de crédito, identificação de lealdade de consumidores, padrões de comportamento de consumidores (definições de perfis de usuário) e outros [7].