8 Miljøvurdering av planlagte utslipp

Data Mining é considerada a principal etapa do processo de DCBD. Consiste na procura de relacionamentos, modelos ou padrões potencialmente importantes que estão implícitos nos dados armazenados em bases de dados, Data Warehouses, ou outros repositórios de dados.

Fayyad et al. (U. Fayyad et al., 1996b) definem o Data Mining como sendo “uma etapa do processo DCBD que consiste em aplicar algoritmos de descoberta e análise de dados que, sob as limitações de eficiência computacional aceitável, produzem uma enumeração particular de padrões sobre os dados”.

Para que o Data Mining cumpra o seu propósito, ou seja, a descoberta de conhecimento relevante, é importante estabelecer metas bem definidas. Essas metas, ainda segundo Fayyad et al. (U. Fayyad, Piatetsky-Shapiro, & Smyth, 1996a) são definidas em função dos objetivos associados com a utilização do sistema, podendo ser de dois tipos:

Verificação - o sistema está limitado quanto à verificação de hipóteses definidas pelo utilizador.

Descoberta - o sistema é responsável por encontrar de forma automática novos padrões. Este pode, ainda, ser subdividido em previsão e descrição:

 Previsão - localiza padrões com a finalidade de prever o comportamento futuro de variáveis ou de novos conjuntos de dados.

 Descrição - procura encontrar padrões, compreensíveis pelo utilizador, que descrevam os dados de maneira concisa e resumida, apresentando propriedades gerais interessantes acerca dos mesmos.

Os objetivos de previsão e descrição são alcançados através das seguintes tarefas de Data Mining: classificação, segmentação, sumarização e modelação de dependências (U. M. Fayyad et al., 1996). Cada uma destas tarefas é de seguida descrita com mais detalhe.

Classificação

Classificação é o processo de procura de um modelo ou função que mapeia um conjunto de dados em classes ou categorias predefinidas (U. Fayyad et al., 1996a).

O processo de classificação de dados é dividido em duas fases: treino e teste (Beniwal & Arora, 2012)(Han et al., 2012). Na primeira fase, é identificado um modelo de classificação a partir do conjunto de dados de treino, recorrendo à análise dos registos contidos no mesmo. Na segunda fase, o modelo obtido é usado para classificar sendo assim aplicado ao conjunto de dados de teste permitindo verificar o seu desempenho na classificação de dados desconhecidos. Para que o modelo seja utilizado para classificar novos dados, a sua precisão tem de ser considerada aceitável, o que depende do domínio de aplicação em causa. A precisão do modelo é determinada com base na quantidade de registos classificados corretamente, comparando o

valor real disponível armazenado no conjunto de dados de teste, com o valor previsto pelo modelo (classe identificada pelo modelo para o registo) (Santos & Ramos, 2006).

A classificação de dados é considerada uma tarefa de aprendizagem supervisionada, uma vez que o atributo e as classes que vão levar ao processo de classificação de dados são conhecidos a priori.

Um exemplo de aplicação da classificação de dados é a concessão de crédito bancário a clientes de uma determinada instituição bancária. Os clientes são divididos em classes para a avaliação de concessão de crédito tendo como base alguns atributos, nomeadamente idade, montante salarial, entre outras. Posteriormente, um novo cliente pode ser enquadrado, automaticamente, numa classe de crédito específica, de acordo com os fatores indicados.

Na Figura 2.7 estão representadas amostras que pertencem a diferentes classes, uma representada pelo símbolo “◦” e outra pelo, “*”.

O resultado final da classificação de dados é a linha apresentada na Figura 2.7b. Aplicando esta função, a cada nova amostra, mesmo sem uma saída conhecida, ou seja, a classe a que pertence, estas podem ser classificadas corretamente.

Figura 2.7: Exemplo gráfico da classificação de dados. (a) Conjunto de dados de treino; (b) Função de classificação de dados (Kantardzic, 2011).

Em relação ao tipo de dados, a classificação é utilizada para prever valores discretos ou contínuos. Sempre que o processo de Data Mining inclua a previsão de atributos com valores contínuos, estamos perante uma tarefa de regressão ou estimação. Estimar permite identificar uma função matemática que calcula o valor desconhecido de uma variável, com base no valor dado de uma outra variável (Santos & Ramos, 2006).

Um exemplo de aplicação desta tarefa pode ser, estimar a probabilidade de um paciente sofrer de determinada patologia, dado o resultado de um conjunto de exames realizados.

(a)

Segmentação

A segmentação ou clustering é responsável por agrupar objetos tendo em conta as suas similaridades em diferentes clusters ou segmentos.

Os clusters formados são baseados no princípio de que os objetos que o constituem devem ser o mais similares possíveis entre si e dissimilares em relação a objetos de outros clusters. Assim, quando se pretende formar clusters seleciona-se um conjunto de atributos que se achem relevantes e em função da similaridade desses atributos são formados os clusters. Estes atributos utilizados para descrever os objetos, são na maioria das vezes comparados utilizando medidas de distância (Han et al., 2012).

A diferença básica entre o clustering e a classificação de dados reside no facto de que no clustering não existem classes predefinidas para classificar os dados em estudo, ou seja, estas são dinamicamente criadas a partir das similaridades entre os objetos, ao contrário da classificação. Deste modo, o clustering representa uma tarefa de aprendizagem não supervisionada.

A Figura 2.8a mostra os dados iniciais para aplicação da tarefa de clustering, os quais são agrupados em três clusters, como mostra a Figura 2.8b, em função da similaridade de atributos escolhidos previamente. Com base nos resultados do processo de clustering, cada novo objecto pode ser atribuído a um dos clusters encontrados anteriormente, usando para tal o critério de similaridade com os objetos constituintes de cada cluster.

Figura 2.8: Exemplo gráfico de clustering. (a) Conjunto de dados de treino; (b) descrição de clusters (Kantardzic, 2011).

Diversos algoritmos de clustering podem ser utilizados na identificação de clusters nos dados. Na secção 2.4 são abordados alguns deles.

Sumariação

Sumariação envolve métodos capazes de encontrar uma descrição compacta para um determinado conjunto ou subconjunto de dados2. Um dos exemplos mais simples de sumariação

é a determinação da média e desvio-padrão de uma amostra (U. Fayyad et al., 1996a).

As tarefas de sumariação são frequentemente utilizadas na análise exploratória de dados, permitindo identificar um conjunto de valores ou descrições capazes de descrever os dados analisados.

Se a descrição é compacta, como apresentado na Figura 2.9b, essa informação pode simplificar e, portanto, melhorar o processo de tomada de decisão num determinado domínio.

Figura 2.9: Exemplo gráfico da sumariação de dados. (a) Conjunto de dados de treino; (b) Descrição formalizada (Kantardzic, 2011).

Modelo de Dependências

O Modelo de Dependência tem como objetivo encontrar um modelo que descreve dependências significativas entre variáveis. Existem dois níveis de modelos de dependência: estruturado e quantitativo. O nível estruturado específica geralmente em forma de gráfico, quais as variáveis que dependem localmente de outras variáveis. O nível quantitativo específica o grau de dependência, usando para tal uma escala numérica.

Na Figura 2.10b é possível identificar duas relações diferentes no conjunto dos dados de treino. Uma relação elipsoidal encontrada para um subconjunto e uma relação linear para outro subconjunto dos dados de treino representados na Figura 2.10a. Estes tipos de modelação são especialmente úteis em grandes conjuntos de dados que descrevem sistemas muito complexos.

Figura 2.10: Exemplo gráfico do modelo de dependências. (a) Conjunto de dados de treino; (b) Dependências locais descobertas (Kantardzic, 2011).

Um exemplo de aplicação de um modelo de dependências, inclui a análise do histórico de vendas de um híper ou supermercado, com o objetivo de se encontrar produtos que tendem a ser adquiridos na mesma compra, como café e leite. Os resultados desta análise podem ser úteis na elaboração de catálogos e layout de prateleiras para que produtos adquiridos na mesma compra, fiquem próximos uns dos outros.

In document 1 of 50 (sider 24-27)