Iremos descrever um conjunto de métricas representativas dos aspectos, vulgarmente, mais ca- racterísticos e elucidativos da qualidade dos dados. Deste modo, pretendemos dispor de indicado- res objectivos sobre os vectores orientadores da qualidade dos dados. As métricas propostas pro- curam, sobretudo, salientar a perspectiva dos utilizadores relativamente à qualidade dos dados acedidos e que se encontram armazenados nos SDWs. A descrição estrutural das métricas esta- beleceu-se segundo o paradigma GQM e assenta em investigações demonstrativas da aplicação do referido paradigma à qualidade dos dados [Bobrowski et al., 1999] e outras que o relacionam ao âmbito dos DWs [Vassiliadis, 2000] [Jarke & Vassiliou, 1997] [Amaral, 2003]. É possível estabe- lecer um conjunto de dimensões de âmbito transversal sobre o conceito de qualidade dos dados e que decorre das diferentes investigações, mesmo apesar de algumas discordâncias, quer em ter- mos das dimensões consideradas, quer em termos dos significados dessas dimensões [Jarke & Vassiliou, 1997] [Bobrowski et al., 1999] [Wang et al., 1994] [Helfert & Maur, 2001] [Helfert & Ra- don, 2000] [Strong et al., 1997]. A questão em definir um conjunto de dimensões equilibrado em quantidade e representativo em significado é um assunto focado em diversas investigações [Lee et al., 2002] [Scannapieco & Catarci, 2002] [Lee & Strong, 2004] [Cappiello et al., 2004] [Naumann & Rolker, 2000]. A dificuldade de consenso entre as terminologias adoptadas, noção e alcance dessas dimensões conduz ao necessário acompanhamento dos respectivos significados.
A identificação material das métricas deve resultar, preferencialmente, da situação concreta de cada caso. Assim, deve identificar-se as dimensões a considerar e os critérios que as representam
numa realidade organizacional real. Porém, dada a predominância de algumas dimensões da qua- lidade dos dados, indiferentemente do contexto de aplicação, fica viabilizada, a ambientes de DW, a derivação de um conjunto nuclear representativo de medidas de avaliação sobre as principais dimensões da qualidade dos dados. O lote representativo das dimensões a considerar, neste rela- tório, inclui a oportunidade, a completude, a exactidão, a acessibilidade, a relevância e a interpre- tação. Cada dimensão tem associada uma ou mais métricas que representam os critérios requeri- dos em termos de qualidade dos dados. Assim, a aplicação das métricas visa indicar o grau de presença dos critérios nos dados. Alguns critérios sobre os dados corporizam uma natureza sub- jectiva no momento da avaliação e recolha de resultados das métricas, como seja o caso da inter- pretação dos dados por parte dos consumidores [Cappiello et al., 2004]. Nestes casos, optou-se, além de manter a subjectividade da aferição, em contornar a própria subjectividade através da avaliação objectiva dos aspectos que a podem amenizar (e.g. a existência ou não de documenta- ção e a ajuda sobre os dados divulgados derivados das consultas).
Em seguida, iremos apresentar um conjunto de métricas baseadas no modelo GQM. Em primeiro lugar, procedeu-se à identificação dos objectivos para cada dimensão considerada. Dado que as métricas a definir não respondem perante nenhuma situação concreta, optou-se por considerar como objectivo a atingir, nas diversas métricas, a simples aferição do desempenho das dimensões consideradas. Depois, são definidas as questões sobre os objectivos considerados e por fim, são derivadas as métricas com intuito de fornecer respostas às questões. Adicionalmente, são apre- sentadas possíveis técnicas de captação dos valores das métricas.
Exactidão
A exactidão corresponde ao armazenamento correcto dos factos ou valores do mundo real, isto é, consiste em possuir os valores dos dados certos e de confiança [Pipino et al., 2002]. A exactidão pode ser analisada segundo três vectores: o nível sintáctico, o nível semântico e o nível de con- teúdo. O primeiro aspecto refere-se ao tipo e domínio dos dados. O segundo aspecto ocupa-se de questões relativas à integridade referencial e às regras de negócio. Por fim, o nível de conteúdo consiste no armazenamento efectivo do valor real. O quociente entre os valores correctos duma fonte e a totalidade de valores na fonte descreve, numa visão abstracta, um modelo de medida para avaliar a exactidão [Naumann & Rolker, 2000]. O propósito da aplicação de métricas sobre a exactidão consiste na avaliação dos dados existentes no repositório (tabela 5-8).
Dimensão Questão Métrica
Exactidão sintáctica Os dados respeitam o domínio dos dados?
Percentagem das linhas ou colunas que pertencem ao domínio dos dados Exactidão semântica As chaves estrangeiras existem nas
dimensões?
Percentagem das linhas que contêm cha- ves estrangeiras nas dimensões Exactidão de con-
teúdo
Os dados quando comparados com o mundo real estão correctos?
Percentagem das linhas correctas quando comparados com o valor real
Tabela 5-8 – Métricas a definir para a dimensão exactidão.
A técnica de captação para a exactidão sintáctica pode passar pela utilização duma ferramenta de análise dos dados capaz de realçar os valores fora do intervalo de valores previsto. Esta mesma técnica pode ser aplicada igualmente como auxiliar na detecção de valores não correspondentes aos efectivamente existentes no mundo real. A recolha de resultados relativos à integridade refe- rencial pode ser conseguida com a colaboração duma ferramenta de auditoria de dados.
A frescura dos dados
A frescura dos dados em SDWs assume importância capital na qualidade dos dados divulgados, uma vez que a tomada de decisões encontra-se normalmente condicionada pela questão tempo- ral. Este período de tempo pode ser mais ou menos estreito e caracterizado por abarcar a con- fluência de diversos factores, muitas vezes, antagónicos. Contextualizando ao tema desta disser- tação, a disponibilização de informações no exacto momento que são necessárias pode influenciar o sentido duma decisão e o grau de confiança da sua acção. As informações variam, naturalmen- te, com o tempo e por isso, mostra-se necessária a actualização do DW, em vista manter a consis- tência entre os dados armazenados no SO e os mantidos no repositório do DW. A manutenção de um calendário das actualizações, especificando a periodicidade dos carregamentos dos dados num DW deve ser um aspecto a considerar [Amaral, 2003].
O assunto da frescura dos dados, no campo dos SDWs, pode ser avaliado segundo duas verten- tes: a actualidade e a oportunidade [Bouzeghoub & Peralta, 2004]. A primeira mede o intervalo de tempo entre a mudança dos dados na fonte sem que essa mudança se reflicta na vista materiali- zada, na prática, em SDW, corresponde à estimativa da diferença entre o tempo de extracção dos dados e o tempo de entrega destes. A actualidade pode ainda ser avaliada segundo a obsoles- cência, que mede o número de actualizações duma fonte desde o tempo de extracção dos dados e assim estimar o número de frequências de actualização. A outra vertente da frescura dos dados, a oportunidade, é descrita como a medida sobre a extensão da idade dos dados que é considera- da apropriada para a tarefa em mãos. É comummente estimada como o tempo passado desde a última actualização da fonte e limitada pela frequência de actualização da fonte (tabela 5-9).
Dimensão Questão Métrica
Actualidade Os dados são usados a tempo da tomada de decisão?
Quantas vezes, os mesmos dados, são acedidos por dia?
Percentagem de decisões tomadas usando os dados armazenados
Nº de acessos de consulta aos dados Obsolescência Qual a frequência de actualizações
aos dados?
Nº de operações de actualização por unidade de tempo Oportunidade Qual a percentagem dos dados que
estão actualizados?
Qual a idade dos dados no sistema?
Nº de linhas actualizadas (por unidade de tempo) / nº total de linhas
Percentagem de linhas superiores a determinada idade Tabela 5-9 – Métricas para medir o grau de frescura dos dados.
A operacionalidade na recolha dos valores referentes às avaliações dos dados pode assentar em estatísticas sobre os dados, em questionários respondidos pelos consumidores dos dados e na consulta aos ficheiros LOG das actividades do DW.
Completude
A completude dos dados consiste na captura dos dados do mundo real necessários para a execu- ção das actividades [Bobrowski et al., 1999]. Assim, aquando da tomada de decisão, os decisores não devem detectar ausências de valores. A ausência de valores pode ficar dever-se à indisponibi- lidade do SO em facultar mais dados e à execução dos processos de carregamento dos dados no DW provocar a inconsistência entre os dados. A forma de avaliação do cumprimento desta dimen- são pode ser concretizada, de modo abstracto, como o quociente entre os dados devolvidos pelas respostas às consultas dos consumidores e os dados existentes no mundo real [Naumann & Rol- ker, 2000]. Algumas métricas sobre esta dimensão são apresentadas na tabela seguinte.
Questão Métrica
O atributo apresenta ausência de valor, mesmo quando de preenchimento obrigatório?
As linhas da tabela de factos encontram-se carregadas nas dimensões?
As linhas encontram-se estruturadas hierarquicamente nas dimensões?
Quantas linhas foram carregadas com sucesso?
Percentagem das linhas que contêm valores ausentes em colunas de preenchimento obrigatório
Percentagem das linhas da tabela de factos que res- peitam a integridade referencial
Percentagem das linhas não estruturadas hierarquica- mente nas dimensões
Percentagem dos registos carregados com sucesso Tabela 5-10 – Métricas para avaliar a completude dos dados.
Relativamente, às técnicas de recolha destas métricas pode-se recorrer a análises sobre os LOGs das actividades do DW, a aplicação de ferramentas de data profiling e a especificação de consul- tas directas sobre os dados.
Interpretação
A interpretação consiste no facto dos dados se apresentarem em formato compreensivo e que facilita o seu entendimento. Esta dimensão tem associada, conforme referenciado anteriormente, uma forte raiz subjectiva. Por isso, em vista a obtenção duma avaliação mais concreta, procura-se avaliar alguns parâmetros relativos ao fornecimento de informações sobre os dados alvo de con- sulta (metadados). Esta situação faz prever, igualmente, o cumprimento de determinados pressu- postos, principalmente, a formação dos consumidores e a adopção de terminologias aceites pela realidade organizacional. Assim, um modelo de medida capaz de aferir sobre a interpretação dos dados pode consistir no grau em que a informação divulgada respeita a capacidade técnica dos consumidores em manuseá-la [Naumann & Rolker, 2000] (tabela 5-11).
Questão Métrica
Os dados apresentados são facilmente interpretáveis? Nº de elementos de informação indocumentados Tabela 5-11 – Métrica para avaliação da interpretação dos dados.
A auditoria aos dados e metadados pode representar o melhor modo de avaliação da interpreta- ção. Complementarmente, justifica-se a adopção de um questionário, destinado aos consumido- res, para avaliar esta dimensão.
Relevância
A relevância respeita a circunstância dos dados se mostrarem úteis aquando da tomada de deci- são. Os dados devem ser aplicáveis e úteis na concretização da tarefa em mãos [Pipino et al., 2002]. Este tema possui particular interesse, na medida que os dados disponibilizados pelos DWs devem ter aplicação efectiva, de outro modo, deixaria de fazer sentido possuir um DW composto por informação irrelevante (tabela 5-12). O povoamento dum DW com dados inúteis gera o apare- cimento de dados dormentes, desnecessários para o cabal cumprimento das actividades. Estes dados são ainda responsáveis pelo desinteresse pelo sistema e na obstrução a um desempenho cabal das interrogações sobre o DW [Inmon et al., 1998].
Questão Métrica
Existem dados que não são acedidos? Percentagem de tuplos ou colunas que nunca são resultado de respostas Tabela 5-12 – Métrica de avaliação da relevância dos dados.
A análise dos ficheiros LOG das actividades do DW, bem como, a existência dum repositório de metadados activo que mantenha o cadastro dos acessos aos dados mostra ser uma boa iniciativa na recolha de elementos relativos a esta métrica.
Acessibilidade
A acessibilidade dos dados respeita à disponibilidade destes para consulta por parte dos consumi- dores [Vassiliadis, 2000]. Certamente, um DW pode mostrar-se inacessível por diferentes motivos, como sejam as falhas do sistema ou as naturais actualizações dos dados. Importa, minimizar a ocorrência das falhas inesperadas e reduzir a indisponibilidade por razões de actualizações aos dados (tabela 5-13).
Questão Métrica
Qual a disponibilidade do sistema? Qual a disponibilidade transaccional?
Percentagem de tempo que o DWs se encontra inoperacional por falhas Percentagem de tempo que o DWs se encontra inoperacional por actualiza- ções dos dados
Tabela 5-13 – Métricas para a avaliação da acessibilidade dos dados.
As informações dos ficheiros LOG sobre as actividades do DW permitem determinar as métricas de avaliação da acessibilidade dos dados.