O rastreio da informação, é um conceito associado à capacidade de identicar a história, apli- cação e localização de um item ou actividade através dos registos de informação.
A gestão do rastreio de dados implica a recolha, armazenamento, processamento e disponi- bilização de grandes quantidades de informação ao longo do ciclo de vida dos itens ou activi- dades, que devem estar permanentemente disponíveis para todos os agentes envolvidos no processo, desde o início do processo.
As características básicas do rastreio dos dados são: identicação das origens de todos os componentes envolvidos, informação sobre quando e para onde foram movidos ou transfor- mados (rastreio dos produtos), e um sistema que interligue toda a informação (rastreio dos dados).
A possibilidade de se efectuar o rastreio dos dados relativos aos produtos e actividades tem tido especial desenvolvimento e impacto em áreas críticas, onde a necessidade de identicar rigorosamente a origem e as transformações sofridas pelos produtos são essenciais, como por exemplo as indústrias alimentares (que envolvem um grande risco de negócio, onde um único ingrediente, ou um só pacote contaminado, é um risco real para a saúde pública) [dCNRPB03], e laboratórios de análises (onde é preciso identicar univocamente a origem dos resultados obtidos).
Os requisitos de rastreabilidade são essenciais para se perceber os efeitos em cascata das alterações propostas aos produtos resultantes das tarefas de desenvolvimento, evitando assim que os produtos nais quem inconsistentes quando se fazem alterações. Este aspecto tem par- ticular relevância quando numa abordagem incremental se pretende uma denição evolutiva dos requisitos de sistema. Sempre que novos requisitos de sistema são denidos, eles devem ser rastreados nas futuras versões denidas pelo plano de desenvolvimento.
Os requisitos de rastreabilidade devem ser implementados de forma a que, sempre que qualquer requisito seja alterado, todos os requisitos relacionados, os componentes implicados e os casos de teste afectados pela alteração sejam identicados.
Tipicamente os DW têm como objectivo receber e agregar dados provenientes de várias fontes, para possibilitar a realização de análises para suporte à decisão. Para realizar a migração dos dados dos sistemas fonte para o DW existe um conjunto de processos ETL, através do qual os dados sofrem derivações e transformações para que possam ser mais ecientemente utilizados para a realização de análises de suporte à decisão. Assim, os dados apresentados no DW na maioria das vezes estão num formato completamente diferente do observado no
Sistema Operacional (SO), encontrando-se muitas vezes com níveis de agregação superiores ou sob formas pré-calculadas.
No entanto, torna-se muitas vezes necessário ao utilizador que realiza as análises no DW, a partir dos dados agregados (menor detalhe), descer ao nível de maior detalhe, para vericar a informação que lhe está a ser apresentada.
Pode ainda ter necessidade de associar o conjunto de dados que estão a ser consultados no DW à sua origem no SO fonte, para melhor analisar o seu signicado. O próprio pessoal de Tecnologia de Informação (TI) responsável pela manutenção do DW tem de ter esta possibili- dade, já que uma utilização muito comum do mapeamento entre os dados fonte e destino é a vericação da origem de dados suspeitos ou anómalos.
Esta necessidade é descrita como o problema da linhagem dos dados.
Os analistas podem utilizar a linhagem dos dados para autenticar os dados fonte, bem como as regras de transformação utilizadas no Data Warehouse. É também uma maneira de promover a conança dos utilizadores nos dados apresentados, já que eles terão a qualquer momento a possibilidade de confrontar os dados dos SO com os do DW. Inclusive, se a lin- hagem dos dados existir e for completa, facilita as análises de impacto no DW de eventuais transformações ou actualizações efectuadas no SO.
Em alguns sistemas, como por exemplo o WHIPS [CW00], esta questão foi resolvida através do desenvolvimento de instrumentos de registo do conjunto de derivações associadas desde a fonte (SO) até ao destino (DW). Quando se pretende encontrar os dados de origem, inverte-se o processo das derivações, conseguindo-se assim obter o caminho percorrido pelos valores.
A solução para o problema da linhagem dos dados é constituída por 2 passos [Var02]: 1. Desenhar e construir uma boa estratégia para registar a linhagem dos dados.
2. Conseguir utilizar efectivamente a informação registada para determinar a linhagem dos dados.
Relativamente ao primeiro ponto, foram já propostos vários métodos para capturar infor- mação de linhagem dos dados. A maioria dos modelos comerciais utiliza os metadados resul- tantes do processo de ETL para rastrear os dados. A linhagem dos dados pode ser mantida ao nível da tabela, da coluna ou mesmo do registo de dados. O analista limita-se a utilizar os metadados ETL para determinar o caminho percorrido pelos dados enquanto foram transferi- dos dos sistemas fonte para o DW.
Um dos problemas desta abordagem é que devido à natureza dinâmica dos DW, os pro- cessos ETL vão sendo alterados ao longo do tempo, pelo que tem de se manter o controlo das versões anteriores, que reectiam as transformações dos dados na data em que foram intro- duzidos no DW.
ment Group) e o OIM (Open Information Model) da MDC (MetaData Coalition) eram os dois standards mais inuentes para a denição de metadados de DW. Em Setembro de 2001 o MDC terminou as operações e fundiu-se com a OMG para trabalhar num conjunto único de especi- cações de metadados (ver capítulo 2.5). A linhagem dos dados continuará a ser um elemento importante do standard integrado.
Uma outra abordagem, particularmente útil quando a ferramenta ETL utilizada não su- porta directamente o registo da linhagem dos dados, e que pode ser utilizada, é bastante sim- ples.
Primeiro adiciona-se uma coluna a cada uma das tabelas do DW que registará a data e hora do carregamento do registo para o DW. A seguir, adiciona-se a cada uma das tabelas do repositório onde são registados os metadados provenientes do processo ETL uma data de início e de m. De cada vez que os processos ETL forem alterados, as datas de m destes registos terão de ser actualizadas e inseridos novos registos no repositório, reectindo todas as alterações efectuadas aos processos. Assim, as datas de início e m indicarão os processos ETL utilizados para carregar os registos para o DW, através da vericação da data de carregamento. Mas, quando se chega ao ponto de utilização da informação, é necessário ter em conta que estas técnicas só permitem identicar os campos de origem dos dados no SO e quais as transformações que sofreram, não dizem por extenso o conjunto de dados que foi utilizado para o cálculo dos valores que estão a ser observados.
O utilizador pode sempre tentar efectuar uma inversão das transformações sofridas pelos dados para chegar à fonte, mas dada a complexidade da tecnologia actual, é muito provável que para efectuar esta operação seja necessário o auxílio de um analista programador.
Se for possível navegar desde o DW até aos dados fonte, mesmo quando existam várias transformações de diferentes complexidades no processo ETL, pode-se dizer que se completou a rastreabilidade dos dados.