• No results found

Finansiering av vedlikeholdet .1 Husleiemodellen

5 Vedlikehold av eiendomsmassen i utleieporteføljen

5.3 Finansiering av vedlikeholdet .1 Husleiemodellen

Os dados extraídos do SO encontram-se em trânsito para a ARD e são as matérias-primas essen- ciais para a elaboração dos PIs. Estes dados em bruto são submetidos a um conjunto de opera- ções, comummente designadas, de transformação e limpeza dos dados. A limpeza dos dados visa detectar e remover anomalias com o objectivo de aumentar e melhorar a qualidade destes [Rahm & Do, 2000]. Em [Müller & Freytag, 2002] define-se a limpeza de dados como um conjunto de ope- rações executadas, em vista a remoção de imperfeições e consequentemente, a obtenção de um repositório de dados mais fielmente representativo do mundo real. A limpeza comum dos dados segue uma abordagem de inspecção porque o principal objectivo consiste na identificação e re- moção dos problemas nos dados após estes terem sido criados [Amaral et al., 2002].

Estas operações são executadas individualmente em cada fonte de dados e correspondem às iniciativas clássicas de limpeza dos dados (e.g. a correcção de erros sintácticos e a preparação dos dados para integração futura). Os métodos geralmente utilizados nesta fase são: a decompo- sição dos dados para obter elementos atómicos; a estandardização, correcção e normalização dos dados; o preenchimento de valores ausentes, a aplicação das regras de integridade referencial e o enriquecimento do conteúdo dos dados. A resolução do problema dos valores duplicados nos da- dos das fontes é, também, um outro método de aplicação. Porém, abordaremos este assunto na zona de reunião dos dados provenientes das fontes porque se trata, provavelmente, da operação de limpeza mais delicada executada nessa zona [Rahm & Do, 2000].

Decomposição dos dados

Esta operação consiste na separação dos valores dos dados em componentes atómicos [English, 2004]. Para [Müller & Freytag, 2002], a decomposição dos dados é executada para a detecção de erros de sintaxe. Alguns campos de dados caracterizam-se por capturarem múltiplos valores indi- viduais que, uma vez dissolvidos, permitem encontrar uma representação mais precisa e usável nas tarefas de limpeza posteriores (validação, estandardização, correcção e eliminação de valores duplicados) [Rahm & Do, 2000]. Em [Olson, 2003] refere-se a este tipo de problemas, como o so- brecarregamento dos dados (e.g. a inclusão do caracter ‘#’ no nome dum aluno indica que fale- ceu). Geralmente, os dados para os quais existem diversas ferramentas de tratamento específicas respeitam aos campos nome e morada (tabela 4-3).

Dados Originais Decomposição por Elementos

1999 Herdade da Erva Vinho Tinto Alentejano VQPRD Marca Herdade da Erva

Ano 1999

Tipo Tinto

Região Alentejo

Categoria VQPRD

Tabela 4-3 – Decomposição dos dados relativos à designação de um produto.

A decomposição dos campos em elementos atómicos possibilita, num primeiro momento, a valida- ção e correcção de valores dos dados, através da comparação de valores similares (e.g. a sepa- ração de uma morada em nome de rua e número permite a detecção de outras cadeias de carac- teres semelhantes). Num momento posterior, é possível enriquecer as linhas de dados com infor- mações complementares, baseadas nos valores decompostos individualmente ou em conjugação. A ausência de alguns valores pode por este meio ser colmatada (e.g. a obtenção da totalidade de um código postal após o fraccionamento da morada). Por último, a decomposição dos dados é uma parte importante do processo de verificação porque permite validar outros campos no registo (e.g. a separação do nome de um aluno possibilita confrontar o sexo desse aluno) [English, 2004].

Estandardização e normalização dos dados

A estandardização dos dados resume-se a conversões operadas nos dados para um formato uni- forme definido para um DW. A uniformização dos dados deve ser um facto presente nos mais va- riados tipos de dados porque facilita a sua integração e a resolução de conflitos (e.g. os dados de texto devem ser condensados e uniformizados pela remoção de sufixos e prefixos, da remoção de sinónimos e do estabelecimento de abreviaturas de modo consistente) (tabela 4-4).

Dados Originais Standard Escolhido Dados Estandardizados

Coop. Agrícola do Alentejo Cooperativa Agrícola do Alentejo CAA Cooperativa Agrícola do Alentejo C.A.A. Cooperativa Agrícola do Alentejo Coperativa A. Alentejo Cooperativa Agrícola do Alentejo Cooperativa Agrícola do Alentejo Cooperativa Agrícola do Alentejo Cooperativa Agrícola do Alentejo C. A. Alentejo Cooperativa Agrícola do Alentejo Cooperativa Agrícola Alentejana Cooperativa Agrícola do Alentejo

Este tipo de operações revela-se particularmente útil aquando das interrogações sobre os dados (cf. tabela 4-4). A discrepância entre os resultados obtidos por uma mesma consulta: SELECT *

FROM clientes WHERE nome_cliente = ‘Cooperativa Agrícola do Alentejo’, antes e após a estan-

dardização dos dados torna evidente a necessidade destas transformações nos dados.

As técnicas de normalização dos dados possibilitam a definição de padrões regulares no formato dos dados constantes nas bases de dados (e.g. número de contribuinte e telefone). Os números de contribuinte podem ser normalizados de acordo com um formato previamente estabelecido, como seja 999 999 999. A aplicação deste padrão aos valores registados permite converter os diferentes formatos dos números existentes num único formato [English, 2004].

Validação e correcção dos dados

Esta etapa pretende examinar e corrigir os valores errados capturados em cada fonte de dados. É comum o recurso a dicionários de sinónimos e à verificação ortográfica para a identificação e repa- ração de irregularidades. Alguns dados apresentam-se aparentemente correctos e estandardiza- dos, mas na realidade denotam conflitos ou contradições entre colunas duma mesma linha (e.g. o código postal não corresponde à morada associada ou a data de nascimento de um aluno não respeita à idade registada). Estas operações compreendem, igualmente, a rectificação de valores que violam o domínio de valores definido para a coluna, as regras do negócio e o preenchimento de valores ausentes ou incompletos [English, 2004] [Rahm & Do, 2000]. Algumas formas de preenchimento de valores nos dados foram já referidas anteriormente, como seja, pela aplicação de técnicas de auditoria ou de mineração dos dados.

Regras de integridade

A aplicação das regras de integridade descreve o problema em assegurar a integridade dos dados após a ocorrência de operações nos repositórios dos dados (e.g. inserção, eliminação ou actuali- zação de registos). Em [Müller & Freytag, 2002] são feitas referências a duas propostas de trata- mento desta problemática: a verificação das regras de integridade e a manutenção das regras de integridade. A primeira aproximação rejeita as transacções que podem violar alguma regra de integridade dos dados. A segunda aproximação ocupa-se da adição ou actualização de dados para que o repositório de dados não viole as regras de integridade.