Selvrealisering og individualiserte mennesker

Kapittel 3 – Empiri og tidligere forskning

3.1 Bakgrunn for det politiske engasjementet – motivasjonen

3.1.2 Selvrealisering og individualiserte mennesker – egenutvikling som

Seguindo a bibliografia acima referida, e reafirmando uma vez mais que será com base nesta que se desenvolverá o processo de obtenção de conhecimento presente neste projeto, a fase denominada de transformação de dados constituiu o processo de normalização de dados ou, ainda, de conversão dos mesmos para escalas de valores que sejam requisitadas pelos algoritmos de mining, a aplicar na etapa subsequente. Deste modo, na maioria das vezes é necessário proceder- se à conversão de dados. Assim, existem alguns métodos que objetivam facilitar esta mesma tarefa.

O propósito assente na procura pela normalização dos dados tem como motivo o facto de alguns métodos (como por exemplo, as redes neuronais) precisarem de ter os valores dos atributos compreendidos numa escala comum e transversal a todas as variáveis. Deste modo consegue-se também minimizar os problemas que possam ter origem no uso de unidades distintas entre as diversas variáveis que constituem os registos de informação. Para normalizar o conjunto de valores a ser usado poder-se-ão utilizar algumas abordagens já exploradas e disponibilizadas, das quais serão apresentadas abaixo as que se erguem com maior importância relativamente ao domínio deste projeto, em particular as abordagens segundo a amplitude, a distribuição, a abordagem z- score e, por fim, a decimal.

Ao normalizar os dados tendo em como base uma metodologia assente na amplitude, existe uma fórmula que foi utilizada no contexto de um estudo assente na procura pela previsão de dados relativos ao consumo energético no Rio de Janeiro e que se assume com principal relevo neste domínio. Esta equação encontra-se apresentada na figura 2.3, na qual o e o correspondem ,respetivamente, ao valor mínimo e máximo encontrado no intervalo de valores a normalizar.

Figura 2.3 Fórmula de cálculo do valor normalizado (Rodrigues et al., n.d.).

Por sua vez, uma normalização distribucional surge com principal relevo em situações de remoção de valores considerados como outsiders ou ainda na obtenção de simetria. Neste modelo respetivo à transformação de dados, os valores iniciais atravessam uma função que dará como resultado

final o valor normalizado. Esta função pode constituir um cálculo algoritmo ou ainda o cálculo do inverso negativo do valor dado como input.

A conversão de valores através do método z-score procura normalizar os dados com recurso aos conceitos de média e desvio padrão do conjunto de valores a transformar. Desta forma é usado um cálculo que define o valor final já normalizado a partir da função exibida na figura 2.4.

Figura 2.4 Função de normalização segundo o método z-score.

Por último, o escalonamento decimal constituiu uma metodologia assente na passagem dos valores numéricos a normalizar para valores sempre inferiores à unidade. Graças ao cálculo exposto na figura 2.5, a normalização tem sempre como resultado um conjunto de valores compreendidos entre 0 e 1.

Figura 2.5 Função de normalização segundo o método de escalonamento decimal.

Este conjunto de métodos sumariamente apresentados constituiu uma etapa importante na transformação dos dados, contudo esta pode não ser suficiente e, em certas alturas, tem mesmo de se proceder à realização de mais metodologias que permitam transformar valores em tipos de dados aceites pelas algoritmos subsequentemente utilizados. Um dos casos descritos evidencia-se quando são utilizados algoritmos de extração de conhecimento que só funcionem para dados discretos e não para dados contínuos. Neste contexto surge um novo requisito inerente à natureza dos métodos escolhidos que constituiu a obrigatoriedade de se proceder à discretização da informação. No processo de conversão de valores contínuos em valores discretos existem 2 abordagens principais que podem ser seguidas, uma delas agrega métodos de discretização não supervisionados, a outra caracteriza-se por agregar métodos de discretização supervisionados. É acerca destes métodos que será feita de seguida uma abordagem descritiva dos mesmos.

Os algoritmos de discretização, que se definem como sendo não supervisionados, fazem a transformação dos dados tendo apenas como base a característica que está a ser discretizada.

Este tipo de solução deverá ser empregue quando não existe conhecimento acerca da classe de saída e, deste modo, não existe nenhum atributo que sirva como “modelo” para a passagem de dados contínuos para discretos. Neste caso poder-se-á definir apenas o número de conjuntos que é objetivado para que a discretização se possa efetuar. Além disso, existem ainda abordagens que passam pelo uso de duas estratégias distintas, nomeadamente a discretização tendo como base o cobrimento de intervalos iguais ou o cobrimento de frequências iguais (Matsura, 2003). De qualquer forma será importante realçar que existe uma definição transversal às duas estratégias referidas e a todas as outras assentes numa metodologia não supervisionada, que as distingue dos métodos seguidos em estratégias supervisionadas: todas estas tarefas de classificação têm como premissa o facto do seu objetivo principal ser a determinação dos intervalos de valores discretizados sem haver um conhecimento prévio das classes a que cada instância pertence. Em contraposição, os métodos assentes numa metodologia supervisionada têm sempre conhecimento das classes a que cada atributo pertence e fazem, desta forma, a divisão dos seus dados tendo como referenciação a classe agrupadora de cada um deles. Com vista a cumprir este objetivo existem alguns algoritmos que podem auxiliar nesta tarefa de discretização de dados de forma supervisionada, de onde se evidencia um método que se diferencia dos demais por ter como base o conceito de entropia. Com efeito, e tendo como referência o método anunciado, pode-se proceder à divisão dos dados através da construção de uma árvore de decisão que incida a sua pré-poda no atributo que se pretende discretizar. A partir deste ponto é feita uma discretização progressiva que terá na base do seu critério de divisão o conceito de entropia. Por sua vez o critério de paragem será definido e calculado tendo como filosofia o critério de comprimento de descrição mínima (critério MDL).

Um outro método que surge com especial relevo na discretização de dados de forma supervisionada é o método 1R. Como já sugerido, o método 1R tem como base a classe final a que pertence cada variável e, apesar do seu funcionamento ser bastante simples e intuitivo, surge com resultados bastante positivos, perto dos resultados observados aquando do uso de árvores de decisão. O algoritmo seguido por esta metodologia caracteriza-se por, para cada valor, calcular de forma iterativa o erro associado à atribuição desse a uma dada classe. Desta forma, o cálculo da taxa de erro é primeiro feito após se inserir o valor em causa na classe que tem maior frequência absoluta de atributos e, a partir desta, escolher-se-á a regra associativa que terá como resultado uma taxa de erro menor. Ao longo deste processo repetitivo que trata cada atributo

individualmente e de forma sequencial, são ajustadas as divisões que, no final, irão constituir as regras que definirão a que intervalo de valores pertencerá cada valor contínuo.

Além dos métodos de discretização apresentados existem muitos outros mais ao menos complexos que, no seu conjunto, constituem ferramentas de auxílio para a transformação de valores contínuos em valores discretos.

Além de tudo será importante ainda realçar que existem alguns momentos (não tão frequentes) nos quais é necessário executarem-se operações inversas às discutidas até então. De facto, existem situações em que é necessário converterem-se dados discretos em valores numéricos que procurem representar intervalos de valores contínuos. A causa para este fenómeno tem como base justificativa a mesma que reside na necessidade em se discretizar dados, ou seja, a necessidade requerida pelos algoritmos de extração de conhecimento em trabalhar apenas com uma determinada tipologia de valores. Desta forma, existem também alguns métodos previamente construídos que auxiliam na elaboração destas transformações de valores discretos em contínuos, que surge como tarefa obrigatória quando são usados algoritmos de mining como os métodos baseados em instâncias de vizinho mais próximo ou técnicas de previsão numérica que envolvam regressão (Witten & Frank, 1999).

Como se pode constatar, o processo de transformação aglomera um conjunto de tarefas que se têm de executar incisivamente por forma a preparar os dados que serão usados. O conjunto desta informação devidamente transformada procurará constituir uma base bem formatada que será, de seguida, usada pelos algoritmos que permitem a extração de conhecimento. Neste contexto surge ainda a necessidade intrínseca à organização da informação para que esta possa ser acedida de forma eficiente e rápida. É neste contexto que reside o cuidado de se representarem os dados sob estruturas bem modeladas e devidamente construídas e será sobre este assunto que a próxima secção se debruçará.

In document Kvinner i kommunestyrene (sider 32-35)