• No results found

Belønningssystemer og begrunnelsen for bruken av disse

Nesta etapa, os registros foram configurados para torná-los possíveis de serem utilizados a fim de extrair-se informações. Os dados cedidos pela concessionária, obtidos por meio de consulta pelo banco Oracle® através da linguagem SQL (Structured Query

Language), apresentavam inicialmente 22 campos por registro de desligamento. Cada campo,

correspondendo a uma classe de dado, foi armazenado em planilhas do software Excel®. A Figura 5-4 ilustra uma planilha apresentando certos campos de dados, com alguns deles representados por códigos. No campo WEATHER, por exemplo, os números representam: 1-

Bom, 4-Chuva, 5-Temporal, entre outros. Tendo em vista que cada linha da planilha registra

um desligamento, observa-se que existem campos, de determinados eventos, que não foram preenchidos.

Figura 5-4 – Planilha do Banco de Dados com alguns campos. Observa-se a esparsidade dos registros.

A partir do software Matlab®, as planilhas foram importadas, reunidas e armazenadas em uma matriz, onde as etapas do Tratamento de Dados conforme o trabalho de Tronchoni (2008) foram realizadas. Os referidos 22 campos correspondiam a dados como: hora e data da interrupção, clima, alimentador, tipo de tarifa, entre outros. Dessas classes, no entanto, apenas 6 foram selecionadas como relevantes para o tratamento de dados:

• data; • hora; • alimentador; • elemento de interrupção; • clima; • causa.

Este conjunto de registros formou o grupo de dados-base do qual foram extraídas as variáveis de interesse. Para derivar as outras variáveis selecionadas conforme o item 5.2, de início, foi realizada a etapa de limpeza e integração. Após, utilizando-se regras de classificação baseadas em conhecimento de um especialista, essas variáveis foram criadas para compor um cenário detalhado de cada causa.

5.3.1 Limpeza e Integração

A partir dos 803.737 eventos do banco de dados-base, foi verificada a elevada quantidade de determinados campos incompletos devido ao não-preenchimento (campos com o valor ‘Null’). Do mesmo modo foram encontrados registros pouco confiáveis, como ocorrências em que a causa havia sido apontada como descarga atmosférica associada com clima bom, além de interrupções denominadas como Improcedentes. Assim, uma etapa de filtragem desta base de dados foi necessária para qualificar o banco de dados e torná-lo homogêneo. Eliminando também os registros da concessionária cujas causas foram apontadas como desligamento programado, o número de eventos foi reduzido para 25,6%, ou seja, 205.545 eventos. A Figura 5-5 detalha a proporção entre os desligamentos programados e outras interrupções que não foram consideradas para a análise.

Figura 5-5 – Desligamentos descartados, correspondendo a 47.617 eventos.

Verificou-se também que, dos eventos restantes, um percentual de 90,5% correspondia a causas com clima bom. Segundo Tronchoni (2008), isto contraria a afirmação de Brown (2002), que afirma ser o clima adverso o grande responsável pela maioria dos motivos de interrupção das empresas de energia. Sendo assim, o conjunto de dados foi dividido proporcionalmente de forma a ter-se a totalidade de eventos com clima adverso correspondendo a 70% do banco de dados, sendo o restante dos 30% randomicamente preenchidos com desligamentos registrados com clima bom. A partir disso, o total de eventos passou a integrar 26.282 interrupções de energia, correspondendo a 3,3% dos 807.737 registros iniciais. A Figura 5-6 traduz a grande quantidade de dados descartada.

A Figura 5-7 relaciona a proporção das principais causas que integram a base de dados dos 26.282 eventos.

26.282 eventos 23,4% 18,8% 14,4% 9,7% 6,5% 3,6% 3,6% 2,8% 2,7% 2,5% 1,8% 1,5% 1,5% 1,3% Descarga Atmosférica Vegetal

Conexões (todo ponto de ligação) Vento

Animais/Pássaros Ramal de Ligação Poste Podre Condutor Elo Fusível Queimado Sobrecarga Transformador Chave Fusível Condutor Desregulado Abalroamento de Postes 26.282 eventos 23,4% 18,8% 14,4% 9,7% 6,5% 3,6% 3,6% 2,8% 2,7% 2,5% 1,8% 1,5% 1,5% 1,3% Descarga Atmosférica Vegetal

Conexões (todo ponto de ligação) Vento

Animais/Pássaros Ramal de Ligação Poste Podre Condutor Elo Fusível Queimado Sobrecarga Transformador Chave Fusível Condutor Desregulado Abalroamento de Postes

Figura 5-7 – Proporção dos principais registros de causas de desligamento não programados.

5.3.2 Mineração de Dados

Na etapa de Mineração, foi empregado um conjunto de regras de classificação baseadas no conhecimento de especialistas, permitindo-se a predição de variáveis que estavam implícitas no banco de dados original. O resultado disso é o mesmo número de eventos (26.282), mas com as variáveis de entrada e saída atribuídas no item 5.2. Através desta técnica, foram obtidas as variáveis: Clima, Objetos, Elemento de Interrupção, Vento e

Causa. Isto é possível através da associação dos 6 campos do banco de dados-base,

permitindo-se a extração de novas informações a partir de outros dados, conforme ilustra a

Figura 5-8. O conjunto de regras de classificação é o mesmo adotado na referência de

Figura 5-8 – Processo de Mineração

O campo de dados da variável vegetação foi obtido por meio da classe Alimentador, que indica o município em que ocorreu a interrupção. De maneira semelhante ao descrito na referência de Tronchoni (2008), por meio do algoritmo k-means foi verificado o quão representativa a causa vegetal ocasiona em faltas de energia em determinado região. Desse modo foi estimado se as regiões pertenciam a áreas de vegetação densa de acordo com a localização dos municípios, dada pela variável Alimentador, permitindo inferir os estados

Podado e Não Podado. A variável Elemento Específico foi obtida apenas por meio da

repetição do registro Elemento de Interrupção, estabelecido pelo próprio eletricista no momento do reparo.

As informações contidas nos campos Data e Hora podem fornecer mais dados de entrada para caracterizar falhas relacionadas com essas variáveis. Conforme o item 2.3.3, em horários de pico de dias quentes, por exemplo, a ocorrência de falha por sobrecarga possui maior chance de ocorrência. Para fazer a correlação aproximada entre temperatura do dia e épocas do ano, os dados do tipo Datas foram organizados segundo os seguintes grupos, ou

Tabela 5-1 – Conversão de datas em estados correspondentes da variável Estação.

De forma semelhante, os diferentes horários de desligamento podem ser agrupados em 3 clusters indicando, por aproximação, os turnos: matinal, vespertino e noturno. Na tentativa de corresponder os horários de maior carregamento, as horas em que cada grupo se enquadram foram definidas a partir de cada turno de uma indústria multinacional, equivalendo aos seguintes horários:

Tabela 5-2 – Conversão de horas em estados correspondentes da variável Turno.

Após a criação de todas as variáveis de interesse, considerou-se que o banco de dados estava apto para para um processo de análise de suas informações, descrito nas etapas seguintes.