• No results found

3. Estat de la qüestió

3.7 Folklore: passat i progrés

A avaliação das RNA neste trabalho foi realizada através da taxa de acertos de classificação obtida através de uma matriz de confusão entre a classe prevista (classe de saída) e a classe verdadeira (classe real ou observação). Na matriz, cada coluna representa um (5.11)

resultado previsto, enquanto cada linha representa o resultado real. A Tabela 6 mostra uma matriz de confusão para avaliar os modelos de classificação realizados neste estudo (FAWCETT, 2006).

Tabela 6 - Matriz de confusão para avaliação dos modelos de classificação.

CLASSE PREDITA

CLASSE REAL VP FN

FP VN

P N

Para um problema de apenas duas classes, como será apresentado neste trabalho, pode- se denotar uma classe como sendo positiva e outra como negativa. A partir da matriz de confusão da Tabela 6, obtém-se:

• VP corresponde ao número de verdadeiro positivo, isto é, é o número de elementos classificados corretamente como positivos pelo classificador.

• VN corresponde ao número de verdadeiros negativos, isto é, é o número de elementos classificados corretamente como negativos pelo classificador.

• FP corresponde ao número de falso positivo, isto é, é o número de elementos que pertencem à classe negativa, mas que foram classificados erradamente como pertencentes a classe positiva.

• FN corresponde ao número de falso negativo, isto é, é o número de elementos que pertencem à classe positiva, mas que foram classificados erradamente como pertencentes a classe negativa.

• P e N correspondem, respectivamente, a total de elementos positivos e total de elementos negativos.

A partir da Tabela 6 também são expostas possíveis métricas de análises de desempenho do classificador: taxa de VP, taxa de FP, taxa de FN, taxa de VN e a acurácia de classificação, conforme as equações 5.11, 5.12, 5.13, 5.14 e 5.15, a seguir:

PQ Q 20 =R = S=RR T × 100

PQ Q 20 VR = SVRW T × 100

(5.11)

PQ Q 20 VW = SVWR T × 100

PQ Q 20 =R = S=WW T × 100

Q XYá Q = S=R + =WW + R T × 100

5.6.2 GRÁFICO ROC E ÁREA SOB A CURVA (AUC)

As análises dos resultados também foram feitas através das curvas do gráfico ROC (Curvas de Características de Operação do Receptor). O gráfico ROC permite visualizar o desempenho de um classificador (FAWCETT, 2006). No gráfico ROC a taxa de verdadeiros positivos de um classificador é registrada sobre o eixo Y, enquanto a taxa de falsos positivos é registrada sobre o eixo X. A Figura 60 ilustra o exemplo de um gráfico ROC com três pontos.

Pelo gráfico ROC da Figura 60, tem-se:

• A linha tracejada na diagonal representa classificadores que realizam predições aleatórias. Assim, qualquer classificador abaixo dessa linha pode ser considerado pior que o aleatório.

• O ponto (0,1) representa classificadores ideias. Desse modo em termos comparativos entre classificadores, quanto mais à noroeste (taxa de VP é maior e/ou taxa de FP é menor) da linha horizontal do espaço ROC, melhor é o desempenho do classificador (VAN ERKEL; PATTYNAMA, 1998). Esse ponto é chamado de céu ROC, pois, todos os exemplos positivos e negativos são classificados corretamente.

• O ponto (1,0) representa o “inferno ROC”, o ponto (1,1) representa as classificações sempre positivas e o ponto (0,0) representa as classificações sempre como negativas. (5.13)

(5.14)

Figura 60 - Espaço ROC.

Fonte: Faceli et al. (2015)

Outra forma de avaliar a qualidade de um classificador é através do cálculo da área sob a curva (AUC) do espaço bidimensional ROC (VAN LOOY et al., 2006; VAN ERKEL; PATTYNAMA, 1998; FAWCETT, 2006), a qual constitui uma forma aceitável de comparação geral entre desempenhos de classificadores (WOODS; BOWYER, 1997). Um classificador ideal possui AUC=1, isto acontece quando o classificador consegue separar perfeitamente as classes. Para Van Looy et al. (2006) o cálculo da AUC é avaliado como uma medida de qualidade mais sofisticada do que a acurácia geral obtida pelo classificador. Desse modo, obtiveram-se AUC nos casos de estudo desta tese para confirmar a precisão dos resultados obtidos.

5.9 CONSIDERAÇÕES FINAIS

Neste capítulo foi apresentada a técnica de inteligência computacional empregada, neste estudo, para identificar padrões de tempestades de raios. Assim, este trabalho buscou avaliar se a RNA conseguiria identificar padrões atmosféricos que podem evoluir ou não para ocorrência de tempestades com raios. Portanto, no capítulo 6, será descrito o método científico que corroborou com essa hipótese.

CAPÍTULO VI

6 MATERIAS E MÉTODOS

6.1 INTRODUÇÃO

Nesta seção serão descritos os procedimentos metodológicos adotados no desenvolvimento desta pesquisa que consistiu em aplicar redes neurais artificiais e dados de sondagem atmosférica por satélite para propor novo (os) modelo (s) para previsão de raios para a região Amazônica. Para atender este objetivo, inicialmente foram levantados dados de sondagem atmosférica através do satélite NOAA-16, com intuito de analisar estatisticamente, os dados de sondagens verticais obtidos pela passagem deste satélite na região Amazônica. É fundamental que os dados obtidos por sensores orbitais possuam representatividade e fidelidade em suas medições, semelhante ao que se tem através das radiossondagens convencionais.

Dessa forma, Alves et al. (2015) desenvolveram um estudo comparativo entre os dados de sondagem do satélite NOAA-16 e os de radiossondagem convencional. Os dados de radiossondagem empregados estão disponíveis no website da Universidade de Wyoming (UNIVERSITY OF WYOMING, 2017), enquanto os dados dos perfis verticais provenientes do NOAA-16, foram obtidos da estação de recepção do SIPAM CR-BE. Essa comparação foi realizada para a cidade de Belém-PA, com coordenadas 1,38º S e 48, 48º W.

A análise realizada empregou dados diários de sondagens efetuadas às 12:00 UTC, empregando como variáveis meteorológicas testadas, a temperatura do ar e temperatura do ponto de orvalho, a partir dos níveis de pressão atmosférica comuns entre as duas fontes de radiossondagem. O horário de 12:00 UTC é equivalente ao lançamento da radiossonda ao nível mundial, o que coincidiu com a órbita do satélite NOAA-16, na região.

Empregado um teste de hipótese não paramétrico de Wilcoxon-Mann-Whitney, Alves et al. (2015) constataram que as variáveis meteorológicas, temperatura do ar e temperatura do ponto de orvalho, obtidas por meio de radissondagem tradicional e através do satélite NOAA- 16, apresentavam semelhanças estatísticas para a região de Belém-PA. Dessa forma, a validação dos dados de sondagem realizada para o satélite NOAA-16, que encerrou suas operações em junho de 2014, contribui para utilização de dados de outros satélites, com o sensor ATOVS mais aperfeiçoado, como foi o caso do emprego de dados de sondagem do satélite NOAA-19, nesta tese. Bem como expandir a utilização dos dados para outras regiões da Amazônia.

Após o mecanismo de validação local dos dados de sondagem do satélite NOAA, deu- se o emprego à utilização de dados de sondagem atmosférica por satélite para reconhecer padrões atmosféricos relacionados as ocorrências de raios. Destaca-se, novamente, que a característica de originalidades deste estudo científico, se baseia, principalmente em adotar dados de sondagem atmosférica por satélite para prever descargas atmosféricas na região amazônica. Propondo assim, uma nova abordagem de previsão de raios, contribuindo com estudos de previsões de raios em regiões que não dispõem de EMA, principalmente na região amazônica, onde há uma enorme carência destas estações.

Este capítulo descreve inicialmente a área de obtenção dos dados de sondagens através do NOAA-19, realizando-se em seguida uma descrição dos dados para a área de estudo. Apresenta-se, também, o processo de tratamento dos dados realizado através da análise de componentes principais e normalização. Essas etapas iniciais de pré-processamento, descrição geral, foram empregadas em duas abordagens de predição de descargas atmosféricas.

Todas as abordagens utilizaram RNA como técnica preditora, sendo uma descrita, conforme em Alves et al. (2017), na Seção 6.6. Uma outra abordagem de predição de descargas atmosféricas (Seção 6.7), também, é apresentada, diferenciando-se de Alves et al. (2015), pela forma como os dados são apresentados a RNA e pelo aumento da base de dados para simulação.

6.2 ÁREA DE ESTUDO

O estado do Pará é uma região extremamente grande territorialmente. Assim, a região de estudo de emprego desta metodologia de previsão de raios, compreende a seleção de oito áreas localizadas no nordeste do estado do Pará, no Brasil, conforme ilustrado na Figura 61, abrangendo as latitudes 01º S e 02º S e longitudes de 046,5º W e 048,5º W.

O estudo englobou uma área total de 24.961,861 km². Dentre as oito áreas selecionadas para aplicação da metodologia destinada à previsão de raios, apenas em um ponto (Belém), situado na área 01, ocorre sondagem convencional regular, caracterizando as demais áreas como região sem cobertura. Além disto, esta área de estudo apresenta elevados índices de incidência de descargas atmosféricas (PINTO; PINTO JUNIOR, 2003).

Figura 61 - Área de estudo.

Fonte: Autor