Labeling - Task 1: Dataset Development - Automated Trading System using Machine Learning

3.1 Task 1: Dataset Development

3.1.3 Labeling

Para fins de estudo dos resultados obtidos pelos modelos de RNA gerados, realizou-se a modelagem de um modelo de controle baseado nos modelos tradicionais de análise de séries temporais. Visto as características dos dados estudados e do objetivo do modelo, optou-se pela utilização do método ARCH/GARCH para a modelagem deste modelo de controle.

O modelo

Enquanto séries temporais e modelos econométricos convencionais operam com a suposição de variância constante, o modelo ARCH (Autoregressive Conditional Heterocedasticity) desenvolvido por Engle (1982) considera ser a variância heterocedástica, ou seja, não é constante ao longo do tempo (BOLLERSLEV, 1986).

Uma importante extensão deste modelo é a sua versão generalizada proposta por Bollerslev (1986), denominada GARCH (Generalized Autoregressive Conditional Heterocedasticity). A modelagem GARCH leva em consideração não somente a estrutura autoregressiva, mas também a estrutura de médias móveis descrito pela última parcela do modelo ARCH, podendo também afetar a variância condicional quando esta for estimada.

O modelo GARCH pode ser usado para descrever a volatilidade com menos parâmetros que um modelo ARCH. Neste modelo, a função linear da variância condicional inclui também variâncias passadas.

Assim sendo, a volatilidade dos retornos depende dos quadrados dos erros anteriores e também de sua própria variância em momentos anteriores. Segundo Bollerslev (1996, p.309), um modelo GARCH (p,q) é dada seguinte forma:

onde

Ressaltando-se que q representa a ordem do componente ARCH e p a ordem do componente GARCH.

O modelo GARCH utilizado neste trabalho foi um GARCH (1,1), versão mais simples e mais utilizada em séries financeiras, que pode ser representada por:

Tratamento de dados

Para a realização da modelagem GARCH, fizeram-se necessárias as observações de alguns testes e análises padrão, discutidos a seguir.

Primeiramente, com o intuito de se transformar a série de dados a ser trabalhada em uma série estacionária, realizou-se a conversão da mesma de valores diários (preços) do Ibovespa (IBOV) em uma série de retornos diários deste Índice por meio da equação especificada anteriormente.

A Figura 10 ilustra o comportamento da série original do Ibovespa (IBOV) e da série de retornos do Ibovespa (RIBOV) no período sob análise. Por meio dela, percebe-se visualmente que a série RIBOV, ao contrário da IBOV, apresenta estacionariedade.

-.15 -.10 -.05 .00 .05 .10 .15 20000 30000 40000 50000 60000 70000 80000 250 500 750 1000 1250 _____IBOV_____RIBOV

Figura 10: comportamento da série de preços (IBOV) e de retornos do Ibovespa (RIBOV). Fonte: Dados de Pesquisa, 2011.

Além da observação gráfica, optou-se por também realizar o teste de Dickey-Fuller Aumentado (teste de ADF) em ambas as séries, para verificação da existência ou não de raiz unitária – onde quanto mais negativo o número retornado da estatística de ADF, mais indicativo o teste se torna a rejeitar a hipótese nula de que existe raiz unitária. Por meio deste teste conclui-se que, diferentemente da série IBOV, a série de retornos não apresenta raiz unitária.

Tabela 1: Teste de estacionariedade.

Teste para Raiz Unitária Dickey-Fuller

Série Ibovespa

Série de retornos do Ibovespa

-2,112709 -36,04160

Fonte: Dados de Pesquisa, 2011.

Nota:

O valor crítico a 1% de significância* é de -3.965416;

* Valor crítico de MacKinnon para rejeição da hipótese de raiz unitária.

Através da observação gráfica e do teste ADF, pode-se observar a evidência de que a série de retornos do Ibovespa é estacionária e não contém raiz unitária, sendo assim, em primeira instância, passível de modelagem GARCH. Ademais, observando-se o comportamento da série RIBOV, percebe-se também o padrão diferenciado da variância por meio de concentração de volatilidade durante o período da Crise Econômico-Financeira mundial de 2008-2009 (observações 595 a 968, aproximadamente), sugerindo a necessidade de que um modelo de heteroscedasticidade seja aplicado durante o tratamento da série.

Por meio do estudo das estatísticas descritivas da série RIBOV (Figura11), analisou-se o nível de assimetria e curtose da mesma, bem como o indicador do teste de Jarque-Bera, verificando-se a rejeição da hipótese de normalidade, visto o valor retornado pelo teste de Jarque-Bera ser superior a 6, e observando-se que a série apresenta leptocurtose, demonstrada pelo excesso de curtose e assimetria negativa.

0 50 100 150 200 250 300 350 -0.10 -0.05 -0.00 0.05 0.10 Series: RIBOV Sample 1 1250 Observations 1249 Mean 0.000575 Median 0.001478 Maximum 0.136782 Minimum -0.120961 Std. Dev. 0.020799 Skewness -0.005650 Kurtosis 8.771046 Jarque-Bera 1733.253 Probability 0.000000

Figura 11: Gráfico de distribuição e estatísticas descritivas da série RIBOV. Fonte: Dados de pesquisa, 2011.

Observando-se as funções de autocorrelação (AC) e de autocorrelação parcial (FAC), vide tabela 2, verificou-se a presença de poucos dados fora do Intervalo Assintótico da série, indicando a existência de ruído branco e a não necessidade de se modelar a média da série, evitando-se assim, o aumento do erro embutido no modelo. Logo, o momento condicional da série necessitaria ser modelado segundo uma estrutura autoregressiva da família ARCH.

Tabela 2: Autocorrelação e autocorrelação parcial da série RIBOV.

Retornos RIBOV a1 (p1)* a2 (p2) a3 (p3) a4 (p4) a5 (p5) 2/ ** -0,020(0,020) -0,043(0,043) -0,071(0,073) -0,003(0,009) -0,019(0,026) 0,056569

*ai e pi denotam os coeficientes de autocorrelação e autocorrelação parcial da i-ésima ordem,

respectivamente.

** Limite assintótico da função de autocorrelação

Fonte: Dados de Pesquisa, 2011.

Série: RIBOV Amostra: 1 1250 Observações 1249 Média 0,000575 Mediana 0,001478 Máximo 0,136782 Mínimo - 0,120961 Desv.Pad. 0,020799 Assimetria -0,005650 Curtose 8,771946 Jarque-Bera 1733,253 Probabilidade 0,000000

Embora tenha sido verificada a não necessidade da aplicação de um modelo ARMA, devido a sua característica heteroscedástica optou-se por realizar um modelo ARMA (1,1) com o intuito de se gerar a possibilidade da observação dos resíduos deste modelo, se viabilizando o estudo das variâncias (efeitos ARCH) da série estudada. Para este modelo, utilizou-se um filtro de correção de Newey-West tornando-o robusto à heteroscedasticidade e autocorrelação no processo do resíduo, obtendo-se os resultados ilustrados por meio da tabela 3, abaixo.

Tabela 3: Resultados do Modelo ARMA (1,1) para geração de resíduos para estudo. Equação de Variância

Coeficiente Erro Padrão Estatística-z P Valor AR (1) MA (1) 0,737926 -0,790481 0,189690 0,173818 3,890165 -4,547755 0,0001 0,0000

Critério de Informação de Akaike - 4,911962

Critério de Informação de Schwarz - 4,903742

Máxima Verossimilhança 3067,064

Fonte: Dados de Pesquisa, 2011.

Uma vez de posse dos resíduos gerados por meio do Modelo ARMA (1,1), pôde-se aplicar o teste de ARCH de Engle (1982) para estudo dos mesmos (tabela 4).

Tabela 4: Testes de efeitos ARCH.

TESTE ARCH 1 lag 5 lags 10 lags 20 lags

F-statistic 51,55367 88,21203 64,54719 39,39459

p-valor 0,000000 0,000000 0,000000 0,000000

Fonte: Dados de pesquisa, 2011.

Conforme os p-valores, os testes para efeitos ARCH fornecem fortes evidências contra a hipótese nula de não haver heteroscedasticidade condicional na volatilidade dos modelos para a série estudada (RIBOV).

In document Automated Trading System using Machine Learning (sider 51-54)