2.5 Financial Machine Learning
2.5.5 Why Ensemble Methods and Random Forests are well suited for Finance
A amostra é composta por 126 participantes. Deles, 49,21% são homens, 7,14% possui experiência com ações5 e 70,63% possui alguma experiência profissional (em qualquer área). Os participantes entrevistados são estudantes que cursaram “disciplinas financeiras” ofertadas em 2012.1 pelo Departamento de Administração da UFRN. As disciplinas são: Orçamento Empresarial, Administração de Custos Gerenciais, Administração Financeira I, Administração Financeira II e Mercado de Capitais.
O Gráfico 1 mostra o desvio padrão dos retornos diários da amostra em relação ao número de ativos, tanto para os participantes quanto para as carteiras aleatórias. A linha horizontal representa o risco do índice Bovespa que tomamos como um proxy para todo o universo completo dos ativos disponíveis, se não a carteira do mercado. O conhecido declínio exponencial da relação entre o risco e o número de títulos é evidente tanto para as carteiras dos participantes quanto para as carteiras aleatórias e representa, neste caso, o comportamento do risco diversificável. Enquanto a adição de títulos para carteiras maiores que 20 contribui pouco para a redução do risco, é interessante observar que o risco de uma carteira de 30 ações para ambos os grupos está acima do risco de mercado.
O Gráfico 1 representa a relação entre o risco e o número de ativos para toda a amostra em duas situações: a relação média entre os participantes; a relação média das carteiras aleatórias. Para estes casos, espera-se uma relação declinante exponencial, conforme os resultados apontados pelos manuais de finanças. Os retornos e as medidas de dispersão foram mensurados com base nos dados extraídos do Bloomberg. Tratam-se das cotações diárias de setenta ações comercializadas na BOVESPA durante cinco anos (2007 a 2012).
Para este banco de dados, a relação das carteiras aleatórias é mais baixa que a dos participantes, o que indica menor risco diversificável na composição das carteiras aleatórias, para qualquer tamanho. A linha horizontal é o desvio padão do índice da BOVESPA,
5 Experiência com ações indica que o participante é (ou foi) investidor ou faz (ou fez) curso específico
representante do risco sistemático. O risco total da carteira seria representado pela soma do risco sistemático e o risco diversificável. Deste modo, o risco total das carteiras dos participantes é maior que o risco total das carteiras aleatórias. Além disso, infere-se do gráfico 1 que, para ambos os casos, há pouco ganho de diversificação após a adição do décimo quinto ativo.
Gráfico 1 – A relação entre o risco médio da carteira e o número de ativos para os participantes e carteiras aleatórias
Através do método do desvio padrão dos retornos esperados foram encontrados valores de risco para cada tamanho de carteira (de 1 a 30), para cada um dos participantes. As curvas deste gráfico representam o risco médio diversificável das carteiras dos participantes (em vermelho) e das carteiras aleatórias (em verde), isto é, cada curva representa a média dos seus 126 participantes para cada tamanho da carteira.
Fonte: Elaboração do autor.
Com relação à análise do risco de cada participante (ou análise individual), as curvas para os seus componentes podem ser classificadas de acordo com a forma. As curvas apresentadas neste trabalho não se prestam a categorização “inclinada positivamente”, “inclinada negativamente” ou “não inclinada”. Aqui, dividiram-se as carteiras dos participantes em quatro grupos: Declínio Predominantemente Exponencial (DPE), Declínio Exponencial Errático (DEE), Rápido Declínio seguido por Ausência de Tendência (RDST) e outros (sem tendência; queda, aumento e sem tendência; queda, aumento e queda; queda exponencial seguida de queda linear; convexa irregular; etc.). A classificação dessas curvas é subjetiva, mas esta é apenas uma das várias maneiras de se analisar os padrões dessa relação para os participantes individuais. Ela representa os padrões observados nos tipos de relação
0 1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 Índice da BOVESPA Participantes Aleatórias
entre o desvio padrão da carteira e o número de ativos para os 126 participantes que selecionaram 30 ativos sequencialmente.
Dos Gráficos 2 ao 5 são demonstrados exemplos gráficos de cada um dos grupos assinalados. No Gráfico 2, pode-se constatar uma representação do tipo “Declínio Predominantemente Exponencial”, que é similar ao declínio exponencial observado para a média dos participantes calculada como um todo. Esta imagem não exibe a suavidade quase perfeita do grupo global, mas é bastante próxima. Este tipo de curva representa 43,65% das 126 curvas.
Gráfico 2 – Declínio Predominantemente Exponencial
A curva representa a relação entre o risco e o tamanho da carteira do participante 31, tratando-se, portanto, de uma relação individual, calculada pelo método do desvio padrão dos retornos esperados. A curva vinculada a este participante apresenta o formato exponencial negativo.
Fonte: Elaboração do autor.
O Gráfico 3 mostra uma curva de Declínio Exponencial Errático, uma classificação que representa 34,92% das curvas. Apesar de relacionar as variáveis estudadas de forma exponencial, a função apresenta mais irregularidades que a predominantemente exponencial.
0 2 4 6 8 10 12 14 16 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 Risco da Carteira do Participante 31
Gráfico 3 – Declínio Exponencial Errático
A curva representa a relação entre o risco e o tamanho da carteira do participante 3, tratando-se, portanto, de uma relação individual, calculada pelo método do desvio padrão dos retornos esperados. A curva vinculada a este participante apresenta o formato exponencial errático.
Fonte: Elaboração do autor.
O Gráfico 4 é uma curva de “rápida queda e sem tendência”. Quase 10% das curvas são classificados nessa categoria, que significa que o risco da carteira independe do número de ativos que a compõe.
Gráfico 4 – Rápida Queda e Sem Tendência
A curva representa a relação entre o risco e o tamanho da carteira do participante 69, tratando-se, portanto, de uma relação individual, calculada pelo método do desvio padrão dos retornos esperados. A curva vinculada a este participante apresenta uma ráquida queda e fica, em seguida, sem tendência.
Fonte: Elaboração do autor. 0 1 2 3 4 5 6 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 Risco da Carteira do Participante 3
0 1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 Risco da Carteira do Participante 69
O Gráfico 5 é um exemplo da categoria “outros”, cujo risco da carteira pode ter vários comportamentos menos frequentes para esta amostra. Neste grupo foram congregados vários perfis, tais quais “sem tendência” ou “convexa irregular”, por exemplo.
Gráfico 5 - Outros
A curva representa a relação entre o risco e o tamanho da carteira do participante 121, tratando-se, portanto, de uma relação individual, calculada pelo método do desvio padrão dos retornos esperados. A curva vinculada a este participante apresenta um formato de baixa frequência.
Fonte: Elaboração do autor.
A Tabela 1 apresenta os resultados das classificações das carteiras dos participantes. Nela, encontram-se os seguintes números: em menos da metade (43,65%) dos casos a relação entre o tamanho da carteira e o seu risco é classificada como “Declínio Predominantemente Exponencial”, que é a classificação que mais se encaixa no padrão para todos os participantes agrupados e é o resultado esperado para o caso agrupado. Em aproximadamente um terço (34,92%) dos casos as curvas podem ser caracterizadas como “Declínio Exponencial Errático”. O terceiro grupo com maior frequência é “Rápida Queda e Sem Tendência”, com 9,52%. O grupo “outros” representou 11,90% dos casos. Assim, as curvas que não estão em conformidade com o padrão esperado totalizam 56,34% (34,92% + 9,52% + 11,90%) das curvas dos participantes.
0 1 2 3 4 5 6 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 Risco da Carteira do Participante 121
Tabela 1 – Classificação dos formatos das curvas dos participantes individuais
As classificações representam os padrões observados nas formas da relação entre o desvio padrão da carteira e o número de ações para os 126 participantes, que selecionaram 30 ações seqüencialmente. Os retornos são diários com base em um período de cinco anos anteriores.
Classificação Quantidade de participantes Porcentagens
DPE 55 43,65
DEE 44 34,92
RQST 12 9,52
Outros 15 11,90
Total 126 100
Fonte: Elaboração do autor.
Claro que esses agrupamentos são um pouco arbitrários, mas eles mostram que os padrões irregulares que se desviam da norma não são de todo incomum. Para obter uma medida mais objetiva do comportamento das curvas recorreu-se a outro procedimento freqüentemente utilizado nesta área de pesquisa. Ajustar-se-á uma curva representando o declínio exponencial para cada participante através da seguinte relação:
(9)
Isto é, o desvio padrão (ou o risco) de uma carteira ( é regredido pelo inverso do número de ações ( . Estimou-se essa regressão para cada um dos 126 participantes reais e para cada um dos 126 participantes gerados aleatoriamente pelo software. Cada regressão individual foi feita considerando-se que a variável dependente “desvio padrão (ou risco) da carteira” está em função da variável independente , onde n é o número de ações. Através da esquação 5, foram obtidos valores referentes ao risco para cada tamanho da carteira (de 1 a 30). Deste modo, cada regressão foi realizada utilizando-se 30 observações. O Apêndice D apresenta um exemplo deste tipo de regressão.
A variável independente é decorrente da estratégia ingênua e representa a regra simplista de que o investidor diversifica seus investimentos na proporção , isto é, as quantidades dos ativos investidos são iguais ou possuem mesma ponderação.
As regressões conjuntas (uma concernente aos participantes, outra, às carteiras aleatórias) foram realizadas considerando-se a variável dependente como sendo os desvios
padrões (ou riscos) médios dos 126 casos individuais. A variável independente, assim como no caso de regressões individuais, é o inverso do número de ações que compõe a carteira
As estatísticas descritivas acerca das estimativas dos parâmetros são fornecidas na Tabela 2. Nela, observa-se que os alfas, não surpreendentemente, são altamente significativos, refletindo o simples fato de que o desvio padrão de uma carteira contendo um número infinito de valores mobiliários é claramente diferente de zero. Independente dos ativos que compõem a carteira, o risco inerente à atividade especulativa é positivo para ambos os casos (participantes e carteiras aleatórias).
A análise do beta é muito importante, já que ele indica se há relação entre o inverso do número de ativos e o risco da carteira. Quando essa relação existe, o beta indica também o grau da mesma (por meio da inclinação da curva), isto é, sugere se o risco é elástico6 ou não. Os betas tendem a ter t-estatísticas muito elevadas e poucos não são positivamente significativos. Deste modo, a variável regredida explica na maioria dos casos a variável regressora. Por exemplo, apenas 5 dos 126 casos dos participantes não são significativos e nenhum é negativamente significante – em contraste com 16 casos não significativos e 3 significâncias negativas das carteiras aleatórias.
O R² médio (de todos os casos individuais) é de cerca de 62% e 46% para os participantes e carteiras aleatórias, respectivamente. No entanto, quando se compara o R² gerado pela regressão do grupo (ou conjunta), o coeficiente de determinação das carteiras aleatórias é superior ao dos participantes (88% contra 75%). Isto quer dizer que para o caso médio, as carteiras aleatórias tem maior poder de previsão que as carteiras dos participantes.
Tabela 2 – Estatísticas da regressão da variância da carteira em função de , onde n é o número de ativos por participante e carteira aleatória
Os retornos são diários, com base no período de 2007 a 2012. As regressões conjuntas (ou de grupo) são agrupadas ao longo do tempo. No caso das regressões individuais existem 30 observações para cada um dos 126 participantes. O número de regressões é o número de participantes, isto é, 126. Deste modo obtém-se a média dos resultados de alpha, beta etc. As regressões conjuntas usam 126 participantes vezes 30 = 3.780 carteiras de observações.
Resultados da Regressão
Participantes Aleatórias
Individuais Grupo Individuais Grupo
Regressões 126 1 126 1
Alpha 3,90 2,99 3,51 2,76
Erro Padrão de Alpha 0,14 0,11 0,14 0,07
t (Alpha) 32,64 31,71 31,47 41,03
Beta 5,01 6,03 3,34 4,24
Erro Padrão de Beta 0,60 0,50 0,59 0,29
T (Beta) 9,75 16,02 7,58 14,61
Betas significante e positivo 110 1 90 1
Beta não significativo 15 0 28 0
Beta significativo e negativo 1 0 8 0
R² 0,62 0,75 0,46 0,88
Fonte: Elaboração do autor.
Quanto aos participantes, verifica-se na Tabela 3 que em mais da metade dos casos (57,94%) os valores de R² são maiores que 80%. Isto quer dizer que a variabilidade do risco da carteira é bastante explicada pela variabilidade do inverso do número de ativos. Quase 80% dos valores de R² apresentam valores superiores a 50%, o que indica que os valores de R² são altos, além de possibilitar, na maioria dos casos individuais, que a variável regressora possa ser predita.
Quanto às carteiras aleatórias, verifica-se que em mais da metade dos casos (52,38%) os valores de R² apresentam valores superiores a 60%. Isto quer dizer que a variabilidade do risco deste tipo de carteira é menos explicada pela variabilidade do inverso do número de ativos do que o caso dos participantes.
Tabela 3 – Distribuição de R² nas regressões individuais
Síntese estatística da regressão de variância da carteira em 1/n onde n é o número ou títulos para o participante e carteiras aleatórias. A tabela mostra a quantidade de participantes que apresentou valores de coeficiente de determinação nos intervalos estabelecidos.
Distribuição de R² nas regressões individuais
Participantes Aleatória
R² Freq. Absol. Freq. Relat. (%) Freq. Absol. Freq. Relat. (%)
0% a 10% 6 4,76 26 9,52 10% a 20% 3 2,38 11 12,70 20% a 30% 2 1,59 8 3,97 30% a 40% 8 6,35 12 4,76 40% a 50% 7 5,56 10 4,76 50% a 60% 6 4,76 13 11,90 60% a 70% 6 4,76 8 7,94 70% a 80% 15 11,90 10 11,11 80% a 90% 24 19,05 13 12,70 90% a 100% 49 38,89 15 20,63 Total 126 100,00 126 100
Fonte: Elaboração do autor.
Assim, enquanto muitas das regressões se ajustam bem aos dados, menos da metade dos casos se encaixam perfeitamente ao modelo exponencial estilizado. As carteiras aleatórias mostram uma tendência um pouco menor para ajustar a curva estilizada, já que 107 casos individuais são significativamente positivas, vis a vis 121 das carteiras dos participantes. As carteiras dos participantes contêm menos regressões com R² baixo, por exemplo, 7,14% dos casos com R² menor que 20%, quando para o caso das carteiras aleatórias continham 22,22% menores do que 20%.
De um modo geral, percebe-se que os casos das carteiras aleatórias distribuem melhor a frequência dos valores de R².
Deve-se considerar que os participantes, tendo diferentes graus de aversão ao risco, escolhem consequentemente carteiras com diferentes graus de risco. Agrupando-os se criam problemas porque a variância da variável dependente não é constante em toda a amostra. Conclui-se então que as carteiras dos participantes não se encaixam na hipótese de relação, já que um dos pré-requisitos necessários para a aplicação do modelo é quebrado.