ja_mageia

Please select a category for JA Newsflash!
Início Artigos Por que usar sistemas automáticos?
Por que usar sistemas automáticos? Versão para impressão Enviar por E-mail
Artigos - Investimentos
Escrito por Melao   
Quinta, 16 Setembro 2010 00:22

 

Uma série histórica de cotações é um imenso arquivo de dados com registros de cotações reais que ocorreram no Mercado. Podem conter registros diários com valor de abertura, fechamento, máximo e mínimo de cada dia, que são as OHLC (Open, High, Low, Close final de dia), ou podem conter registro em diferentes outros períodos, ou granulações: de hora em hora, de 15 em 15 minutos, de 1 em 1 minuto, ou até mesmo conter todas as cotações de todos os negócios (ticks) que foram realizados em determinado ativo, às vezes com vários ticks por segundo nos horários de maior liquidez. Um histórico desde 1971 até hoje, por exemplo, pode conter mais de 41.000 registros de cotações diárias (4 para cada dia). Um registro tick-by-tick, isto é, com todas as cotações, em apenas 1 semana pode ter mais de 60.000 registros de cotações. Temos dados tick-by-tick em algumas divisas desde 1998, portanto mais de 35.000.000 de registros de cotações para cada divisa. Cada registro informa data, horário, preço e volume em que cada negociação foi realizada, de modo que se pode usar esses arquivos para simular como seria operar em diferentes épocas. Desde que a simulação seja feita adequadamente, lendo as cotações na ordem que ocorreram, sem se antecipar, e se os registros estiverem corretos, não há diferença entre a simulação e a situação real, de modo que os resultados obtidos na simulação são iguais aos que teriam sido obtidos se a mesma estratégia fosse aplicada no mesmo período em operações reais no Mercado.

Na prática, porém, os registros nem sempre estão corretos, havendo erros cometidos por quem os anotou, ou transcreveu, ou digitalizou. Além disso, há casos em que falta um dia nos registros, ficando uma lacuna. Às vezes pode faltar até uma semana inteira. Algumas séries históricas têm “remendos” em que estes dados faltantes são preenchidos usando registros de outras fontes. Tudo isso faz com que os registros não sejam exatamente iguais aos dados reais, e a simulação acaba não sendo perfeita. Para lidar com esse problema, adotados dois procedimentos:

1) Editamos os dados, filtramos os ruídos, corrigimos os erros que são detectáveis, processamos a base de dados de modo a normalizar o aspecto geral das cotações, deixando-a tão similar quanto possível à situação real. Para proporcionar uma idéia do tipo de processamento que fazemos com os dados históricos, recomendamos a leitura deste artigo: http://www.saturnov.com/artigos/4-investimentos/75-ferias no qual usamos um exemplo didático, com fotos planetárias processadas com auxílio de ferramentas estatísticas.

2) Mesmo após o tratamento das séries históricas, ainda ficam alguns resíduos de inexatidões. Então fazemos diversos testes para medir a diferença entre os dados registrados em comparação aos dados reais, e, o mais importante, quais as diferenças que estas inexatidões produzem nas performances de uma estratégia.

Nosso procedimento 1 nos assegura a máxima precisão entre simulação e situação real, e nosso procedimento 2 nos permite ter uma idéia sobre o erro máximo que podemos esperar na predição da situação real com base na simulação. O que pudemos observar é que para testes realizados num histórico de 12 anos, se as cotações tiverem sido registradas somente ao final do dia, o resultado do teste difere em menos de 1,5% do resultado obtido usando cotações tick-by-tick. Ou seja, digamos que no histórico final de dia o teste resultasse num lucro anual médio de 25%, então usando a série histórica mais precisa, tick-by-tick, o resultado no mesmo período poderia ser algo entre 24,6% e 25,4%, uma diferença muito pequena e perfeitamente tolerável. Além disso comparamos centenas de operações em tempo real com operações na série tick-by-tick, e verificamos que as diferenças em pontos de entrada e saída de cada operação diferem em poucos segundos nos horários e menos de 0,0001 no preço. Essas diferenças são tão pequenas que equivalem às que se obtém ao operar em duas corretoras diferentes, ou seja, a diferença entre a simulação usando séries tick-by-tick é da mesma ordem que a diferença entre a situação real em uma corretora comparada à situação real em outra corretora. Significa que a simulação em séries tick-by-tick produz resultados indistinguíveis dos que seriam obtidos em situação real, e a simulação é totalmente válida para qualquer finalidade prática desejada.

Se um mesmo sistema, com mesma configuração, rodar em 10 corretoras diferentes, e apresentar resultados finais no balanço +31,05% na corretora com pior resultado e +31,15% na corretora com melhor resultado, então é esperado que uma simulação em séries tick-by-tick no mesmo período, tenha 90% de probabilidade de ficar entre 31,05% e 31,15%. Além disso, fazemos vários testes para saber qual o tamanho da diferença máxima esperada entre simulação e situação real. Isso nos permite fazer prognósticos e saber também qual a pior situação possível em cada prognóstico.

Pois bem, cientes de que sob certas circunstâncias as simulações são representações fiéis da situação real, um dos testes mais básicos consiste em realizar vários estudos em séries históricas num período de 20 anos, entre 1980 e 2000, como se estivéssemos vivendo no ano 2000. Assim, usando exclusivamente dados de 1980 e 2000, formulamos estratégias, testamos cada uma delas, selecionamos as melhores, otimizamos os valores dos parâmetros da estratégia selecionada, com otimização entre 1980 e 1990, e confirmamos se continua a funcionar com os mesmos parâmetros no período de 1990 a 2000. Fazemos estudos sobre as propriedades gerais das performances para conhecer amplitude de variação, uniformidade no crescimento etc. Os 20 anos são desmembrados em períodos de 12 meses, e comparamos cada período com todos os períodos juntos, para conferir se as mesmas propriedades observadas em cada período estão em todos os demais períodos e em cada um considerado separadamente. Isso nos proporciona uma medida importante sobre homogeneidade no desempenho. Com base nisso, e em outros estudos, fazemos previsões de como a estratégia se comportaria daí para a frente.

O passo seguinte consiste em usar a estratégia nos dados históricos de 2001 e verificar como ela se comporta. Se ela funcionar dentro dos limites previstos com base nos estudos de 1980 a 2000, prosseguimos testando em 2002, 2003... até 2010. Isso é basicamente como se estivéssemos vivendo no ano 2000, usando séries históricas de 1980 a 2000 para testar, otimizar e validar a estratégia, e depois a tivéssemos aplicado em situação real nos anos seguintes. A vantagem é que podemos conhecer o resultado em alguns minutos, em vez de esperar 10 anos ou mais. Como utilizamos dados final de dia, o erro esperado é cerca de 1,5% no lucro anual médio. Depois testamos também em 1979, 1978 etc., para conferir se as propriedades no início do período são basicamente iguais às do final do período. Geralmente não são, mas a similaridade é bastante alta. Se os resultados antes de 1980 e depois de 2000 forem de acordo com as previsões feitas com base no estudo de 1980 a 2000, dentro dos limites de margem de erro previstos, podemos supor que usando os mesmos critérios agora, porém com um estudo realizado entre 1990 e 2010, podemreos esperar que em 2011, 2012 etc. essa estratégia também se comportará conforme o previsto, ou até mais semelhante, porque entre 1998 e 2010 usamos dados tick-by-tick, com erro muito menor que 1%. Não fazemos uma suposição arbitrárias de que os resultados devem se manter. Em vez disso, verificamos experimentalmente esse fato entre 1980 e 2000 e constatamos que a estratégia se mostrou homogênea, uniforme, preditiva, estável etc. Portanto nos baseamos em fatos empiricamente testados e confirmados sobre as propriedades da estratégia, da série histórica, da similaridade entre a série histórica e a situação real e da similaridade entre diferentes períodos.

A similaridade entre séries históricas e situação real é altíssima, com diferenças geralmente menores que 0,2% ao usar séries tick-by-tick e menores que 1,5% ao usar séries final de dia. Porém as diferenças entre períodos diferentes são bem maiores. Se o alfa de Cronbach em períodos de 12 meses é cerca de 0,85, isso sugere bastante homogeneidade nos lucros anuais em diferentes períodos. Se o desvio-padrão nos lucros anuais é cerca de 15%, significa que a diferença média anual pode ser cerca de 15%, ou seja, se em 2008 o lucro foi +25%, então em 2009 tem cerca de 67% de probabilidade de ficar entre +10% e +40%; tem 95% de probabilidade de ficar entre -5% e +55%; tem 99,7% de probabilidade de ficar entre -20% e + 70%. Estes números são apenas aproximados, porque a distribuição dos lucros anuais não é perfeitamente gaussiana. Na prática, não observamos nenhum caso de -20%, mas observamos casos de +160%, indicando que a distribuição é assimétrica e com predominância nos valores positivos. Se o lucro anual médio é 25%, não há como saber com certeza se o próximo ano será positivo ou negativo, mas há como afirmar que o próximo tem 84% de probabilidade de ficar acima de 10%, ou 50% de probabilidade de ficar acima de 25%, ou 16% de probabilidade de ficar acima de 40%, etc. Há também como fazer prognósticos com probabilidades para os próximos 3 anos, 5 anos, 10 anos etc. Quanto maior o período, mais estável a performance e maior a probabilidade de acerto na previsão. Por exemplo: o resultado mais provável no próximo ano é +25%, com incerteza de 30% para mais ou para menos. Nos próximos 10 anos, o mais provável também é que o lucro anual médio seja 25%, porém a incerteza é de apenas 10% para mais ou para menos.

Quando dizemos que o resultado mais provável no próximo ano é +25%, com incerteza de 30% para mais ou para menos, isso não quer dizer que a probabilidade de ter -5% seja igual à probabilidade de ter +10% ou +20%. Os valores mais próximos de 25%, que é o valor médio, são os mais prováveis. Quanto mais um valor estiver próximo a 25%, mais provável é sua ocorrência. Basta olhar na tabela da página de entrada para ver um exemplo prático disso, em que o lucro anual médio é +25,07%, o máximo foi +161% e o mínimo foi -17%. Os valores mais distantes de 25% são mais raros, enquanto os valores próximos a 25% são mais freqüentes.

É importante compreender o parágrafo acima, para que se tenha uma idéia mais correta de como interpretar prognósticos de resultados em termos de probabilidades. As projeções de qualquer coisa no universo são sempre em termos de probabilidades. Quando se mede a velocidade de um piloto de fórmula I, o valor obtido é uma aproximação sujeita a uma determinada incerteza. Quando se mede a altura de uma pessoa, ou o peso, o valor também é uma aproximação, e existe uma incerteza associada, que depende tanto de limitações no instrumento de medida (régua, cronômetro etc.) quanto variações no próprio objeto e interferências externas. Se a pessoa for pesada numa região de maior altitude, a aceleração gravitacional será menor, a pressão atmosférica será menor, o contrapeso de metal com maior densidade sofrerá menor empuxo e a medida do peso da peso será um pouco menor que o valor correto. Se o plano da superfície da balança não estiver perfeitamente perpendicular ao vetor gravitacional, isso também afetará a medida. Se a temperatura ambiente causar dilatação térmica, e as partes da balança não se dilatarem igualmente, isso também causará diferença, e mesmo que a dilatação seja uniforme, se as formas e distribuições de massa forem diferentes, isso causará diferença.

Em todas as medidas que se faz, há uma incerteza associada. Quando se usa medidas de uma amostra para predizer as medidas de um elemento proveniente da mesma população da qual foi extraída aquela amostra, as incertezas são maiores. Por exemplo: com base na altura média dos brasileiros, deseja-se estimar a altura de André, que é brasileiro. Não sabemos nada sobre André, mas se ele é brasileiro e a altura média dos homens brasileiros é 1,70m, com desvio-padrão 0,07m, podemos dizer, com 95% de segurança, que André tem entre 1,56 e 1,84. Ou podemos dizer com 99,7% de segurança que André tem entre 1,49m e 1,91m. Ou com 67% de segurança que André tem entre 1,63m e 1,77m. Podemos dizer também que a altura mais provável para André é 1,70m, por ser esta a altura média da população, e por ser a media a mais provável, geralmente coincidente com a mediana e a moda em grandes populações. Não há como saber, com segurança, a altura dele enquanto ele não for medido. E mesmo depois de o medir, podemos apenas reduzir a incerteza, mas nunca conhecer exatamente.

Se em vez de predizer a altura do André, tivéssemos que predizer a altura média de 10 brasileiros homens, também poderíamos dizer que a altura média mais provável é 1,70m, porém os intervalos em que esta média do grupo pode variar são mais estreitos do que o intervalo em que poderia variar a altura de um indivíduo considerado separadamente, com cerca de 67% de probabilidade de a média do grupo estar entre 1,68m e 1,72m, ou 95% de probabilidade de estar entre 1,65m e 1,75m, ou 99,7% de probabilidade de estar entre 1,63m e 1,77m. Quando se trabalha com séries temporais, embora seja ligeiramente diferente, o princípio é o mesmo.

Assim, se temos um histórico de 20 anos em que a performance média é 25% ao ano, com desvio-padrão 15%, podemos predizer que nos períodos futuros a média de 25% será aproximadamente mantida, e que a oscilação ocorrerá dentro de determinada amplitude e com determinada probabilidade. Para períodos mais longos, há mais precisão na predição. Esse é o contexto dentro do qual se deve entender previsões sobre desempenho futuro, com base em resultados passados. Aqui cabe fazer uma extensa crítica às habituais declarações citadas nos fundos de investimento, que dizem: “ganhos passados não são garantia de ganhos futuros”. De fato, nunca são “garantias”, porque nunca há certezas, mas o histórico passado reúne informações muito importantes que ajudam a fazer previsões sobre os limites mais prováveis dentro dos quais se espera que estarão os resultados futuros. Quanto mais extenso for o histórico, mais peso e confiança se pode atribuir às previsões, porque maior é a abrangência e a diversidade de cenários cobertos pelo histórico, portanto mais provável que os próximos cenários sejam similares a algum dos cenários contidos no histórico.