ja_mageia

 

Nossas notícias estão intercaladas com os artigos, ambas na seção de artigos. A maioria das notícias está acessível exclusivamente a cotistas e/ou visitantes registrados. Por favor, dirija-se à seção: Artigos

Início Artigos Saturno V e bases de dados - 4 Novidades
Saturno V e bases de dados - 4 Novidades Versão para impressão Enviar por E-mail
Artigos - Investimentos
Escrito por Melao   
Segunda, 12 Julho 2010 07:26

 

Em 2/6/2010 fui ministrar uma palestra a convite do amigo Vandenei Dogado, Secretário da Cultura em Araçariguama, para professores e alunos da rede municipal de ensino. O tema foi “A importância da metodologia científica nos processos de construção e aquisição de conhecimento”. Foram abordados diferentes assuntos relacionados à Astronomia, Teoria dos Grafos, Ilusionismo e Filosofia da Ciência, tendo como objetivo central comparar situações nas quais aquilo que vemos entra em conflito com aquilo que sabemos, ou aquilo que acreditamos ver (tocar, cheirar, sentir de algum modo) entra em conflito com aquilo que acreditamos saber. Uma das situações interessantes da palestra foi quando fiz uma mágica em que um barbante atravessava uma argola de plástico que era firmemente segurada por uma aluna, sem romper o barbante nem argola. É diferente do truque das argolas de metal que se atravessam, porque aquelas de metal não podem ser examinadas pelos espectadores, enquanto a argola de plástico e o barbante ficam à disposição para serem examinados antes e depois. A pessoa presencia aquilo, e tem a nítida impressão de ver a argola ser atravessada pelo barbante, porém ela sabe que aquilo não é plausível. O que ela acredita ver entra em conflito com o que ela acredita saber. Talvez crianças tendessem a pensar que aquilo foi real, por terem menos experiências acumuladas sobre como o mundo funciona e estarem ainda em fase de aprendizado sobre o que é possível, porém a maioria dos adultos tende a supor que houve algum truque que lhes provocou uma ilusão, pois a convicção que adultos têm no que sabem sobre a natureza cristalina dos sólidos não é compatível com aquilo que pareciam ter enxergado, sendo mais forte a convicção no que acreditam saber do que no que acreditam ver.

 

Uma situação mais interessante é em relação ao movimento da Terra em torno do Sol. Como sabemos que a Terra gira em torno do Sol, se nossa experiência cotidiana nos sugere fortemente que a Terra esteja imóvel, enquanto o Sol, a Lua e as estrelas se deslocam na abóbada celeste de Leste para Oeste? Esta é uma questão muito mais complexa do que a maioria das pessoas imagina. Na Antiga Grécia, quase todos os maiores filósofos acreditavam que a Terra era imóvel e que tudo o mais girava em torno dela, e vários destes filósofos apresentaram modelos cosmológicos nos quais tentaram representar as posições e os movimentos dos corpos celestes. Por alguns séculos, o debate esteve aceso, mas no início da Era Cristã, já estava bem estabelecido como correto o modelo Geocêntrico (Terra no centro do Universo), que havia sido muito bem defendido pelo grande Aristóteles, que era freqüentemente citado como autoridade para justificar a validade deste modelo. O modelo geocêntrico, com os aprimoramentos de Ptolomeu, chegou à Idade Média com um nível de requinte bastante elevado, sendo capaz de possibilitar previsões bastante acuradas nas posições dos planetas. Sob o ponto de vista de muitos, um modelo errado não poderia fazer tão boas previsões. No entanto, era necessário considerar que se tratava de um modelo com abundantes “remendos”, os epiciclos, equantes, deferentes e excêntricos. O uso destes círculos em torno de outros círculos, com diferentes tamanhos e velocidades, equivale ao uso de regressões polinomiais, e se for usada uma quantidade suficientemente grande destas engrenagens, pode-se representar praticamente qualquer tipo de movimento cíclico, inclusive precessão anomalística, draconítica, equinocial etc.

 

Na verdade, pode-se representar movimentos muito mais complexos, tais como este, com 1000 epiciclos: http://www.youtube.com/watch?v=QVuU2YCwHjw . A "órbita" mostrada neste vídeo é realmente desta forma, e para representá-la são usados exclusivamente círculos, cada um com sua velocidade (constante) e tamanho próprio. É o que poderíamos chamar de um hiper-ultra-mega-overfitting, são 4000 parâmetros para representar uma trajetória fechada (1 para o raio de cada círculo, 2 para a posição hierárquica de cada círculo num plano, 1 para a velocidade de cada círculo).

 

O modelo de Copérnico “corrigia” as posições do Sol e da Terra, mas mantinha o uso de epiciclos. Foi somente com Kepler que surgiu a primeira solução “limpa”, usando apenas 1 elipse para representar a órbita de cada planeta, em lugar de complexas engrenagens com vários círculos encadeados. Durante cerca de 2000 anos as pessoas acreditaram num modelo errado, porque não tinham como verificar empiricamente de forma direta ou comparar com experiências anteriores. Só podiam analisar a questão de um ponto de vista teórico e por meio de experimentos indiretos. Precisavam de um modelo matemático, com certas hipóteses, e medidas das posições aparentes do que viam, para comparar e avaliar o quão bem o modelo matemático podia representar o que viam, porém viam em 2D objetos que estavam num espaço 3D, ou seja, não tinham como saber com base apenas na imagem que viam se os planetas estavam mais próximos ou mais distantes que as estrelas. Com o tempo, após anos de observação, deduziram que a Lua brilhava por refletir a luz do Sol, e que as fases da Lua eram devidas à posição dela em relação à Terra e ao Sol, deixando apenas uma parte iluminada, fato que coincidia com a separação angular observada entre a Lua e o Sol para um observador situado na Terra. Se a Lua estava cerca de 180 graus do Sol, ela aparecia inteira iluminada, se estava a 90 graus do Sol, cerca de 50% dela ficava iluminada, quando estava a menos de 40 ou 30 graus do Sol, apenas uma região pequena parecia iluminada, sempre proporcional à sua posição, corroborando a tese de que ela não tinha luz própria e apenas refletia a luz solar. Nos eclipses solares, constatava-se que a Lua passava em frente ao Sol, indicando que a Lua estava mais próxima de nós. Nos eclipses lunares, constatava-se que era a sombra da Terra que se projetava na Lua por ela passar precisamente entre o Sol e a Lua, tampando os raios solares que incidiam sobre a Lua e a faziam brilhar, confirmando que realmente a distância entre a Terra e a Lua era menor que a distância entre a Terra e o Sol. Como não havia eclipses todos os meses, sabiam que o plano do movimento da Lua não coincidia perfeitamente com o plano de movimento do Sol, e somente quando ambos passavam pelos pontos em que os planos das órbitas se intersectam, chamados "nodos", e ao mesmo tempo se alinhavam com a Terra, é que se produziam os eclipses solares ou lunares. Sabiam também que os eclipses solares não eram vistos de todas as cidades, ou eram vistos como eclipses totais em algumas cidades e parciais em outras, isso porque o cone de sombra da Lua, que se interpunha entre o Sol e a Terra, formava um pequeno círculo de sombra na superfície da Terra, e somente pessoas em cidades dentro dessa região de sombra podiam ver o eclipse total. Assim foram construindo um vasto compêndio de conhecimentos obtidos por vias indiretas, usando Lógica e Geometria para deduzir o que não podiam observar diretamente. Mas em alguns casos não dispunham de dados observacionais suficientes e precisavam fazer algumas conjecturas. Por exemplo: viam os planetas Mercúrio, Vênus, Marte, Júpiter e Saturno se moverem em relação às estrelas de fundo, assim como o Sol e a Lua, que também eram considerados "planetas" por se moverem no firmamento, enquanto as estrelas permaneciam fixas umas em relação às outras. Ao longo dos meses e anos de observação, conseguiam determinar as velocidades e os períodos necessários para que cada planeta percorresse todo o firmamento e retornasse aproximadamente à posição inicial, ou pelo menos ao mesmo meridiano celeste. Com base nisso, alguns supuseram que todos os planetas se moviam a velocidades iguais em torno da Terra, de modo que aqueles que levavam mais tempo para percorrer sua órbita era por estarem mais distantes, sendo a distância diretamente proporcional ao período orbital. Essa conjectura não era tão bem fundamentada como as teorias sobre as sombras dos eclipses ou o fato de o Sol estar mais distante do que a Lua, pois não havia razão para ter um bom grau de certeza de que todos se moviam à mesma velocidade, era apenas uma hipótese por simplicidade. O nível de convicção que podiam ter nesse tipo de conhecimento precisava ser menor do que a convicção em conhecimentos obtidos por meios mais rigorosos, mas naquela época não havia um conjunto bem estabelecido de critérios para se fazer Ciência, e como resultado acabaram propondo um complexo modelo matemático para representar a Natureza, em que grande parte se alicerçava em conjecturas que não haviam sido suficientemente confirmadas pela observação. O fato de o Sol levar pouco mais de 365 dias para cobrir o percurso no firmamento, enquanto a Lua levava pouco mais de 27 dias, estava de acordo com o conhecimento de que a Lua ficava mais próxima, com base nas sombras dos eclipses, e algumas observações de ocultações de Marte, Júpiter e outros planetas, que passavam eventualmente por trás da Lua, também estavam de acordo com a hipótese de eles estarem mais distantes do que ela e seus períodos eram mais longos que o dela. Assim tiveram confirmações de que realmente alguns dos corpos com períodos mais longos estavam realmente mais distantes, e generalizaram essa regra. Estava razoavelmente correta, porém a organização de todos os astros com órbitas em torno da Terra não era uma representação fidedigna da realidade sensciente.

Durante vinte séculos se ensinou nas universidades que a Terra está imóvel no centro do Universo, e que em torno dela giram a Lua, Mercúrio, Vênus, o Sol, Marte, Júpiter, Saturno e a esfera de estrelas fixas. Ainda não eram conhecidos Urano, Netuno e Plutão. Foram necessários experimentos mais rigorosos, mais bem fundamentados, medidas mais acuradas e uma interpretação mais profunda, criativa e inteligente da Natureza para compreender a situação e mostrar que seria mais coerente representar esse sistema com o Sol no centro e os demais planetas, inclusive a Terra, girando em torno dele, exceto a Lua que orbitaria em torno da Terra. As tentativas de reformular o modelo começaram com Aristarco, que usou Trigonometria para medir as distâncias relativas do Sol e da Lua, e constatou que o Sol estava cerca de 20 vezes mais distante, portanto era cerca de 20 vezes maior, e como a sombra da Terra projetada na Lua durante os eclipses se mostrava cerca de 3 vezes maior, então o Sol deveria ser cerca de 7 vezes maior que a Terra. Com base nisso, Aristarco propôs que o Sol deveria estar imóvel no centro, e a Terra girar em torno dele, como os demais planetas, pois achava que seria estranho ter um corpo maior (como o Sol) girando em torno de um menor (como a Terra). Porém o argumento dele era frágil em comparação aos poderosos argumentos de Aristóteles, que defendia o ponto de vista contrário. Aristóteles afirmava que se a Terra estivesse em movimento, cuja velocidade já podia ser aproximadamente calculada na época, como cerca de 2000 km/h em sua rotação, sem contar a de translação, então árvores deveriam ser arrancadas do solo, pessoas deveriam ser projetadas para longe etc. Se isso não acontecia, era sinal de que a Terra estava imóvel. Além disso, se a Terra se movesse, as posições relativas das estrelas de fundo deveriam mudar defeito a um efeito de perspectiva chamado "paralaxe". Os objetos deixados cair em direção ao solo deveriam ficar para trás em relação ao movimento, em vez de cair em linha reta. Entre outros argumentos. Na época, Aristóteles defendeu melhor seu ponto de vista e isso fez com que o sistema Geocêntrico fosse adotado como "oficial" por dois milênios. Foi somente quando Galileu realizou vários experimentos sobre o movimento dos corpos, e mostrou que a interpretação de Aristóteles estava equivocada, que o modelo Geocêntrico começou a ser reconsiderado. Aristóteles falava com base em sua experiência cotidiana, mas nunca fez experimentos sistemáticos para verificar se realmente sucedia conforme ele pensava, ao passo que Galileu realizou alguns dos experimentos que eram citados por Aristóteles e constatou que Aristóteles estava equivocado. Um objeto que fosse deixado cair dentro de uma carroagem em movimento acompanhava o movimento da carruagem, assim como acontecia para corpos que caíam sobre a Terra, portanto o fato de a Terra estar em movimento não produziria nenhum dos efeitos descritos por Aristóteles. Quanto à paralaxe das estrelas, elas simplesmente estavam distantes demais para que pudessem sofrer um desvio perceptível em suas posições. Isso foi corroborado por Christiaan Huygens, que com base na hipótese de Giordano Bruno de que as estrelas eram outros sóis, que só nos pareciam pequenas por estarem muito afastadas, calculou a que distância estaria Sírius, a estrela mais brilhante e supostamente a mais próxima, supondo que ela tivesse mesmo brilho do Sol. Ele fez vários furos, de diferentes tamanhos, num disco de bronze, e colocou o disco em frente ao Sol, deixando passar parte da luz do Sol por cada um dos furos, e tentou estimar qual tamanho de furo deixava passar uma quantidade de luz semelhante à da estrela Sírius. Com base no tamanho do furo e o tamanho angular do Sol, estimou a distância da estrela, que era de fato imensa. O resultado não foi totalmente correto porque Sírius é intrinsecamente cerca de 23 vezes mais brilhante que o Sol, mas já serviu para proporcionar uma idéia aproximada, ainda que subestimada, da distância das estrelas. Com base na distância determinada por Huygens para a supostamente mais próxima das estrelas, ficou claro que a paralaxe seria muito pequena para que pudesse ser medida, e menor ainda para as estrelas mais afastadas. Assim, Galileu derrubou, um a um, os argumentos de Aristóteles, e mostrou ainda que seria mais lógico adotar o modelo Heliocêntrico para representar a disposição dos planetas e do Sol. Galileu constatou, por exemplo, que Vênus tinha fases como as da Lua, o que estava de acordo com a hipótese de Vênus girar em torno do Sol, pois algumas vezes Vênus passaria por trás do Sol em relação a Terra, mas se Vênus girasse em torno da Terra a uma distância menor que a do Sol, então Vênus nunca teria a fase "nova" nem ficaria com menos de 50% de seu disco iluminado. Com o uso de seu telescópio, Galileu confirmou que Vênus possuía fases como a Lua, inclusive com menos de 50% do disco iluminado. Mas isso ainda não era suficiente, pois Tycho Brahe já havia proposto, bem antes de Galileu, um modelo em que o Sol girava em torno da Terra e os demais planetas giravam em torno do Sol. O modelo de Tycho é irrefutável geometricamente, pois basta mudar o referencial e se produz o modelo de Tycho. Mas o conceito de inércia leva a considerar mais razoável e tratável o modelo com o Sol no centro. Atualmente se sabe que a interpretação de Galileu é muito mais coerente e representa melhor uma situação compatível com nossos conceitos físicos. E sabe-se também que foi extremamente difícil confiar mais no que uma análise intelectual da situação sugeria do que naquilo que se observava. Todas as manhãs vemos o Sol nascer a Leste e se pôr a Oeste, enquanto a Terra perece firme e imóvel. Desde que nascemos, repetidamente constatamos esse fato. Então deparamos com uma hipótese que se opõe a essa percepção, e a tendência mais natural é rejeitar a hipótese e confiar no que se vê. Exceto para pessoas com visão mais aguda e capazes de transcender, capazes de analisar cadeias longas e complexas de informações e ponderar quais hipóteses são mais consistentes à luz da Lógica. A grande maioria nem sequer gosta de pensar, preferem simplesmente acreditar no que está à vista, fácil de interpretar, preferem teorias que sejam mais óbvias, mesmo que erradas.

Assim, quando o Saturno V passa por um período de perdas, o mais fácil e trivial é julgar que ele apresenta problemas. O mais difícil é compreender o que fundamenta todos os testes que foram realizados e interpretar as perdas recentes como parte de um histórico muito mais extenso, no qual predominam os ganhos. Há de fato problemas de compatibilidade, não propriamente problemas no Saturno. Uma das diferenças entre o Mercado Financeiro e o Cosmos, é que os planetas não mudam repentinamente de comportamento e  não deixam de orbitar da maneira como faziam antes, as Leis que regem o movimento planetário não mudam repentinamente. Mas o Mercado Financeiro pode mudar em alguns aspectos, e estratégias que valiam nos 10 ou 20 anos anteriores podem deixar de funcionar de um momento para outro, outras podem continuar funcionando, e outras que não funcionavam podem passar a funcionar. Depende de quais propriedades do Mercado se modificaram, depende do quanto se modificaram, depende de a mudança ser transitória ou permanente etc. No caso dos Saturno V 4.x, há períodos, como entre o final de 2006 e 2008, em que ele cai de performance, e há períodos como em 2009 e antes de 2006, em que ele atinge resultados extraordinários. Os métodos usados para otimizar e validar as estratégias do Saturno V nas versões 4.x são apropriados, aliás, mais do que isso, estão entre os melhores e mais rigorosos métodos, porém com base nos dados de 1999 a 2009 não havia como chegar a resultados diferentes daqueles que foram obtidos, e ao adicionar dados novos de 2010 não conseguimos fazer melhorar a situação. O que sabemos sobre as versões 4.x é que são bem fundamentadas e funcionam em Mercados com propriedades gerais que estão presentes na maior parte do histórico de 1999 a 2009, e mesmo nos piores momentos, como entre agosto de 2006 e dezembro de 2008, ainda não fica mal a ponto de comprometer os ganhos obtidos no período anterior, porém o que vemos são perdas persistentes, gerando um conflito entre o que acreditamos saber e o que vemos. É mais difícil lidar com isso do que com um conflito entre que o que acreditamos saber e o que acreditamos ver, porque nesse caso não se trata de “acreditar que vemos”, pois estamos de fato vendo. E não encontramos meios de mudar o Saturno V nas versões 4.x de modo a se ajustar a um cenário no qual não são atendidas as condições necessárias ao seu funcionamento. A solução parece ser deixa-lo hibernando e buscar soluções com novas ou antigas versões que usem estratégias que não dependam das tais condições. Os Saturno V 4.x dependem de algumas propriedades em pequena escala, algumas em grande escala e algumas de transição, diferentemente das versões 3.x, que dependem apenas de propriedades em grande escala, o que as torna menos sensíveis.

Por quase 2000 anos o modelo Geocêntrico foi considerado uma representação mais fiel da realidade do que o Heliocêntrico, até que Kepler, Galileu e depois Newton mostraram que um modelo com o Sol no centro é muito mais coerente, em melhor acordo com os dados observacionais e, o principal, passível de ser rigorosamente e precisamente descrito por um modelo matemático, a Teoria da Gravitação Universal. O modelo anterior não era “explicável”, era apenas operacionalizável. Com Newton surgiram explicações para o motivo de os planetas se moverem daquela maneira, e não de outra, bem como as mesmas regras se aplicavam a qualquer situação que envolvesse massa. A compreensão dos motivos subjacentes ao que se observa é importante por possibilitar generalizações, estratificações, classificações, determinação de causas e efeitos. Além disso, com bons modelos matemáticos se consegue simular situações iguais, semelhantes, um pouco diferentes e muito diferentes daquelas que ocorrem na situação real, bem como medir os efeitos e avaliar as conseqüências de como seria nessa variedade de situações. Nos modelos se pode manter quase todas as variáveis e alterar apenas uma delas, para estudar os efeitos isolados dessa variável sobre o conjunto de resultados, ou analisar conjuntamente a mudança de diversas variáveis interdependentes, entre muitas outras possibilidades. Uma das importantes vantagens do Saturno V 4.x em comparação a outros sistemas e outras versões do Saturno, é que ele se baseia em propriedades gerais do Mercado que estão presentes na maior parte do tempo entre 1999 e 2009, e as simulações em back tests com controle destas variáveis possibilitam alcançar performances altíssimas quando as condições são atendidas. Mesmo que tenhamos temporariamente que renunciar ao uso do Saturno V enquanto as condições de que ele precisa não forem atendidas, e em lugar dele usar outras versões, ele fica com louvor num “banco de reservas” dourado, à espera de que as condições para seu uso voltem a ser atendidas ou à espera de um critério suficientemente preciso que o deixe rodar intermitentemente quando as condições estiverem satisfeitas e interromper as operações com suficiente agilidade quando as condições deixarem de ser atendidas. O Saturno V nas versões 4.x é claramente mais inovador do que os 3.x e os posteriores. Os 3.x são basicamente as idéias de Ed. Seykota com tratamento suficiente para funcionar. Apesar de ser extremamente difícil partir das idéias de Seykota e chegar ao ponto de torná-las lucrativas, é comparativamente muito mais fácil de propor idéias novas e funcionais e depois as tornar lucrativas, como no caso dos Saturno V 4.x. Mais do que isso, as idéias que fundamentam a estratégia das versões 4.x geram lucros muito maiores do que jamais podem ser alcançados com as idéias de Seykota, e se baseiam em propriedades muito mais reconditamente ocultas do que os evidentes cruzamentos de médias móveis que são o espírito da estratégia de Seykota. A dedução da estratégia das versões 4.x requer um escrutínio muito mais profundo e maior sensibilidade, porque são propriedades mais complexas, misturadas a outras propriedades e a ruídos, e que não se manifestam explicitamente, por isso não são passíveis de descoberta por um simples estudo visual de gráficos, como no caso das médias móveis. As propriedades em que se baseiam as versões 4.x só são perceptíveis mediante experimentos e aferições realizados especificamente com o propósito de detectar a presença ou ausência de tais propriedades, com análise das cotações em avançados softwares estatísticos, não numa simples plataforma de visualizar gráficos como o Meta Trader. A proporção em que estão presentes estas propriedades em diferentes cenários, bem como a evolução destas propriedades ao longo do tempo, são alguns dos elementos considerados para concepção da estratégia e seleção dos melhores genótipos após as otimizações dos parâmetros. Não quero, com esta comparação, desmerecer o fantástico trabalho de Seykota com as médias móveis, ele foi pioneiro numa área e é praticamente o pai da gestão automática. Porém as versões 4.x do Saturno V se encontram num outro plano, assim como Livermore e Marty Schwartz não foram apenas traders de sucesso, eles foram sui generis, com performances que não são igualadas por outros grandes traders. Num artigo anterior, recordo-me de ter comentado que uma Ferrari com um pneu furado ainda é uma Ferrari. Ela pode não andar durante algum tempo, em parte porque pistas que não sejam suficientemente boas são incompatíveis com ela. Mas isso não tira da Ferrari seu valor, e tão logo seja possível, ela volta a funcionar, ou porque as pistas foram consertadas, ou porque a Ferrari foi adaptada para funcionar em pistas mais hostis, ou porque a Ferrari incorporou algum dispositivo capaz de selecionar as pistas apropriadas antes de entrar nelas. É apenas questão de tempo. As versões 4.x do Saturno V são como Ferrari Enzo ou Bugatti Veyron. Do mesmo modo que são capazes de performances muito mais altas, também exigem muito mais cuidados. Já tivemos evidência suficiente de que as versões 4.x funcionam em cenários específicos, tanto em back tests quanto em contas demonstrativas e reais, e é questão tempo até que as 4.x voltem a ser usadas. Enquanto isso, vamos usando nossos Hilux Toyota, sem a mesma potência das Ferrari, sem o mesmo valor agregado, mas capaz de sobreviver em terrenos mais acidentados.

As versões 3.x, bem como as versões R e 6.0, que estamos desenvolvendo, são direta ou indiretamente derivadas das idéias de Seykota. As versões 4.x não se baseiam em idéias anteriores. Elas são realmente inovadoras e muito bem fundamentadas em propriedades presentes em mais de 85% do tempo entre 1999 e 2010, inclusive em trechos do período entre 2006 e 2008. A abordagem que damos às idéias de Seykota nas 3.x é interessante e eficiente, porém elas não conseguem o desempenho das 4.x. No cenário atual, no entanto, só conseguimos fazer com que funcionem as 3.x, e enquanto continuamos a trabalhar nas 4.x, deixaremos funcionando as 3.x, R e outras.

Mas como podemos saber que as 3.x de fato funcionarão nessa situação, se as 4.x não se saíram bem?

Uma das diferenças entre a ilusão da argola sendo atravessada pela linha e a ilusão de que tudo gira em torno da Terra é que nossas experiências cotidianas nos fornecem abundantes evidências de que o barbante não pode atravessar a argola, ou seja, não é apenas uma questão de acreditar naquilo que o pensamento nos sugere. Além disso, temos muitas experiências sensoriais em que vimos que esse tipo de fenômeno não pode acontecer. São 100% de casos em nosso histórico, com muitos milhares ou milhões de situações, em que constatamos que objetos sólidos não atravessam outros objetos sólidos sem que pelo menos um deles seja rompido no processo. Em contrapartida, para considerar que o modelo Heliocêntrico, com o Sol no centro, é mais coerente do que o Geocêntrico, não há como se afastar bilhões de quilômetros e observar de longe o que acontece. Em vez disso, a solução precisa ser num âmbito abstrato, por meio da análise mental de vários fatos e evidências, que são organizados de modo a formar uma série de proposições lógicas que conduzem a uma conclusão. Trata-se de uma questão que envolve Geometria, Lógica e conceitos de Física. Não há experiências vivenciadas anteriormente para comparar, como no caso da mágica. Em vez de experiências, é preciso teorizar os modelos e comparar os pontos favoráveis e desfavoráveis a cada um. Em alguns aspectos, é semelhante à situação de um sistema de investimentos que deveria produzir lucros, mas esteja causando perdas. Qual o nível de segurança na hipótese sobre o sistema gerar lucros? A confiança em que funciona é suficientemente forte para se opor ao fato concreto de que esteja causando perdas?

Há uma dificuldade adicional nessa situação, em relação à análise comparativa do Heliocentrismo e Geocentrismo, porque no caso do sistema de investimentos, estamos lidando com probabilidades. Um excepcional jogador de Poker tem muito mais dificuldade de provar sua supremacia entre um grupo de bons amadores do que um excepcional jogador de Xadrez. O enxadrista simplesmente ganha quase 100% dos jogos contra os oponentes de menor força. Um jogador de Xadrez com rating 500 pontos maior, tende a vencer 95% das partidas contra 5% do oponente com rating menor. Porém o jogador de Poker com 500 pontos de rating maior tende a vencer pouco mais de 55% contra 45% do oponente com rating menor, isso porque o fator sorte tem um peso muito maior no Poker do que no Xadrez. Na disputa de 1 partida, o jogador de Xadrez com 500 pontos de rating a mais quase certamente vencerá, mas o melhor de Poker terá chances quase iguais às do oponente. Só depois de muitas partidas é que o melhor no Poker começará a firmar sua supremacia. Em 10 jogos de Poker, talvez o melhor ganhe apenas 4 ou 5, porém depois de 200 jogos, já deve ganhar mais de 100, talvez mais de 110. Além disso a medida é feita pelo dinheiro ganho, não pela quantidade de partidas ganhas. Nos investimentos é mais complexo ainda, porque em vez de manter aproximado equilíbrio dos competidores, enquanto a supremacia não se estabelece, pode ocorrer um período relativamente prolongado de perdas. Um campeão de Poker dificilmente perde 10 jogos seguidos contra um amador, porém um bom sistema de investimento pode realizar 10 operações perdedoras consecutivas, ou até mais.

O que temos então que analisar para saber se um sistema de investimentos ou uma determinada estratégia é boa ou ruim? A resposta a essa pergunta daria muitas páginas, ou talvez muitos livros. Mas tentaremos resumir e focar nos elementos principais. Antes seria interessante definir o que é um sistema “bom”. Em minha concepção, um bom sistema precisa render mais que a maioria das outras alternativas de investimento, sem para isso assumir riscos maiores, mantendo essa superioridade em períodos suficientemente longos, de algumas décadas, por exemplo. Partindo disso, vamos conjecturar um pouco:

1) É razoável a hipótese de que um longo histórico de cotações de um instrumento financeiro(*) apresenta uma variedade suficientemente grande de cenários para representar a maioria dos próximos cenários futuros deste mesmo instrumento, sob o prisma de um conjunto específico de critérios de compra e venda? Ou seja, uma estratégia que se mostra eficiente num histórico de cotações suficientemente longo e diversificado, pode ser considerada promissora para uso com base em que os próximos cenários não devem diferir fundamentalmente da farta variedade de cenários que já se produziu no longo histórico considerado?

2) Um histórico mais longo tem probabilidades maiores de incluir uma variedade maior de cenários e, portanto, de conter situações similares às dos cenários futuros quanto à aplicação dos mesmos critérios de compra e venda?

3) Uma determinada estratégia, com critérios quantitativos para estabelecer pontos de compra e venda, que sejam definidos por parâmetros cujos valores são testados dentro de certos intervalos históricos, considerando um total de alguns quintilhões de possibilidades diferentes para os valores que estes parâmetros podem assumir, reduzidas a cerca de 10.000 possibilidades com auxílio de um algoritmo genético, a fim de tornar a quantidade operacionalizável, e entre estes possíveis valores dos parâmetros se encontram alguns valores específicos, mediante otimização, que fazem com que a aplicação desta estratégia produza determinado nível de lucro num certo intervalo. Se aplicar esta mesma estratégia, com os mesmos valores encontrados para estes parâmetros no período de otimização, num período diferente, e continuar a produzir lucros semelhantes àqueles obtidos no período da otimizado, sendo ambos os períodos suficientemente extensos e o número de operações realizadas suficientemente grande, como devemos interpretar isso? Por exemplo: uma otimização feita entre 2000 e 2002, com 100 operações, gerando lucro anual médio de 25% com máximo drawdown de 20%, e depois se verifica que com os mesmos parâmetros encontrados para a otimização no intervalo de 2000 a 2002, a estratégia continua a produzir lucros em torno de 25% ao ano entre 2003 e 2010. O que podemos inferir a partir disso?

 

(*) O termo “instrumento financeiro” é genericamente utilizado para representar qualquer ativo, derivativo, divisa, índice, commodity, fundo etc.

 

A maioria das pessoas concluiria, com base nestes 3 parágrafos, que se tem evidência suficiente de que uma estratégia com tais características é promissora. Mas estaria totalmente equivocada. Na verdade, mais de 99,99% das estratégias que atendem apenas a estas condições, são completamente inúteis. Nosso nível de rigor vai muito além. Para começar, é necessário conferir a fidedignidade dos dados históricos sobre as cotações.

 

Os gráficos abaixo representam as cotações de EURUSD proveniente de duas fontes diferentes:

 

 

Os dados utilizados para plotagem destes gráficos são confiáveis? Qual deles é melhor?

 

Não há como responder a isso com base apenas nos gráficos. Ambos são iguais, dentro dos limites do que se pode enxergar. Porém cada um dos candles exibidos resume todas as cotações ocorridas em cada intervalo de 5 minutos em apenas 4 informações: Open, High, Low, Close ou OHLC. A parte invisível das informações contidas no interior dos candles pode fazer toda a diferença. A quantidade de dados indisponíveis é imensa. O gráfico exibe menos de 1% do total de informações sobre as cotações.

 

Nessa situação, ou se tem o interior dos candles preenchido com os dados reais, ou eles são preenchidos por um programa como o Meta Trader, que gera as cotações que servirão para preencher cada candle, sem as quais o examinador de estratégias não tem como operar. Veremos mais adiante que o Meta Trader faz isso de maneira terrivelmente primária e nociva. Isso não invalida a base de dados, nem a plataforma, mas exige que sejam utilizadas com cautela, seguindo vários procedimentos para assegurar que os resultados obtidos não sejam inflacionados. Também veremos mais sobre isso adiante.

 

Além da qualidade da base de dados, há que se considerar as propriedades da plataforma, as características da estratégia, a metodologia usada etc. Neste artigo descreveremos com um pouco mais de detalhes e de forma um pouco mais didática o que já discutimos em artigos anteriores, como são feitos nossos testes, como precisam ser as bases de dados, como selecionamos os resultados, como validamos uma estratégia etc.

 

Começaremos por citar 4 novidades interessantes:

 

1) Estamos com uma base dados mais extensa e re-processada.

2) Desenvolvemos mais um método para acelerar otimizações sem perda na qualidade.

3) Desenvolvemos uma nova versão: Saturno V R.

4) Reativamos várias versões antigas, desde 2007.

 

Foram editadas algumas bases de dados mais extensas do que as que estavam sendo utilizadas e foram realizados alguns testes com versões antigas e recentes do Saturno V, bem como com o Guinho 2008, Melao_Tendencia, Papaleguas e outros, para verificar como se sairiam em períodos posteriores aos que foram criados e anteriores aos dados mais antigos disponíveis na época. Os testes foram feitos com os parâmetros que eram considerados os melhores na época. Nos casos em que temos arquivados os relatórios de otimizações, escolhemos também algumas outras configurações além da que foi considerada a melhor na época e, por fim, testamos com novas otimizações usando exclusivamente dados da época (geralmente 1999-2007) e outras usando dados novos, de 1998-2010 ou 1979-2010, quando possível.

 

Os dados de 2000 em diante podem usar conjuntamente séries da Gain Capital, DiskTrading e MetaQuotes. Dados posteriores a 2004 podem incluir também bases da Alpari. Dados posteriores a 2001 podem incluir uma série que esteve disponível por algum tempo no eMule. A combinação destas bases possibilita algumas edições que eliminam a maioria dos erros, tornando os dados mais recentes um pouco mais confiáveis, por haver maior variedade de fontes de comparação para a detecção de erros. Dados a partir de 1/1/1999 estão disponíveis nas bases da MetaQuotes e DiskTrading. Agora a MetaQuotes só disponibiliza dados a partir de 1/10/1999, mas nas bases antigas, disponíveis em 2006, havia desde 1/1/1999. A DiskTrading disponibiliza dados desde 20/4/1998. Estas são fontes de dados tick-by-tick e minuto a minuto. Além destes, a MetaQuotes disponibiliza dados final de dia desde 1989 para EURUSD, 1978 para alguns outros pares, 1975 para outros pares e até 1971 para coroa dinamarquesa e coroa norueguesa, por exemplo. A Disk Trading oferece dados desde 6/3/1979 para EURUSD, porém no ponto de encontro com os dados da Meta Quotes, em abril de 1989, os dados da DiskTrading não combinam com os da MetaQuotes, sendo necessário um ajuste nesse ponto. Lembrando que cotações do EURUSD não existem antes de 1999 porque o Euro só passou a ser cotado em 1999, e só passou a existir como moeda física em 2002. Os dados anteriores usam diferentes métodos para representar aproximadamente o que poderia ser considerada cotação do euro, caso ele existisse. A Olsen Data, por exemplo, usa a coroa dinamarquesa. Outras fontes usam o marco alemão. Também é possível usar a cotação combinada de algumas ou todas as moedas que serviram para compor o euro, o que pode ser feito com uma média simples ou ponderada, dependendo da disponibilidade de dados. Basta calcular a proporção entre a moeda e o euro na data da emenda e aplicar a mesma proporção no resto da série daquela moeda para convertê-la em euro. Naturalmente é necessário escolher moedas que sejam fortemente correlacionadas com o Euro, por esse motivo a Olsen usa coroa dinamarquesa.

 

Todas as bases cruas, tal como são disponibilizadas nas fontes, apresentam diversos erros. De modo geral, dados mais antigos apresentam maiores probabilidades de que os erros sejam mais graves e freqüentes, mas há algumas exceções. Além disso, os dados mais recentes podem ser corrigidos de diversas maneiras, comparando fontes diferentes. Quando não há mais de uma fonte, a correção é feita por outros meios. Descreveremos resumidamente como é feita uma das correções:

 

1) Geramos no Excel números pseudo-aleatórios com distribuição normal, com média 0 e desvio-padrão igual ao das cotações no período considerado, incluindo OHLC. A quantidade de números aleatórios é igual à de cotações que serão analisadas. Exemplo: temos um período de 30 dias entre 1/1/1980 e 30/1/1980, com cotações final de dia, então geramos 30 números pseudo-aleatórios com média 0 e desvio-padrão 1. Depois multiplicamos cada um destes números pelo desvio-padrão no intervalo das cotações entre 1/1/1980 e 30/1/1980. Estes números são colocados numa coluna ao lado das colunas de cotações. Isso foi feito em EURUSD em dado final de dia no período de 6/3/1979 a 5/7/2010, e foi feito em dados minuto a minuto entre 20/4/1998 e 5/7/2010. Mais adiante explicaremos porque a necessidade de fazer até 5/7/2010 nos dois casos.

 

2) As cotações OHLC foram colocadas em 4 colunas adjacentes e ao lado delas uma coluna com os pseudo-aleatórios.

 

3) Calculamos a média e o desvio-padrão 5 linhas acima e 5 linhas abaixo de cada cotação, incluindo no cálculo OHLC de cada linha, e calculamos a média de cada linha OHLC, e colocamos estas médias locais, média da linha e desvios-padrão locais em colunas ao lado das anteriores.

 

4) Comparamos cada valor de Open, High, Low e Close de cada linha com as médias da linha e a média local. Quando a diferença entre “Open” e a média da linha era maior que 2,7 desvios-padrão, mantinha o sinal da diferença e usava a média local +/- k * número pseudo-aleatório da respectiva linha. O mesmo no caso de “Close”. Quando a diferença entre “High” e a média da linha era maior que 2,7 desvios-padrão, usava a média local + 2,7 * k * número pseudo-aleatório da respectiva linha. O mesmo para “Low”, porém com “- 2,7 * k”. Assim quando um candle era excessivamente grande devido erros, ele teria boas probabilidades de ser detectado e corrigido.

 

5) O valor de k foi determinado com base no fator médio de ajuste necessário para igualar os candles destoantes desta região desconhecida de modo a serem equivalentes ao uso da mesma fórmula para uma região cujo tamanho verdadeiro dos candles era conhecido (no caso foi usado o período de 2006 a 2010). Exemplo: Pegamos uma base ruim de 2006 a 2010 e a corrigimos usando um valor de k tal que os quadrados das diferenças fosse o menor possível entre esta base ruim corrigida e uma base boa com valores mais acurados. Depois esse mesmo valor de k era usado para corrigir os candles nas regiões paras as quais não temos bases boas de referência.

 

Antes desse procedimento, foi realizada uma otimização na relação sinal/ruído. Depois do procedimento descrito acima, foi feita outra otimização na relação sinal/ruído. Depois o mesmo procedimento foi repetido.

 

Como resultado, a base ficou muito mais limpa e muito mais similar aos outros períodos em que não havia tanto ruído nem candles falsos. Com o Excel não há muitas possibilidades e não conheço softwares específicos para edição de séries históricas, mesmo assim, as bases ficaram satisfatórias depois de editadas.

 

Para realizar testes em séries que não sejam tick-by-tick, são necessárias várias medidas antes, durante e depois. Citaremos apenas uma das medidas posteriores, que é a simples comparação em períodos nos quais dispomos de dados completos tick-by-tick. A comparação é feita usando estas bases degradadas em 3 níveis:

 

A) Sem degradação, usando os ticks.

B) Removendo os ticks e deixando que o Meta Trader preencha artificialmente os candles de 1 minuto com ruído branco.

C) Removendo os ticks, os HST de 1 minuto e 5 minutos e deixando que o Meta Trader preencha artificialmente os candles de 15 minutos com ruído branco.

D) Removendo todos os dados intradiários e deixando que o Meta Trader preencha artificialmente os candles de 1 dia com ruído branco.

 

Para a maioria das estratégias, usar uma base de qualidade B na otimização resulta em completo desastre, porém para algumas estratégias específicas, pode-se usar até mesmo o nível D e conseguir resultados aceitáveis. Ao contrário do que alguns pensam, não adianta usar só valor do Open de cada barra, esperando que isso resolva o problema do interior dos candles. Basta comprar resultados para verificar que esse procedimento é insuficiente. Aliás, é desnecessário e muitas vezes prejudicial. São necessários vários ouros procedimentos, se se deseja maximizar a fidedignidade de resultados. Os gráficos abaixo mostram as diferenças entre usar bases de ticks (primeiro gráfico, representando nível A de qualidade), candles de 15 minutos (segundo, nível C) e candles de 1 dia (terceiro, nível D), no Guinho 2009 entre 1/1/2008 e 5/7/2010:

 

 

A similaridade entre o uso de ticks e 15 minutos é surpreendentemente alta. O uso de 1 minuto não é visualmente distinto do uso de ticks nesse período, embora em alguns trechos de USDJPY em 2007, ou de EURUSD em 2006, com candles de 1 minuto que podem chegar a 50 pips, ocorrem alguns erros punctuais de alguma importância.

 

O que podemos observar na comparação entre ticks e 15 minutos é que a forma da curva é muito similar, bem como as proporções são mantidas com boa precisão. O balanço final é maior nos dados de 15 minutos, embora a quantidade de operações seja um pouco menor (72 contra 74), diferindo em menos de 3%. No nível de degradação D a curva fica sensivelmente diferente, mas ainda podemos reconhecer alguma sincronia entre os momentos de subida e de queda, ou seja, se ela estivesse inteiramente caindo, ou com uma queda persistente, poderíamos deduzir que nos dados de 15 minutos ou de tick essa queda se repetiria. Entre os gráficos de qualidade A e C, podemos ver grande similaridade na forma da curva ponto aponto, bem como nas proporções entre os tamanhos dos ganhos e perdas de cada operação, no número total de operações e no balanço final. Já na comparação entre A e D, temos apenas uma indicação geral de que houve um crescimento, e a forma da curva é grosseiramente mantida. A quantidade total de operações é muito menor, e o balanço final também é sensivelmente menor.O nível de qualidade D não fornece informações precisas sobre os pontos que as operações foram realizadas, nem a quantidade total de operações, nem o balanço final, mas como há correlação 0,91 entre as qualidades A e D, pode-se saber com bom grau de confiança se num determinado período a estratégia daria lucro ou prejuízo. Na verdade, se pode bem mais do que isso, inclusive estimar o balanço correto, o número de operações correto etc., com margem de erro relativamente pequena. Com esse conjunto de dados para várias versões e configurações diferentes, rodando em dados recentes em que podemos comparar resultados em séries de ticks com séries final de dia, podemos usar funções, personalizadas para cada situação e estimar as performances que teriam em séries de ticks com base nos resultados obtidos em séries final de dia de períodos anteriores a 1998. No caso do Guinho 2009, por exemplo, os ganhos obtidos entre 1979 e 2008 são de apenas 288% em 20 anos. Quanto seriam os ganhos se a base estivesse mais completa, com dados tick-by-tick? Um dos métodos utilizados consiste em determinar a proporção anual média de ganhos num intervalo em que esteja disponível uma série tick-by-tick. Depois usar essa proporção para encontrar a média provável de ganhos no intervalo em que só se dispõe de dados final de dia. Isso leva a um resultado em torno de 554% nesse período, em vez de 288%.

 

A diferença entre uma base de dados de 15 em 15 minutos e uma base tick-by-tick é brutal. Em cada minuto, num horário de alta liquidez, podem ocorrer mais de 200 ticks, ou seja, mais de 3000 ticks a cada 15 minutos. Porém a maioria desses ticks se concentra num intervalo relativamente estreito que é o tamanho do candle. Se o candle tiver 10 pips de comprimento e se a metodologia de testagem for apropriada, o erro máximo que se pode ter é de 10 pips em cada operação, geralmente ficando em torno de 5 pips, que é metade do tamanho do candle. Se as operações forem muito maiores que 100 pips, a diferença de cada operação na base de 15 minutos em comparação à mesma operação numa base tick-by-tick será menor que 10%, ou seja, a base tick-by-tick terá no mínimo 90% da performance obtida na base de 15 minutos em cada trade. Para muitos trades, essa diferença acumulada pode se tornar grande, e de fato é o que se observa, mas a forma geral da curva de crescimento da carteira é extremamente semelhante. Um dos cuidados que passamos a tomar desde que nosso amigo Marcelo desenvolveu um editor de cabeçalhos FXT, é usar spreads maiores nessas otimizações, para anular essa diferença. Na verdade, já fazíamos algo assim antes, porém com o editor de cabeçalho de FXT ficou mais fácil, preciso e eficiente. Antes era necessário importar as bases HST com o nome de um par com o spread desejado e rodar o back test para gerar o FXT com aquele spread. Exmplo: para testar EURUSD, cujo spread é 2 pips, e se deseja que o teste use spread 5 pips, pode-se importar a base HST de EURUSD com o nome de AUDUSD ou USDCAD, que tem spread 5 pips. Ao rodar o back test e gerar o FXT de AUDUSD (que na verdade usa as cotações de EURUSD), o FXT fica com o spread AUDUSD e as cotações de EURUSD. Isso é possível para quem possui o Build 206 ou anterior do Meta Trader, no qual existe a opção “Recalcular”, conforme indicado na figura abaixo:

 

Esse botão foi suprimido em Builds posteriores, ficando o recálculo ativo como default, e inalterável! Como conseqüência, cada vez que se roda um back test, a base FXT é inteiramente substituída por uma nova, mudando o cabeçalho com dados sobre spread, swap, máximo de lotes, tamanho mínimo de lotes etc. Isso é ruim não apenas por impedir que se salve alterações no tamanho dos spreads, mas principalmente por destruir bases de ticks reais cada vez que se roda um back test. Esta não é a única degradação que o Meta Trader implementou em comparação aos builds mais antigos. Além disso, agora o spread é capturado em tempo real, diretamente do Mercado, em vez de ler o cabeçalho do FXT, e se o teste for rodado num horário de alta liquidez, o resultado fica diferente de rodar num horário de baixa liquidez, já que no segundo caso o spread é maior. Enfim, com o Build 206 é possível alterar o tamanho dos spreads da maneira descrita, mas isso tinha vários inconvenientes, porque o swap não ficava no valor correto, entre outras diferenças. Com o editor de cabeçalho de FXT, as possibilidades são maiores. Se o tamanho médio dos candles de 15 minutos é 12,3 pips e o spread é 2,4 pips, então aumentamos o spread para 14,7 pips antes de iniciar a otimização. Ainda assim costuma haver alguma disparidade, porque às vezes na base de 15 minutos são realizadas algumas operações que não acontecem na de ticks ou vice-versa, mas a soma das diferenças é porém muito pequena. No caso do Guinho 2009, por exemplo, entre 74 operações, em vez de acumular cerca de 10% de erro por operação, o acumulo foi menor que 0,5% por operação. O ajuste no tamanho dos spreads também pode ser por maximum likelihood, em vez de se basear no tamanho médio dos candles, deixando a diferença final menor que 0,1% por operação.

 

Pois bem, se com dados de 15 em 15 minutos conseguimos 99,5% a 99,9% de precisão em comparação a uma base tick-by-tick, mesmo havendo uma diferença brutal entre as bases de 15 minutos e as bases de ticks, qual será a precisão se compararmos a base tick-by-tick com os ticks da cotação em tempo real, que diferem muito menos entre si do que no caso anterior? Em princípio, poderíamos supor que a diferença seria muito menor, com precisão de talvez 99,999%, ou algo assim, mas na prática a diferença é bem maior, deixando a precisão em torno de 98% a 99%. Um dos motivos é que os spreads no mercado real não são fixos como no back test do Meta Trader. Outra diferença é que no back test não ocorrem atrasos nas execuções. O atraso numa execução pode provocar uma diferença de mais de 2 pips, às vezes até 5 pips. Em períodos de alta volatilidade, o spread pode saltar de 2 para mais de 6 pips, algumas vezes mais de 8 pips. Temos como considerar estas diferenças na pior situação possível, usando os piores valores observados, e otimizar nestas condições, assim os resultados esperados em situação real seriam acima dos obtidos nos back tests. Entretando desse modo não chegaríamos aos parâmetros ótimos, mas sim a valores intencionalmente piores que os ótimos. O objetivo principal, do ponto de vista técnico, é encontrar os parâmetros ótimos. Isso requer buscar a máxima similaridade entre situação real e back test, em vez de tentar ter no back test uma situação ligeiramente pior.

 

É relativamente fácil e até meio óbvio de entender porque um back test com dados de 15 minutos não é tão destoante de um back test tick-by-tick, especialmente quando as operações da estratégia são longas. Mas é necessário explicar isso para depois esclarecer que na verdade costuma ser o contrário. Aliás, de 1 em 1 minuto a diferença já é gritante em comparação ao uso de bases tick-by-tick.

 

Vamos começar vendo um exemplo de como não é qualquer estratégia com operações longas que mantém esse nível de similaridade usando dados de 15 minutos ou tick-by-tick. Um sistema básico de tendência, improvisado apenas para comparar, foi testado no mesmo período com qualidades A e C, e apresentou os seguintes resultados:

A quantidade de operações é 14% menor e a forma da curva é muito diferente, bem como o balanço final. Este teste foi com um sistema de tendência, mas seria muito mais grave se fosse com um sistema de scalping, em que as diferenças seriam brutais, como já comentamos nos artigos sobre qualidade de modelagem e sobre o Abominável, que consegue +50.000.000% de lucro em 1 mês, nos dados de 1 em 1 minuto, mas perde mais de 90% no mesmo período, quando roda em bases tick-by-tick ou em tempo real. Os dois gráficos abaixo mostram a situação. O primeiro começou com uma carteira de $ 100, e o segundo com $ 100.000 e risco muito reduzido em comparação ao primeiro, para adiar a quebra. Se usasse mesmo risco em ambas, a segunda quebraria bem antes de completar 1 mês.

 

O mesmo sistema, com mesma configuração, operando no mesmo período, varia entre ganhar 50 milhões por cento e perder quase 100%, pelo simples fato de usar dados minuto a minuto em vez de dados tick-by-tick. Na verdade, não é apenas isso. O problema é que o Meta Trader 4 preenche os candles com ruído branco, que são mais ou menos como na figura à esquerda, enquanto as cotações de ticks reais que produziram aquele candle tinham um aspecto muito mais semelhante à figura à direita:

Não há como saber o percurso das cotações no interior de um candle sem que se tenha os ticks reais, mas é possível representar o mesmo grau de complexidade dos ticks no interior dos candles reais, e a figura à direita é uma fiel representação, enquanto a figura à esquerda é uma péssima representação. Ambos são movimentos aleatórios, porém com propriedades muito diferentes. No caso dos candles, só me preocupei em delimitar máximo e mínimo, mas seria possível facilmente determinar também abertura e fechamento de modo a coincidir com os pontos OHLC do candle. Não é possível saber se o máximo ocorreu antes ou depois do mínimo, exceto quando um deles ou ambos coincidem com abertura e/ou fechamento. Então não haveria como representar a ordem destes eventos no interior dos candles, mas haveria como randomizar de modo a tornar igualmente freqüentes os casos em que acontece antes e os casos em que acontece depois, de tal modo que não favoreceriam nem prejudicariam os resultados na testagem. Não obstante, com uso de ruído branco para preencher o interior dos candles se tem uma situação catastrófica, em que os máximos e mínimos se repetem dezenas de vezes, ou valores próximos aos máximos e mínimos, sendo possível realizar muitas operações consecutivas no interior dos candles que tenham tamanho maior que o spread, mas estas mesmas operações não são reprodutíveis na situação real. Como resultado, os back tests realizados com bases de dados minuto a minuto, em que o Meta Trader preenche os candles com ruído branco, em vez de usar os ticks reais ou, pelo menos, usar um movimento browniano, acabam causando a ilusão de performances astronômicas, mas ao colocar o mesmo sistema em situação real, ele fracassa de forma assustadora. Pior ainda se forem de 15 em 15 minutos, porque quanto maiores os candles, maiores os falsos ganhos produzidos dentro dele.

 

Embora isso já tenha sido dito em meus primeiros artigos desde 2006, sobre a imprescindibilidade de bases tick-by-tick, ainda hoje o mais comum é ver pessoas usando as bases mais fáceis de encontrar, e o fazendo das piores maneiras. Conforme se pode perceber, o problema não é propriamente na base de minutos, mas no preenchimento ruim que o MT faz dos candles que constituem essa base. Agora imagine um candle de final de dia preenchido dessa maneira, em que a amplitude é muitíssimo maior que o spread. Qualquer estratégia de scalping funciona maravilhosamente numa base da dados com candles assim. Nessa situação, são necessários alguns procedimentos para que o ruído branco não cause desastres e quando o sistema for usado em situação real, mantenha boa similaridade com o back test. Também é desejável que durante a concepção da estratégia já se leve em conta esse fator, bem como nas etapas subseqüentes de implementação, otimização etc., assim tudo se harmoniza para que os resultados finais sejam altamente fidedignos. Constatamos que alguns EAs são nativamente apropriados para usar dados final dia, enquanto outros nem sequer tem como ser adaptados para isso. O Guinho 2009 é nativamente apropriado, e na época que o desenvolvi, não estava ainda madura a idéia de usar dados final de dia em back tests. Na época eu acreditava que só era possível rodar back tests adequados em bases tick-by-tick. As versões mais recentes do Saturno V já foram feitas levando em consideração que é desejável que possam ser otimizadas ou pelo menos verificadas usando dados final de dia, para prolongar o histórico de teste, mas a versão R é a primeira a ser concebida dessa maneira tendo em mente o atual método para acelerar a otimização. No entanto, não ficou tão boa quanto a versão 3.1415926c, se priorizar os quesitos rentabilidade a longo prazo e estabilidade a longo prazo.

 

Achei interessante que uma das versões antigas ficaria positiva entre 2008-2010, usando os mesmos parâmetros da época. Foi o Guinho 2008. Não há muitas diferenças em relação ao Guinho 2009, que também fica positivo, embora na época que fiz as mudanças, tive a impressão de serem importantes. De fato, o 2009 fica um pouco melhor. Usando o Guinho 2009 otimizado até 2007 e o Saturno V R8c otimizado até 2007, para rodar entre 2008-2010, o Guinho 2009 não fica atrás. E o Saturno V 3.1415926c com pequenas alterações fica à frente do R8c, ambos otimizados até 2007. O V 3.1415926c também supera o R8c com ambos otimizados entre 1998 e 2005 e depois verificados entre 2005 e 2010. O Melao_Tendencia 1.2 não sobrevive com as configurações que eram usadas na época, mas mudando pequenos detalhes e usando timeframes maiores, ele se torna uma alternativa interessante. O Papaleguas é um lixo imprestável. Lembro-me de que na época, no final de 2006, fiquei iludido com ele e dediquei muito tempo a tentar aprimorá-lo no início de 2007. Os primeiros sistemas de 2007, com basicamente as mesmas estratégias, porém usando novas técnicas de otimização, podem ter desempenho interessante. O Guinho 2008 e o 2009 não precisam de alteração nenhuma na estratégia nem na gestão nem na configuração. Usados exatamente como eram na época, funcionam bem entre 1998 e 2010.

 

Vejamos, a seguir, as comparações de alguns resultados usando dados tick-by-tick e dados 15 em 15 minutos, entre 1998 e 2010, com Saturno V R3 e Saturno V 3.1415926c com nova otimização e com a otimização antiga:

 

 

Podemos ver que mesmo com todos os cuidados mencionados, e com operações relativamente longas, a similaridade não é tão alta, em grande parte devido ao preenchimento dos candles, que distorce as performances. Vemos também que apesar das diferenças nos detalhes, são semelhantes o bastante para justificar que a otimização seja feita usando dados de 15 em 15 minutos, e depois os melhores resultados sejam conferidos usando bases tick-by-tick. Há outros cuidados que não citamos, e nem é necessário, bastando mostrar o resultado que eles produzem. Também podemos notar que versões diferentes e configurações diferentes apresentam diferentes níveis de similaridade. A comparação entre resultados em bases tick-by-tick com resultados em bases de 15 em 15 minutos tem, entre outras utilidades, a de mostrar quanto se pode esperar de similaridade entre back test e tempo real para uma determinada estratégia com determinados parâmetros. Quando há dissimilaridades significativas entre dados de 15 minutos e de ticks, então comparamos de 1 minuto e ticks. Se a diferença persistir, é sinal de que se pode ter problemas de os resultados em tempo real destoarem daqueles obtidos nos back tests. A similaridade entre dados de 1 em 1 minuto e tick-by-tick já seria suficiente confirmação de provável similaridade entre ticks e tempo real, porém usando de 15 em 15 minutos temos uma garantia maior.

 

Depois desse trabalho arqueológico de testar versões antigas, um sistema desenvolvido em 2007 será reabilitado com novo nome: Saturno V S. Entre este domingo e o próximo, colocaremos em teste em tempo real as seguintes versões:

 

Saturno V R8c, R3

Saturno V 3.1415926c, 3.14159, 3.03

Saturno V S

Guinho 2009 para efeito de comparação com o 3.03

Saturno V 4.02 com novas configurações

Saturno V 4.07b2 com novas configurações

Saturno V 5.0 com novas configurações

 

As evidências de similaridade entre back test e situação real são muito abundantes, muito fortes, claras e fáceis de entender. Mas as evidências de que uma otimização feita em determinado período continuam a valer para outros períodos são outra história, porque a similaridade entre os resultados em dois períodos diferentes é bem menor do que a similaridade entre duas bases de qualidades diferentes cobrindo mesmo período histórico. Um dos fatores que dificulta esse tipo de demonstração é que em alguns trechos do histórico se tem cenários claramente diferentes de outros trechos, e essas situações podem durar meses ou anos. Vejamos os dois gráficos abaixo. O primeiro mostra cotações de 1998 a 2001, o segundo mostra de 2006 a 2010. No primeiro podemos ver um mesmo padrão de tamanho e forma se repetindo muitas vezes, tanto nas altas quanto nas baixas, produzindo uma situação fácil de operar e ganhar. Algumas vezes o padrão não se forma por completo, ou muda um pouco o tamanho, mas na maioria das vezes se repete com precisão.

 

No período de 2006-2010 é muito diferente, não há tantos padrões repetidos, exceto no ano de 2009. A inexistência de padrões freqüentes e regulares como no período do gráfico acima implica sérias dificuldades para o uso de determinadas estratégias, porém sistemas de tendência, dependendo de como são definidos os pontos de entrada e saída, podem funcionar igualmente bem nas duas situações, ou até melhor no segundo caso.

 

 

Isso também depende do tamanho dos stops utilizados, tamanho da alavancagem etc. Para algumas estratégias de tendência, nenhum dos dois cenários seria apropriado. Para outras, tanto estes como qualquer outro mercado em tendência seria apropriado, mas não os laterais. Para outras, como as R, é quase indiferente o Mercado estar lateral ou em tendência, sendo um pouco melhor que haja tendência para os ganhos sejam maiores.

 

Há um desafio muito duro de superar, que é encontrar critérios de entrada e saída que sejam válidos na maioria dos cenários acima, aplicando-se tanto entre 1998 e 2001 quanto entre 2006 e 2010, e em todas as demais situações. Na grande maioria das vezes, as melhores estratégias se aplicam a vários períodos, mas não todos. Mesmo a versão 3.1415926c, uma das mais estáveis a longo prazo, apresenta alguns períodos em que fica negativa por mais de 1 ano. A Rc8 é mais versátil, embora menos estável. Ambas são algumas das soluções que temos para modelar o Mercado. Até agora temos diferentes tipos de sistemas, capazes de operar em diferentes cenários, com diferentes níveis de rentabilidade. Alguns deles são excepcionais em situações específicas, outros são bons em qualquer situação. Os 5.0 e 4.x são melhores do que qualquer outro que já fizemos na maior parte do ano de 2009, alguns podendo atingir mais de 1000% em 6 meses. O 4.3 chegou a mais de 950% em 250 dias, vários passaram de 100% em pouco mais de 1 mês, alguns chegaram a 300% ou 400% em menos de 6 meses. As versões 5 não chegaram a pegar o período áureo de 2009. Se tivessem, provavelmente teriam superado as versões anteriores. O problema é que com a mudança de cenário, estas versões estão “sofrendo”. Algumas estão pontuando timidamente, outras oscilando, mas nenhuma delas está convincente. Em 2009 estiveram impressionantes. Mas o que dizer das 3.x? A melhor das 3.x é a 3.1415926c, e na primeira operação que executou em conta real, resultou em perda, sendo que vinha de 10 anos de back test, com mais de 120 operações, sem uma perda sequer. Esse resultado teve efeito negativo, porém não foi o motivo de as versões 3 terem sido desativadas. Simplesmente as contas em alguns brokers (MIG) expiram depois de certo tempo. Na Alpari não expirariam, de acordo com o que informam no site, mas na prática já tivemos vários problemas com contas expiradas, inclusive algumas as melhores, como 801028, 801029, 801030, 1092774 (mais de 800% de lucro e foi desativada), 1092767 etc. Estas são contas com as versões 4.x, que estavam muito bem, mas foram involuntariamente desativadas pelo broker, por expirar o prazo. Independentemente da desativação, optamos por focar nas 4.x, que estavam se mostrando muito mais promissoras em 2009. Quando a situação se complicou, retornamos às 3.x, tentamos aprimorar às 4.x e tentamos desenvolver novas versões.

 

Embora as propriedades do Mercado necessárias ao funcionamento das 4.x dessem sinais de perenidade, ou até de se tornarem cada vez mais promissores, a julgar pelo fato de que em poucos momentos anteriores foram tão favoráveis como em 2009, sugerindo uma evolução favorável nestas propriedades, por outro lado a abrupta mudança de 2006 para 2007, seguida por 2 anos de dificuldades para uso das 4.x, indicava a possibilidade de algo assim acontecer novamente. Porém como desde a queda de 1999 se passaram 7 anos antes que o cenário se tornasse hostil, não pensava que em apenas 1 ano isso aconteceria após a queda de 2008. O que ocorreu em 2010 não foi muito diferente das expectativas, mas foi muito antes das expectativas. Outro problema é que o cenário de 2007-2008 era bem menos desfavorável a elas do que 2010. As altar performances com baixos drawdowns motivaram a configurar riscos que seriam relativamente baixos se o cenário não mudasse tanto, fato que podemos constatar pelas perdas relativamente pequenas a cada stop, porém foram stops sucessivos com freqüência muito acima do normal. Essas perdas provocaram reações emotivas, levando a trocar versões, alterar níveis de risco etc. Tanto os ganhos acima das expectativas quanto as perdas acima das expectativas conduzem a comportamentos anormais e com maiores riscos de erro. Eu diria que minhas intervenções humanas nas contas que resultaram em ganhos de 130% foram um erro que deu sorte. A idéia fundamental de se usar sistemas automáticos é justamente evitar que as emoções interferiam nas decisões, além de uniformizar, dar rigor, rapidez e exatidão à aplicação da estratégia, entre outras vantagens. Por isso o ideal é interferir o mínimo possível, e sempre com planejamento, do tipo: “agora temos uma versão melhor para essa situação, então após fecharem as posições abertas, substituiremos as atuais pelas novas”. Isso é apropriado. Porém algo do tipo: “está ganhando muito e nem chega perto dos stops, então vamos aumentar o risco para ganhar mais.” Ou algo do tipo “está perdendo, vamos mudar a versão/configuração, ou desligar”. O fato de estar perdendo ou ganhando não pode ser motivo para alteração. Só o desenvolvimento de versões melhores, ou mais apropriadas ao cenário vigente, como no caso das 4.x que entraram em substituição na conta do Rodrigo em 2009, por ser um cenário mais promissor para as 4.x, é que pode ser considerado um procedimento legítimo de intervenção. Ou a detecção de problemas no broker, no sistema, etc.

 

Enfim, a similaridade entre backtests e contas reais já foi comentada fartamente. Resta acrescentar mais um pouco sobre como determinar se um sistema que obtém determinada performance nos dados históricos será capaz de reproduzir essa performance em situação real. O teste mais básico é que se os dados históricos são fiéis representações da situação real (desde que a metodologia de testagem seja apropriada), e se uma determinada estratégia, formulada com base na análise de cotações entre 2001 e 2005, otimizada nesse mesmo período de 2000 a 2005, e depois configurada, com estes parâmetros, puder manter aproximadamente mesma performance entre 2006 e 2010, indica que o mesmo sucederia se estivéssemos vivendo em 2005, usássemos dados de 2001 a 2005 para otimizar os parâmetros e depois passássemos a operar entre 2006 e 2010 no mercado real, usando os parâmetros de 2001-2005 e obtendo resultado semelhante. Ou seja, isso indica que as características gerais do Mercado relevantes para a tal estratégia estão igualmente presentes tanto no intervalo de 2001 a 2005 quanto no intervalo de 2006 a 2010. As probabilidades de isso ter acontecido por sorte são mínimas. Isso nos leva a uma generalização, adotando a hipótese de que, se funciona em 5 anos diferentes daqueles em que foi otimizada, deve funcionar em qualquer outro período que não tenha cenários significativamente diferentes daqueles que ocorreram nos primeiros 5 anos, e que se mantiveram semelhantes nos 5 anos seguintes. Este é um dos métodos mais básicos.

Há vários outros testes para verificar se uma estratégia é apropriada. Alguns deles são a comparação da estratégia com um sistema randômico de compra e venda, ambas com mesma gestão de capital. Sistema 1 (efetivo) e Sistema 2 (placebo). O placebo precisa ter a mesma gestão de capital do sistema efetivo e usar mesma quantidade de parâmetros a serem otimizados, preferencialmente parâmetros de indicadores reais, usados no Mercado, escolhidos ao acaso. Ambos são otimizados num período de 1/10 a 1/2 dos dados históricos disponíveis. Depois alguns dos melhores genótipos de cada são rodados num período diferente daquele em que a otimização foi feita, e compara-se a performance anual média neste intervalo com a performance no intervalo em que foi otimizado. Repete-se o procedimento para vários genótipos, algo como 20 a 30. Calcula-se média e desvio-padrão nas diferenças de performance. Se a diferença entre os períodos para o placebo não for significativamente menor do que para o sistema efetivo, pode sinalizar problemas com a estratégia. Geralmente ou não dá sinais de problema, ou dá sinais tão nítidos que não precisa de maiores evidências, mas em alguns casos os sinais são nebulosos, então optamos por descartar, se for uma estratégia sem algo de particularmente atraente, ou ampliar a amostra de genótipos testados, de modo a reduzir o desvio-padrão na média e refinar a precisão na comparação com o placebo.

 

Esse tipo de comparação é muito importante, porque conforme vimos no início, no vídeo do Homer Simpson desenhado por um sistema de epiciclos, se o conjunto de parâmetros for suficientemente grande, pode produzir resultados impressionantes, sem que haja fundamentos. Há que se ter em mente também que pode ocorrer de o placebo acidentalmente ser realmente bom, e em tal caso pode-se aproveitar partes do placebo, se ele for inteligível e der para entender porque ele se saiu bem, ou testar em comparação a um segundo placebo.

 

Outra maneira de testar consiste em verificar o desempenho em vários trechos pequenos da base, e a similaridade entre cada trecho. É esperado que um bom sistema tenha desempenho uniforme, em escalas suficientemente amplas. Por exemplo: uma otimização em 2000 deve continuar funcionando em 2001, 2002, 2003 etc., com resultados similares. Isso é uma confirmação muito superior à descrita três parágrafos acima, porque usa 10 períodos de 1 ano, em vez de 2 períodos de 5 anos, e se observa similaridade entre todos os 10 períodos de 1 ano, havendo uma amostra de mais elementos para fundamentar a generalização. O problema é que isso só serve para sistemas de scalping, já que não há muitos trades por ano nos sistemas de tendência longa, dificultando a comparação. Mesmo assim temos alguns casos excelentes, como a versão 3.1415926c, com performance bastante uniforme ano a ano desde 1998.

 

Também é interessante testar variando ligeiramente, ou até com uma amplitude razoavelmente grande, os valores de alguns dos parâmetros mais importantes, e verificar de que maneira essas mudanças interferem na performance. É esperado que um bom sistema não seja muito sensível a pequenas mudanças e possa suportar até algumas alterações de médio porte. O 3.1415926c, pode ter o stop variando entre 40 e 500 pips e ainda assim ter boa performance. Alguns parâmetros dele não podem ser mudados, mas a maioria pode oscilar dentro de um intervalo relativamente largo, sem causar queda grave na performance. Estas possibilidades de mudar os parâmetros equivalem a ter cenários um pouco diferentes. Se mudando largamente alguns parâmetros fundamentais, ele continua funcionando, sugere que se o cenário mudar largamente em comparação a todos os cenários anteriores pelos quais ele passou durante o teste, ainda assim ele resistirá sem grandes problemas.

 

Não temos interesse em revelar todos os testes de validação que fazemos. Mas estes são alguns deles. Citarei apenas mais um método, que só pode ser usado em condições específicas e com alguns complementos. Um dos quesitos para uso desse método é que a qualidade da base de dados seja homogênea dentro dos limites de sensibilidade da estratégia que se deseja testar. Consiste em otimizar no período inteiro de 10 anos, em vez de usar apenas uma parte estreita da base. Depois verificar a performance em cada ano deste período, calculando a média e o desvio-padrão nas performances anuais. Depois otimizar em intervalos de 1, 2, 3 e 5 anos, depois comparar os valores ótimos dos parâmetros otimizados nestes diferentes períodos. Depois usar os parâmetros de alguns períodos menores para rodar na base inteira de 10 anos e verificar como fica a performance em comparação à que havia sido alcançada com a otimização feita para o período inteiro de 10 anos. Esse conjunto de resultados fornece dados preciosos para estimar a homogeneidade das propriedades do Mercado relevantes para esta estratégia, a expectativa de variabilidade na performance quando se tem determinado nível de variação no cenário, entre outras. Esse é um procedimento correto e relativamente sofisticado, mesmo assim não está imune a gerar expectativas acima dos resultados. Por exemplo: a versão 3.1415926c é excepcional, passou com louvor em praticamente todos os testes, foi selecionada entre centenas de sistemas e versões, os parâmetros foram escolhidos entre mais de 30.000 genótipos de um total de quintilhões de configurações possíveis, a formulação da estratégia e da gestão de capital foi feita com primor, mesmo assim ela causou prejuízo justamente na primeira operação em conta real. Obviamente o fato de os melhores e mais rigorosos métodos serem imperfeitos não significa que se deva renunciar a eles e usar métodos piores. Deve-se continuar a usar os melhores métodos e aprimorá-los sempre que possível. Bem como se deve ter em mente que mesmo os melhores métodos e as melhores estratégias não estão imunes a falhas. É extremamente desagradável quando uma longa série de falhas sucessivas castigam um trabalho que incorre numa quantidade mínima de erros. Mas o lado bom disso tem peso muito maior que o lado ruim. Os resultados extraordinários das versões 4.x estavam levando a pensar no Mercado como “fácil” de ganhar muito em pouco tempo, e foram anunciados no site várias propostas de gestão com expectativas que só poderíamos alcançar se o cenário se mantivesse como estava até 12/11/2009. Com a mudança de cenário, teríamos causado e sofrido perdas graves. Felizmente as poucas pessoas que perguntaram sobre o assunto não chegaram a finalizar o negócio. Uma coisa é perder $ 3.000, outra bem pior é perder $ 100.000 e ainda por cima receber $ 100.000 pela venda temporária de cota.

Isso é a síntese do conjunto do que sabemos sobre o Saturno V, que está em conflito com o que estamos presenciando. Sou extremamente cético e sempre considero a possibilidade de que algo esteja errado, porém todos os esforços para encontrar erros só serviram para confirmar a eficiência do que está sendo feito, e levaram ao desenvolvimento de alguns métodos mais rápidos ou mais precisos. Livermore falava muito em “custo de aprendizado”. Se ele perdia, mas aprendia algo importante com a perda, considerava um pagamento pelo que havia aprendido, e sempre achava as lições baratas demais, comparadas ao quanto ele conseguia ganhar com o que aprendia. No caso das versões 4.x, as perdas sofridas foram irrisórias, e até mesmo as noites sem dormir e alimentação desregrada causada pelo aumento no estresse não foram muito em comparação aos benefícios que ela pode trazer quando voltar a funcionar. Ruim seria se ela não funcionasse devido a erros na formulação de sua estratégia, ou da metodologia de testagem, ou ao método de validação. Não funcionar devido a mudanças no Mercado é comparativamente muito menos grave e será questão de tempo até resolver. E enquanto não resolvemos, as 3.x, R e outras voltam ao palco.