ja_mageia

Please select a category for JA Newsflash!
Início Artigos Classificações, agrupamentos, estratificações
Classificações, agrupamentos, estratificações Versão para impressão Enviar por E-mail
Artigos - Investimentos
Escrito por Melao   
Segunda, 31 Janeiro 2011 20:45

O processo de reconhecimento de padrões no Mercado Financeiro tem relação com muitos outros tipos de processos de classificação e agrupamento. Uma recente postagem num fórum sobre Astronomia foi o seguinte:

 

Definição de "Galáxia"

Parece ser tão simples, né? E até parecer ridículo para alguns leigos, mas atualmente, pesquisadores de universidades da Austrália e Alemanha estão em busca de uma definição mais clara sobre o assunto.

Tudo pela crescente descoberta de objetos conhecidos como as UCDs [em pt: Galáxias Anãs Ultra-Compactas], cujas propriedades ora as fazem se assemelhar a galáxias, ora se assemelhar a aglomerados...

Então, para evitar controvérsias, como no caso da definição de "planeta" que acabou por excluir Plutão [forever alone], o grupo de pesquisadores está buscando o voto de todos que se interessam pelo assunto.

Para saber mais e votar: http://arxiv.org/abs/1101.3309

E na sua opinião, qual [is] o[s] critério[s] é [são] essencial [is] para caracterizar uma galáxia [ e consequentemente diferenciar uma galáxia anã de um aglomerado]?

Matéria escura, relação entre Tempo de Relaxação e tempo o Tempo de Hubble, etc...?

 

E minha resposta foi razoavelmente detalhada, motivo pelo qual achei apropriado transformar em artigo. Minha resposta foi:

 

No caso da classificação de planetas é muito mais difícil, porque se dispõe de amostras muito pequenas e a classificação acaba sendo mais arbitrária. Para galáxias é comparativamente mais fácil. Basta considerar uma quantidade suficientemente grande de variáveis e uma quantidade tão grande quanto possível de galáxias e aglomerados, e fazer uma Análise Hierárquica de Clusters (não confundir o conceito estatístico de “cluster” com o nome de “aglomerado” em inglês). Se emergirem naturalmente dois clusters principais, em que os logs da massa ou da luminosidade sejam claramente diferentes entre um estrato e outro, um pode ser classificado como “galáxias” e outro como “aglomerados”. Se emergirem 3, pode-se classificar um grupo como “galáxias”, outro como “galáxias-anãs”, outro como “aglomerados”. Entre outras possibilidades (pode haver “aglomerados gigantes”, por exemplo, ou duas ou mais classes de galáxias anãs, em função do tamanho).


Isso para tentar fazer uma classificação objetiva, minimamente arbitrária, em que primeiro se reconhece quantos grupos distintos se formam, para depois dar nomes aos grupos. Pode-se também forçar uma quantidade previamente definida de grupos (ex.: 2 ou 3) e encaixá-los na nomenclatura tradicional. Pode-se usar Redes Neurais ou Wavelets, em lugar de Análise de Clusters, além de outras possibilidades.


Entre as variáveis a se considerar, creio que a forma seja um fator relevante, porque aglomerados abertos são pouco massivos e não chegam a ser confundidos com galáxias, enquanto os aglomerados globulares têm forma relativamente bem definida, de modo que galáxias anãs de outras formas (não esféricas) não seriam confundidas com os globulares. A medida de “forma” poderia ser feita de diversas maneiras. Como as imagens nos chegam em 2D, um teste de aderência de quadrante poderia ser apropriado. O Chi-quadrado ou Kolmogorov-Smirnov seriam alternativas viáveis.

A maneira de fazer os agrupamentos, a linkagem e a métrica, teriam que ser escolhidos com cuidado para não serem arbitrários. De modo geral, distâncias de Mahalanobis são mais apropriadas do que de Minkowski para a maioria das estratificações em que os clusters não sejam necessariamente circulares, esféricos ou hiperesféricos. Em última instância, não haveria como evitar ter pelo menos pequena dose de subjetividade na classificação (na escolha das ferramentas para fazer a classificação objetiva, por exemplo), mas desde que ficasse consistente, estaria bom.


Em taxonomia de animais se tem usado com relativo sucesso esse tipo de ferramenta, e “corrigido” algumas classificações antigas. Mas no caso dos animais, pode-se conhecer muito mais variáveis independentes do que no caso das galáxias. Além disso, algumas variáveis seriam categóricas e isso limitaria o uso de determinadas ferramentas que exigem que a escala seja intervalar ou de proporção. Talvez se as antigas classificações de galáxias, segundo a forma, fossem modificadas de para serem representadas quantitativamente por dissimilaridade, em comparação a alguma padrão/gabarito de referência, isso possibilitasse “transformar” uma variável categórica em intervalar, já que em lugar do nome de uma categoria seria usado um número que representaria a dissimilaridade entre aquela galáxia particular e o gabarito de referência. O problema disso é que duas galáxias que apresentassem mesma dissimilaridade de determinado gabarito não seriam necessariamente semelhantes entre si. Seria mais apropriado definir centroides de estratos como gabaritos, e as dissimilaridades serem medidas em relação a estes centroides.


Acho que só daria para ter uma ideia mais clara depois de começar a trabalhar com o problema e “sentir” os dados, como podem ser organizados subjetivamente, e em seguida buscar meios objetivos de se chegar a classificações semelhantes àquelas feitas subjetivamente.

Também se poderia dar uma solução com base em Lógica Difusa, e alguns objetos poderiam ser classificados tanto como galáxias quanto como aglomerados, já que apresentam propriedades de ambos. Assim, em vez de dizer “isso é uma galáxia”, poderia dizer: “pelo conjunto de propriedades observadas, tal objeto tem 72% de comportamento de galáxia e 28% de aglomerado” ou “64% de propriedade de galáxia, 22% de aglomerado e 14% de propriedades desconhecidas, ou indefinidas, ou não-classificáveis.

A meu ver, esta última seria a melhor opção, sobretudo quando se tem casos do tipo 51% de propriedades de galáxia e 49% de aglomerado, ou 50,01% contra 49,99%, muito difícil de decidir como classificar, sendo muito mais apropriado classificar como sendo ambos, inclusive porque as incertezas nas medidas conduziriam a concluir que ora se trata de galáxia, ora aglomerado, como tem ocorrido com Eris e Plutão em termos de tamanho. Em vez de afirmar categoricamente: “Eris é maior” ou “Plutão é maior”. Seria mais apropriado dizer que “há 52% de probabilidade de Eris ser maior”. Nesse tipo de afirmação, o erro seria menor se depois fosse corrigido para “49% de probabilidade de ser maior”. O tipo de declaração dicotômica “é” ou “não é” seria 100% ou 0%, e quase nunca se tem algo assim no mundo real.

 

 

Com exceção das décadas mais recentes, nos 6.000 anos anteriores as classificações tem sido muito malfeitas e a grande maioria continua sendo malfeita. No caso de etnia, por exemplo. O conceito de “etnia” já surgiu como um instrumento de manipulação política e exploração social, tentando se revestir de autoridade científica e religiosa. Existem diferenças étnicas, de gênero, regionais etc., mas usar isso para justificar abusos ou protecionismo é um completo absurdo. Durante séculos, houve tráfico de escravos, uma prática desumana que felizmente foi extinta. Mas agora surgem outros problemas, como as cotas para negros em universidades. Quem se beneficia com isso? A intenção das cotas, em teoria, seria ajudar quem teve menos oportunidades de estudar (independente da etnia), mas na prática acaba privilegiando negros mais abastados, enquanto negros, caucasianos e asiáticos pobres continuam excluídos.

Um dos fenômenos causados por essa criação de cotas é a quantidade de pessoas que se declara “negra”, na carteira de identidade, para desfrutar o privilégio. Antes dessa lei protecionista, nos anos 1960, se a pessoa era mulata, algo como 54% de genes de ascendentes negros, 8% de mongoloides (que é o nome técnico que se usava para as populações do extremo oriente, não confundir com portadores de síndrome de Down) e 38% de caucasianos, a pessoa preferia (os pais dela preferiam) declarar que sua etnia era caucasiana ou branca, para sofrer menos discriminação racial. À medida que as leis foram erradicando a discriminação, e penalizando os racistas com mais rigor, começou a se estabelecer um equilíbrio e as declarações de etnia se tornaram mais realistas.

Mas a inércia nesse movimento acabou excedendo o limite e prosseguiu muito além da imparcialidade, levando a um desequilíbrio para o lado oposto, ou seja, levou ao protecionismo. As cotas são um exemplo disso. Se um caucasiano faz um xingamento a um negro que associe o xingamento à cor de sua pele ou a seu fenótipo, pode ser preso. Mas se um negro faz um xingamento a um caucasiano que associe o xingamento à cor de sua pele ou a seu fenótipo, não acontece nada. Isso constitui um problema, porque na busca pela igualdade se acaba se ultrapassando a linha da igualdade e pendendo a balança para o outro lado.

Há 50 anos, uma pessoa de pele mais escura que um mulato típico preferia se declarar branca para minimizar discriminações, mas atualmente é o contrário, e prefere se declarar negra, mesmo que sua pele seja mais clara que a média dos mulatos, para que possa se beneficiar do protecionismo que se instaurou nos anos recentes. Uma pessoa com 54% de genes de ascendentes negros, 8% de mongoloides e 38% de caucasianos, prefere se declarar como “negra”. E mais, se tiver 45% de genes de ascendentes negros, 4% de mongoloides e 51% de caucasianos, ainda assim se declara como “negra”.

Como resultado, as estatísticas sobre a porcentagem de negros declarados na população aumentou muito, sem que de fato a constituição real da população tenha mudado nessa mesma proporção. A subjetividade na classificação, especialmente quando existem “incentivos” para se distorcer a classificação, acabam desempenhando um papel relevante e nocivo, porque deturpa o conhecimento com o objetivo de atender a interesses individuais ou aos interesses de alguns grupos.

Mas o ponto crítico é o seguinte: uma pessoa que tenha entre seus ancestrais 45% de africanos nativos, 10% de asiáticos e 45% de europeus ocidentais, e tenha herdado genes nessa proporção, deve ser classificada de que maneira? As classificações “negro”, “branco”, “cafuzo”, “mameluco”, “mulato” não são suficientes nem apropriadas. Ninguém é 100% negro, ou seja, com todos os ancestrais negros. Não existem povos arianos, como pretendiam os nazistas. Todos os povos são miscigenados, e são misturas complexas, de difícil determinação ou classificação.

 

Com muitos estudos, talvez fosse possível determinar as diferenças genéticas que levariam a 3 ou 4 fatores principais, e depois medir a saturação desses fatores em cada indivíduo. Digamos que os fatores numéricos pudessem ser associados à nomenclatura de “branco”, “negro” e “asiático”. Ninguém poderia ser classificado como totalmente branco, negro ou asiático. Uma pessoa com 98% de genes brancos, 1% asiáticos e 1% negro não estaria bem classificada se situada no mesmo grupo de uma pessoa com 34% de genes brancos, 33% negro e 33% asiático, embora nos dois casos a melhor classificação para elas fosse “branco”, pois teriam mais genes brancos do que em qualquer dos outros dois fatores.

Muito melhor seria uma classificação quantitativa, em vez de nominal, que informasse a porcentagem de cargas genéticas que ela traz de cada etnia. Isso desmantelaria leis ridículas de protecionismo e de racismo, porque todos teriam pelo menos um pouco de cada etnia. O skinhead ou o neonazista que saem por aí espancando homossexuais e negros, eles próprios tiveram muitos ancestrais negros e homossexuais, e herdaram muitos desses genes. É uma completa insanidade os crimes que estes elementos praticam, e parte da culpa se deve aos que inventaram classificações inapropriadas. Claro que a pessoa que inventou um sistema de classificação não pode ser responsabilizada pelo mau uso de sua invenção, mas pode ser responsabilizada pelos maus critérios adotados e pela má qualidade da invenção.

Antes de Vitruvio, não se conhecia bem o fato de que a resistência de maquetes em pequena escala não era mantida quando se construí estruturas maiores, usando mesmos materiais e preservando mesmas proporções. As maquetes menores são muitíssimo mais resistentes. O problema só foi resolvido de forma geral por Galileu, muitos séculos depois. O fato de os engenheiros e arquitetos da época não saberem disso não justificaria que não fizessem experimentos apropriados com as estruturas maiores, para evitar que desmoronassem sob o próprio peso. Do mesmo modo, se a pessoa inventa classificações ruins que levam ao fortalecimento de preconceitos regionalistas, racistas etc., deve ser pelo menos parcialmente responsabilizada pelos erros e leviandades de seu trabalho.

Nos casos de espécies animais é diferente, porque duas espécies distintas raramente conseguem procriar se houver cruzamento. Então a classificação como pertencendo a uma espécie A ou a outra B acaba sendo aplicável, porque não se tem uma variável contínua, com um gradiente suave passando de A para B. O que se tem são dois grupos diferentes, A e B. Ou seja, A e B não se diferenciam por porcentagens de genes, mas sim são grupos discretizados biologicamente incompatíveis, que não conseguem se misturar, salvas raras exceções, como as mulas, que nascem do cruzamento de jumento com égua e geralmente são estéreis, interrompendo a miscigenação nesse ponto, portanto há 100% de genes equinos, ou 100% asininos ou 50% de cada, mas não outras proporções, exceto em mutações raras.

Nos casos de galáxias, não se sabe, por enquanto, se podem ser discretizadas ou se podem assumir características que se distribuem como variáveis contínuas. Se houver algo como pontos lagrangeanos que impedem, ou dificultam, ou favorecem determinadas configurações, então se pode ter discretizações que ajudem a fazer classificações mais nítidas, e definir grupos fechados em cada classe, sem elementos intermediários entre um grupo e outro que apresentem características parciais de cada grupo.

O cinturão de asteroides, por exemplo, pode ter objetos em algumas órbitas, mas não em certas regiões. Os troianos, por exemplo, podem surgir a 60 graus de distância angular de grandes planetas, e se dispersarem alguns graus em torno dessa região, mas não podem surgir a 86,4 graus ou outros pontos arbitrários. A distâncias menores que o limite de Roche ou esfera de Hill, não podem existir satélites grandes. Existem leis que favorecem determinadas configurações e impedem outras. Se as formas das galáxias forem parcialmente determinadas por pontos lagrangeanos, por exemplo, então não devem existir configurações estáveis para determinados formatos, ficando lacunas entre certas formas que ajudam a fazer classificações entre objetos distintos. Caso contrário, pode ser melhor usar classificações quantitativas, como a% de propriedades de galáxia, b% de probabilidade de quasar, c% de propriedades de aglomerado globular etc.

Quando se trata do Mercado Financeiro, existem complicações adicionais, porque não existem leis bem definidas, como a Gravitação ou a Relatividade, que possibilitem modelar quase deterministicamente os movimentos. Mas como existem características comuns que afetam o comportamento dos agentes que atuam no Mercado (bancos, fundos, investidores individuais, pequenos especuladores etc.), tais como medo, ganância, superstições diversas, então o conjunto dessas características acaba fazendo com que grandes volumes de pessoas acabem tendo mesmas reações diante de situações semelhantes, e o reconhecimento de tais padrões contribui para que se possa ter um pouco mais de acertos do que se as operações fossem realizadas aleatoriamente.

Quando se faz a modelagem do Mercado, não se pensa sobre as emoções das pessoas responsáveis por tais movimentos. Considera-se apenas os movimentos em si. Depois, são realizados testes apropriados para verificar a probabilidade de um padrão que aparentemente esteja se repetindo seja um fenômenos casual ou resultante de propriedades inerentes ao Mercado. Quanto maior a regularidade, uniformidade e estabilidade na repetição dos padrões, maior é a probabilidade de que não sejam eventos casuais. A “prova de fogo” vem quando se faz uma modelagem num período pequeno, de algo como 6 meses, e depois usa-se essa mesma modelagem num período muito maior, como 12 anos, e continua funcionando igualmente. Depois de passar por esse tipo de teste, conclui-se que a probabilidade de se ter uma estratégia realmente funcional é muito acima de 99,9999999%, como neste caso: http://www.saturnov.com/artigos/4-investimentos/140-como-calcular-probabilidades-de-sucesso