O trecho a seguir é do Hedge Fund Market Wizzards da Schwager (maio de 2012), uma entrevista com o sempre bem-sucedido gerente de fundos de hedge Jaffray Woodriff:
Para a pergunta: "Quais são alguns dos piores erros que as pessoas cometem na mineração de dados?":
Muitas pessoas pensam que estão bem porque usam dados dentro da amostra para treinamento e dados fora da amostra para teste. Depois, eles classificam os modelos com base no desempenho dos dados dentro da amostra e escolhem os melhores para testar os dados fora da amostra. A tendência humana é pegar os modelos que continuam se saindo bem nos dados fora da amostra e escolher esses modelos para negociação. Esse tipo de processo simplesmente transforma os dados fora da amostra em parte dos dados de treinamento, porque seleciona os modelos que tiveram melhor desempenho no período fora da amostra. É um dos erros mais comuns que as pessoas cometem e uma das razões pelas quais a mineração de dados, como normalmente é aplicada, produz resultados terríveis.
O entrevistador pergunta: "O que você deveria fazer em vez disso?":
Você pode procurar padrões nos quais, em média, todos os modelos fora da amostra continuam a funcionar bem. Você sabe que está indo bem se a média dos modelos fora da amostra for uma porcentagem significativa da pontuação dentro da amostra. De um modo geral, você realmente está chegando a algum lugar se os resultados fora da amostra forem mais de 50% da amostra. O modelo de negócios da QIM nunca teria funcionado se o SAS e a IBM estivessem construindo um ótimo software de modelagem preditiva.
Minhas perguntas
Isso faz algum sentido? O que ele quer dizer? Você tem uma pista - ou talvez um nome para o método proposto e algumas referências? Ou esse cara encontrou o Santo Graal que ninguém mais entende? Ele até diz nesta entrevista que seu método poderia potencialmente revolucionar a ciência ...
Respostas:
Isso faz algum sentido ? Parcialmente.
O que ele quer dizer? Por favor, pergunte a ele.
Você tem uma pista - ou talvez um nome para o método proposto e algumas referências?
Validação cruzada. http://en.wikipedia.org/wiki/Cross-validation_(statistics)
Ou esse cara encontrou o Santo Graal que ninguém mais entende? Não.
Ele até diz nesta entrevista que seu método poderia potencialmente revolucionar a ciência ... Talvez ele tenha esquecido de incluir as referências para essa afirmação ...
fonte
Não tenho certeza se haverá outras respostas "seguras", mas aqui está a minha.
A validação cruzada não é "nova". Além disso, a validação cruzada não é usada quando soluções analíticas são encontradas. Por exemplo, você não usa a validação cruzada para estimar os betas, usa OLS ou IRLS ou alguma outra solução "ideal".
O que vejo como uma lacuna claramente óbvia na citação não é referência a nenhuma noção de realmente verificar os "melhores" modelos para ver se eles fazem sentido. Geralmente, um bom modelo faz sentido em algum nível intuitivo. Parece que a alegação é que o CV é uma bala de prata para todos os problemas de previsão. Também não há discussão sobre a configuração no nível mais alto da estrutura do modelo - usamos SVM , Regression Trees , Boosting , Bagging , OLS , GLMS , GLMNS. Regularizamos variáveis? Se sim, como? Agrupamos variáveis? Queremos robustez à escassez? Temos outliers? Devemos modelar os dados como um todo ou em pedaços? Existem muitas abordagens a serem decididas com base no CV .
E outro aspecto importante é quais sistemas de computador estão disponíveis? Como os dados são armazenados e processados? Há falta - como podemos explicar isso?
E aqui está o grande problema: temos dados suficientemente bons para fazer boas previsões? Existem variáveis conhecidas que não temos em nosso conjunto de dados? Nossos dados são representativos de tudo o que estamos tentando prever?
fonte
Sua explicação sobre um erro comum na mineração de dados parece sensata. Sua explicação sobre o que ele faz não faz sentido. O que ele quer dizer quando diz "De um modo geral, você realmente está chegando a algum lugar se os resultados fora da amostra forem mais de 50% da amostra". Então falar mal do SAS e da IBM também não o faz parecer muito inteligente. As pessoas podem ter sucesso no mercado sem entender as estatísticas e parte do sucesso é sorte. É errado tratar os empresários de sucesso como se fossem gurus da previsão.
fonte
Meu entendimento dos padrões de palavras aqui é que ele significa diferentes condições de mercado. Uma abordagem ingênua analisará todos os dados disponíveis (todos sabemos que mais dados são melhores), para treinar o melhor modelo de ajuste de curva, executá-lo em todos os dados e negociar com ele o tempo todo.
Os gerentes de fundos de hedge e comerciantes algorítmicos mais bem-sucedidos usam seus conhecimentos de mercado. Como exemplo concreto, a primeira meia hora de um pregão pode ser mais volátil. Então, eles experimentam os modelos em todos os dados, exceto apenas na primeira meia hora e em todos os dados, mas excluindo a primeira meia hora. Eles podem descobrir que dois de seus modelos se saem bem na primeira meia hora, mas oito deles perdem dinheiro. Visto que, quando excluem a primeira meia hora, sete de seus modelos ganham dinheiro, três perdem dinheiro.
Mas, em vez de pegar esses dois modelos vencedores e usá-los na primeira meia hora de negociação, eles dizem: essa é uma péssima hora do dia para negociação algorítmica e não vamos negociar. O resto do dia eles usarão seus sete modelos. Ou seja, parece que o mercado é mais fácil de prever com o aprendizado de máquina na época; portanto, esses modelos têm mais chances de serem confiáveis no futuro. (A hora do dia não é o único padrão; outros geralmente estão relacionados a eventos de notícias, por exemplo, o mercado é mais volátil logo antes do anúncio de números econômicos importantes.)
Essa é a minha interpretação do que ele está dizendo; pode estar totalmente errado, mas espero que ainda seja útil para pensar em alguém.
fonte
Como profissional de finanças, conheço contexto suficiente para que a declaração não apresente ambiguidade. As séries temporais financeiras geralmente são caracterizadas com mudanças de regime, quebras estruturais e desvios de conceito; portanto, a validação cruzada praticada em outros setores não é tão bem-sucedida em aplicações financeiras. Na segunda parte, ele se refere a uma métrica financeira: retorno do investimento na razão Sharpe (retorno no numerador), não MSE ou outra função de perda. Se a estratégia dentro da amostra produz 10% de retorno, então, na negociação real, pode realisticamente produzir apenas 5%. A parte "revolucionária" certamente diz respeito à sua abordagem de análise proprietária, não às aspas.
fonte