Nova maneira revolucionária de mineração de dados?

21

O trecho a seguir é do Hedge Fund Market Wizzards da Schwager (maio de 2012), uma entrevista com o sempre bem-sucedido gerente de fundos de hedge Jaffray Woodriff:

Para a pergunta: "Quais são alguns dos piores erros que as pessoas cometem na mineração de dados?":

Muitas pessoas pensam que estão bem porque usam dados dentro da amostra para treinamento e dados fora da amostra para teste. Depois, eles classificam os modelos com base no desempenho dos dados dentro da amostra e escolhem os melhores para testar os dados fora da amostra. A tendência humana é pegar os modelos que continuam se saindo bem nos dados fora da amostra e escolher esses modelos para negociação. Esse tipo de processo simplesmente transforma os dados fora da amostra em parte dos dados de treinamento, porque seleciona os modelos que tiveram melhor desempenho no período fora da amostra. É um dos erros mais comuns que as pessoas cometem e uma das razões pelas quais a mineração de dados, como normalmente é aplicada, produz resultados terríveis.

O entrevistador pergunta: "O que você deveria fazer em vez disso?":

Você pode procurar padrões nos quais, em média, todos os modelos fora da amostra continuam a funcionar bem. Você sabe que está indo bem se a média dos modelos fora da amostra for uma porcentagem significativa da pontuação dentro da amostra. De um modo geral, você realmente está chegando a algum lugar se os resultados fora da amostra forem mais de 50% da amostra. O modelo de negócios da QIM nunca teria funcionado se o SAS e a IBM estivessem construindo um ótimo software de modelagem preditiva.

Minhas perguntas
Isso faz algum sentido? O que ele quer dizer? Você tem uma pista - ou talvez um nome para o método proposto e algumas referências? Ou esse cara encontrou o Santo Graal que ninguém mais entende? Ele até diz nesta entrevista que seu método poderia potencialmente revolucionar a ciência ...

data-mining curve-fitting out-of-sample vonjd
fonte

4

Ele não está simplesmente discutindo erros de uma única amostra dividida (treinamento e validação) e defendendo um processo de validação cruzada aninhada?

B_Miner

12

Eu desconfiaria de qualquer um que reivindicasse uma visão profunda que revolucionaria a "ciência".

cardeal

2

Gestores de fundos de hedge reivindicando uma "melhor abordagem de modelagem" e falando um pouco sobre a concorrência? Nada de novo lá.

Zbicyclist

2

uau, como essa pergunta está recebendo tantos votos positivos? A previsão fora da amostra é um problema discutido no primeiro dia de qualquer curso introdutório de aprendizado de máquina. Há quem não lide com as previsões fora da amostra corretamente, mas certamente ninguém que tenha a menor pista sobre a tarefa da previsão.

user4733

A negociação é, obviamente, um problema de tempo, o que ele está dizendo parece que a validação cruzada (é claro, usando dados conhecidos) não pode resolver o problema de mudança de estrutura com o tempo !, portanto, não é um santo graal. Mas o que ele está realmente fazendo não pode ser inferido.

precisa saber é o seguinte

6

Isso faz algum sentido ? Parcialmente.

O que ele quer dizer? Por favor, pergunte a ele.

Você tem uma pista - ou talvez um nome para o método proposto e algumas referências?

Validação cruzada. http://en.wikipedia.org/wiki/Cross-validation_(statistics)

Ou esse cara encontrou o Santo Graal que ninguém mais entende? Não.

Ele até diz nesta entrevista que seu método poderia potencialmente revolucionar a ciência ... Talvez ele tenha esquecido de incluir as referências para essa afirmação ...

image_doctor
fonte

2

Bem, pelo menos ele está apontando um verdadeiro problema ...

8

Não tenho certeza se haverá outras respostas "seguras", mas aqui está a minha.

A validação cruzada não é "nova". Além disso, a validação cruzada não é usada quando soluções analíticas são encontradas. Por exemplo, você não usa a validação cruzada para estimar os betas, usa OLS ou IRLS ou alguma outra solução "ideal".

O que vejo como uma lacuna claramente óbvia na citação não é referência a nenhuma noção de realmente verificar os "melhores" modelos para ver se eles fazem sentido. Geralmente, um bom modelo faz sentido em algum nível intuitivo. Parece que a alegação é que o CV é uma bala de prata para todos os problemas de previsão. Também não há discussão sobre a configuração no nível mais alto da estrutura do modelo - usamos SVM , Regression Trees , Boosting , Bagging , OLS , GLMS , GLMNS. Regularizamos variáveis? Se sim, como? Agrupamos variáveis? Queremos robustez à escassez? Temos outliers? Devemos modelar os dados como um todo ou em pedaços? Existem muitas abordagens a serem decididas com base no CV .

E outro aspecto importante é quais sistemas de computador estão disponíveis? Como os dados são armazenados e processados? Há falta - como podemos explicar isso?

E aqui está o grande problema: temos dados suficientemente bons para fazer boas previsões? Existem variáveis conhecidas que não temos em nosso conjunto de dados? Nossos dados são representativos de tudo o que estamos tentando prever?

$K$ $K-2$

$n$ $p$ $n$ $p$ $n$ $p$

probabilityislogic
fonte

9

Bom discurso retórico. Teria sido muito mais fácil de ler se você tivesse usado as tampas ocasionais embora ...

MånsT

4

Sua explicação sobre um erro comum na mineração de dados parece sensata. Sua explicação sobre o que ele faz não faz sentido. O que ele quer dizer quando diz "De um modo geral, você realmente está chegando a algum lugar se os resultados fora da amostra forem mais de 50% da amostra". Então falar mal do SAS e da IBM também não o faz parecer muito inteligente. As pessoas podem ter sucesso no mercado sem entender as estatísticas e parte do sucesso é sorte. É errado tratar os empresários de sucesso como se fossem gurus da previsão.

Michael R. Chernick
fonte

1

Não está claro o que significava a declaração citada? Dependendo de como os modelos devem ser usados, o que ele diz que faz pode fazer muito sentido. Por exemplo, o principal argumento do desafio da Netflix parece ser o poder da "combinação de modelos", desde que haja pouca necessidade de interpretabilidade. Nesse caso, algum desempenho "médio" fora da amostra dos modelos em consideração pode ser completamente relevante.

cardeal

@ cardinal: Você poderia formar uma resposta a partir desses pensamentos muito interessantes? Seria ótimo, obrigado!

vonjd

2

@ cardinal Talvez esteja claro para você, mas explique a frase "Você está realmente chegando a algum lugar se os resultados fora da amostra forem mais de 50% da amostra". Se você está dizendo que combinar médias entre modelos pode ser eficaz, é claro que posso concordar com isso. Foi demonstrado que o impulso funciona bem em muitas aplicações. Mas não vejo de onde isso sai dos comentários de Woodriff.

Michael R. Chernick

2

Obviamente, não conheço os detalhes do que o Sr. Woodriff está reivindicando, mas minha interpretação disso com base no trecho é algo para o efeito de: "[Nos meus aplicativos] se o desempenho médio fora da amostra [usando qualquer métrica Eu considero relevante] é pelo menos metade do desempenho da amostra depois de ajustar o modelo, então é significativo para a minha aplicação ". Sou matemático / estatístico, então preciso de advertências. Se eu fosse um gestor de fundos de hedge buscando algum reconhecimento externo, poderia ser mais grandioso e absoluto em minhas observações.

cardeal

1

@ cardinal Então, considere a taxa de erro como a medida de desempenho, e você interpreta o Woodriff para dizer que, se a taxa de erro na amostra é de 5% e a taxa de erro fora da amostra é de 10%, o método é bom? Por que não apenas analisar o desempenho fora da amostra para decidir? Suponho que a proporção entre o desempenho fora da amostra e o desempenho da amostra lhe diga algo sobre o quão confiável / não confiável é a estimativa da taxa de erro na amostra, mas não a vejo entrando na avaliação do desempenho do classificador. Ainda não vejo onde a mistura de modelos entra em seus comentários.

22660 Michael Jackson Chernick

4

Você pode procurar padrões nos quais, em média, todos os modelos fora da amostra continuam a funcionar bem.

Meu entendimento dos padrões de palavras aqui é que ele significa diferentes condições de mercado. Uma abordagem ingênua analisará todos os dados disponíveis (todos sabemos que mais dados são melhores), para treinar o melhor modelo de ajuste de curva, executá-lo em todos os dados e negociar com ele o tempo todo.

Os gerentes de fundos de hedge e comerciantes algorítmicos mais bem-sucedidos usam seus conhecimentos de mercado. Como exemplo concreto, a primeira meia hora de um pregão pode ser mais volátil. Então, eles experimentam os modelos em todos os dados, exceto apenas na primeira meia hora e em todos os dados, mas excluindo a primeira meia hora. Eles podem descobrir que dois de seus modelos se saem bem na primeira meia hora, mas oito deles perdem dinheiro. Visto que, quando excluem a primeira meia hora, sete de seus modelos ganham dinheiro, três perdem dinheiro.

Mas, em vez de pegar esses dois modelos vencedores e usá-los na primeira meia hora de negociação, eles dizem: essa é uma péssima hora do dia para negociação algorítmica e não vamos negociar. O resto do dia eles usarão seus sete modelos. Ou seja, parece que o mercado é mais fácil de prever com o aprendizado de máquina na época; portanto, esses modelos têm mais chances de serem confiáveis no futuro. (A hora do dia não é o único padrão; outros geralmente estão relacionados a eventos de notícias, por exemplo, o mercado é mais volátil logo antes do anúncio de números econômicos importantes.)

Essa é a minha interpretação do que ele está dizendo; pode estar totalmente errado, mas espero que ainda seja útil para pensar em alguém.

Darren Cook
fonte

2

Como profissional de finanças, conheço contexto suficiente para que a declaração não apresente ambiguidade. As séries temporais financeiras geralmente são caracterizadas com mudanças de regime, quebras estruturais e desvios de conceito; portanto, a validação cruzada praticada em outros setores não é tão bem-sucedida em aplicações financeiras. Na segunda parte, ele se refere a uma métrica financeira: retorno do investimento na razão Sharpe (retorno no numerador), não MSE ou outra função de perda. Se a estratégia dentro da amostra produz 10% de retorno, então, na negociação real, pode realisticamente produzir apenas 5%. A parte "revolucionária" certamente diz respeito à sua abordagem de análise proprietária, não às aspas.

onlyvix.blogspot.com
fonte

Uma pergunta a apenas vix: você conhece algum trabalho usando sua métrica financeira como uma ferramenta para otimização de parâmetros, ou seja, otimizando diretamente parâmetros maximizando essa métrica, em vez de usar a probabilidade máxima?

precisa saber é o seguinte

@kbh não é minha métrica financeira - otimizar a taxa de sharpe é muito comum. Um exemplo bem no topo da minha cabeça ssrn.com/abstract=962461 - nenhum modelo estatístico exato é desenvolvido, mas as regras de negociação criadas para (em termos muito gerais) maximizar retornos e minimizar riscos.

Onlyvix.blogspot.com

Nova maneira revolucionária de mineração de dados?

Respostas: