Modelagem preditiva - devemos nos preocupar com modelagem mista?

19

Para modelagem preditiva, precisamos nos preocupar com conceitos estatísticos, como efeitos aleatórios e não independência de observações (medidas repetidas)? Por exemplo....

Eu tenho dados de 5 campanhas de mala direta (ocorridas ao longo de um ano) com vários atributos e um sinalizador para compra. Idealmente, eu usaria todos esses dados combinados para criar um modelo para compra, considerando os atributos do cliente no momento da campanha. O motivo é que o evento de compra é raro e eu gostaria de usar o máximo de informações possível. Há uma chance de um determinado cliente estar entre 1 e 5 das campanhas - o que significa que não há independência entre os registros.

Isso importa ao usar:

1) Uma abordagem de aprendizado de máquina (por exemplo, árvore, MLP, SVM)

2) Uma abordagem estatística (regressão logística)?

**ADD:**

Meu pensamento sobre modelagem preditiva é se o modelo funciona, use-o. Para que eu nunca tenha realmente considerado a importância de suposições. Pensar no caso que descrevi acima me fez pensar.

Tome algoritmos de aprendizado de máquina como a MLP and SVM. Eles são usados ​​com sucesso para modelar um evento binário, como no meu exemplo acima, mas também dados de séries temporais claramente correlacionados. No entanto, muitos usam funções de perda que são prováveis ​​e derivadas, assumindo que os erros são iid. Por exemplo, as árvores aumentadas por gradiente em R gbmusam funções de perda de desvio derivadas do binômio ( Página 10 ).

B_Miner
fonte
1
Será importante para abordagens estatísticas que assumem independência entre os registros, porque você está lidando com medidas repetidas.
317 Michelle
4
Parece-me que uma das principais diferenças entre aprendizado de máquina focado em previsão e estatística focada em inferência é exatamente o que você diz, B_Miner. O aprendizado de máquina está mais preocupado com o que funciona, enquanto as estatísticas tradicionais prestam atenção especial às suposições. Nos dois casos, você precisa estar ciente das suposições / propriedades de suas abordagens e tomar uma decisão informada, independentemente de elas importarem ou não. Você pode estar se enganando na modelagem preditiva sobre se o seu modelo funciona se você não entender as suposições / propriedades da abordagem.
Anne Z.
2
@ AnneZ.Se você seguir a abordagem de validação recomendada do conjunto de treinamento, teste e validação (todas as amostras são suficientemente grandes) na modelagem preditiva e encontrar algo que funcione, ainda é necessário se preocupar se as premissas subjacentes forem atendidas? Eu certamente não recomendar a aplicação irracional da ML, eu só estava me perguntando ...
Steffen
2
Neste contexto, o papel de "Modelagem Estatística: As Duas Culturas" pode ser interessante, discutido no terceiro clube revista crossvalidated
Steffen

Respostas:

14

Eu mesmo estava me perguntando isso , e aqui estão minhas conclusões provisórias. Ficaria feliz se alguém pudesse suplementar / corrigir isso com seus conhecimentos e quaisquer referências sobre este tópico.

Se você deseja testar hipóteses sobre coeficientes de regressão logística, verificando a significância estatística, é necessário modelar a correlação entre as observações (ou, caso contrário, corrigir a não independência), pois, caso contrário, seus erros padrão serão muito pequenos, pelo menos quando você considerar efeitos de cluster. Mas os coeficientes de regressão são imparciais, mesmo com observações correlacionadas, por isso deve ser bom usar esse modelo para previsão.

Na modelagem preditiva, você não precisa explicar explicitamente a correlação ao treinar seu modelo, esteja usando regressão logística ou alguma outra abordagem. No entanto, se você quiser usar um conjunto de validação para validação ou cálculo de erro fora da amostra, deverá garantir que as observações para cada indivíduo apareçam apenas em um conjunto, treinamento ou validação, mas não ambas. Caso contrário, seu modelo estará prevendo para as pessoas sobre as quais ele já possui algumas informações e você não estará obtendo uma leitura verdadeira sobre a capacidade de classificação fora da amostra.

Anne Z.
fonte