Para modelagem preditiva, precisamos nos preocupar com conceitos estatísticos, como efeitos aleatórios e não independência de observações (medidas repetidas)? Por exemplo....
Eu tenho dados de 5 campanhas de mala direta (ocorridas ao longo de um ano) com vários atributos e um sinalizador para compra. Idealmente, eu usaria todos esses dados combinados para criar um modelo para compra, considerando os atributos do cliente no momento da campanha. O motivo é que o evento de compra é raro e eu gostaria de usar o máximo de informações possível. Há uma chance de um determinado cliente estar entre 1 e 5 das campanhas - o que significa que não há independência entre os registros.
Isso importa ao usar:
1) Uma abordagem de aprendizado de máquina (por exemplo, árvore, MLP, SVM)
2) Uma abordagem estatística (regressão logística)?
**ADD:**
Meu pensamento sobre modelagem preditiva é se o modelo funciona, use-o. Para que eu nunca tenha realmente considerado a importância de suposições. Pensar no caso que descrevi acima me fez pensar.
Tome algoritmos de aprendizado de máquina como a MLP and SVM
. Eles são usados com sucesso para modelar um evento binário, como no meu exemplo acima, mas também dados de séries temporais claramente correlacionados. No entanto, muitos usam funções de perda que são prováveis e derivadas, assumindo que os erros são iid. Por exemplo, as árvores aumentadas por gradiente em R gbm
usam funções de perda de desvio derivadas do binômio ( Página 10 ).
Respostas:
Eu mesmo estava me perguntando isso , e aqui estão minhas conclusões provisórias. Ficaria feliz se alguém pudesse suplementar / corrigir isso com seus conhecimentos e quaisquer referências sobre este tópico.
Se você deseja testar hipóteses sobre coeficientes de regressão logística, verificando a significância estatística, é necessário modelar a correlação entre as observações (ou, caso contrário, corrigir a não independência), pois, caso contrário, seus erros padrão serão muito pequenos, pelo menos quando você considerar efeitos de cluster. Mas os coeficientes de regressão são imparciais, mesmo com observações correlacionadas, por isso deve ser bom usar esse modelo para previsão.
Na modelagem preditiva, você não precisa explicar explicitamente a correlação ao treinar seu modelo, esteja usando regressão logística ou alguma outra abordagem. No entanto, se você quiser usar um conjunto de validação para validação ou cálculo de erro fora da amostra, deverá garantir que as observações para cada indivíduo apareçam apenas em um conjunto, treinamento ou validação, mas não ambas. Caso contrário, seu modelo estará prevendo para as pessoas sobre as quais ele já possui algumas informações e você não estará obtendo uma leitura verdadeira sobre a capacidade de classificação fora da amostra.
fonte