Meu projeto atual pode exigir que eu construa um modelo para prever o comportamento de um determinado grupo de pessoas. o conjunto de dados de treinamento contém apenas 6 variáveis (id é apenas para fins de identificação):
id, age, income, gender, job category, monthly spend
em que monthly spend
é a variável de resposta. Mas o conjunto de dados de treinamento contém aproximadamente 3 milhões de linhas, e o conjunto de dados (que contém id, age, income, gender, job category
mas nenhuma variável de resposta) a ser previsto contém 1 milhão de linhas. Minha pergunta é: existe algum problema em potencial se eu lançar muitas linhas (3 milhões neste caso) em um modelo estatístico? Entendo que as despesas computacionais são uma das preocupações, existem outras preocupações? Existem livros / documentos que explicam completamente o problema do tamanho do conjunto de dados?
fonte
Respostas:
Existem dois tipos de problemas que você pode encontrar:
1) Problemas no computador porque o conjunto de dados é muito grande. Atualmente, alguns milhões de linhas com 6 colunas não são tão grandes assim. Mas, dependendo do seu programa, do seu computador, da sua quantidade de RAM e provavelmente de outras coisas, isso pode acontecer.
2) problemas estatísticos. Aqui, um problema que você discute terá um "problema" que eu conheço: até pequenos efeitos serão altamente significativos. Isso não é realmente um problema com regressão, é um problema com valores de p. Melhor observar os tamanhos dos efeitos (parâmetros de regressão).
3) Outro tipo de problema com o seu modelo não se deve ao número de linhas, mas à natureza da variável de resposta (gasto mensal). Embora a regressão OLS não faça nenhuma suposição sobre a distribuição da resposta (apenas sobre o erro), no entanto, modelos com dinheiro como variável dependente geralmente apresentam erros não normais. Além disso, muitas vezes faz sentido, substancialmente, registrar o log da resposta. Se isso é verdade no seu caso, depende exatamente do que você está tentando fazer.
fonte
O importante é o número de indivíduos (linhas) em comparação com o número de coeficientes que você precisa estimar para o modelo que deseja ajustar. As regras típicas sugerem, no mínimo, cerca de 20 observações por coeficiente, portanto, você deve poder estimar até 150.000 coeficientes - certamente mais do que adequado para seus quatro preditores.
De fato, você tem uma oportunidade, não um problema, neste caso: ajustar um modelo bastante complexo, incluindo relações não lineares da resposta aos preditores e interações entre preditores; que pode prever a resposta muito melhor do que uma resposta mais simples, na qual se supõe que as relações da resposta aos preditores sejam lineares e aditivas.
fonte