O que significa quando os estatísticos falam sobre ter mais preditores do que observações em um modelo de regressão? Como isso poderia ser possível? Por que é um problema de regressão? Desculpas, eu sou novo na análise quantitativa e estatísticas, então não tenho certeza por que isso acontece. Eu apreciaria a explicação mais simples possível -
regression
user3424836
fonte
fonte
Respostas:
Eu acho que a confusão vem da maneira como a palavra "observação" é usada algumas vezes. Diga que você queria saber como a expressão de 20.000 genes estava relacionada a alguma variável biológica contínua, como a pressão arterial. Você tem dados sobre a expressão de 20.000 genes e sobre a pressão arterial de 10.000 indivíduos. Você pode pensar que isso envolve 10.000 * 20.001 = 200.010.000 observações. Certamente existem muitos pontos de dados individuais. Mas quando as pessoas dizem que há "mais preditores do que observações" neste caso, eles apenas contam cada pessoa como uma "observação"; uma "observação" é então um vetor de todos os pontos de dados coletados em um único indivíduo. Pode ser menos confuso dizer "casos" do que "observações", mas o uso na prática geralmente tem suposições ocultas como essa.
O problema com mais preditores do que casos (geralmente indicado como "p > n ") é que não há solução única para um problema de regressão linear padrão. Se as linhas da matriz de pontos de dados representam casos e as colunas representam preditores, há necessariamente dependências lineares entre as colunas da matriz. Então, uma vez que você encontrou coeficientes para n dos preditores, os coeficientes para os outros ( p - n ) preditores podem ser expressos como combinações lineares arbitrárias dos primeiros n preditores. Outras abordagens, como o LASSO ou a regressão de crista, ou uma variedade de outras abordagens de aprendizado de máquina, fornecem maneiras de proceder nesses casos.
fonte