Eu sei que este é o sistema de solução de problemas de equações lineares.
Mas minha pergunta é por que é um problema o número de observações ser menor que o número de preditores, como isso pode acontecer?
A coleta de dados não provém do delicado projeto de pesquisa ou do experimento, na medida em que pelo menos eles pensam sobre isso?
Se a coleta de dados deseja coletar 45 variáveis para realizar pesquisas, por que ele coletaria menos de 45 observações? Perdi alguma coisa e, embora a parte de seleção do modelo também tenha eliminado as variáveis de não melhoria na resposta e sempre a variável coletada será eliminada para certo?
Então, por que enfrentaríamos a solução não exclusiva nesses casos?
Respostas:
Isso pode ocorrer em muitos cenários, poucos exemplos são:
A solução é realmente, examinar a literatura de regressão e encontrar o que melhor funciona para sua aplicação.
Se você possui conhecimento de domínio, incorpore em sua distribuição anterior e adote uma abordagem bayesiana com regressão linear bayesiana.
Se você deseja encontrar uma solução esparsa, a abordagem empírica de Bayes da determinação automática de relevância pode ser o caminho a seguir.
Se você acha que, com o seu problema, ter uma noção de probabilidades é inapropriado (como resolver um sistema linear de equações), talvez valha a pena examinar o pseudo-inverso de Moore-Penrose.
Você pode abordá-lo a partir de uma perspectiva de seleção de recursos e reduzir o número de p até que seja um problema bem colocado.
fonte
Esta é uma pergunta muito boa. Quando o número de candidatos a preditores é maior que o tamanho efetivo da amostra , e não há restrições nos coeficientes de regressão (por exemplo, um não está usando encolhimento, também conhecido como estimativa ou regularização de verossimilhança máxima penalizada), a situação é desesperadora. Eu digo que por várias razões, incluindop n
Em geral, um estudo que pretende analisar 45 variáveis em 45 indivíduos é mal planejado e as únicas maneiras de resgatá-lo que eu conheço são
Um detalhe técnico: se você usar um dos melhores métodos combinados de seleção / penalização de variáveis, como laço ou rede elástica, poderá diminuir a chance de sobreajuste, mas ficará decepcionado com o fato de a lista de recursos selecionados ser altamente instável e não se replicar em outros conjuntos de dados.
fonte