Mais preditores do que observações?

9

O que significa quando os estatísticos falam sobre ter mais preditores do que observações em um modelo de regressão? Como isso poderia ser possível? Por que é um problema de regressão? Desculpas, eu sou novo na análise quantitativa e estatísticas, então não tenho certeza por que isso acontece. Eu apreciaria a explicação mais simples possível -

user3424836
fonte
2
Considere um conjunto de dados composto por 100 imagens, cada um dos quais é de 256 x 256.
Jakub Bartczuk
Para um exemplo semelhante, veja Olivetti enfrenta o conjunto de dados
Jakub Bartczuk 18/18
Desculpe, este exemplo não está muito claro para mim, mas obrigado
user3424836
4
Para um exemplo simples, imagine se você tivesse 5 alunos e desejasse prever a altura deles a partir de outras variáveis. Então você mede o sexo, cidade, número de letras em seu sobrenome, tamanho do sapato, comprimento do cabelo e peso. Se você colocar tudo isso em um modelo, terá seis preditores e apenas cinco observações.
Sal Mangiafico 18/03/19
Obrigado, isso é muito útil. Sua resposta deixou claro para mim qual é o problema.
user3424836

Respostas:

5

Eu acho que a confusão vem da maneira como a palavra "observação" é usada algumas vezes. Diga que você queria saber como a expressão de 20.000 genes estava relacionada a alguma variável biológica contínua, como a pressão arterial. Você tem dados sobre a expressão de 20.000 genes e sobre a pressão arterial de 10.000 indivíduos. Você pode pensar que isso envolve 10.000 * 20.001 = 200.010.000 observações. Certamente existem muitos pontos de dados individuais. Mas quando as pessoas dizem que há "mais preditores do que observações" neste caso, eles apenas contam cada pessoa como uma "observação"; uma "observação" é então um vetor de todos os pontos de dados coletados em um único indivíduo. Pode ser menos confuso dizer "casos" do que "observações", mas o uso na prática geralmente tem suposições ocultas como essa.

O problema com mais preditores do que casos (geralmente indicado como "p>n") é que não há solução única para um problema de regressão linear padrão. Se as linhas da matriz de pontos de dados representam casos e as colunas representam preditores, há necessariamente dependências lineares entre as colunas da matriz. Então, uma vez que você encontrou coeficientes para n dos preditores, os coeficientes para os outros (p-n) preditores podem ser expressos como combinações lineares arbitrárias dos primeiros npreditores. Outras abordagens, como o LASSO ou a regressão de crista, ou uma variedade de outras abordagens de aprendizado de máquina, fornecem maneiras de proceder nesses casos.

EdM
fonte
Obrigado, isso é muito útil. Pelo que entendi, com base em sua resposta muito abrangente, o problema com esse tipo de situação é que os preditores seriam correlacionados ou colineares. O meu entendimento da sua explicação está correto?
user3424836
Qualquer solução que minimize a soma dos quadrados dará um ajuste perfeito. Penso que o problema de super adaptação é um problema muito mais sério quando o número de parâmetros (coeficientes para variáveis ​​preditivas) excede o número de pontos de dados do que a não exclusividade da solução. Observe também que quando o número de parâmetros é igual ao número de pontos de dados, existe uma solução exclusiva e você ainda tem um ajuste perfeito.
Michael R. Chernick 18/03/19
As técnicas como o LASSO mencionadas pelo @EdM são todas técnicas de seleção de variáveis ​​que reduzem o número de variáveis ​​preditoras. A maioria deles fornece maneiras de decidir quais variáveis ​​preditoras são mais importantes.
Michael R. Chernick 19/03/19
Isso é muito útil. Quando você diz não exclusividade da solução, isso se refere ao conjunto de dados?
user3424836
@ user3424836 tem a ver com a estrutura geral dos dados, não com os detalhes adicionais do conjunto de dados. Qualquer situação comp>nterá esse problema, independentemente de você pensar em soluções não únicas de regressão linear, como eu descrevi, ou sobreajustar, como Michael Chernick descreve.
EdM