Qual é o problema com ?

7

Eu sei que este é o sistema de solução de problemas de equações lineares.

Mas minha pergunta é por que é um problema o número de observações ser menor que o número de preditores, como isso pode acontecer?

A coleta de dados não provém do delicado projeto de pesquisa ou do experimento, na medida em que pelo menos eles pensam sobre isso?

Se a coleta de dados deseja coletar 45 variáveis ​​para realizar pesquisas, por que ele coletaria menos de 45 observações? Perdi alguma coisa e, embora a parte de seleção do modelo também tenha eliminado as variáveis ​​de não melhoria na resposta e sempre a variável coletada será eliminada para certo? 45(45p)

Então, por que enfrentaríamos a solução não exclusiva nesses casos?

EconBoy
fonte
11
Eu suspeito que você ainda não tenha sido esclarecido sobre a seleção de modelos passo a passo , mas eu gosto dessa pergunta.
Alexis
Sim, sem dúvida eu não. Eu entendo a parte do conceito, mas em parte sobre a combinação do modelo em matemática. por que sofreríamos com p> n?
EconBoy
2
Pode haver casos em que, uma vez que você tenha um sujeito em sua amostra, é barato medir (dezenas de) milhares de variáveis ​​- pelo menos não mais caras que 10 ou 100. Bioinformática? sensores automatizados?
precisa saber é o seguinte
3
Às vezes, não é possível ter observações suficientes para combater todas as variáveis ​​que precisam ser contabilizadas. Exemplos clássicos são estudos médicos, onde o número de pessoas que você pode tratar é muito limitado.
Nope

Respostas:

3

Isso pode ocorrer em muitos cenários, poucos exemplos são:

  1. Análise de dados médicos em hospitais. Pesquisadores médicos que estudam um câncer em particular podem fazer a coleta de dados em seu próprio hospital, e acho que não é uma coisa ruim que eles tentem coletar muitas variáveis ​​possíveis de um paciente em particular, como idade, sexo, tamanho do tumor, ressonância magnética e volume da tomografia computadorizada.
  2. Estudos de microprocessadores em bioinformática. Geralmente, você não tem muitas espécies, mas deseja poder testar o maior número possível de efeitos.
  3. Análise com imagens. Você costuma ter 16 milhões de pixels, embora seja muito difícil coletar e armazenar tantas imagens.
  4. As reconstruções por ressonância magnética geralmente são problemas semelhantes, que precisam de técnicas de regressão esparsas, e melhorá-las é realmente uma questão central na pesquisa de imagens por ressonância magnética.

A solução é realmente, examinar a literatura de regressão e encontrar o que melhor funciona para sua aplicação.

  1. Se você possui conhecimento de domínio, incorpore em sua distribuição anterior e adote uma abordagem bayesiana com regressão linear bayesiana.

  2. Se você deseja encontrar uma solução esparsa, a abordagem empírica de Bayes da determinação automática de relevância pode ser o caminho a seguir.

  3. Se você acha que, com o seu problema, ter uma noção de probabilidades é inapropriado (como resolver um sistema linear de equações), talvez valha a pena examinar o pseudo-inverso de Moore-Penrose.

  4. Você pode abordá-lo a partir de uma perspectiva de seleção de recursos e reduzir o número de p até que seja um problema bem colocado.

boomkin
fonte
Muito obrigado pela resposta, eu ficaria grato se você me desse um caso para estudo. Pelo que ouvi de você, soa como "o caso em que é raro e o pesquisador realmente quer se aprofundar nessa coisa com a enorme quantidade de variáveis ​​que eles pensam que extrairão o padrão e as informações úteis para prever essa raridade?"
precisa saber é
11
Você pode chamá-lo de uma doença rara de câncer, mas, na minha experiência, leva tempo para reunir dados suficientes, mesmo para os mais comuns, se você estiver limitado aos pacientes de um hospital. A chave é que n é escasso, enquanto p não é. Ainda estou procurando um exemplo prático e bom, mas o trabalho de David Wipf sobre neuroimagem por dicionários supercompletos pode ser um bom começo da perspectiva teórica aplicada.
boomkin
10

Esta é uma pergunta muito boa. Quando o número de candidatos a preditores é maior que o tamanho efetivo da amostra , e não há restrições nos coeficientes de regressão (por exemplo, um não está usando encolhimento, também conhecido como estimativa ou regularização de verossimilhança máxima penalizada), a situação é desesperadora. Eu digo que por várias razões, incluindopn

  • Se você pensar no número de combinações lineares não redundantes de variáveis ​​que podem ser analisadas, esse número é . Por exemplo, você não pode nem computar , muito menos confiar, componentes principais além de .min(n,p)min(n,p)
  • Com e não há duas coordenadas em uma linha vertical ao plotar , pode-se obter para qualquer conjunto de dados, mesmo que a população real seja 0,0.p=ny(x,y)R2=1.0R2
  • Se você usar qualquer algoritmo de seleção de recurso, como temidos modelos de regressão passo a passo, a lista de recursos "selecionados" será essencialmente um conjunto aleatório de recursos, sem esperança de replicação em outra amostra. Isto é especialmente verdade se houver correlações entre as características candidatas, por exemplo, co-linearidade.
  • O valor de necessário para estimar com precisão decente um único coeficiente de correlação entre duas variáveis ​​é de cerca de 400. Veja aqui .n

Em geral, um estudo que pretende analisar 45 variáveis ​​em 45 indivíduos é mal planejado e as únicas maneiras de resgatá-lo que eu conheço são

  • Pré-especifique um ou dois preditores para analisar e ignorar o restante
  • Use estimativa penalizada, como regressão de crista, para ajustar todas as variáveis, mas use os coeficientes com um grão de sal (descontos pesados)
  • Use a redução de dados, por exemplo, componentes principais, clustering variável, componentes principais esparsos (o meu favorito), conforme discutido no meu livro do RMS e nas notas do curso . Isso envolve combinar variáveis ​​difíceis de separar e não tentar estimar efeitos separados para elas. Para você só pode se dar bem com 2 pontuações reduzidas por jogar contra . A redução de dados (aprendizado não supervisionado) é mais interpretável do que a maioria dos outros métodos.n=45y

Um detalhe técnico: se você usar um dos melhores métodos combinados de seleção / penalização de variáveis, como laço ou rede elástica, poderá diminuir a chance de sobreajuste, mas ficará decepcionado com o fato de a lista de recursos selecionados ser altamente instável e não se replicar em outros conjuntos de dados.

Frank Harrell
fonte
Isso é realmente útil, Frank! Eu tenho o conhecimento de como lidar com os casos em que p> n, eu sei por que é um problema e que tipo de problema pode levar. Eu realmente recebi muitas respostas por isso, embora você não entenda meu ponto, faço apenas uma pergunta simples: por que esse caso pode acontecer se eles fizerem uma coleta de dados delicada? Os estatísticos sabem que pode ser um problema, por que eles não o impediram, obviamente eles sabem, isso significa que eles tentam, mas não podem. então por que eles não podem? Muito obrigado !!!
precisa saber é
Essa pergunta é mais sobre psicologia e logística. Acho que muitas vezes os estudos são elaborados pelo comitê e todos têm uma variável favorita. Antes que você perceba, a lista de variáveis ​​é muito longa para poder (1) medir de forma confiável todas elas e (2) analisá-las.
Frank Harrell