Visão unificada sobre o encolhimento: qual é a relação (se houver) entre o paradoxo de Stein, a regressão de crista e os efeitos aleatórios em modelos mistos?

64

Considere os três fenômenos a seguir.

  1. Paradoxo de Stein: dados alguns dados da distribuição normal multivariada em , a média da amostra não é um estimador muito bom da verdadeira média. Pode-se obter uma estimativa com erro quadrado médio mais baixo se reduzirmos todas as coordenadas da amostra em direção a zero [ou em relação à sua média, ou na verdade em relação a qualquer valor, se bem entendi].Rn,n3

    Nota: normalmente o paradoxo de Stein é formulado considerando-se apenas um único ponto de dados de ; corrija-me se isso for crucial e minha formulação acima não estiver correta.Rn

  2. Regressão de Ridge: dada uma variável dependente e algumas variáveis ​​independentes , a regressão padrão tende superestimar os dados e levar a um desempenho fora da amostra ruim. Pode-se reduzir o sobreajuste encolhendo direção a zero: .yXβ=(XX)1Xyββ=(XX+λI)1Xy

  3. Efeitos aleatórios em modelos multiníveis / mistos: dada uma variável dependente (por exemplo, a altura do aluno) que depende de alguns preditores categóricos (por exemplo, id da escola e sexo do aluno), recomenda-se frequentemente tratar alguns preditores como 'aleatórios', ou seja, supondo que a altura média do aluno em cada escola vem de alguma distribuição normal subjacente. Isso resulta na redução das estimativas da altura média por escola em relação à média global.y

Tenho a sensação de que tudo isso são vários aspectos do mesmo fenômeno do "encolhimento", mas não tenho certeza e certamente não tenho uma boa intuição sobre isso. Portanto, minha pergunta principal é: existe realmente uma profunda semelhança entre essas três coisas, ou é apenas uma aparência superficial? Qual é o tema comum aqui? Qual é a intuição correta sobre isso?

Além disso, aqui estão algumas peças deste quebra-cabeça que realmente não se encaixam para mim:

  • Na regressão de crista, não é reduzido uniformemente; o encolhimento da cordilheira está realmente relacionado à decomposição de valores singulares de , com as direções de baixa variância sendo mais reduzidas (consulte, por exemplo, The Elements of Statistical Learning 3.4.1). Mas o estimador de James-Stein simplesmente pega a média da amostra e a multiplica por um fator de escala. Como isso se encaixa?XβX

    Atualização: consulte James-Stein Estimator com variações desiguais e, por exemplo, aqui, sobre variações de coeficientes .β

  • A média da amostra é ótima nas dimensões abaixo de 3. Isso significa que, quando houver apenas um ou dois preditores no modelo de regressão, a regressão da crista será sempre pior que os mínimos quadrados comuns? Na verdade, pensando bem, não consigo imaginar uma situação em 1D (isto é, regressão simples e não múltipla) em que o encolhimento da crista seria benéfico ...

    Atualização: Não. Consulte Sob exatamente quais condições a regressão de crista pode fornecer uma melhoria em relação à regressão de mínimos quadrados ordinários?

  • Por outro lado, a média da amostra é sempre abaixo do ideal em dimensões acima de 3. Isso significa que, com mais de três preditores, a regressão da crista é sempre melhor que a OLS, mesmo que todos os preditores não estejam correlacionados (ortogonais)? Geralmente, a regressão de crista é motivada pela multicolinearidade e pela necessidade de "estabilizar" o termo .(XX)1

    Atualização: Sim! Veja o mesmo tópico acima.

  • Muitas vezes há uma discussão acalorada sobre se vários fatores na ANOVA devem ser incluídos como efeitos fixos ou aleatórios. Pela mesma lógica, não deveríamos sempre tratar um fator aleatoriamente se ele tiver mais de dois níveis (ou se houver mais de dois fatores? Agora estou confuso)?

    Atualização :?


Atualização: recebi ótimas respostas, mas nenhuma fornece uma imagem grande o suficiente, por isso deixarei a pergunta "aberta". Posso prometer conceder uma recompensa de pelo menos 100 pontos a uma nova resposta que superará as existentes. Procuro principalmente uma visão unificadora que possa explicar como o fenômeno geral de encolhimento se manifesta nesses vários contextos e apontar as principais diferenças entre eles.

ameba diz Restabelecer Monica
fonte
Meu entendimento é que a regressão de cordilheira (e seus primos, como Lasso e rede elástica) reduz coeficientes para variáveis ​​correlacionadas compartilhadas por todas as observações na regressão (por exemplo, status socioeconômico e GPA do aluno) enquanto um modelo de efeitos aleatórios realiza contração nos coeficientes para níveis mutuamente exclusivos ou grupos de observações correlacionadas (como o status socioeconômico do aluno agrupado por ID da escola).
RobertF 30/10
3
Eu acho que o melhor lugar para obter uma resposta unificadora é olhar para a palavra-chave BLUP (melhor preditor imparcial e linear) esp. na literatura de criação de animais. Veja, por exemplo, a pesquisa de Robinson na Statistical Science. Ou o livro de
Xian
2
@ Xi'an: Muito obrigado, eu já encontrei o livro de Gruber, e mesmo que ele certamente discuta muito sobre James-Stein e a regressão de cume, não encontrei imediatamente nenhuma comparação direta dos dois (ler o livro inteiro é não é uma opção para mim agora ...). Obrigado pelo link para a pesquisa de Robinson, vou dar uma olhada; criação de animais ! Quem teria pensado. A propósito, eu vi seus comentários sobre tópicos relacionados e acho que você pode ser uma das pessoas que poderia realmente fornecer uma resposta satisfatória aqui! Isso seria ótimo; até agora nenhuma resposta me deixa contente.
Ameba diz Reinstate Monica
2
@ Xi'an: Bem, seus comentários úteis abaixo me fazem perder uma resposta de você aqui. De qualquer forma, comecei a ler Robinson e percebi que "O melhor preditor linear e imparcial" é um estimador tendencioso (obviamente, porque implementa o encolhimento)! Que bela terminologia.
Ameba diz Reinstate Monica
4
Eles são bons em nomes na criação de animais: depois que Casella e George, 1992, "Gibbs for kids" tiveram que mudar seu título para serem publicados, Wang & Gianola escreveram uma introdução "Gibbs para porcos" em 1993 em uma reunião da Associação Europeia de Produção Animal!
Xian

Respostas:

30

Conexão entre o estimador de James – Stein e a regressão de crista

Seja um vetor de observação de de comprimento , , o estimador de James-Stein é Em termos de regressão de crista, podemos estimar via que a solução é É fácil ver que os dois estimadores estão na mesma forma, mas precisamos estimaryθmyN(θ,σ2I)

θ^JS=(1(m2)σ2y2)y.
θminθyθ2+λθ2,
θ^ridge=11+λy.
σ2 no estimador James-Stein e determine na regressão de crista através da validação cruzada.λ

Conexão entre o estimador de James – Stein e os modelos de efeitos aleatórios

Vamos discutir primeiro os modelos de efeitos mistos / aleatórios na genética. O modelo é Se não houver efeitos fixos e , o modelo se tornará que é equivalente à configuração do estimador James-Stein, com alguns Ideia bayesiana.

y=Xβ+Zθ+e,θN(0,σθ2I),eN(0,σ2I).
Z=I
y=θ+e,θN(0,σθ2I),eN(0,σ2I),

Conexão entre modelos de efeitos aleatórios e regressão de crista

Se focarmos nos modelos de efeitos aleatórios acima, A estimativa é equivalente a resolver o problema quando . A prova pode ser encontrada no Capítulo 3 do Reconhecimento de padrões e aprendizado de máquina .

y=Zθ+e,θN(0,σθ2I),eN(0,σ2I).
minθyZθ2+λθ2
λ=σ2/σθ2

Conexão entre modelos de efeitos aleatórios (multiníveis) e genética

No modelo de efeitos aleatórios acima, a dimensão de é e a de é . Se vetorizarmos como e repetirmos correspondentemente, teremos a estrutura hierárquica / agrupada, clusters e cada um com unidades. Se regredirmos em repetido , podemos obter o efeito aleatório de em para cada cluster, embora seja como regressão reversa.ym×1,Zm×pZ(mp)×1,ypmvec(Z)yZy


Agradecimento : os três primeiros pontos são amplamente aprendidos com esses dois artigos chineses, 1 , 2 .

Randel
fonte
(+1) Muito obrigado! Isso é muito útil, e com certeza vou procurar no livro didático de Bishop, que conheço bem e frequentemente consulto. Eu não esperava encontrar nada em modelos mistos lá, mas parece que a Seção 3.3 "Regressão linear bayesiana" é realmente sobre isso, apenas usa terminologia diferente. Muito bom saber! Mas qual é a sua opinião sobre minhas perguntas sobre balas?
Ameba diz Reinstate Monica
Você tem muitas perguntas em uma postagem. :) 1) Como respondi acima, o estimador de James-Stein e a regressão de cume são equivalentes quando não há covariáveis , ou apenas uma matriz de identidade. 2,3,4), como @James mencionou, o número de preditores ( acima) não é necessariamente igual à dimensão de resposta . Xpm
quer
BTW, não consigo ver que a média / média da amostra é usada no estimador James-Stein, ele realmente pega o estimador e o reduz para . y0
Randel
2
O estimador JS e a regressão de crista são distintos. Uma estimativa de regressão de crista da localização dimensional de um vetor p corresponde à matriz de projeto , que levaria à estimativa , que está faltando o termo (não linear!) no denominador do estimador JSpIp(1+λ)1Ipyy2
Andrew M
3
Eu acho que tudo depende do que você chama de estimador de cume. No sentido inicial de Hoerl e Kennard (1970), de fato não há dependência de nos dados. No sentido posterior da tese de doutorado de Casella (1978), a determinação manual de é substituída por uma função da soma residual dos quadrados. λλ
Xian
6

Vou deixar como um exercício para a comunidade elaborar essa resposta, mas, em geral, a razão pela qual os estimadores de encolhimento * dominam * estimadores imparciais em amostras finitas é porque os estimadores de Bayes não podem ser dominados , e muitos estimadores de encolhimento podem ser derivados como sendo Bayes. 1234

Tudo isso está sob a égide da teoria da decisão. Uma referência exaustiva, mas bastante hostil, é a "Teoria da estimativa pontual" de Lehmann e Casella. Talvez outros possam concordar com referências mais amigáveis?


1 Um estimador do parâmetro nos dados é dominado por outro estimador se para cada o risco (por exemplo, erro quadrado médio) de é igual ou maior que e supera por pelo menos um . Em outras palavras, você obtém desempenho igual ou melhor para em qualquer lugar do espaço de parâmetros.δ1(X)θΩXδ2(X)θΩδ1δ2δ2δ1θδ2

2 Um estimador é Bayes (de qualquer forma com perda de erro ao quadrado) se for a expectativa posterior de , dados os dados, em alguns anteriores , por exemplo, , onde a expectativa é tomada com a posterior. Naturalmente, diferentes antecedentes levam a riscos diferentes para diferentes subconjuntos de . Um exemplo importante de brinquedo é o anterior que coloca todos os anteriores massa sobre o ponto . Então você pode mostrar que o estimador Bayes é a função constanteθπδ(X)=E(θ|X)Ω

πθ0={1if θ=θ00θθ0
θ0δ(X)=θ0, que obviamente tem um desempenho extremamente bom em e próximo , e um desempenho muito ruim em outros lugares. Mas, no entanto, não pode ser dominado, porque apenas esse estimador leva a risco zero em .θ0θ0

3 Uma pergunta natural é se algum estimador que não pode ser dominado (chamado admissível , embora não seja indomável, seria snazzier?) Precisa ser Bayes? A resposta é quase. Veja "teoremas completos de classe".

4 Por exemplo, a regressão de cume surge como um procedimento bayesiano quando você coloca um Normal (0, ) anterior em , e os modelos de efeito aleatório surgem como um procedimento bayesiano empírico em uma estrutura semelhante . Esses argumentos são complicados pelo fato de que a versão baunilha dos teoremas bayesianos de admissibilidade pressupõe que todo parâmetro tenha um prévio apropriado. Mesmo na regressão de crista, isso não é verdade, porque o "anterior" está sendo colocado na variação1/λ2βσ2O termo erro é a função constante (medida de Lebesgue), que não é uma distribuição de probabilidade adequada (integrável). No entanto, muitos desses estimadores Bayes "parcialmente" podem ser mostrados admissíveis demonstrando que são o "limite" de uma sequência de estimadores que são Bayes adequados. Mas as provas aqui ficam complicadas e delicadas. Consulte "estimadores de bayes generalizados".

Andrew M
fonte
11
Muito obrigado, muito interessante (+1). Só posso desejar que sua resposta seja mais detalhada ... Re sua nota de rodapé (3): você está dizendo que todos os estimadores de Bayes são admissíveis / indomáveis ​​(eu gosto da palavra), independentemente do anterior? Mas o estimador de James-Stein pode ser derivado de Bayes empírico; por que é inadmissível então? Além disso, isso significaria que, por exemplo, na regressão de crista, eu posso tomar um concentrado anterior não em torno de zero, mas em algum outro valor: , e ainda será uma estratégia de regularização razoável? βN(β0,1/λ2)
Ameba diz Reinstate Monica 4/04
2
Pelo motivo pelo qual o estimador James-Stein é inadmissível, você pode encontrar a resposta aqui . Há também uma discussão detalhada e interessante em Lehmann & Casella (1998), Theory of Point Estimation .
Randel Randel
@Randel: sim, eu sei que é inadmissível e já vi esse raciocínio, estou apenas imaginando como isso se encaixa na afirmação de Andrew (dado que entendi corretamente) de que todos os estimadores de Bayes são admissíveis, já que James-Stein pode ser entendido via empírica. Bayes ...
ameba diz Reinstate Monica
2
@Amoeba: sim, qualquer estimador Bayes que seja posterior em qualquer anterior adequado leva a um estimador admissível. No que diz respeito a Bayes empírico, esses procedimentos não são de fato verdade Bayes, porque ter a dependência prévia dos dados pode levar a patologias. Às vezes, elas podem ser consideradas admissíveis, outras, não - normalmente você precisa trabalhar caso a caso. Editei minha resposta para ser um pouco mais cautelosa nesse ponto, porque, na verdade, não sei se modelos mistos lineares clássicos são admissíveis!
Andrew M
3
Só é preciso salientar que os estimadores Bayes genuínos e adequados raramente funcionam como estimadores de James-Stein porque não são minimax. Bill Strawderman mostrou, por exemplo (em 1975), que não existe um estimador minimax adequado de Bayes em dimensões inferiores a 5 para o problema médio normal usual que definiu tudo.
Xian
2
  • James-Stein assume que a dimensão da resposta é pelo menos 3. Na regressão padrão da crista, a resposta é unidimensional. Você está confundindo o número de preditores com a dimensão da resposta.

  • Dito isto, vejo a semelhança entre essas situações, mas o que exatamente fazer, por exemplo, se um fator deve ser fixo ou aleatório, qual a contração aplicada, se é que existe, depende do conjunto de dados específico. Por exemplo, quanto mais ortogonais são os preditores, menos faz sentido escolher a regressão de Ridge sobre a regressão padrão. Quanto maior o número de parâmetros, mais faz sentido extrair o anterior do próprio conjunto de dados via Empirical Bayes e depois usá-lo para reduzir as estimativas de parâmetros. Quanto maior a relação sinal / ruído, menores os benefícios do encolhimento, etc.

James
fonte
Obrigado pela resposta. Em relação ao seu primeiro marcador: mas o que está sendo reduzido na regressão de crista é , que tem tantas dimensões quanto preditores, não é? β
Ameba diz Reinstate Monica
11
Ok, então, em teoria, JS deve funcionar melhor, supondo que ele tenha sido estendido ao caso em que MSE é estimado e a matriz de variância-covariância de beta é arbitrária. Nesse caso, o JS não pegará apenas a estimativa pontual de beta e a multiplicará por um fator de escala. Da mesma forma que a Regressão de Ridge, diferentes componentes da versão beta serão encolhidos de maneira diferente.
James
Ponto muito bom sobre a matriz de covariância de ! Acho que isso responde (pelo menos intuitivamente) à minha primeira bala. β
Ameba diz Reinstate Monica
2
@ James: pode-se pensar em modelos lineares para projetar a amostra (que vive em ) em um subespaço dimensional (as colunas estendidas pela matriz de design.) Em particular, sempre poderíamos projetá-la trivialmente na identidade, que é o mesmo que usar a média da amostra de um vetor quando você tem apenas uma única observação. Rnpn
Andrew M
2

Como já foi dito, a conexão entre os três é como você incorpora as informações anteriores na medição.

  1. No caso do paradoxo de Stein, você sabe que a verdadeira correlação entre as variáveis ​​de entrada deve ser zero (e todas as medidas de correlação possíveis, já que você quer implicar independência, não apenas falta de correlação); portanto, você pode construir uma variável melhor que a simples média da amostra e suprimir as várias medidas de correlação. Na estrutura bayesiana, você pode construir um prior que literalmente pesa os eventos que levam à correlação entre as médias da amostra e os demais.
  2. No caso de regressão de crista, você deseja encontrar uma boa estimativa para o valor da expectativa condicional E (y | x). Em princípio, este é um problema de dimensão infinita e mal definido, pois temos apenas um número finito de medições. No entanto, o conhecimento prévio é que estamos procurando uma função contínua que modele os dados. Isso ainda está mal definido, pois ainda existem infinitas maneiras de modelar funções contínuas, mas o conjunto é um pouco menor. A regressão de Ridge é apenas uma maneira simples de classificar as possíveis funções contínuas, testá-las e parar em um grau final de liberdade. Uma interpretação é a imagem da dimensão VC: durante a regressão do cume, você verifica se o modelo af (x, p1, p2 ...) com um determinado grau de liberdade descreve a incerteza inerente aos dados. Praticamente, mede quão bem pode f (x, p1, p2 ... ) e o P empírico (p1, p2 ...) podem reconstruir a distribuição completa de P (y | x) e não apenas E (y | x). Dessa forma, os modelos com muito grau de liberdade (que geralmente superajustam) são pesados, uma vez que mais parâmetros médios após um certo grau de liberdade fornecerão maiores correlações entre os parâmetros e, consequentemente, P (f (x, p1, p2) muito mais amplos. ..)) distribuições. Uma outra interpretação é que a função de perda original também é um valor de medida, e a avaliação em uma determinada amostra vem com uma incerteza; portanto, a tarefa real não é minimizar a função de perda, mas encontrar um mínimo significativamente menor que o valor da medida. outros (praticamente mudar de um grau de liberdade para outro é uma decisão bayesiana, portanto, um altera o número de parâmetros somente se eles derem uma diminuição significativa na função de perda). A regressão de crista pode ser interpretada como uma aproximação a essas duas figuras (dimensão CV, perda esperada). Em alguns casos, você deseja preferir graus mais altos de liberdade, por exemplo, na física de partículas, você estuda a colisão de partículas em que espera que o número de partículas produzidas seja uma distribuição de Poisson, para reconstruir a trilha de partículas em uma imagem (uma foto por exemplo ) de uma maneira que prefere um determinado número de faixas e suprime modelos que tenham uma interpretação menor ou maior da imagem.
  3. O terceiro caso também tenta implementar uma informação prévia na medição, a saber, a partir de medidas anteriores, que se sabe que a altura dos alunos pode ser modelada muito bem por distribuições gaussianas e não por um Cauchy, por exemplo.

Portanto, em resumo, a resposta é que você pode reduzir a incerteza de uma medição se souber o que esperar e categorizar os dados com alguns dados anteriores (as informações anteriores). Esses dados anteriores são o que restringe sua função de modelagem que você usa para ajustar as medições. Em casos simples, você pode escrever seu modelo na estrutura bayesiana, mas às vezes é impraticável, como integrar todas as funções contínuas possíveis para encontrar aquela que possui o valor Bayesiano Máximo A Posterior.

Peter Kövesárki
fonte
2

Estimador de James Stein e regressão de Ridge

Considerar

y=Xβ+ϵ

Com ϵN(0,σ2I)

A solução menos quadrada tem a forma

β^=S1Xy onde .S=XX

β^ é imparcial para e tem matriz de covariância . Portanto, podemos escreverβσ2S1

β^N(β,σ2S1) Observe que são as estimativas de máxima verossimilhança, MLE.β^

James Stein

Para simplificar para o Jame Stein vamos supor . James e Stein adicionarão um prior no , no formatoS=Iβ

βN(0,aI)

E obterá um posterior da forma , eles então estimará com e obterá um estimador de James Stein no formatoaa+σ2β^=(1σ2a+σ2)β^1a+σ2p2β^2

β^=(1p2β^2)β^ .

Regressão de Ridge

Na regressão de cume, geralmente é padronizado (média 0, variação 1 para cada coluna de ), de modo que os parâmetros de regressão sejam comparáveis. Quando este é para .XXβ=(β1,β2,,βp)Sii=1i=1,2,,p

Uma estimativa de regressão de é definida como , a serβλ0

β^(λ)=(S+λI)1Xy=(S+λI)1Sβ^ note que é o MLE.β^

Como derivado? Recordarβ^(λ)

β^N(β^,σ2S1) e se adicionarmos um Bayesiano anterior

βN(0,σ2λI)

Então nós temos

E(β|β^)=(S+λI)1Sβ^

O mesmo que a estimativa de regressão de crista . Portanto, a forma original do James Stein dada aqui leva e .β^(λ)S=Ia=σ2λ

Chamberlain Foncha
fonte