Considere os três fenômenos a seguir.
Paradoxo de Stein: dados alguns dados da distribuição normal multivariada em , a média da amostra não é um estimador muito bom da verdadeira média. Pode-se obter uma estimativa com erro quadrado médio mais baixo se reduzirmos todas as coordenadas da amostra em direção a zero [ou em relação à sua média, ou na verdade em relação a qualquer valor, se bem entendi].
Nota: normalmente o paradoxo de Stein é formulado considerando-se apenas um único ponto de dados de ; corrija-me se isso for crucial e minha formulação acima não estiver correta.
Regressão de Ridge: dada uma variável dependente e algumas variáveis independentes , a regressão padrão tende superestimar os dados e levar a um desempenho fora da amostra ruim. Pode-se reduzir o sobreajuste encolhendo direção a zero: .
Efeitos aleatórios em modelos multiníveis / mistos: dada uma variável dependente (por exemplo, a altura do aluno) que depende de alguns preditores categóricos (por exemplo, id da escola e sexo do aluno), recomenda-se frequentemente tratar alguns preditores como 'aleatórios', ou seja, supondo que a altura média do aluno em cada escola vem de alguma distribuição normal subjacente. Isso resulta na redução das estimativas da altura média por escola em relação à média global.
Tenho a sensação de que tudo isso são vários aspectos do mesmo fenômeno do "encolhimento", mas não tenho certeza e certamente não tenho uma boa intuição sobre isso. Portanto, minha pergunta principal é: existe realmente uma profunda semelhança entre essas três coisas, ou é apenas uma aparência superficial? Qual é o tema comum aqui? Qual é a intuição correta sobre isso?
Além disso, aqui estão algumas peças deste quebra-cabeça que realmente não se encaixam para mim:
Na regressão de crista, não é reduzido uniformemente; o encolhimento da cordilheira está realmente relacionado à decomposição de valores singulares de , com as direções de baixa variância sendo mais reduzidas (consulte, por exemplo, The Elements of Statistical Learning 3.4.1). Mas o estimador de James-Stein simplesmente pega a média da amostra e a multiplica por um fator de escala. Como isso se encaixa?X
Atualização: consulte James-Stein Estimator com variações desiguais e, por exemplo, aqui, sobre variações de coeficientes .
A média da amostra é ótima nas dimensões abaixo de 3. Isso significa que, quando houver apenas um ou dois preditores no modelo de regressão, a regressão da crista será sempre pior que os mínimos quadrados comuns? Na verdade, pensando bem, não consigo imaginar uma situação em 1D (isto é, regressão simples e não múltipla) em que o encolhimento da crista seria benéfico ...
Atualização: Não. Consulte Sob exatamente quais condições a regressão de crista pode fornecer uma melhoria em relação à regressão de mínimos quadrados ordinários?
Por outro lado, a média da amostra é sempre abaixo do ideal em dimensões acima de 3. Isso significa que, com mais de três preditores, a regressão da crista é sempre melhor que a OLS, mesmo que todos os preditores não estejam correlacionados (ortogonais)? Geralmente, a regressão de crista é motivada pela multicolinearidade e pela necessidade de "estabilizar" o termo .
Atualização: Sim! Veja o mesmo tópico acima.
Muitas vezes há uma discussão acalorada sobre se vários fatores na ANOVA devem ser incluídos como efeitos fixos ou aleatórios. Pela mesma lógica, não deveríamos sempre tratar um fator aleatoriamente se ele tiver mais de dois níveis (ou se houver mais de dois fatores? Agora estou confuso)?
Atualização :?
Atualização: recebi ótimas respostas, mas nenhuma fornece uma imagem grande o suficiente, por isso deixarei a pergunta "aberta". Posso prometer conceder uma recompensa de pelo menos 100 pontos a uma nova resposta que superará as existentes. Procuro principalmente uma visão unificadora que possa explicar como o fenômeno geral de encolhimento se manifesta nesses vários contextos e apontar as principais diferenças entre eles.
fonte
Respostas:
Conexão entre o estimador de James – Stein e a regressão de crista
Seja um vetor de observação de de comprimento , , o estimador de James-Stein é Em termos de regressão de crista, podemos estimar via que a solução é É fácil ver que os dois estimadores estão na mesma forma, mas precisamos estimary θ m y∼N(θ,σ2I)
Conexão entre o estimador de James – Stein e os modelos de efeitos aleatórios
Vamos discutir primeiro os modelos de efeitos mistos / aleatórios na genética. O modelo é Se não houver efeitos fixos e , o modelo se tornará que é equivalente à configuração do estimador James-Stein, com alguns Ideia bayesiana.
Conexão entre modelos de efeitos aleatórios e regressão de crista
Se focarmos nos modelos de efeitos aleatórios acima, A estimativa é equivalente a resolver o problema quando . A prova pode ser encontrada no Capítulo 3 do Reconhecimento de padrões e aprendizado de máquina .
Conexão entre modelos de efeitos aleatórios (multiníveis) e genética
No modelo de efeitos aleatórios acima, a dimensão de é e a de é . Se vetorizarmos como e repetirmos correspondentemente, teremos a estrutura hierárquica / agrupada, clusters e cada um com unidades. Se regredirmos em repetido , podemos obter o efeito aleatório de em para cada cluster, embora seja como regressão reversa.y m×1, Z m×p Z (mp)×1, y p m vec(Z) y Z y
Agradecimento : os três primeiros pontos são amplamente aprendidos com esses dois artigos chineses, 1 , 2 .
fonte
Vou deixar como um exercício para a comunidade elaborar essa resposta, mas, em geral, a razão pela qual os estimadores de encolhimento * dominam * estimadores imparciais em amostras finitas é porque os estimadores de Bayes não podem ser dominados , e muitos estimadores de encolhimento podem ser derivados como sendo Bayes.1 2 3 4
Tudo isso está sob a égide da teoria da decisão. Uma referência exaustiva, mas bastante hostil, é a "Teoria da estimativa pontual" de Lehmann e Casella. Talvez outros possam concordar com referências mais amigáveis?
e os modelos de efeito aleatório surgem como um procedimento bayesiano empírico em uma estrutura semelhante. Esses argumentos são complicados pelo fato de que a versão baunilha dos teoremas bayesianos de admissibilidade pressupõe que todo parâmetro tenha um prévio apropriado. Mesmo na regressão de crista, isso não é verdade, porque o "anterior" está sendo colocado na variaçãofonte
James-Stein assume que a dimensão da resposta é pelo menos 3. Na regressão padrão da crista, a resposta é unidimensional. Você está confundindo o número de preditores com a dimensão da resposta.
Dito isto, vejo a semelhança entre essas situações, mas o que exatamente fazer, por exemplo, se um fator deve ser fixo ou aleatório, qual a contração aplicada, se é que existe, depende do conjunto de dados específico. Por exemplo, quanto mais ortogonais são os preditores, menos faz sentido escolher a regressão de Ridge sobre a regressão padrão. Quanto maior o número de parâmetros, mais faz sentido extrair o anterior do próprio conjunto de dados via Empirical Bayes e depois usá-lo para reduzir as estimativas de parâmetros. Quanto maior a relação sinal / ruído, menores os benefícios do encolhimento, etc.
fonte
Como já foi dito, a conexão entre os três é como você incorpora as informações anteriores na medição.
Portanto, em resumo, a resposta é que você pode reduzir a incerteza de uma medição se souber o que esperar e categorizar os dados com alguns dados anteriores (as informações anteriores). Esses dados anteriores são o que restringe sua função de modelagem que você usa para ajustar as medições. Em casos simples, você pode escrever seu modelo na estrutura bayesiana, mas às vezes é impraticável, como integrar todas as funções contínuas possíveis para encontrar aquela que possui o valor Bayesiano Máximo A Posterior.
fonte
Estimador de James Stein e regressão de Ridge
Considerar
Comϵ∼N(0,σ2I)
A solução menos quadrada tem a forma
James Stein
Para simplificar para o Jame Stein vamos supor . James e Stein adicionarão um prior no , no formatoS=I β
E obterá um posterior da forma , eles então estimará com e obterá um estimador de James Stein no formatoaa+σ2β^=(1−σ2a+σ2)β^ 1a+σ2 p−2∥β^∥2
Regressão de Ridge
Na regressão de cume, geralmente é padronizado (média 0, variação 1 para cada coluna de ), de modo que os parâmetros de regressão sejam comparáveis. Quando este é para .X X β=(β1,β2,…,βp) Sii=1 i=1,2,…,p
Uma estimativa de regressão de é definida como , a serβ λ≥0
Como derivado? Recordarβ^(λ)
Então nós temos
O mesmo que a estimativa de regressão de crista . Portanto, a forma original do James Stein dada aqui leva e .β^(λ) S=I a=σ2λ
fonte