Frequentemente as pessoas falam sobre empréstimos de informações ou compartilhamento de informações em modelos hierárquicos bayesianos. Não consigo obter uma resposta direta sobre o que isso realmente significa e se é exclusivo dos modelos hierárquicos bayesianos. Eu meio que entendi a idéia: alguns níveis em sua hierarquia compartilham um parâmetro comum. Não tenho idéia de como isso se traduz em "empréstimo de informações".
"Informações emprestadas" / "compartilhamento de informações" é uma palavra popular que as pessoas gostam de jogar fora?
Existe um exemplo com partes posteriores fechadas que ilustra esse fenômeno de compartilhamento?
Isso é exclusivo de uma análise bayesiana? Geralmente, quando vejo exemplos de "empréstimo de informações", são apenas modelos mistos. Talvez eu tenha aprendido esses modelos à moda antiga, mas não vejo nenhum compartilhamento.
Não estou interessado em iniciar um debate filosófico sobre métodos. Estou apenas curioso sobre o uso deste termo.
Respostas:
Este é um termo que é especificamente de Bayes empírico (EB), de fato, o conceito a que se refere não existe na verdadeira inferência bayesiana. O termo original era "força de empréstimo", que foi cunhada por John Tukey na década de 1960 e popularizada por Bradley Efron e Carl Morris em uma série de artigos estatísticos sobre o paradoxo de Stein e o EB paramétrico nas décadas de 1970 e 1980. Muitas pessoas agora usam "empréstimo de informações" ou "compartilhamento de informações" como sinônimos para o mesmo conceito. A razão pela qual você pode ouvi-lo no contexto de modelos mistos é que as análises mais comuns para modelos mistos têm uma interpretação EB.
O EB tem muitas aplicações e se aplica a muitos modelos estatísticos, mas o contexto sempre é que você tem um grande número de casos (possivelmente independentes) e está tentando estimar um parâmetro específico (como média ou variância) em cada caso. Na inferência bayesiana, você faz inferências posteriores sobre o parâmetro com base nos dados observados para cada caso e na distribuição anterior desse parâmetro. Na inferência EB, a distribuição anterior para o parâmetro é estimada a partir de toda a coleta de casos de dados, após o que a inferência procede como a inferência bayesiana. Portanto, quando você estima o parâmetro para um caso específico, usa os dados desse caso e também a distribuição anterior estimada, e o último representa a "informação" ou "força"
Agora você pode ver por que o EB tem "empréstimos", mas o verdadeiro Bayes não. No verdadeiro Bayes, a distribuição anterior já existe e, portanto, não precisa ser implorada nem emprestada. No EB, a distribuição anterior foi criada a partir dos próprios dados observados. Quando fazemos inferência sobre um caso específico, usamos todas as informações observadas desse caso e um pouco de informação de cada um dos outros casos. Dizemos que é apenas "emprestado", porque a informação é devolvida quando passamos a fazer inferência sobre o próximo caso.
A idéia de EB e "empréstimo de informações" é muito usada na genômica estatística, quando cada "caso" é geralmente um gene ou uma característica genômica (Smyth, 2004; Phipson et al, 2016).
Referências
Efron, Bradley e Carl Morris. O paradoxo de Stein na estatística. Scientific American 236, n. 5 (1977): 119-127. http://statweb.stanford.edu/~ckirby/brad/other/Article1977.pdf
Smyth, GK (2004). Modelos lineares e métodos empíricos de Bayes para avaliação da expressão diferencial em experimentos de microarrays. Aplicações Estatísticas em Genética e Biologia Molecular Volume 3, Edição 1, Artigo 3. http://www.statsci.org/smyth/pubs/ebayes.pdf
Phipson, B, Lee, S, Majewski, IJ, Alexander, WS e Smyth, GK (2016). A estimativa robusta de hiperparâmetros protege contra genes hipervariáveis e melhora o poder de detectar expressão diferencial. Annals of Applied Statistics 10, 946-963. http://dx.doi.org/10.1214/16-AOAS920
fonte
Considere um problema simples, como estimar meios de vários grupos. Se o seu modelo os tratar como completamente não relacionados, as únicas informações que você tem sobre cada média são as informações desse grupo. Se o seu modelo tratar os meios como algo relacionados (como em alguns modelos do tipo efeitos mistos), as estimativas serão mais precisas porque as informações de outros grupos informam (regulariza, diminui em direção a uma média comum) a estimativa para um determinado grupo. Esse é um exemplo de 'informação emprestada'.
A noção surge no trabalho atuarial relacionado à credibilidade (não necessariamente com esse termo específico de 'empréstimo', embora o empréstimo nesse sentido seja explícito nas fórmulas); isso remonta a um longo caminho, a pelo menos um século atrás, com precursores claros que remontam a meados do século XIX. Por exemplo, veja Longley-Cook, LH (1962) Uma introdução à teoria da credibilidade PCAS, 49, 194-221.
Aqui está Whitney, 1918 (The Theory of Experience Rating, PCAS, 4, 274-292):
Embora o termo empréstimo esteja ausente aqui, a noção de usar as informações em nível de grupo para nos informar sobre esta oficina está claramente presente. [As noções permanecem inalteradas quando "força de empréstimo" e "informações sobre empréstimo" começam a ser aplicadas a esta situação]
fonte
O modelo mais conhecido que "empresta informações" é o modelo de efeitos mistos. Isso pode ser analisado no cenário freqüentista ou bayesiano. O método freqüentista na verdade tem uma interpretação empírica de Bayes; há um prévio nos efeitos mistos que, com base em , a variação dos efeitos aleatórios. Em vez de definir com base em informações anteriores, estimamos isso a partir de nossos dados.σ2R
Por outro lado, a partir da perspectiva Bayesiana, estamos não colocar uma prévia sobre os efeitos mistos, mas eles são um parâmetro de nível médio. Ou seja, colocamos um prior em , que atua como um para os efeitos aleatórios, mas é diferente do anterior tradicional, pois a distribuição colocada nos efeitos aleatórios não se baseia puramente em informações, mas uma mistura de informações anteriores (ou seja, anteriores a ) e os dados.σ2R σ 2 Rσ2R
Eu acho que é bastante claro que "pedir informações emprestadas" não é algo puramente bayesiano; existem modelos de efeitos mistos não bayesianos e essas informações sobre empréstimos. No entanto, com base na minha experiência de brincar com modelos de efeitos mistos, acho que a abordagem bayesiana a esses modelos é um pouco mais importante do que algumas pessoas imaginam. Em particular, em um modelo de efeito misto, deve-se pensar que estamos estimando com, na melhor das hipóteses , o número de sujeitos individuais que temos. Portanto, se tivermos 10 sujeitos medidos 100 vezes, ainda de apenas 10 sujeitos. Não apenas isso, mas na verdade nem observamos diretamente os efeitos aleatórios, mas apenas temos estimativas deles derivados dos dados eσ2R σ 2 R σ R σ 2 Rσ2R σR si mesmos. Portanto, pode ser fácil esquecer o quão pouca informação é baseada nos dados que realmente temos para estimar . Quanto menos informações nos dados, mais importante se torna a informação anterior. Se você ainda não o fez, sugiro tentar simular modelos de efeitos mistos com apenas alguns assuntos. Você pode se surpreender com o quão instáveis são as estimativas dos métodos Frequentist, especialmente quando você adiciona apenas um ou dois valores discrepantes ... e com que frequência se vê conjuntos de dados reais sem valores discrepantes? Acredito que esse problema seja abordado na análise de dados bayesiana de Gelman et al., Mas, infelizmente, não acho que seja publicamente disponível, portanto não há hiperlink.σ2R
Finalmente, a modelagem multinível não é apenas efeitos mistos, embora sejam os mais comuns. Qualquer modelo no qual os parâmetros sejam influenciados não apenas por dados anteriores e dados, mas também por outros parâmetros desconhecidos, pode ser chamado de modelo multinível. Obviamente, esse é um conjunto muito flexível de modelos, mas pode ser redigido do zero e se encaixar com uma quantidade mínima de trabalho usando ferramentas como Stan, NIMBLE, JAGS, etc. Nesse sentido, não tenho certeza se diria multinível modelagem é "hype"; basicamente, você pode escrever qualquer modelo que possa ser representado como um gráfico acíclico direcionadoe ajuste-o imediatamente (assumindo que ele tenha um tempo de execução razoável). Isso fornece muito mais poder e criatividade potencial do que as escolhas tradicionais (ou seja, pacotes de modelos de regressão), mas não exige que você construa um pacote R inteiro do zero apenas para se ajustar a um novo tipo de modelo.
fonte
Estou supondo que, desde que você marcou o aprendizado de máquina, está interessado em previsão, em vez de inferência (acredito que estou alinhado com a resposta de @Glen_b, mas apenas traduzindo para este contexto / vocabulário)
Eu diria que, neste caso, é um chavão. Um modelo linear regularizado com uma variável de grupo emprestará informações: a previsão no nível individual será uma combinação da média do grupo e do efeito individual. Uma maneira de pensar na regularização de l1 / l2 é que ela está atribuindo um custo coeficiente por redução no erro total, uma vez que uma variável de grupo afeta mais amostras que uma variável individual, haverá pressão para estimar um efeito de grupo, deixando um desvio menor efeito de grupo para cada variável individual.
Para pontos individuais com dados suficientes, o efeito individual será 'forte'; para aqueles com poucos dados, o efeito será fraco.
Eu acho que a maneira mais fácil de ver isso é considerando a regularização de L1 e três indivíduos do mesmo grupo com o mesmo efeito. Desregularizado, o problema tem um número infinito de soluções, enquanto a regularização fornece uma solução única.
Atribuir todo o efeito ao coeficiente do grupo tem a norma l1 mais baixa, pois precisamos apenas de 1 valor para cobrir 3 indivíduos. Inversamente, atribuir todo o efeito aos coeficientes individuais tem o pior, ou seja, três vezes a norma l1 de atribuir o efeito ao coeficiente do grupo.
Observe que podemos ter quantas hierarquias quisermos e as interações são afetadas da mesma forma: a regularização empurrará efeitos para as principais variáveis, em vez de interações mais raras.
O blog tjmahr.com/plotting-partial-pool-in-mixed-effects-models . - vinculado por @IsabellaGhement fornece uma cotação para a força de empréstimo
"Esse efeito às vezes é chamado de encolhimento, porque valores mais extremos de encolhimento são atraídos para um valor mais razoável e mais médio. No livro lme4 , Douglas Bates fornece uma alternativa ao encolhimento [nome]"
fonte
Outra fonte que eu gostaria de recomendar sobre esse tópico, que considero particularmente instrutiva, é a Introdução a Bayes empíricos, de David Robinson .
Seu exemplo atual é o de um jogador de beisebol conseguir acertar a próxima bola lançada contra ele. A idéia principal é que, se um jogador existe há anos, a pessoa tem uma imagem bastante clara de como ele é capaz e, em particular, pode usar sua média de rebatidas observada como uma estimativa bastante boa da probabilidade de sucesso no próximo arremesso.
Por outro lado, um jogador que acabou de começar a jogar em uma liga ainda não revelou muito de seu talento real. Portanto, parece uma escolha sábia ajustar a estimativa de sua probabilidade de sucesso a uma média geral se ele tiver sido particularmente bem-sucedido ou mal-sucedido em seus primeiros jogos, pois isso provavelmente ocorre, pelo menos até certo ponto, devido à boa ou má sorte .
Como um ponto menor, o termo "empréstimo" certamente não parece ser usado no sentido de que algo que foi emprestado precisaria ser devolvido em algum momento ;-).
fonte