O que exatamente significa emprestar informações?

11

Frequentemente as pessoas falam sobre empréstimos de informações ou compartilhamento de informações em modelos hierárquicos bayesianos. Não consigo obter uma resposta direta sobre o que isso realmente significa e se é exclusivo dos modelos hierárquicos bayesianos. Eu meio que entendi a idéia: alguns níveis em sua hierarquia compartilham um parâmetro comum. Não tenho idéia de como isso se traduz em "empréstimo de informações".

  1. "Informações emprestadas" / "compartilhamento de informações" é uma palavra popular que as pessoas gostam de jogar fora?

  2. Existe um exemplo com partes posteriores fechadas que ilustra esse fenômeno de compartilhamento?

  3. Isso é exclusivo de uma análise bayesiana? Geralmente, quando vejo exemplos de "empréstimo de informações", são apenas modelos mistos. Talvez eu tenha aprendido esses modelos à moda antiga, mas não vejo nenhum compartilhamento.

Não estou interessado em iniciar um debate filosófico sobre métodos. Estou apenas curioso sobre o uso deste termo.

EliK
fonte
1
Para a sua pergunta 2., você pode encontrar este link esclarecedor: tjmahr.com/plotting-partial-pool-in-mixed-effects-models .
Isabella Ghement
Eu adoraria ver alguma menção à teoria da informação nas respostas aqui.
shadowtalker

Respostas:

10

Este é um termo que é especificamente de Bayes empírico (EB), de fato, o conceito a que se refere não existe na verdadeira inferência bayesiana. O termo original era "força de empréstimo", que foi cunhada por John Tukey na década de 1960 e popularizada por Bradley Efron e Carl Morris em uma série de artigos estatísticos sobre o paradoxo de Stein e o EB paramétrico nas décadas de 1970 e 1980. Muitas pessoas agora usam "empréstimo de informações" ou "compartilhamento de informações" como sinônimos para o mesmo conceito. A razão pela qual você pode ouvi-lo no contexto de modelos mistos é que as análises mais comuns para modelos mistos têm uma interpretação EB.

O EB tem muitas aplicações e se aplica a muitos modelos estatísticos, mas o contexto sempre é que você tem um grande número de casos (possivelmente independentes) e está tentando estimar um parâmetro específico (como média ou variância) em cada caso. Na inferência bayesiana, você faz inferências posteriores sobre o parâmetro com base nos dados observados para cada caso e na distribuição anterior desse parâmetro. Na inferência EB, a distribuição anterior para o parâmetro é estimada a partir de toda a coleta de casos de dados, após o que a inferência procede como a inferência bayesiana. Portanto, quando você estima o parâmetro para um caso específico, usa os dados desse caso e também a distribuição anterior estimada, e o último representa a "informação" ou "força"

Agora você pode ver por que o EB tem "empréstimos", mas o verdadeiro Bayes não. No verdadeiro Bayes, a distribuição anterior já existe e, portanto, não precisa ser implorada nem emprestada. No EB, a distribuição anterior foi criada a partir dos próprios dados observados. Quando fazemos inferência sobre um caso específico, usamos todas as informações observadas desse caso e um pouco de informação de cada um dos outros casos. Dizemos que é apenas "emprestado", porque a informação é devolvida quando passamos a fazer inferência sobre o próximo caso.

A idéia de EB e "empréstimo de informações" é muito usada na genômica estatística, quando cada "caso" é geralmente um gene ou uma característica genômica (Smyth, 2004; Phipson et al, 2016).

Referências

Efron, Bradley e Carl Morris. O paradoxo de Stein na estatística. Scientific American 236, n. 5 (1977): 119-127. http://statweb.stanford.edu/~ckirby/brad/other/Article1977.pdf

Smyth, GK (2004). Modelos lineares e métodos empíricos de Bayes para avaliação da expressão diferencial em experimentos de microarrays. Aplicações Estatísticas em Genética e Biologia Molecular Volume 3, Edição 1, Artigo 3. http://www.statsci.org/smyth/pubs/ebayes.pdf

Phipson, B, Lee, S, Majewski, IJ, Alexander, WS e Smyth, GK (2016). A estimativa robusta de hiperparâmetros protege contra genes hipervariáveis ​​e melhora o poder de detectar expressão diferencial. Annals of Applied Statistics 10, 946-963. http://dx.doi.org/10.1214/16-AOAS920

Gordon Smyth
fonte
1
Não acho que essa interpretação esteja correta. Por exemplo, modelos de efeitos mistos pedem informações emprestadas, mas podem ser analisados ​​em um contexto bayesiano tradicional #
Cliff AB
1
@CliffAB Se você se aprofundar em análises de modelos mistos, verá que a análise é praticamente sempre Bayes empírica, e não Bayes verdadeira. A maioria dos autores, é claro, dirá que está fazendo Bayes quando na verdade é EB, porque a maioria dos autores não faz a distinção. Se você acha que pode dar um exemplo de uma verdadeira análise de modelo misto de Bayes, convido você a fazê-lo.
Gordon Smyth
1
@CliffAB Na minoria de casos em que uma análise Bayes verdadeira é usada para modelos mistos (por exemplo, pelo MCMC ou pelo Winbugs), o uso do termo "informações emprestadas" seria IMO fora de lugar. Certamente discordaria do que Tukey e Efron queriam dizer com "empréstimo".
Gordon Smyth
1
@CliffAB Concordo que o brms é um pacote bayesiano, razão pela qual o termo "informações emprestadas" não aparece na documentação do brms.
Gordon Smyth
1
Modelos bayesianos simples não "emprestam informações", mas sim modelos multiníveis, embora eu ache que o termo mais popular nesse campo seja "pool parcial". Aqui está uma discussão clássica sobre isso de A. Gelman. Em geral, se você aceita a idéia de que os modelos de efeitos mistos "tomam informações emprestadas", não tenho certeza de como se pode dizer que os efeitos mistos bayesianos não; o anterior aparece no nível abaixo das informações emprestadas. Se você está dizendo que os modelos de efeitos mistos não pedem informações emprestadas, isso explica minha confusão em sua reivindicação.
Cliff AB
5

Considere um problema simples, como estimar meios de vários grupos. Se o seu modelo os tratar como completamente não relacionados, as únicas informações que você tem sobre cada média são as informações desse grupo. Se o seu modelo tratar os meios como algo relacionados (como em alguns modelos do tipo efeitos mistos), as estimativas serão mais precisas porque as informações de outros grupos informam (regulariza, diminui em direção a uma média comum) a estimativa para um determinado grupo. Esse é um exemplo de 'informação emprestada'.

A noção surge no trabalho atuarial relacionado à credibilidade (não necessariamente com esse termo específico de 'empréstimo', embora o empréstimo nesse sentido seja explícito nas fórmulas); isso remonta a um longo caminho, a pelo menos um século atrás, com precursores claros que remontam a meados do século XIX. Por exemplo, veja Longley-Cook, LH (1962) Uma introdução à teoria da credibilidade PCAS, 49, 194-221.

Aqui está Whitney, 1918 (The Theory of Experience Rating, PCAS, 4, 274-292):

Aqui está um risco, por exemplo, que deve ser claramente classificado como uma oficina de máquinas. Na ausência de outras informações, deve, portanto, falsificar a taxa da oficina, ou seja, a taxa média para todos os riscos dessa classe. Por outro lado, o risco teve uma experiência própria. Se o risco for grande, este pode ser um guia melhor para seu risco do que a experiência em classe. De qualquer forma, se o risco é grande ou pequeno, esses dois elementos têm seu valor como evidência e devem ser levados em consideração. A dificuldade surge do fato de que, em geral, a evidência é contraditória; o problema, portanto, é encontrar e aplicar um critério que dê a cada um o seu peso adequado.

Embora o termo empréstimo esteja ausente aqui, a noção de usar as informações em nível de grupo para nos informar sobre esta oficina está claramente presente. [As noções permanecem inalteradas quando "força de empréstimo" e "informações sobre empréstimo" começam a ser aplicadas a esta situação]

Glen_b -Reinstate Monica
fonte
1
Aprecio o exemplo, pois explica claramente o que o empréstimo faz, mas estou procurando uma definição mais precisa.
EliK
Uma definição precisa de um termo impreciso e intuitivo? Suponho que se poderia ser possível - um talvez defini-lo em termos de redução de variância, relacionando parâmetros entre os grupos, mas um poderia muito facilmente excluir usos plausíveis da noção ao fazê-lo
Glen_b -Reinstate Monica
Não estava claro para mim se a intuição imprecisa tinha ou não uma definição real.
EliK
3

O modelo mais conhecido que "empresta informações" é o modelo de efeitos mistos. Isso pode ser analisado no cenário freqüentista ou bayesiano. O método freqüentista na verdade tem uma interpretação empírica de Bayes; há um prévio nos efeitos mistos que, com base em , a variação dos efeitos aleatórios. Em vez de definir com base em informações anteriores, estimamos isso a partir de nossos dados.σR2

Por outro lado, a partir da perspectiva Bayesiana, estamos não colocar uma prévia sobre os efeitos mistos, mas eles são um parâmetro de nível médio. Ou seja, colocamos um prior em , que atua como um para os efeitos aleatórios, mas é diferente do anterior tradicional, pois a distribuição colocada nos efeitos aleatórios não se baseia puramente em informações, mas uma mistura de informações anteriores (ou seja, anteriores a ) e os dados.σR2 σ 2 RσR2

Eu acho que é bastante claro que "pedir informações emprestadas" não é algo puramente bayesiano; existem modelos de efeitos mistos não bayesianos e essas informações sobre empréstimos. No entanto, com base na minha experiência de brincar com modelos de efeitos mistos, acho que a abordagem bayesiana a esses modelos é um pouco mais importante do que algumas pessoas imaginam. Em particular, em um modelo de efeito misto, deve-se pensar que estamos estimando com, na melhor das hipóteses , o número de sujeitos individuais que temos. Portanto, se tivermos 10 sujeitos medidos 100 vezes, ainda de apenas 10 sujeitos. Não apenas isso, mas na verdade nem observamos diretamente os efeitos aleatórios, mas apenas temos estimativas deles derivados dos dados eσR2 σ 2 R σ R σ 2 RσR2σRsi mesmos. Portanto, pode ser fácil esquecer o quão pouca informação é baseada nos dados que realmente temos para estimar . Quanto menos informações nos dados, mais importante se torna a informação anterior. Se você ainda não o fez, sugiro tentar simular modelos de efeitos mistos com apenas alguns assuntos. Você pode se surpreender com o quão instáveis ​​são as estimativas dos métodos Frequentist, especialmente quando você adiciona apenas um ou dois valores discrepantes ... e com que frequência se vê conjuntos de dados reais sem valores discrepantes? Acredito que esse problema seja abordado na análise de dados bayesiana de Gelman et al., Mas, infelizmente, não acho que seja publicamente disponível, portanto não há hiperlink.σR2

Finalmente, a modelagem multinível não é apenas efeitos mistos, embora sejam os mais comuns. Qualquer modelo no qual os parâmetros sejam influenciados não apenas por dados anteriores e dados, mas também por outros parâmetros desconhecidos, pode ser chamado de modelo multinível. Obviamente, esse é um conjunto muito flexível de modelos, mas pode ser redigido do zero e se encaixar com uma quantidade mínima de trabalho usando ferramentas como Stan, NIMBLE, JAGS, etc. Nesse sentido, não tenho certeza se diria multinível modelagem é "hype"; basicamente, você pode escrever qualquer modelo que possa ser representado como um gráfico acíclico direcionadoe ajuste-o imediatamente (assumindo que ele tenha um tempo de execução razoável). Isso fornece muito mais poder e criatividade potencial do que as escolhas tradicionais (ou seja, pacotes de modelos de regressão), mas não exige que você construa um pacote R inteiro do zero apenas para se ajustar a um novo tipo de modelo.

Cliff AB
fonte
Obrigado pela resposta. Para esclarecer, eu não estava sugerindo que a modelagem em vários níveis seja "hype". Eu estava perguntando se "informação emprestada" tem um significado preciso ou se esse termo em particular é apenas exagero.
EliK
@EliK: Não tenho certeza se tem um significado preciso ; Gordon Smyth dá o que alguns podem considerar um significado preciso, isto é, Bayes empírico, mas a maneira como vejo esse termo comumente usado agora não parece se encaixar nesse significado. Pessoalmente, não acho que seja apenas um termo de hype; é exatamente a motivação para usar modelos de efeitos mistos sobre modelos de efeitos fixos, embora isso se estenda além da estrutura do modelo de regressão padrão. Eu acho que muitas pessoas dizem a "modelagem multinível" mais vaga, em vez da "modelagem de efeitos mistos" mais precisa, porque está mais na moda agora.
Cliff AB
Eu diria que o hype está nos jornais e blogs de ML, onde se argumenta que você precisa de modelos bayesianos para implementar modelos multiníveis. Eu estaria interessado em um exemplo trabalhado - onde se compara com modelo regularizada crossvalidated (para a previsão)
seanv507
Pelo que vale, a única alternativa ao bayesiano é a máxima verossimilhança, que é apenas bayesiana com um uniforme anterior. Então, isso não está realmente errado.
shadowtalker
1
@ shadowtalker: se você considerar os métodos MLE como Bayesian, a palavra Bayesian é basicamente sem sentido nas estatísticas. No entanto, isso é consistente com alguns dos erros que vejo na literatura de ML.
Cliff AB
2

Estou supondo que, desde que você marcou o aprendizado de máquina, está interessado em previsão, em vez de inferência (acredito que estou alinhado com a resposta de @Glen_b, mas apenas traduzindo para este contexto / vocabulário)

Eu diria que, neste caso, é um chavão. Um modelo linear regularizado com uma variável de grupo emprestará informações: a previsão no nível individual será uma combinação da média do grupo e do efeito individual. Uma maneira de pensar na regularização de l1 / l2 é que ela está atribuindo um custo coeficiente por redução no erro total, uma vez que uma variável de grupo afeta mais amostras que uma variável individual, haverá pressão para estimar um efeito de grupo, deixando um desvio menor efeito de grupo para cada variável individual.

Para pontos individuais com dados suficientes, o efeito individual será 'forte'; para aqueles com poucos dados, o efeito será fraco.

Eu acho que a maneira mais fácil de ver isso é considerando a regularização de L1 e três indivíduos do mesmo grupo com o mesmo efeito. Desregularizado, o problema tem um número infinito de soluções, enquanto a regularização fornece uma solução única.

Atribuir todo o efeito ao coeficiente do grupo tem a norma l1 mais baixa, pois precisamos apenas de 1 valor para cobrir 3 indivíduos. Inversamente, atribuir todo o efeito aos coeficientes individuais tem o pior, ou seja, três vezes a norma l1 de atribuir o efeito ao coeficiente do grupo.

Observe que podemos ter quantas hierarquias quisermos e as interações são afetadas da mesma forma: a regularização empurrará efeitos para as principais variáveis, em vez de interações mais raras.

O blog tjmahr.com/plotting-partial-pool-in-mixed-effects-models . - vinculado por @IsabellaGhement fornece uma cotação para a força de empréstimo

"Esse efeito às vezes é chamado de encolhimento, porque valores mais extremos de encolhimento são atraídos para um valor mais razoável e mais médio. No livro lme4 , Douglas Bates fornece uma alternativa ao encolhimento [nome]"

O termo "encolhimento" pode ter conotações negativas. John Tukey preferiu se referir ao processo como as estimativas para sujeitos individuais “força de empréstimo” um do outro. Essa é uma diferença fundamental nos modelos subjacentes aos modelos de efeitos mistos versus modelos de efeitos estritamente fixos. Em um modelo de efeitos mistos, assumimos que os níveis de um fator de agrupamento são uma seleção de uma população e, como resultado, pode-se esperar que compartilhem características em algum grau. Consequentemente, as previsões de um modelo de efeitos mistos são atenuadas em relação às de modelos de efeitos estritamente fixos.

seanv507
fonte
O que é previsão senão um tipo específico de inferência?
shadowtalker
0

Outra fonte que eu gostaria de recomendar sobre esse tópico, que considero particularmente instrutiva, é a Introdução a Bayes empíricos, de David Robinson .

Seu exemplo atual é o de um jogador de beisebol conseguir acertar a próxima bola lançada contra ele. A idéia principal é que, se um jogador existe há anos, a pessoa tem uma imagem bastante clara de como ele é capaz e, em particular, pode usar sua média de rebatidas observada como uma estimativa bastante boa da probabilidade de sucesso no próximo arremesso.

Por outro lado, um jogador que acabou de começar a jogar em uma liga ainda não revelou muito de seu talento real. Portanto, parece uma escolha sábia ajustar a estimativa de sua probabilidade de sucesso a uma média geral se ele tiver sido particularmente bem-sucedido ou mal-sucedido em seus primeiros jogos, pois isso provavelmente ocorre, pelo menos até certo ponto, devido à boa ou má sorte .

Como um ponto menor, o termo "empréstimo" certamente não parece ser usado no sentido de que algo que foi emprestado precisaria ser devolvido em algum momento ;-).

Christoph Hanck
fonte