Que métodos não Bayesianos existem para inferência preditiva?

Na inferência bayesiana, uma distribuição preditiva para dados futuros é obtida pela integração de parâmetros desconhecidos; a integração sobre a distribuição posterior desses parâmetros fornece uma distribuição preditiva posterior - uma distribuição para dados futuros condicionados aos já observados. Quais métodos não bayesianos de inferência preditiva existem que levam em consideração a incerteza nas estimativas de parâmetros (ou seja, que não apenas conectam estimativas de probabilidade máxima ou o que quer que seja de volta a uma função de densidade)?

Todo mundo sabe como calcular intervalos de previsão após uma regressão linear, mas quais são os princípios por trás do cálculo e como eles podem ser aplicados em outras situações (por exemplo, calcular um intervalo exato de previsão para uma nova variável exponencial após estimar o parâmetro de taxa a partir dos dados)?

prediction inference prediction-interval Scortchi - Restabelecer Monica
fonte

Acho que essa é uma ótima pergunta e quero fornecer pelo menos uma resposta parcial, mas provavelmente não terei tempo para fazer justiça por um tempo ... então, por enquanto, vou dar uma recompensa por isso .

Glen_b -Reinstate Monica

@ DavidC.Norris Não vejo por que alguém precisaria insistir em que há necessariamente outras fontes de incerteza de parâmetro além disso (de onde a inferência preditiva precisaria levar em conta isso e a variabilidade aleatória no próprio processo). Isso por si só não é trivial, mesmo em exemplos bastante básicos - tente produzir intervalos de predição para uma soma de predições de uma Poisson ou regressão binomial negativa, por exemplo. Também não é necessário ser bayesiano para supor que haja variação nos parâmetros entre as categorias (como as pessoas usavam modelos mistos).

Glen_b -Reinstala Monica 14/09

@ DavidC.Norris: Eu perguntei sobre métodos não bayesianos simplesmente porque o cálculo de distribuições preditivas posteriores é abordado em todas as introduções às estatísticas bayesianas, enquanto os métodos freqüentadores gerais para calcular intervalos de predição não são amplamente conhecidos.

Scortchi - Restabelece Monica

@EngrStudent, o bootstrapping funciona redefinindo a amostra dos dados originais e, portanto, se enquadra na mesma categoria de outros métodos freqüentadores que lidam apenas com a variação da amostra como fonte de incerteza. Não expande o próprio conceito de incerteza.

David C. Norris

@ DavidC.Norris: Ele está provando variação como uma fonte de incerteza - como afetando as previsões de futuras observações ao invés de inferência sobre parâmetros - que eu estou preocupado com aqui, em vez de métodos não-Bayesian para levar em conta outros tipos de incerteza.

Scortchi - Restabelece Monica

Respostas:

A inferência preditiva não bayesiana (além do caso SLR) é um campo relativamente recente. Sob o título de "não Bayesiano", podemos subdividir as abordagens naquelas que são freqüentistas "clássicas" versus aquelas que são baseadas na "probabilidade".

Predição Frequentista Clássica

Como você sabe, o "padrão ouro" no freqüentismo é alcançar a cobertura nominal sob amostragem repetida. Por exemplo, queremos que uma região de confiança de 95% contenha os parâmetros verdadeiros em 95% das amostras da mesma população subjacente. Ou, esperamos cometer erros do tipo I e II em um teste de hipótese em média igual a e . Por fim, e mais pertinente a essa pergunta, esperamos que nosso intervalo de previsão de 95% contenha o próximo ponto da amostra 95% do tempo. $\alpha$ $\beta$

Agora, geralmente eu tenho problemas com a forma como os IPs clássicos são apresentados e ensinados na maioria dos cursos de estatística, porque a tendência esmagadora é interpretá-los como intervalos preditivos posteriores Bayesianos, o que eles decididamente não são. Mais fundamentalmente, eles estão falando sobre probabilidades diferentes! Os bayesianos não reivindicam o desempenho amostral repetido de suas quantidades (caso contrário, eles seriam freqüentadores). Segundo, um IP bayesiano está realmente realizando algo mais semelhante em espírito a um intervalo de tolerância clássica do que a um intervalo de predição clássico.

Para referência: Os intervalos de tolerância precisam ser especificados por duas probabilidades: A confiança e a cobertura. A confiança nos diz com que frequência está correta em amostras repetidas. A cobertura nos diz a medida de probabilidade mínima do intervalo sob a distribuição verdadeira (em oposição ao PI, que fornece a medida de probabilidade esperada ... novamente sob amostragem repetida). Isso é basicamente o que o IP bayesiano está tentando fazer também, mas sem nenhuma reivindicação de amostragem repetida.

Portanto, a lógica básica da regressão linear simples Stats 101 é derivar as propriedades de amostragem repetidas do PI sob a suposição de normalidade. É a abordagem frequentista + gaussiana que normalmente é considerada "clássica" e ensinada nas aulas de introdução às estatísticas. Isso se baseia na simplicidade dos cálculos resultantes (consulte a Wikipedia para uma boa visão geral).

As distribuições de probabilidade não gaussianas são geralmente problemáticas porque podem não ter quantidades fundamentais que podem ser perfeitamente invertidas para obter um intervalo. Portanto, não há um método "exato" para essas distribuições, geralmente porque as propriedades do intervalo dependem dos verdadeiros parâmetros subjacentes.

Reconhecendo essa incapacidade, surgiu outra classe de previsão (e de inferência e estimativa) com a abordagem de probabilidade.

Inferência baseada em probabilidade

As abordagens baseadas em probabilidades, como muitos conceitos estatísticos modernos, podem ser rastreadas até Ronald Fisher. A idéia básica desta escola é que, exceto em casos especiais, nossas inferências estatísticas são logicamente mais fracas do que quando lidamos com inferências de uma distribuição normal (cujas estimativas de parâmetros são ortogonais ), onde podemos fazer declarações de probabilidade exatas. Nesta visão de inferência, deve-se realmente evitar afirmações sobre probabilidade, exceto no caso exato, caso contrário, deve-se fazer afirmações sobre a probabilidade e reconhecer que não se sabe a probabilidade exata de erro (no sentido freqüentista).

Portanto, podemos ver a probabilidade como semelhante à probabilidade bayesiana, mas sem os requisitos de integrabilidade ou a possível confusão com a probabilidade freqüentista. Sua interpretação é inteiramente subjetiva ... embora uma taxa de probabilidade de 0,15 seja frequentemente recomendada para inferência de parâmetro único.

No entanto, não se costuma ver trabalhos que explicitamente fornecem "intervalos de probabilidade". Por quê? Parece que isso é em grande parte uma questão de sociologia, pois todos nos acostumamos a declarações de confiança baseadas em probabilidades. Em vez disso, o que você costuma ver é um autor se referindo a um intervalo de confiança "aproximado" ou "assintótico" de tal e tal. Esses intervalos são amplamente derivados de métodos de probabilidade, em que contamos com a distribuição qui-quadrado assintótica da razão de verossimilhança da mesma maneira que confiamos na normalidade assintótica da média da amostra.

Com esse "conserto", agora podemos construir Regiões de Confiança "aproximadas" a 95% com quase tanta consistência lógica quanto os bayesianos.

Do IC ao PI na Estrutura de Verossimilhança

O sucesso e a facilidade da abordagem de probabilidade acima levaram a idéias sobre como estendê-la à previsão. Um artigo de pesquisa muito bom sobre isso é apresentado aqui (não reproduzirei sua excelente cobertura). Pode ser rastreada até David Hinkley no final dos anos 70 (veja JSTOR ), que cunhou o termo. Ele o aplicou ao eterno " Problema Binomial de Previsão de Pearson ". Vou resumir a lógica básica.

$y$ $y$ $y$

As regras básicas para se livrar dos parâmetros "incômodos" para obter uma probabilidade preditiva são as seguintes:

$\mu, \sigma$
Se um parâmetro é aleatório (por exemplo, outros dados não observados ou "efeitos aleatórios"), você os integra (exatamente como na abordagem bayesiana).

A distinção entre um parâmetro fixo e aleatório é exclusiva da inferência de probabilidade, mas tem conexões com modelos de efeitos mistos, nos quais parece que as estruturas Bayesiana, Frequentista e de Probabilidade colidem.

Esperemos que isso tenha respondido sua pergunta sobre a ampla área de previsão "não bayesiana" (e inferência para esse assunto). Como os hiperlinks podem mudar, também farei um plug-in para o livro "Em toda a probabilidade: modelagem estatística e inferência usando a probabilidade", que discute a estrutura de verossimilhança moderna em profundidade, incluindo uma boa quantidade das questões epistemológicas de probabilidade versus Bayesiano vs frequentista inferência e previsão.

Referências

Intervalos de previsão: Métodos não paramétricos . Wikipedia. Acessado em 13/9/2015.
Bjornstad, Jan F. Probabilidade preditiva: uma revisão. Statist. Sci. 5 (1990), n. 2, 242--254. doi: 10.1214 / ss / 1177012175. http://projecteuclid.org/euclid.ss/1177012175 .
David Hinkley. Probabilidade preditiva . Os Anais das Estatísticas, vol. 7, No. 4 (Jul., 1979), pp. 718-728 Publicado por: Instituto de Estatística Matemática URL estável: http://www.jstor.org/stable/2958920
Yudi Pawitan. Com toda a probabilidade: modelagem estatística e inferência usando a probabilidade. Imprensa da Universidade de Oxford; 1 edição (30 de agosto de 2001). ISBN-10: 0198507658, ISBN-13: 978-0198507659. Especialmente capítulos 5.5-5.9, 10 e 16.

fonte

Dirigirei minha resposta especificamente à pergunta: "Quais métodos não bayesianos de inferência preditiva existem que levam em consideração a incerteza nas estimativas de parâmetros?" Organizarei minha resposta para expandir o significado da incerteza .

Esperamos que as análises estatísticas forneçam suporte para vários tipos de reivindicações, incluindo previsões . Mas continuamos incertos sobre nossas reivindicações, e essa incerteza surge de muitas fontes. As estatísticas freqüentistas são caracteristicamente organizadas para abordar apenas a parte de nossa incerteza que surge especificamente da amostragem . A amostragem pode muito bem ter sido a principal fonte de incerteza nos experimentos de campo agrícola que historicamente forneceram grande parte do estímulo ao desenvolvimento de estatísticas freqüentes. Mas em muitas das aplicações atuais mais importantes, esse não é o caso. Agora, preocupamo-nos com todos os tipos de outras incertezas, como a especificação incorreta de modelos e várias formas de preconceito - dos quais aparentemente existem centenas (!) De tipos [1].

Sander Greenland tem um maravilhoso artigo de discussão [2] que mostra como pode ser importante levar em conta essas outras fontes de incerteza e prescreve a análise de múltiplos vieses como o meio para realizar isso. Ele desenvolve a teoria inteiramente em termos bayesianos, o que é natural. Se alguém deseja levar adiante um tratamento formal e coerente da sua incerteza sobre os parâmetros do modelo, é levado naturalmente a distribuições de probabilidade positivas (subjetivas) sobre os parâmetros; Nesse ponto, você está perdido para o diabo bayesiano ou entrou no reino dos céus bayesiano (dependendo da sua religião).

Para sua pergunta, @ Scortchi, sobre se isso pode ser feito com "métodos não bayesianos", uma solução alternativa não bayesiana é demonstrada em [3]. Mas para quem conhece o suficiente o bayesianismo para escrever sua pergunta, o tratamento será parecido com uma tentativa de implementar cálculos bayesianos "às escondidas", por assim dizer. De fato, como os autores reconhecem (ver p. 4), quanto mais você se aproxima dos métodos mais avançados no final do livro, mais os métodos se parecem com a integração que você descreve na sua pergunta. Eles sugerem que onde eles se afastam do bayesianismo é, em última análise, apenas não postulando prévios explícitos em seus parâmetros antes de calculá-los.

$\theta(\alpha)$ $\alpha$ $\theta$ é a função desses parâmetros que devem ser estimados. (Em termos de exemplo de aplicação da Groenlândia, uma previsão significativa pode ser o impacto em termos de leucemia pediátrica reduzida de uma política de realocação de linhas de força.)

Chavalarias, David e John PA Ioannidis. "Science Mapping Analysis caracteriza 235 vieses na pesquisa biomédica." Journal of Clinical Epidemiology 63, no. 11 (novembro de 2010): 1205–15. doi: 10.1016 / j.jclinepi.2009.12.011.
Gronelândia, Sander. “Modelagem de Vieses Múltiplos para Análise de Dados Observacionais (com Discussão).” Jornal da Sociedade Estatística Real: Série A (Estatística na Sociedade) 168, no. 2 (março de 2005): 267–306. doi: 10.1111 / j.1467-985X.2004.00349.x.
Lash, Timothy L., Matthew P. Fox e Aliza K. Fink. Aplicação da análise quantitativa de polarização a dados epidemiológicos. Estatística para Biologia e Saúde. Nova York, NY: Springer New York, 2009. http://link.springer.com/10.1007/978-0-387-87959-8 .

David C. Norris
fonte

Obrigado! Isso parece muito interessante, mas acho que seria útil adicionar um breve resumo de como a análise de viés múltiplo / quantitativo é usada na inferência preditiva.

Scortchi - Restabelecer Monica

Adicionei um parágrafo para tornar explícita a conexão com a previsão . Obrigado pelo seu pedido de esclarecimento, @Scortchi.

David C. Norris