As distribuições de amostragem são legítimas para inferência?

15

Alguns bayesianos atacam a inferência freqüentista afirmando que "não há distribuição amostral única" porque depende das intenções do pesquisador (Kruschke, Aguinis, & Joo, 2012, p. 733).

Por exemplo, digamos que um pesquisador inicie a coleta de dados, mas seu financiamento foi inesperadamente cortado após 40 participantes. Como as distribuições de amostragem (e os ICs e valores de p subsequentes) seriam definidos aqui? Nós assumiríamos que cada amostra constituinte tem N = 40? Ou consistiria em amostras com N diferente, com cada tamanho determinado por outros momentos aleatórios em que seu financiamento pode ter sido cortado?

As distribuições n, t, F, qui-quadrado (etc.) encontradas em livros didáticos assumem que o N é fixo e constante para todas as amostras constituintes, mas isso pode não ser verdade na prática. Em todos os procedimentos de parada diferentes (por exemplo, após um determinado intervalo de tempo ou até meu assistente se cansar), parece haver uma distribuição de amostras diferente, e o uso dessas distribuições de N fixo 'testadas e verdadeiras' é inadequado.

Quão prejudicial é essa crítica à legitimidade dos ICs e valores-p freqüentistas? Existem refutações teóricas? Parece que, atacando o conceito de distribuição amostral, todo o edifício da inferência freqüentista é tênue.

Todas as referências acadêmicas são muito apreciadas.

ATJ
fonte
11
A citação é para: Kruschke, JK, Aguinis, H., & Joo, H. (2012). Chegou a hora: métodos bayesianos para análise de dados nas ciências organizacionais. Mas Kruschke já o usou antes em: (2010) análise de dados bayesiana e (2010) em que acreditar: métodos bayesianos de análise de dados.
ATJ 30/01

Respostas:

21

Normalmente, você faria inferência condicional ao tamanho real da amostra , porque é auxiliar aos parâmetros de interesse; isto é, não contém informações sobre seus valores reais, afetando apenas a precisão com a qual você pode mensurá-los. Cox (1958), "Some Problems Connected with Statistical Inference", Ann. Matemática. Statist.n 29 , 2 é geralmente citado como primeiro explicando o que às vezes é conhecido como Princípio da Condicionalidade, embora estivesse implícito em trabalhos anteriores, remetendo à ideia de Fisher de "subconjuntos relevantes".

Se o financiamento do seu pesquisador foi cortado porque os resultados até agora foram decepcionantes, é claro que não é auxiliar. Talvez a ilustração mais simples do problema seja a estimativa de uma probabilidade de Bernoulli a partir de um esquema de amostragem binomial (número fixo de ensaios) ou negativo (binômio número fixo de sucessos). A estatística suficiente é a mesma em ambos, mas sua distribuição é diferente. Como você analisaria um experimento em que não sabia qual foi seguido?nBerger & Wolpert (1988), The Likelihood Principle discutem as implicações desta e de outras regras de parada para inferência.

xnx¯kμ=0 0μ0 0eu(0 0)eu(x¯)e-k2/2, para que o pesquisador possa estabelecer um limite com antecedência com uma escolha apropriada de k. Somente uma análise freqüentista pode levar em consideração a distribuição da razão de verossimilhança nesse esquema de amostragem bastante injusto. Veja as respostas de Kerridge (1963), "Limites para a frequência de inferências enganosas de Bayes", Ann. Matemática. Estado. , 34 , Cornfield (1966), "Ensaios seqüenciais, análise seqüencial e o princípio da probabilidade", The American Statistician , 20 , 2 , e Kadane (1996), "Raciocínio para uma conclusão precipitada", JASA , 91 , 435

Apontar a dependência da inferência freqüentista das intenções de um pesquisador é uma escavação útil para as pessoas (se ainda houver alguma) que se empolgam com a "subjetividade" da inferência bayesiana. Pessoalmente, eu posso viver com isso; o desempenho de um procedimento durante uma longa série de repetições sempre será algo mais ou menos nocional, o que não diminui sua utilidade a ser considerada ("uma calibração da probabilidade" foi como Cox descreveu os valores de p ) Nas datas das referências, você deve ter notado que esses problemas não são muito novos; as tentativas de resolvê-los por meio de argumentação a priori desapareceram amplamente (exceto na Internet, sempre atrasadas, exceto em questões triviais) &

PS: Thinking to add a counter-balance to Berger & Wolpert I happened upon Cox & Mayo (2010), "Objectivity and Conditionality in Frequentist Inference" in Error and Inference. There's quite likely an element of wishful thinking in my assertion that the debate has died down, but it's striking how little new there is to be said on the matter after half a century or so. (All the same, this is a concise & eloquent defence of frequentist ideas.)

Scortchi - Reinstate Monica
fonte
11
+1 (há muito tempo). Pergunto-me se o raciocínio de Armitage pode ser adaptado ao conhecido exemplo de amostragem binomial versus neg-binomial; por exemplo, observar a sequência TTTTTH de lançamentos de moedas gera p = 0,03 ou p = 0,1, dependendo da regra de parada. Portanto, se considerarmos agora outra regra de parada, por exemplo, "Continue jogando até o binômio p <0,05 e houve pelo menos um H e pelo menos um T", torna-se bastante intuitivo que alguém não deva ignorar essa regra de parada por inferência (apesar de violar o princípio da verossimilhança). Isso faz sentido?
Ameba diz Reinstate Monica
4

A resposta curta para sua pergunta é: depende de quem você pergunta ;-) Bayesianos obstinados declararão vitória sobre, ou pelo menos paridade com, metodologia freqüentista. Os freqüentadores obstinados serão padronizados como "Isso não pode ser respondido". Os outros 99% dos estatísticos usarão quaisquer métodos que tenham se mostrado confiáveis ​​em experimentos ininterruptos.

Eu sei que a sensibilidade da distribuição da amostra às intenções do pesquisador pode ser preocupante, e realmente não há uma boa solução para esse problema. Tanto os bayesianos quanto os freqüentadores devem usar alguma subjetividade e julgamento para decidir como formar uma inferência. No entanto, acho que você está dando um exemplo de uma área geralmente controversa e colocando os problemas apenas aos pés da inferência freqüentista. Os experimentos sequenciais e / ou interrompidos são exemplos clássicos da natureza subjetiva da inferência ... e para a qual não há resposta absolutamente objetiva e acordada.

E quanto à inferência regular, onde você realmente coleta a amostra que pretendia obter? Aqui, acho que os freqüentadores têm vantagem, pois os valores de IC e p são bem calibrados por suas repetidas propriedades de amostragem, enquanto a inferência bayesiana mantém sua natureza pessoal e subjetiva.

Se você deseja uma exposição mais teórica da resposta bayesiana, eu leria sobre "inferência condicional", com os principais pesquisadores sendo Nancy Reid e Lehmann.

Scortchi - Restabelecer Monica
fonte