Contexto
Isso é um pouco semelhante a esta pergunta , mas não acho que seja uma duplicata exata.
Quando você procura instruções sobre como executar um teste de hipótese de autoinicialização, geralmente é afirmado que é bom usar a distribuição empírica para intervalos de confiança, mas que você precisa inicializar corretamente a distribuição sob a hipótese nula para obter um p- valor. Como exemplo, veja a resposta aceita para esta pergunta . Uma pesquisa geral na internet parece apresentar respostas semelhantes.
A razão para não usar um valor-p com base na distribuição empírica é que na maioria das vezes não temos invariância na tradução.
Exemplo
Deixe-me dar um pequeno exemplo. Temos uma moeda e queremos fazer um teste unilateral para ver se a frequência das cabeças é maior que 0,5
Realizamos tentativas e obtemos cabeças. O verdadeiro valor de p para este teste seria .
Por outro lado, se o arranque a 14 para fora de 20 cabeças, que de forma eficaz a partir da amostra a distribuição binomial com e . Mudando essa distribuição subtraindo 0,2, obteremos um resultado pouco significativo ao testar nosso valor observado de 0,7 em relação à distribuição empírica obtida.
Nesse caso, a discrepância é muito pequena, mas aumenta quando a taxa de sucesso contra a qual testamos se aproxima de 1.
Questão
Agora, deixe-me chegar ao ponto real da minha pergunta: o mesmo defeito também vale para intervalos de confiança. De fato, se um intervalo de confiança tem o nível de confiança declarado então o intervalo de confiança que não contém o parâmetro sob a hipótese nula é equivalente a rejeitar a hipótese nula em um nível de significância de .
Por que os intervalos de confiança baseados na distribuição empírica são amplamente aceitos e o valor p não?
Existe uma razão mais profunda ou as pessoas simplesmente não são tão conservadoras com intervalos de confiança?
Nesta resposta, Peter Dalgaard dá uma resposta que parece concordar com o meu argumento. Ele diz:
Não há nada de particularmente errado nessa linha de raciocínio, ou pelo menos não (muito) pior que o cálculo do IC.
De onde vem (muito)? Isso implica que a geração de valores p dessa maneira é um pouco pior, mas não é detalhada.
Pensamentos finais
Também em Uma Introdução ao Bootstrap de Efron e Tibshirani, eles dedicam muito espaço aos intervalos de confiança, mas não aos valores de p, a menos que sejam gerados sob uma distribuição de hipóteses nula adequada, com exceção de uma linha descartável sobre a equivalência geral de intervalos de confiança e valores-p no capítulo sobre teste de permutação.
Voltemos também à primeira pergunta que vinculei. Eu concordo com a resposta de Michael Chernick, mas, novamente, ele também argumenta que os intervalos de confiança e os valores de p com base na distribuição empírica do bootstrap são igualmente não confiáveis em alguns cenários. Não explica por que você encontra muitas pessoas dizendo que os intervalos estão corretos, mas os valores-p não.
Respostas:
Como o @MichaelChernick disse em resposta a um comentário sobre sua resposta a uma pergunta vinculada :
Portanto, esta resposta abordará dois problemas associados: (1) por que as apresentações dos resultados de autoinicialização parecem mais frequentemente especificar intervalos de confiança (IC) do que valores- p , como sugerido na pergunta, e (2) quando os valores- p podem e o IC determinado pelo bootstrap deve ser considerado não confiável, exigindo, portanto, uma abordagem alternativa.
Não conheço dados que apóiam especificamente a reivindicação desta pergunta sobre o primeiro problema. Talvez, na prática, muitas estimativas de pontos derivadas de bootstrap estejam (ou pelo menos pareçam) estar tão longe dos limites da decisão de teste que há pouco interesse no valor- p da hipótese nula correspondente, com interesse primário na própria estimativa pontual e em alguma medida razoável da magnitude de sua provável variabilidade.
Com relação à segunda questão, muitas aplicações práticas envolvem "distribuição simétrica da estatística de teste, estatística de teste central, aplicação de CLT, nenhum ou poucos parâmetros de incômodo etc." (como em um comentário de @XavierBourretSicotte acima), para o qual há pouca dificuldade. A questão passa a ser como detectar possíveis desvios dessas condições e como lidar com elas quando elas surgirem.
Esses desvios em potencial do comportamento ideal são apreciados há décadas, com várias abordagens de IC de autoinicialização desenvolvidas desde o início para lidar com eles. O bootstrap Studentized ajuda a fornecer uma estatística essencial , e o método BCa lida com o viés e a distorção em termos de obtenção de IC mais confiável a partir dos bootstraps. A transformação de dados que estabiliza a variação antes de determinar o IC com inicialização, seguida pela retrotransformação na escala original, também pode ajudar.
O exemplo nesta pergunta sobre amostragem de 14 cabeças de 20 lançamentos de uma moeda decente é bem tratado usando CI do método BCa; em R:
As outras estimativas de IC apresentam o problema observado de estar muito próximo ou próximo do valor da população de 10 cabeças por 20 lançamentos. O IC BCa é responsável pela assimetria (conforme introduzida pela amostragem binomial, além das probabilidades pares), portanto inclui bem o valor da população de 10.
Mas você deve procurar esses desvios do comportamento ideal antes de poder tirar proveito dessas soluções. Como em muitas práticas estatísticas, observar os dados em vez de apenas conectá-los a um algoritmo pode ser essencial. Por exemplo, esta pergunta sobre o IC para um resultado de bootstrap tendencioso mostra resultados para os 3 primeiros ICs mostrados no código acima, mas excluiu o ICa BCa. Quando tentei reproduzir a análise mostrada nessa pergunta para incluir o BCa CI, obtive o resultado:
onde 'w' está envolvido na correção de viés. A estatística que está sendo examinada tem um valor máximo fixo e a estimativa de plug-in que foi inicializada também foi inerentemente tendenciosa. Obter um resultado como esse deve indicar que as suposições usuais subjacentes ao IC inicializado estão sendo violadas.
Analisar uma quantidade essencial evita esses problemas; mesmo que uma distribuição empírica não possa ter estatísticas estritamente úteis, chegar o mais próximo possível é um objetivo importante. Os últimos parágrafos desta resposta fornecem links para outros auxílios, como gráficos dinâmicos para estimar via bootstrap se uma estatística (potencialmente após alguma transformação de dados) está próxima do pivô e o bootstrap duplo computacionalmente caro, mas potencialmente decisivo.
fonte