Eu tenho algumas perguntas para intervalos de previsão e tolerância.
Vamos concordar com a definição dos intervalos de tolerância primeiro: recebemos um nível de confiança, digamos 90%, a porcentagem da população a capturar, digamos 99%, e um tamanho de amostra, digamos 20. A distribuição de probabilidade é conhecida, digamos normal Por conveniência. Agora, dados os três números acima (90%, 99% e 20) e o fato de a distribuição subjacente ser normal, podemos calcular o número de tolerância . Dada uma amostra ( x 1 , x 2 , ... , x 20 ) com média ˉ x e desvio padrão s , a tolerância intervalo é ˉ x ± k s. Se esse intervalo de tolerância captura 99% da população, a amostra é chamada de sucesso e o requisito é que 90% das amostras sejam bem- sucedidas .
Comentário: 90% é a priori probabilidade a de uma amostra ser um sucesso. 99% é a probabilidade condicional de que uma observação futura esteja no intervalo de tolerância, dado que a amostra é um sucesso.
Minhas perguntas: podemos ver os intervalos de previsão como intervalos de tolerância? Procurando na web, obtive respostas conflitantes sobre isso, sem mencionar que ninguém realmente definiu cuidadosamente os intervalos de previsão. Portanto, se você tiver uma definição precisa do intervalo de previsão (ou uma referência), eu agradeceria.
O que eu entendi é que um intervalo de previsão de 99%, por exemplo, não captura 99% de todos os valores futuros para todas as amostras. Seria o mesmo que um intervalo de tolerância que captura 99% da população com 100% de probabilidade.
Nas definições que encontrei para um intervalo de predição de 90%, 90% é a probabilidade a priori de uma amostra, digamos (o tamanho é fixo) e uma única observação futura y , que y estará no intervalo de previsão. Assim, parece que a amostra e o valor futuro são dados ao mesmo tempo, em contraste com o intervalo de tolerância, onde a amostra é fornecida e com uma certa probabilidade, é um sucesso e sob a condição de que a amostra seja um sucesso, um valor futuro é fornecido e com uma certa probabilidade cai no intervalo de tolerância. Não tenho certeza se a definição acima do intervalo de previsão está correta ou não, mas parece contra-intuitiva (pelo menos).
Qualquer ajuda?
fonte
Respostas:
Suas definições parecem estar corretas.
O livro a ser consultado sobre esses assuntos é Intervalos estatísticos (Gerald Hahn e William Meeker), 1991. Cito:
Aqui estão as reformulações na terminologia matemática padrão. Que os dados sejam considerados uma realização de variáveis aleatórias independentes X = ( X 1 , … , X n ) com a função de distribuição cumulativa comum F θ . ( θ aparece como um lembrete de que F pode ser desconhecido, mas supõe-se que esteja em um determinado conjunto de distribuições F θ | θ ∈ Θ ). Let X 0x =( x1, … , Xn) X =( X1, … , Xn) Fθ θ F Fθ| θ ∈ Θ X0 0 outra variável aleatória com a mesma distribuição e independente das primeiras n variáveis.Fθ n
Um intervalo de previsão (para uma única observação futura), dado pelos pontos finais , tem a propriedade definidora que[ l ( x ) , u ( x ) ]
Especificamente, refere-se à distribuição variável n + 1 de ( X 0 , X 1 , … , X n ) determinada pela lei F θ . Observe a ausência de probabilidades condicionais: esta é uma probabilidade conjunta completa. Observe também a ausência de qualquer referência a uma sequência temporal: X 0 muito bem pode ser observado no tempo antes dos outros valores. Isso não importa.Prθ n + 1 ( X0 0, X1, … , Xn) Fθ X0 0
Não tenho certeza de quais aspectos disso podem ser "contra-intuitivos". Se concebermos selecionar um procedimento estatístico como uma atividade a ser exercida antes da coleta de dados, essa é uma formulação natural e razoável de um processo planejado de duas etapas, porque ambos os dados ( ) e o "valor futuro" X 0 precisa ser modelado como aleatório.XEu, i = 1 , … , n X0 0
Um intervalo de tolerância, dado pelos pontos de extremidade , tem a propriedade definidora que( L ( x ) , U( x ) ]
Observe a ausência de qualquer referência a : ele não desempenha nenhum papel.X0 0
Quando é o conjunto de distribuições Normais, existem intervalos de previsão no formato{ Fθ}
( é a média da amostra es é o desvio padrão da amostra). Os valores da função k , que Hahn & Meeker tabulam, não dependem dos dados x . Existem outros procedimentos de intervalo de previsão, mesmo no caso Normal: esses não são os únicos.x¯ s k x
Da mesma forma, existem intervalos de tolerância na forma
Existem outros procedimentos de intervalo de tolerância : esses não são os únicos.
Observando a semelhança entre esses pares de fórmulas, podemos resolver a equação
Isso permite reinterpretar um intervalo de previsão como um intervalo de tolerância (de várias maneiras possíveis, variando e p ) ou reinterpretar um intervalo de tolerância como um intervalo de previsão (somente agora α geralmente é determinado exclusivamente por α ' e p ). Esta pode ser uma origem da confusão.α′ p α α′ p
fonte
fonte