Diferença entre intervalos de confiança e intervalos de previsão

80

Para um intervalo de previsão de regressão linear você ainda usa para gerar o intervalo. Você também usa isso para gerar um intervalo de confiança de . Qual a diferença entre os dois? $\hat{E}[Y|x] = \hat{\beta_0}+\hat{\beta}_{1}x$ $E[Y|x_0]$

regression confidence-interval predictive-models prediction-interval Pergunta, questão
fonte

7

não "gerar o intervalo".

\hat{E} [Y | x] = \hat{β_{0}} + {\hat{β}}_{1} x

$\hat{E}[Y|x] = \hat{\beta_0}+\hat{\beta}_{1}x$

Glen_b

Não vejo uma razão para a divergência entre os dois métodos em nenhuma das respostas acima. Os resultados da regressão são tipicamente estimados com base nos parâmetros paramétricos de distribuição t de Student e, em geral, a regressão, especialmente de modelos de regressão pouco parecidos aos de regressão de dados, levam a resíduos que não são estudados, por exemplo, distorcidos, mas especialmente com caudas pesadas, tipicamente (se não sempre) medidas paramétricas de dispersão de dados maiores que seus correspondentes quantis previstos. Uma regra prática que achei útil: se eu ver resíduos com valores extremos, caudas longas e u

Carl

Relacionado: Obtendo uma fórmula para limites de previsão em um modelo linear .

Scortchi - Restabelece Monica

75

$\text{E}[y \mid x]$ $y$ $y$ $\text{E}[y \mid x]$ $x\hat{\beta}$

$\text{E}[y \mid x]$ $y$ $y$

$\beta$ $\text{E}[y \mid x]$ $y$ $\text{E}[y \mid x]$

Portanto, um intervalo de previsão será maior que um intervalo de confiança.

Charlie
fonte

40

A diferença entre um intervalo de previsão e um intervalo de confiança é o erro padrão.

O erro padrão para um intervalo de confiança na média leva em consideração a incerteza devido à amostragem. A linha que você calculou da sua amostra será diferente da linha que seria calculada se você tivesse toda a população, o erro padrão leva essa incerteza em consideração.

O erro padrão para um intervalo de previsão em uma observação individual leva em consideração a incerteza devido à amostragem como acima, mas também leva em consideração a variabilidade dos indivíduos em torno da média prevista. O erro padrão para o intervalo de previsão será maior que o intervalo de confiança e, portanto, o intervalo de previsão será maior que o intervalo de confiança.

Greg Snow
fonte

39

Achei a seguinte explicação útil:

Intervalos de confiança informam o quão bem você determinou a média. Suponha que os dados realmente sejam amostrados aleatoriamente a partir de uma distribuição gaussiana. Se você fizer isso várias vezes e calcular um intervalo de confiança da média de cada amostra, seria de esperar que cerca de 95% desses intervalos incluíssem o valor real da média da população. O ponto principal é que o intervalo de confiança informa sobre a provável localização do verdadeiro parâmetro populacional.

Os intervalos de previsão indicam onde você pode esperar para ver o próximo ponto de dados amostrado. Suponha que os dados realmente sejam amostrados aleatoriamente a partir de uma distribuição gaussiana. Colete uma amostra de dados e calcule um intervalo de previsão. Em seguida, prove mais um valor da população. Se você fizer isso várias vezes, esperaria que o próximo valor estivesse dentro desse intervalo de previsão em 95% das amostras. O ponto principal é que o intervalo de previsão informa sobre a distribuição dos valores, não a incerteza na determinação da população significar.

Os intervalos de previsão devem ser responsáveis pela incerteza em saber o valor da média da população, além da dispersão dos dados. Portanto, um intervalo de previsão é sempre maior que um intervalo de confiança.

Fonte: http://www.graphpad.com/support/faqid/1506/

vonjd
fonte

O que diabos significa "dispersão de dados" aqui?

tel

2

@tel: Obviamente a variação

vonjd

36

Uma é a previsão de uma observação futura, e a outra é uma resposta média prevista. Darei uma resposta mais detalhada para, esperançosamente, explicar a diferença e de onde ela vem, bem como como essa diferença se manifesta em intervalos mais amplos de previsão do que de confiança.

$x_0$

$x_0$ $x_0$
$y = x_{0}^{T} β + ϵ$ $y = x_0^T\beta+\epsilon$ $E(\epsilon)=0$ $\hat{y} = x_{0}^{T} \hat{β}$ $\hat{y} = x_0^T\hat{\beta}$ $\hat{\beta}$ $\epsilon$
$x_0$ $x_0$
$\hat{y} = x_{0}^{T} \hat{β}$ $\hat{y} = x_0^T\hat{\beta}$ $\hat{\beta}$

v a r (x_{0}^{T} \hat{β}) = x_{0}^{T} (X^{T} X)^{- 1} x_{0} σ^{2}

$var(x_0^T\hat{\beta}) = x_0^T(X^TX)^{-1}x_0\sigma^2$

$x_0^T\hat{\beta} + \epsilon$ $\epsilon$ $\sigma^2$ $\hat{\beta}$

$x_0$
${\hat{y}}_{0} \pm t_{n - p}^{(α / 2)} \hat{σ} \sqrt{x_{0}^{T} (X^{T} X)^{- 1} x_{0} + 1}$ $\hat{y}_0\pm t_{n-p}^{(\alpha/2)}\hat{\sigma}\sqrt{x_0^T(X^TX)^{-1}x_0 + 1}$
$x_0$
${\hat{y}}_{0} \pm t_{n - p}^{(α / 2)} \hat{σ} \sqrt{x_{0}^{T} (X^{T} X)^{- 1} x_{0}}$ $\hat{y}_0\pm t_{n-p}^{(\alpha/2)}\hat{\sigma}\sqrt{x_0^T(X^TX)^{-1}x_0}$

$t_{n-p}^{\alpha/2}$ $n-p$ $\alpha/2$

Espero que isso torne um pouco mais claro por que o intervalo de previsão é sempre maior e qual é a diferença subjacente entre os dois intervalos. Este exemplo foi adaptado de Faraway, Linear Models com R, Sec. 4.1

jpgard
fonte

2

É bom ver um thread antigo melhorado consideravelmente por uma resposta clara e ponderada. Bem vindo ao nosso site!

whuber

Isso não deveria ser ... x0 + 1 / n +1 (para o intervalo de previsão (1)) e ... x0 + 1 / n (para o intervalo de confiança (2) _ www2.stat.duke.edu /~tjl13/s101/slides/unit6lec3H.pdf real-statistics.com/regression/…

user48956

12

Resposta curta:

Um intervalo de previsão é um intervalo associado a uma variável aleatória ainda a ser observada (previsão).

Um intervalo de confiança é um intervalo associado a um parâmetro e é um conceito frequentista.

Veja aqui a resposta completa de Rob Hyndman, o criador do pacote de previsão em R.

pablo_sci
fonte

3

Esta resposta é para aqueles leitores que não conseguiram entender completamente as respostas anteriores. Vamos discutir um exemplo específico. Suponha que você tente prever o peso das pessoas a partir da altura, sexo (masculino, feminino) e dieta (padrão, baixo carboidrato, vegetariano). Atualmente, existem mais de 8 bilhões de pessoas na Terra. Obviamente, você pode encontrar milhares de pessoas com a mesma altura e outros dois parâmetros, mas com pesos diferentes. Seus pesos diferem enormemente porque alguns deles têm obesidade e outros podem sofrer de fome. A maioria dessas pessoas estará em algum lugar no meio.

Uma tarefa é prever o peso médio de todas as pessoas com os mesmos valores das três variáveis explicativas. Aqui usamos o intervalo de confiança. Outro problema é prever o peso de uma pessoa específica. E não sabemos as circunstâncias vivas desse indivíduo. Aqui o intervalo de previsão deve ser usado. É centrado em torno do mesmo ponto, mas deve ser muito maior que o intervalo de confiança.

Serhii Kushchenko
fonte

Diferença entre intervalos de confiança e intervalos de previsão

Respostas: