Tenho dificuldades para entender a forma do intervalo de confiança de uma regressão polinomial.
Aqui é um exemplo . A figura da esquerda mostra a UPV (variação de previsão não escalonada) e o gráfico da direita mostra o intervalo de confiança e os pontos medidos (artificiais) em X = 1,5, X = 2 e X = 3.
Detalhes dos dados subjacentes:
o conjunto de dados consiste em três pontos de dados (1,5; 1), (2; 2,5) e (3; 2,5).
cada ponto foi "medido" 10 vezes e cada valor medido pertence a . Uma MLR com um modelo poynomial foi realizada nos 30 pontos resultantes.
o intervalo de confiança foi calculado com as fórmulas e y(x0)-tα/2,df(error)√
(ambas as fórmulas são retiradas de Myers, Montgomery, Anderson-Cook, "Response Surface Methodology" quarta edição, páginas 407 e 34)
e σ 2 = H S E = S S E / ( n - p ) ~ 0,075 .
a variação prevista muito alta fora do espaço de design é normal porque estamos extrapolando
mas por que a variação é menor entre X = 1,5 e X = 2 do que nos pontos medidos?
e por que a variância se amplia para valores acima de X = 2, mas depois diminui após X = 2,3 e se torna novamente menor do que no ponto medido em X = 3?
Não seria lógico que a variação fosse pequena nos pontos medidos e grande entre eles?
Editar: mesmo procedimento, mas com pontos de dados [(1.5; 1), (2.25; 2.5), (3; 2.5)] e [(1.5; 1), (2; 2.5), (2.5; 2.2), (3; 2,5)].
fonte
Respostas:
Pagamos o preço de precisar olhar para objetos tridimensionais, o que é difícil de fazer em uma tela estática. (Acho que as imagens rotativas sem fim são irritantes e, portanto, não causam nenhuma delas, mesmo que possam ser úteis.) Portanto, essa resposta pode não agradar a todos. Mas aqueles que desejam adicionar a terceira dimensão à sua imaginação serão recompensados. Proponho ajudá-lo nesse esforço por meio de alguns gráficos cuidadosamente escolhidos.
Vamos começar visualizando as variáveis independentes . No modelo de regressão quadrática
A regressão quadrática ajusta um plano a esses pontos.
Aqui está o plano dos mínimos quadrados ajustado a esses pontos:
A banda de confiança para essa curva ajustada mostra o que pode acontecer com o ajuste quando os pontos de dados variam aleatoriamente. Sem alterar o ponto de vista, plotei cinco planos ajustados (e suas curvas levantadas) para cinco novos conjuntos de dados independentes (dos quais apenas um é mostrado):
Vejamos a mesma coisa pairando acima do gráfico tridimensional e olhando levemente para baixo e ao longo do eixo diagonal do plano. Para ajudá-lo a ver como os planos mudam, também comprimi a dimensão vertical.
Essa análise se aplica conceitualmente à regressão polinomial de alto grau, bem como à regressão múltipla em geral. Embora não possamos realmente "ver" mais de três dimensões, a matemática da regressão linear garante que a intuição derivada de gráficos bidimensionais e tridimensionais do tipo mostrado aqui permaneça precisa em dimensões superiores.
fonte
Intuitivo
Em um sentido muito intuitivo e aproximado, você pode ver a curva polinomial como duas curvas lineares unidas (uma subindo e uma diminuindo). Para essas curvas lineares, você deve se lembrar da forma estreita no centro .
Os pontos à esquerda do pico têm relativamente pouca influência nas previsões à direita do pico e vice-versa.
Portanto, você pode esperar duas regiões estreitas em ambos os lados do pico (onde as mudanças nas encostas dos dois lados têm relativamente pouco efeito).
A região ao redor do pico é relativamente mais incerta, pois uma mudança na inclinação da curva tem um efeito maior nessa região. Você pode desenhar muitas curvas com um grande deslocamento do pico, que ainda passa razoavelmente pelos pontos de medição
Ilustração
Abaixo está uma ilustração com alguns dados diferentes, que mostram mais facilmente como esse padrão (você pode dizer um nó duplo) pode surgir:
Formal
fonte