Eu tenho alguns dados que se ajustam ao longo de uma linha aproximadamente linear:
Quando faço uma regressão linear desses valores, obtenho uma equação linear:
Em um mundo ideal, a equação deve ser .
Claramente, meus valores lineares estão próximos desse ideal, mas não exatamente. Minha pergunta é: como posso determinar se esse resultado é estatisticamente significativo?
O valor de 0,997 é significativamente diferente de 1? -0,01 é significativamente diferente de 0? Ou eles são estatisticamente iguais e posso concluir que com algum nível de confiança razoável?
O que é um bom teste estatístico que posso usar?
obrigado
Respostas:
Esse tipo de situação pode ser tratado por um teste F padrão para modelos aninhados . Como você deseja testar os dois parâmetros em um modelo nulo com parâmetros fixos, suas hipóteses são:
O teste F envolve o ajuste de ambos os modelos e a comparação da soma dos quadrados residuais, que são:
A estatística do teste é:
O valor p correspondente é:
Implementação em R: suponha que seus dados estejam em um quadro de dados chamado
DATA
com variáveis chamadasy
ex
. O teste F pode ser realizado manualmente com o seguinte código. Nos dados simulados simulados que usei, você pode ver que os coeficientes estimados estão próximos dos da hipótese nula, e o valor p do teste não mostra evidências significativas para falsificar a hipótese nula de que a verdadeira função de regressão é a função de identidade.A
summary
saída eplot
para esses dados são assim:fonte
sd = 2/sqrt(1+abs(x))
Aqui está um método gráfico interessante, que escrevi do excelente livro de Julian Faraway "Linear Models With R (Second Edition)". São intervalos de confiança simultâneos de 95% para a interceptação e a inclinação, plotados como uma elipse.
Para ilustração, criei 500 observações com uma variável "x" com distribuição N (média = 10, sd = 5) e, em seguida, uma variável "y" cuja distribuição é N (média = x, sd = 2). Isso gera uma correlação de pouco mais de 0,9, que pode não ser tão estreita quanto seus dados.
Você pode verificar a elipse para ver se o ponto (interceptação = 0, inclinação = 1) cai dentro ou fora desse intervalo de confiança simultâneo.
Criado em 2019-01-21 pelo pacote reprex (v0.2.1)
fonte
Você pode calcular os coeficientes com n amostras de bootstrap. Provavelmente, isso resultará em valores normais do coeficiente distribuído (teorema do limite central). Com isso, você pode construir um intervalo de confiança (por exemplo, 95%) com valores t (n-1 graus de liberdade) em torno da média. Se o seu IC não incluir 1 (0), é estatisticamente significante diferente ou mais preciso: Você pode rejeitar a hipótese nula de uma inclinação igual.
fonte
fonte
Você deve ajustar uma regressão linear e verificar os intervalos de confiança de 95% para os dois parâmetros. Se o IC da inclinação incluir 1 e o IC da compensação incluir 0, o teste de dois lados será insignificante aprox. no nível (95%) ^ 2 - à medida que usamos dois testes separados, o risco tipo I aumenta.
Usando R:
ou você usa
e calcule os intervalos de 2 sigma sozinho.
fonte