Diferença entre análise de regressão e análise de variância?

21

Estou aprendendo agora sobre análise de regressão e análise de variância.

Na análise de regressão, você tem uma variável fixa e deseja saber como a variável vai com a outra variável.

Na análise de variância, você deseja saber, por exemplo: Se esse alimento animal específico influencia o peso dos animais ... Então, um var fixo e a influência nos outros ...

Isso é certo ou errado, pls me ajude ...

Le Max
fonte

Respostas:

25

Suponha que seu conjunto de dados consista em um conjunto para você deseje observar a dependência de em .i = 1 , , n y x(xi,yi)i=1,,nyx

Suponha que você encontre os valores e de e que minimizem a soma residual dos quadrados Em seguida, você considera como o valor previsto para qualquer valor (não necessariamente já observado) . Isso é regressão linear. β αβ n Σ i=1(yi-(α+βxi))2. Y = α + β xyxα^β^αβ

i=1n(yi(α+βxi))2.
y^=α^+β^xyx

Agora considere decompor a soma total de quadrados com graus de liberdade, em partes "explicadas" e "inexplicáveis": com e graus de liberdade, respectivamente. Essa é a análise de variância, e então consideramos coisas como estatísticas este n-1 n Σ i = 1 ( ( α + β x i ) - ˉ y ) 2 explicado+ n Σ i = 1 ( y i - ( α + β x i ) ) 2 inexplicável. 1n-2F=Σ n i =

i=1n(yiy¯)2where y¯=y1++ynn
n1
Eu=1n((α^+β^xEu)-y¯)2explicado + Eu=1n(yEu-(α^+β^xEu))2inexplicável.
1n-2β=0
F=Eu=1n((α^+β^xEu)-y¯)2/1Eu=1n(yEu-(α^+β^xEu))2/(n-2).
A estatística F testa a hipótese nula .β=0 0

Um frequentemente primeiros encontros, o termo "análise de variância" quando o indicador é categórico, de modo que você está ajustando o modelo onde identifica qual categoria é o valor do indicador. Se houver categorias, você obteria graus de liberdade no numerador na estatística F e, geralmente, graus de liberdade no denominador. Mas a distinção entre regressão e análise de variância ainda é a mesma para esse tipo de modelo. i k k - 1 n - k

y=α+βEu
Eukk-1n-k

Alguns pontos adicionais:

  • Para alguns matemáticos, o relato acima pode fazer parecer que todo o campo é apenas o que é visto acima, portanto, pode parecer misterioso que tanto a regressão quanto a análise de variância sejam áreas de pesquisa ativas. Há muita coisa que não cabe em uma resposta apropriada para postar aqui.
  • Há um erro popular e tentador, que é chamado de "linear" porque o gráfico de é uma linha. Isso é falso. Uma das minhas respostas anteriores explica por que ainda é chamada de "regressão linear" quando você está ajustando um polinômio por meio de mínimos quadrados.y=α+βx
Michael Hardy
fonte
5
@MichaelHardy Embora a decomposição da variação em componentes na regressão seja frequentemente referida como uma tabela de análise de variação. Não é isso que os estatísticos geralmente querem dizer com ANOVA. Os métodos 1) regressão linear, 2) análise de variância e 3) análise de covariância são categorias na rubrica geral do modelo linear geral, a regressão linear envolve covariáveis ​​contínuas, a ANOVA inclui apenas grupos discretos e a ANCOVA é uma combinação de covariáveis ​​contínuas e grupos discretos.
Michael R. Chernick
1
Informalmente, às vezes se fala dessa maneira, e minha resposta não disse isso, mas deve-se saber que (1) a estimativa dos coeficientes pelos mínimos quadrados é feita em qualquer um dos dois problemas (preditores contínuos ou categóricos) e na decomposição da soma de quadrados com seus graus correspondentes de liberdade - uma tabela anova - também é feita em qualquer um dos dois problemas.
22812 Michael Hardy
5
Com essa concessão, você deve admitir que não há nada errado com a minha resposta. Também os termos ANOVA, ANCOVA e regressão não são termos informais. Eles são muito distintamente formais e é incorreto dizer ao OP que ANOVA é a decomposição da variância na regressão. O fato de um procedimento estatístico que alguém chamado anova possa fazer qualquer modelo linear não prova nada. No SAS proc reg lida apenas com regressão, proc anova lida apenas com a análise de variância como eu a defini e proc glm é a que faz as duas coisas.
Michael R. Chernick
1
.... e em R, "lm (....)" fornece coeficientes de regressão em ambas as situações, e "anova (lm (....))" fornece a decomposição da soma do quadrado e dos graus de liberdade, em ambas as situações. Quanto a "tenho que admitir", coloquei mais alguns comentários abaixo da sua resposta. Certamente, se você mencionar a regressão logística, seria mais claro se você dissesse que, assim que não estiver falando de regressão linear, a palavra "regressão" é um termo muito amplo que pode incluir muitas coisas.
Michael Hardy
@MichaelHardy Sinta-se livre para comentar sobre a minha pergunta levantada no site stats.SE. Penso que a sua resposta e a minha resposta a esta pergunta estão corretas. Eu certamente me oponho à minha resposta ser rejeitada. Eu queria ter a opinião de outras pessoas na comunidade de estatísticas sobre isso.
Michael R. Chernick
5

A principal diferença é a variável de resposta. Enquanto a regressão logística lida com uma resposta binária na análise de regressão linear e também com a regressão não linear, a variável de resposta é contínua. Você tem uma (s) variável (s) (também conhecida como covariável (s)) que têm um relacionamento funcional com a variável de resposta contínua. Na análise de variância, a resposta é contínua, mas pertence a algumas categorias diferentes (por exemplo, grupo de tratamento e grupo de controle). Na análise de variância, você procura diferença na resposta média entre os grupos. Na regressão linear, você observa como a resposta muda à medida que as covariáveis ​​mudam. Outra maneira de observar a diferença é dizer que, na regressão, as covariáveis ​​são contínuas, enquanto na análise de variância elas são um conjunto discreto de grupos.

Michael R. Chernick
fonte
6
Eu consideraria a pergunta como a diferença entre regressão linear e análise de variância; trazer regressão logística parece se afastar do tópico. No entanto, sua última frase está errada. A análise de variação pode ser feita independentemente de os preditores serem discretos ou contínuos.
22812 Michael Hardy
1
De fato, existem preditores na análise de variância. No seu exemplo, o preditor é categórico, mas não precisa ser assim. A análise de variância não considera apenas problemas envolvendo "grupos discretos".
Michael Hardy
3
@MichaelHardy Estou dando um passo atrás porque, quando verifico minhas enciclopédias estatísticas, encontro referências à análise de variância em termos de decomposição de variância no modelo linear geral. Mas o termo tem dois significados e, muitas vezes, a ANOVA se distingue da ANCOVA e da regressão da maneira que descrevi. Portanto, o OP deve estar ciente de ambos os termos, o que se refere à inferência sobre os componentes de variância no modelo linear geral e o que se refere à subclasse de modelos lineares que envolve apenas grupos discretos.
Michael R. Chernick
2
Penso no uso que você está usando como informal. Parece estranho mencionar regressão logística sem dizer que é apenas uma de uma variedade de "regressões", quando esse termo é usado no sentido amplo de estimar um valor médio ou previsto de uma variável dada outra e depois distingui- lo da análise de variância . Mas a questão da diferença entre modelos de regressão linear e análise de variância parece ser uma questão mais sensata. Mas muitas vezes existem incertezas sobre o que o pôster original pretendia.
Michael Hardy
7
Quaisquer que tenham sido suas intenções, considero inapropriado o comentário " Tenho doutorado em estatística ... ". Primeiro de tudo, não faz nada para resolver o problema em questão. Apelar à autoridade é uma abordagem frequentemente usada, mas muito equivocada, para provar as coisas. Apelar para sua própria autoridade é ainda mais problemático. Também pode ser interpretado como mostrando (inadvertidamente ou de outra forma) uma falta de respeito pelo @MichaelHardy (o pessoal que você está abordando), que também possui um PhD em estatística de um programa muito respeitável.
cardeal
2

A análise de variância (ANOVA) é um corpo de método estatístico para analisar observações assumidas como sendo da estrutura

yEu=β1xEu1+β2xEu2++βpxEup+eEu, Eu=1(1)n , que são constituídos por combinações lineares de quantidades desconhecidas mais erros e os { } são conhecidos coeficientes constantes com o rv { } não estão correlacionados e têm a mesma média e variância (desconhecido) .pβ1,β2,...,βpe1,e2,...,enxEujeEu0 0σ2

ie Onde D é matriz de dispersão ou matriz de variância-covariância.E(yn×1)=Xβ,D(y)=σ2Eun

, em que os coeficientes { } são os valores das variáveis do contador ou do indicador que se referem à presença ou ausência dos efeitos { } nas condições sob as quais as observações são feitas: { } é o número de vezes que ocorre na i-ésima observação e geralmente é ou . Em geral, na análise de variância, todos os fatores são tratados qualitativamente. β j x i j β j 0 1xEujβjxEujβj0 01

Se { } são valores assumidos nas observações, não por variáveis ​​do contador, mas por variáveis ​​contínuas como = tempo, = temperatura, , etc., temos um caso de * análise de regressão. Em geral, na análise de regressão todos os fatores são quantitativos e tratados quantitativamente. t T t 2 , e - TxEujtTt2,e-T

Principalmente, esses dois são dois tipos de análise.

Argha
fonte
O que significa a notação ? i=1(1)n
1
i = 1 , 2 , , nEu=1(1)n significaEu=1,2,...,n
Argha
-1

Na análise de regressão, você tem uma variável fixa e deseja saber como a variável vai com a outra variável.

Na análise de variância, você deseja saber, por exemplo: Se esse alimento animal específico influencia o peso dos animais ... ASSIM, um var fixo e a influência nos outros.

Aiza
fonte
1
Olá Aiza, bem-vindo ao SE. Você precisa editar isso para fornecer mais contexto e deixar claro qual é a questão.
Pare de fechar perguntas rapidamente