Não sei ao certo qual método usar para modelar o relacionamento entre duas variáveis ( e ) no experimento descrito a seguir:y
- Existem 3 variáveis: , e . x y
- O valor de é definido ao operar o experimento. No entanto, e nem sempre são iguais. x x a i m
- O coeficiente de correlação de Pearson entre e é de cerca de 0,9.
- O coeficiente de correlação de Pearson entre e é muito menor: cerca de 0,5.
- tem um valor máximo possível ( ) que não pode ser excedido.
- Cada ponto de dados é obtido após definir e ler x e .
Embora o coeficiente de correlação de Pearson entre e y não é grande, parece que y tende a aumentar com a x .
Depois de fazer regressões lineares simples de e x = g ( y ) (e converter o último de volta como g - 1 , de modo a ser exibido no mesmo gráfico que f, por exemplo), ambas as inclinações são positivas, mas a inclinação de g - 1 é maior que a de f .
Faz sentido dizer ou x m a x = g ( y m a x ) ? ( x m a x seria alcançado anteriormente no segundo caso.)
Considerando que é limitado por y m a x , o que pode ser dito sobre o possível valor máximo de x que poderia ser alcançado?
Tanto quanto eu entendo, faz sentido fazer uma regressão linear da forma quando x é a variável independente e y é a variável dependente. No entanto, neste contexto, não tenho certeza se faz sentido considerar que x é independente e y é dependente.
Uma regressão total de mínimos quadrados seria mais apropriada? Existem outros métodos para determinar quais valores de podem ser alcançados (e com que probabilidade)?
(Se isso importa, e y parecem não seguir uma distribuição normal, pois foram feitas mais tentativas para tentar atingir valores mais altos de x .)
fonte
Respostas:
Eu quero dizer os pontos de @ King. É muito intuitivo suspeitar que regressar a x ('regressão direta') e x a y ('regressão reversa') deve ser o mesmo. No entanto , isso não é verdade matematicamente, nem no que diz respeito à forma como a regressão está relacionada à situação que você está analisando. Se você plotar y no eixo vertical de um gráfico e x no eixo horizontal, poderá ver o que está acontecendo. A regressão direta encontra a linha que minimiza as distâncias verticais entre os pontos de dados e a linha, enquanto a regressão reversa minimiza as distâncias horizontais. A linha que minimiza uma só minimizará a outra sey x x y y x . Você precisa decidir o que deseja explicar e o que deseja usar para explicá-lo. A resposta a essa pergunta dá-lhe qual variável é y e x, pelas mesmas razões. rx y= 1,0 y x e especifica seu modelo. Além disso, (novamente seguindo @King), eu discordo de tentar dizer xm a x= f- 1( ym a x)
Em relação à questão de uma variável delimitada, normalmente é concebível que o valor "real" possa ser maior, mas você não pode mensurá-lo. Por exemplo, um termômetro externo para fora da minha janela chega a 120, mas pode ser 140 fora em alguns lugares, e você teria apenas 120 como medida. Assim, a variável teria um limite superior, mas o que você realmente queria pensar não. Se esse é o caso, existem modelos de tobit para essas situações.
Outra abordagem seria usar algo mais robusto, como loess, que pode ser perfeitamente adequado às suas necessidades.
fonte
Em primeiro lugar, não acho que faça sentido dizer aqui, isso é como sugerir que é uma função individual, embora x m a xxm a x= f- 1( ym a x) xmax seja explicado por outras pessoas não observadas variáveis.
Em segundo lugar, depende realmente do contexto para o qual tratar como uma variável independente ou dependente. Pela minha experiência, a menos que a teoria sugira fortemente uma maneira; de qualquer maneira está ok. De seus comentários em 7 de outubro, parece que é o dependente enquanto yx y é o independente.
Se possível, observe os resíduos e veja se consegue extrair algo dele. Pode haver outra variável que você esqueceu; ou pode ajudar a transformar suas variáveis.
fonte