Que tipo de regressão usar, considerando uma variável com limite superior?

9

Não sei ao certo qual método usar para modelar o relacionamento entre duas variáveis ​​( e ) no experimento descrito a seguir:yxy

  • Existem 3 variáveis: , e . x yxaimxy
  • O valor de é definido ao operar o experimento. No entanto, e nem sempre são iguais. x x a i mxaimxxaim
  • O coeficiente de correlação de Pearson entre xaim e é de cerca de 0,9.x
  • O coeficiente de correlação de Pearson entrex e é muito menor: cerca de 0,5.y
  • y tem um valor máximo possível ( ) que não pode ser excedido.ymax
  • Cada ponto de dados é obtido após definir e ler xxaimx e .y

Embora o coeficiente de correlação de Pearson entre e y não é grande, parece que y tende a aumentar com a x .xyyx

Depois de fazer regressões lineares simples de e x = g ( y ) (e converter o último de volta como g - 1 , de modo a ser exibido no mesmo gráfico que f, por exemplo), ambas as inclinações são positivas, mas a inclinação de g - 1 é maior que a de f .y=f(x)x=g(y)g1fg1f

Faz sentido dizer ou x m a x = g ( y m a x ) ? ( x m a x seria alcançado anteriormente no segundo caso.)xmax=f1(ymax)xmax=g(ymax)xmax

Considerando que é limitado por y m a x , o que pode ser dito sobre o possível valor máximo de x que poderia ser alcançado?yymaxx

Tanto quanto eu entendo, faz sentido fazer uma regressão linear da forma quando x é a variável independente e y é a variável dependente. No entanto, neste contexto, não tenho certeza se faz sentido considerar que x é independente e y é dependente.y=f(x)xyxy

Uma regressão total de mínimos quadrados seria mais apropriada? Existem outros métodos para determinar quais valores de podem ser alcançados (e com que probabilidade)?xmax

(Se isso importa, e y parecem não seguir uma distribuição normal, pois foram feitas mais tentativas para tentar atingir valores mais altos de x .)xyx

Bruno
fonte
O que você fará com esse relacionamento, se o encontrar? Você testará as hipóteses ou apenas está interessado em saber como fica? Se houver muitos pontos de dados, considere modelos não lineares.
Mvctas # 7/11
@mpiktas, no final das contas, gostaria de saber qual x_max é uma meta razoável que eu poderia tentar atingir regularmente (não apenas uma vez), considerando que atingir ou ultrapassar y_max torna o experimento nulo (implicando efetivamente x = x_min para essa tentativa).
Bruno
A regressão total de mínimos quadrados (ou erros nas variáveis) é indicada quando a variação de se torna considerável em comparação com a de y . A correlação de 90% com o objetivo x sugere que a variação de x pode ser suficientemente pequena para que você possa tratá-la com segurança como uma variável independente. Isso é algo que você pode verificar pós-regressão, comparando o RMSE de resíduos de x visam vs. x para os RMSEs de resíduos de y versus x visam . Se y max é um problema depende; se você ver um ponto de corte superior no gráfico de dispersão com x miraxyxaimxxaimxyxaimymaxxaim, é uma consideração importante.
whuber

Respostas:

4

Eu quero dizer os pontos de @ King. É muito intuitivo suspeitar que regressar a x ('regressão direta') e x a y ('regressão reversa') deve ser o mesmo. No entanto , isso não é verdade matematicamente, nem no que diz respeito à forma como a regressão está relacionada à situação que você está analisando. Se você plotar y no eixo vertical de um gráfico e x no eixo horizontal, poderá ver o que está acontecendo. A regressão direta encontra a linha que minimiza as distâncias verticais entre os pontos de dados e a linha, enquanto a regressão reversa minimiza as distâncias horizontais. A linha que minimiza uma só minimizará a outra seyxxyyx . Você precisa decidir o que deseja explicar e o que deseja usar para explicá-lo. A resposta a essa pergunta dá-lhe qual variável é y e x, pelas mesmas razões. rxy=1.0yxe especifica seu modelo. Além disso, (novamente seguindo @King), eu discordo de tentar dizer xmax=f1(ymax)

Em relação à questão de uma variável delimitada, normalmente é concebível que o valor "real" possa ser maior, mas você não pode mensurá-lo. Por exemplo, um termômetro externo para fora da minha janela chega a 120, mas pode ser 140 fora em alguns lugares, e você teria apenas 120 como medida. Assim, a variável teria um limite superior, mas o que você realmente queria pensar não. Se esse é o caso, existem modelos de tobit para essas situações.

Outra abordagem seria usar algo mais robusto, como loess, que pode ser perfeitamente adequado às suas necessidades.

- Reinstate Monica
fonte
Desculpas pelo atraso, eu não tinha notado sua resposta. Vou precisar ler sobre o modelo Tobit.
244 Bruno
Sem problemas. Para mais informações sobre a natureza da regressão (vs. regressão reversa), veja aqui . Para obter ajuda com a aplicação de regressão de tobit usando vários softwares, tente aqui .
gung - Restabelece Monica
3

Em primeiro lugar, não acho que faça sentido dizer aqui, isso é como sugerir que é uma função individual, embora x m a xxmax=f1(ymax)xmax seja explicado por outras pessoas não observadas variáveis.

Em segundo lugar, depende realmente do contexto para o qual tratar como uma variável independente ou dependente. Pela minha experiência, a menos que a teoria sugira fortemente uma maneira; de qualquer maneira está ok. De seus comentários em 7 de outubro, parece que é o dependente enquanto yxy é o independente.

Se possível, observe os resíduos e veja se consegue extrair algo dele. Pode haver outra variável que você esqueceu; ou pode ajudar a transformar suas variáveis.

Rei
fonte