Diferença entre análise de regressão e ajuste de curva

17

Alguém pode me explicar as diferenças reais entre análise de regressão e ajuste de curva (linear e não linear), com um exemplo, se possível?

Parece que ambos tentam encontrar uma relação entre duas variáveis ​​(dependente versus independente) e, em seguida, determinam o parâmetro (ou coeficiente) associado aos modelos propostos. Por exemplo, se eu tiver um conjunto de dados como:

Y = [1.000 1.000 1.000 0.961 0.884 0.000] 
X = [1.000 0.063 0.031 0.012 0.005 0.000]

Alguém pode sugerir uma fórmula de correlação entre essas duas variáveis? Estou com dificuldades para entender a diferença entre essas duas abordagens. Se você preferir apoiar sua resposta com outros conjuntos de dados, não há problema, pois esse parece difícil de se ajustar (talvez apenas para mim).

O conjunto de dados acima representa a e eixos de uma característica operacional do receptor (ROC), onde é a taxa verdadeira positiva (TPR) e é a taxa de falsos positivos (FPR).y yxyyx

Estou tentando ajustar uma curva ou fazer uma análise de regressão conforme minha pergunta original, ainda não tenho certeza, entre esses pontos para estimar o TPR para qualquer FPR específico (ou vice-versa).

Primeiro, é cientificamente aceitável encontrar essa função de ajuste de curva entre duas variáveis ​​independentes (TPR e FPR)?

Segundo, é cientificamente aceitável encontrar essa função se eu souber que as distribuições dos casos negativos reais e positivos reais não são normais?

Ali Sultan
fonte
1
Infelizmente, os termos são usados ​​de forma diferente por pessoas diferentes e em contextos diferentes. Você pode vincular / fornecer um exemplo em que as pessoas estão distinguindo entre elas?
gung - Restabelece Monica
É isso que estou tentando descobrir, como eles são diferentes e como posso distinguir entre eles.
Ali Sultan
1
Justo, mas alguém lhe disse que eles deveriam ser diferentes?
gung - Restabelece Monica
2
Neste site, algumas pessoas usaram "ajuste de curva" em sentidos que não podem ser considerados regressão. Por exemplo, alguns deles veem a estimativa de uma densidade como uma forma de "ajuste de curva" a um histograma.
whuber

Respostas:

22

Duvido que exista uma distinção clara e consistente entre ciências e campos estatísticos entre regressão e ajuste de curvas .

Regressão sem qualificação implica regressão linear e estimativa de mínimos quadrados. Isso não descarta outros sentidos ou mais amplos: na verdade, uma vez que você permite logit, Poisson, regressão binomial negativa, etc., etc., fica mais difícil ver que modelagem não é regressão em algum sentido.

O ajuste de curva sugere literalmente uma curva que pode ser desenhada em um plano ou pelo menos em um espaço de baixa dimensão. A regressão não é tão limitada e pode prever superfícies em um espaço multidimensional.

O ajuste de curva pode ou não usar regressão linear e / ou mínimos quadrados. Pode se referir ao ajuste de um polinômio (série de potências) ou a um conjunto de termos seno e cosseno ou, de alguma outra forma, qualificar-se como regressão linear no sentido principal de ajustar uma forma funcional linear nos parâmetros. De fato, o ajuste de curvas quando a regressão não linear também é regressão.

O termo ajuste de curva pode ser usado em um sentido depreciativo, depreciativo, depreciativo ou desdenhoso ("isso é apenas ajuste de curva!") Ou (quase o oposto completo) ou pode se referir ao ajuste de uma curva específica cuidadosamente escolhida com aspectos físicos (biológicos, racional econômico, seja qual for) ou adaptado para corresponder a tipos particulares de comportamento inicial ou limitador (por exemplo, ser sempre positivo, delimitado em uma ou ambas as direções, monótono, com uma inflexão, com um único ponto de viragem, oscilatório etc.).

Uma das várias questões difusas aqui é que a mesma forma funcional pode ser, na melhor das hipóteses, empírica em algumas circunstâncias e excelente teoria em outras. Newton ensinou que as trajetórias dos projéteis podem ser parabólicas e, portanto, naturalmente ajustadas por quadráticos, enquanto que um quadrático ajustado à dependência de idade nas ciências sociais é frequentemente apenas uma farsa que corresponde a alguma curvatura nos dados. Decaimento exponencial é uma aproximação muito boa para isótopos radioativos e um palpite às vezes não muito louco do modo como os valores da terra declinam com a distância de um centro.

Seu exemplo não recebe palpites explícitos de mim. Grande parte do argumento aqui é que, com um conjunto muito pequeno de dados e precisamente nenhuma informação sobre o que são as variáveis ​​ou como elas devem se comportar, pode ser irresponsável ou tolo sugerir um formulário de modelo. Talvez os dados devam subir acentuadamente de (0, 0) e depois se aproximar (1, 1), ou talvez outra coisa. Você nos diz!

Nota. Nem a regressão nem o ajuste de curva são limitados a preditores únicos ou parâmetros únicos (coeficientes).

Nick Cox
fonte
2
"Ajuste de curva" conota algo teórico (por exemplo, lowess) para mim. Os economistas às vezes desprezam o ajuste da função teórica como 'gráficos', que soa semelhante a alguns usos do ajuste de curva. Eu acho que (por exemplo, lowess) tem prós e contras, quando entendido corretamente. É difícil saber como alguém quis dizer os termos distintamente sem mais contexto.
gung - Restabelece Monica
1
@gung Eu acho que existe um uso parcialmente jocular e parcialmente sério em várias ciências naturais (e não naturais). Um dos problemas é que, com parâmetros suficientes, você necessariamente tem muito espaço de manobra. Lembro-me de modelos de séries temporais que permitem não apenas o ARIMA, mas também termos e etapas sinusoidais, rampas e picos sempre que os dados sugerem.
Nick Cox
Em segundo lugar, o ajuste de curva tem uma conotação mais não paramétrica, pelo menos para mim.
Christoph Hanck
1
@ChristophHanck Por favor, não traga "não paramétrico" para isso! A discussão já é bastante confusa!
Nick Cox
1
@gung: Pensando em suavizar splines e métodos RKHS em geral como a espinha dorsal do "ajuste da curva", por exemplo, eu acho que o "ajuste da curva" é muito mais teórico do que a "regressão". (+1 para NickCox para esta resposta)
usεr11852 diz Reinstate Monic
8

Além da excelente resposta de @ NickCox (+1), eu queria compartilhar minha impressão subjetiva sobre esse tópico de terminologia um tanto confuso . Eu acho que uma diferença bastante sutil entre os dois termos está no seguinte. Por um lado, a regressão geralmente, se não sempre, implica uma solução analítica (a referência a regressores implica determinar seus parâmetros , daí meu argumento sobre a solução analítica). Por outro lado, o ajuste de curvas não implica necessariamente a produção de uma solução analítica e o IMHO geralmente pode ser e é usado como uma abordagem exploratória .

Aleksandr Blekh
fonte
2
Também não é possível usar algo com uma solução analítica por razões exploratórias? Eu não acho que recebo a oposição que você está fazendo.
Ameba diz Reinstate Monica
@amoeba: As soluções analíticas certamente também podem ser usadas para pesquisas exploratórias. No entanto, o que estou dizendo é sobre a essência implícita mais popular dos termos em questão.
Aleksandr Blekh