Contexto:
De uma pergunta no Mathematics Stack Exchange (Posso criar um programa) , alguém possui um conjunto de pontos e deseja ajustar uma curva linear, exponencial ou logarítmica. O método usual é começar escolhendo um destes (que especifica o modelo) e, em seguida, faça os cálculos estatísticos.
Mas o que realmente se quer é encontrar a "melhor" curva linear, exponencial ou logarítmica.
Aparentemente, pode-se tentar os três e escolher a melhor curva ajustada dos três de acordo com o melhor coeficiente de correlação.
Mas, de alguma forma, sinto que isso não é bem kosher. O método geralmente aceito é escolher seu modelo primeiro, um desses três (ou alguma outra função de link) e, a partir dos dados, calcular os coeficientes. E, post facto, escolher o melhor de tudo é escolher a cereja. Mas para mim, se você está determinando uma função ou coeficiente a partir dos dados, ainda é a mesma coisa, seu procedimento está descobrindo a melhor coisa ... (digamos que qual função é também um outro coeficiente a ser descoberto).
Questões:
- É apropriado escolher o melhor modelo de ajuste dentre os modelos linear, exponencial e logarítmico, com base em uma comparação das estatísticas de ajuste?
- Em caso afirmativo, qual é a maneira mais apropriada de fazer isso?
- Se a regressão ajuda a encontrar parâmetros (coeficientes) em uma função, por que não pode haver um parâmetro discreto para escolher qual das três famílias de curvas as melhores viriam?
Respostas:
fonte
Essa é uma pergunta válida em domínios muito diversos.
O melhor modelo é aquele que pode prever pontos de dados que não foram utilizados durante a estimativa de parâmetros. O ideal seria computar os parâmetros do modelo com um subconjunto do conjunto de dados e avaliar o desempenho do ajuste em outro conjunto de dados. Se você estiver interessado nos detalhes, faça uma pesquisa com "validação cruzada".
Portanto, a resposta para a primeira pergunta é "Não". Você não pode simplesmente escolher o modelo mais adequado. Imagem em que você está ajustando um polinômio com N-ésimo grau para N pontos de dados. Será um ajuste perfeito, porque todo o modelo transmitirá exatamente todos os pontos de dados. No entanto, este modelo não será generalizado para novos dados.
A maneira mais apropriada, até onde posso dizer, é calcular quanto seu modelo pode generalizar para outros conjuntos de dados usando métricas que punem simultaneamente a amplitude dos resíduos e o número de parâmetros em seu modelo. AIC e BIC são algumas dessas métricas que eu conheço.
fonte
Como muitas pessoas exploram rotineiramente o ajuste de várias curvas aos dados, não sei de onde vêm suas reservas. É verdade que existe um quadrático que se ajusta ao menos tão linear quanto um linear e um cúbico, ao menos tão bem quanto um quadrático; portanto, existem maneiras de testar a significância estatística de adicionar um termo não linear e, assim, evitar complexidade desnecessária. Mas a prática básica de testar muitas formas diferentes de relacionamento é apenas uma boa prática. De fato, pode-se começar com uma regressão loess muito flexível para ver qual é o tipo mais plausível de curva para se ajustar.
fonte
Você realmente precisa encontrar um equilíbrio entre a ciência / teoria que leva aos dados e o que os dados dizem. Como outros já disseram, se você se encaixar em qualquer transformação possível (polinômios de qualquer grau, etc.), acabará se ajustando demais e obtendo algo que é inútil.
Uma maneira de se convencer disso é através da simulação. Escolha um dos modelos (linear, exponencial, log) e gere dados que seguem esse modelo (com uma escolha dos parâmetros). Se a sua variação condicional dos valores y for pequena em relação à dispersão da variável x, um gráfico simples tornará óbvio qual modelo foi escolhido e qual é a "verdade". Mas se você escolher um conjunto de parâmetros que não seja óbvio nas plotagens (provavelmente o caso em que uma solução analítica é interessante), analise cada uma das três maneiras e veja qual é o "melhor" ajuste. Espero que você descubra que o "melhor" ajuste geralmente não é o "verdadeiro".
Por outro lado, às vezes queremos que os dados nos digam o máximo possível e talvez não tenhamos ciência / teoria para determinar completamente a natureza do relacionamento. O artigo original de Box e Cox (JRSS B, vol. 26, nº 2, 1964) discute maneiras de comparar entre várias transformações na variável y, seu conjunto de transformações fornecido tem linear e log como casos especiais (mas não exponenciais) , mas nada na teoria do artigo limita você apenas à família de transformações deles; a mesma metodologia pode ser estendida para incluir uma comparação entre os três modelos nos quais você está interessado.
fonte