Usando um modelo de regressão para fazer previsões: Quando parar?

Eu calculei um modelo de regressão linear simples a partir das minhas medidas experimentais para fazer previsões. Li que você não deve calcular previsões para pontos que se afastam muito dos dados disponíveis. No entanto, não encontrei nenhuma orientação para me ajudar a saber até onde posso extrapolar. Por exemplo, se eu calcular a velocidade de leitura para um tamanho de disco de 50 GB, acho que o resultado será próximo da realidade. Que tal um tamanho de disco de 100 GB, 500 GB? Como sei se minhas previsões estão próximas da realidade?

Os detalhes do meu experimento são:

Estou medindo a velocidade de leitura de um software usando diferentes tamanhos de disco. Até agora, eu o medi com 5 GB a 30 GB, aumentando o tamanho do disco de 5 GB entre as experiências (6 medidas no total).

Meus resultados são lineares e os erros padrão são pequenos, na minha opinião.

regression prediction Flanfl
fonte

Penso que, para obter respostas úteis, terá de expandir e esclarecer bastante a sua segunda frase.

Rolando2

rolando2 está certo. O que você quer dizer com "muitas previsões"?

22612 David Robinson

Não consigo encontrar os termos exatos que foram usados no documento que li. A ideia está "muito longe das minhas medidas originais". Então, eu medi a velocidade de leitura com um disco de 30 GB. Se eu predizer a velocidade de leitura de um disco de 100 GB, isso é "longe demais"?

Flanfl

A resposta do gung é suficiente para descrever as questões envolvidas. Uma coisa adicional que pode ajudar no seu caso específico é considerar o processo físico envolvido na leitura do software. Que tipo de operações precisam ser realizadas? o software precisa organizar ou classificar o disco como parte do processo de leitura? estas questões irão ajudar a fornecer algumas bases para a assunção de linearidade

probabilityislogic

Respostas:

O termo que você está procurando é "extrapolação". O problema é que, independentemente da quantidade de dados que você possui e de quantos níveis intermediários você possui entre os pontos de extremidade no tamanho do disco (ou seja, entre 5 e 30), é sempre possível que exista algum grau de curvatura na verdadeira função subjacente , que você simplesmente não tem o poder de detectar. Como resultado, quando você extrapola para longe do ponto final, o que era um pequeno grau de curvatura aumenta, pois a verdadeira função se afasta cada vez mais da sua linha de ajuste. Outra possibilidade é que a verdadeira função seja perfeitamente reta dentro do intervalo examinado, mas talvez haja um ponto de mudança a alguma distância do ponto final do seu estudo. É impossível descartar esse tipo de coisa; a questão é, qual a probabilidade deles e quão imprecisa seria sua previsão se eles se tornassem reais? Não sei como fornecer uma resposta analítica para essas perguntas. Meu palpite é que 500 está muito longe quando o intervalo em estudo foi [5, 30], mas não há razão real para pensar que meus palpites valem mais a pena que os seus. As fórmulas padrão para calcular intervalos de previsão mostrarão um intervalo de expansão à medida que você se afasta , vendo o que parece intervalo, como pode ser útil. No entanto, você precisa ter em mente que está assumindo que a linha é realmente perfeitamente reta e permanece até ovalor devocê usará para a previsão. A legitimidade dessa previsão depende dos dados e do ajuste e dessa suposição. $\bar{x}$ $x$

- Reinstate Monica
fonte

Concordo totalmente (+1). A resposta a esta pergunta não pode ser estritamente estatística. Conversar com um engenheiro de software e computador seria relevante aqui!

Dominic Comtois

Obrigado pela resposta, é realmente útil. Eu sou autodidata, então estou perdendo bastante conhecimento básico (como conhecer o vocabulário).

Flanfl

Não poderia o inverso da largura do intervalo de confiança ser considerado algum tipo de indicador de "força" da previsão? Obviamente você tem que escolher alguns valores arbitrários para fazer uso dele ..

naught101

@ naught101, se você quiser assumir que a linha de regressão é perfeitamente reta, a largura do intervalo de previsão pode ser considerada como uma medida da força da previsão (com intervalos mais largos indicando previsões mais fracas), mas ainda é dependente dessa suposição.

gung - Restabelece Monica

Deixe-me acrescentar alguns pontos à excelente resposta de @ gung:

Dependendo do seu campo, pode haver normas relevantes (como DIN / EN ou ISO). Provavelmente, esse não é um problema na previsão da velocidade de leitura do disco rígido, mas, por exemplo, na química analítica, a regra não é extrapolação . Período. Se você quiser ir até 500 GB, faça algumas medições, incluindo 500 GB.
A maneira usual de configurar um modelo linear tem duas suposições importantes
- Obviamente, que a função é linear. Na prática, geralmente não é uma suposição muito boa que a linearidade se estenda até o infinito. Por exemplo, você ainda pode esperar encontrar linearidade se ler quantidades maiores que o volume do disco rígido?
- $x$
Mesmo que essas suposições sejam atendidas, considere o tamanho do intervalo de previsão para esse tipo de extrapolação:

$x$ $t$

cbeleites descontentes com o SX
fonte

+1, a suposição de homoscedasticidade em particular é uma boa adição à discussão aqui. (Nota pequena, por "Ponto.", Você quer dizer Período. Como uma maneira de enfatizar a finalidade da regra estabelecida na frase anterior?)

gung - Reinstate Monica

@ gung: Se período é a palavra, então é isso que eu quero dizer :-) obrigado.

cbeleites descontente com SX 10/02

Chamar um ponto de "ponto" é realmente usado apenas na terminologia do computador e especialmente em URLs (por exemplo, "stats dot stackexchange dot com"). É um uso relativamente novo em inglês, provavelmente com cerca de 20 anos.

gung - Restabelece Monica

Obrigado por seus pontos adicionais. Eu terminei meu trabalho há um tempo atrás, mas espero que as duas respostas a esta pergunta ajudem outros alunos!

Flanfl