Eu calculei um modelo de regressão linear simples a partir das minhas medidas experimentais para fazer previsões. Li que você não deve calcular previsões para pontos que se afastam muito dos dados disponíveis. No entanto, não encontrei nenhuma orientação para me ajudar a saber até onde posso extrapolar. Por exemplo, se eu calcular a velocidade de leitura para um tamanho de disco de 50 GB, acho que o resultado será próximo da realidade. Que tal um tamanho de disco de 100 GB, 500 GB? Como sei se minhas previsões estão próximas da realidade?
Os detalhes do meu experimento são:
Estou medindo a velocidade de leitura de um software usando diferentes tamanhos de disco. Até agora, eu o medi com 5 GB a 30 GB, aumentando o tamanho do disco de 5 GB entre as experiências (6 medidas no total).
Meus resultados são lineares e os erros padrão são pequenos, na minha opinião.
fonte
Respostas:
O termo que você está procurando é "extrapolação". O problema é que, independentemente da quantidade de dados que você possui e de quantos níveis intermediários você possui entre os pontos de extremidade no tamanho do disco (ou seja, entre 5 e 30), é sempre possível que exista algum grau de curvatura na verdadeira função subjacente , que você simplesmente não tem o poder de detectar. Como resultado, quando você extrapola para longe do ponto final, o que era um pequeno grau de curvatura aumenta, pois a verdadeira função se afasta cada vez mais da sua linha de ajuste. Outra possibilidade é que a verdadeira função seja perfeitamente reta dentro do intervalo examinado, mas talvez haja um ponto de mudança a alguma distância do ponto final do seu estudo. É impossível descartar esse tipo de coisa; a questão é, qual a probabilidade deles e quão imprecisa seria sua previsão se eles se tornassem reais? Não sei como fornecer uma resposta analítica para essas perguntas. Meu palpite é que 500 está muito longe quando o intervalo em estudo foi [5, 30], mas não há razão real para pensar que meus palpites valem mais a pena que os seus. As fórmulas padrão para calcular intervalos de previsão mostrarão um intervalo de expansão à medida que você se afasta , vendo o que parece intervalo, como pode ser útil. No entanto, você precisa ter em mente que está assumindo que a linha é realmente perfeitamente reta e permanece até ovalor dex quevocê usará para a previsão. A legitimidade dessa previsão depende dos dados e do ajuste e dessa suposição.x¯ x
fonte
Deixe-me acrescentar alguns pontos à excelente resposta de @ gung:
Dependendo do seu campo, pode haver normas relevantes (como DIN / EN ou ISO). Provavelmente, esse não é um problema na previsão da velocidade de leitura do disco rígido, mas, por exemplo, na química analítica, a regra não é extrapolação . Período. Se você quiser ir até 500 GB, faça algumas medições, incluindo 500 GB.
A maneira usual de configurar um modelo linear tem duas suposições importantes
Obviamente, que a função é linear. Na prática, geralmente não é uma suposição muito boa que a linearidade se estenda até o infinito. Por exemplo, você ainda pode esperar encontrar linearidade se ler quantidades maiores que o volume do disco rígido?
Mesmo que essas suposições sejam atendidas, considere o tamanho do intervalo de previsão para esse tipo de extrapolação:
fonte