Estou lendo " Uma Introdução à Aprendizagem Estatística ". No capítulo 2, eles discutem o motivo da estimativa de uma função .
2.1.1 Por que estimar ?
Há duas razões principais para estimar f : previsão e inferência . Nós discutimos cada um por vez.
Eu li isso algumas vezes, mas ainda não entendi a diferença entre previsão e inferência. Alguém poderia dar um exemplo (prático) das diferenças?
prediction
terminology
causality
user61629
fonte
fonte
Respostas:
Inferência: dado um conjunto de dados, você deseja inferir como a saída é gerada como uma função dos dados.
Previsão: com uma nova medida, você deseja usar um conjunto de dados existente para criar um modelo que escolha com segurança o identificador correto a partir de um conjunto de resultados.
Inferência: Você deseja descobrir qual é o efeito da Idade, Classe de Passageiros e Sexo na sobrevivência ao desastre do Titanic. Você pode fazer uma regressão logística e inferir o efeito de cada característica de passageiro nas taxas de sobrevivência.
Previsão: dadas algumas informações sobre um passageiro do Titanic, você deseja escolher entre o conjunto e estar correto o mais rápido possível. (Consulte a troca de desvio e desvio para previsão, caso você queira saber como estar correto o mais rápido possível.){ vive , morre }
A previsão não gira em torno do estabelecimento da relação mais precisa entre a entrada e a saída; a previsão precisa se preocupa em colocar novas observações na classe certa o mais rápido possível.
Portanto, o "exemplo prático" resume-se bruscamente à seguinte diferença: Dado um conjunto de dados de passageiros para um único passageiro, a abordagem de inferência fornece uma probabilidade de sobrevivência, o classificador oferece uma escolha entre vidas ou dados.
Classificadores de ajuste são um tópico muito interessante e crucial da mesma maneira que a interpretação correta de valores de p e intervalos de confiança.
fonte
Geralmente, ao fazer a análise de dados, imaginamos que exista algum tipo de "processo de geração de dados" que dê origem aos dados, e inferência refere-se a aprender sobre a estrutura desse processo, enquanto previsão significa ser capaz de realmente prever os dados que vêm dele . Muitas vezes os dois andam juntos, mas nem sempre.
Um exemplo em que os dois andam de mãos dadas seria o modelo de regressão linear simples
A inferência neste caso significaria estimar os parâmetros do modelo e e nossas previsões seriam calculadas apenas a partir de nossas estimativas desses parâmetros. Mas existem outros tipos de modelos nos quais é possível fazer previsões sensatas, mas o modelo não leva necessariamente a insights significativos sobre o que está acontecendo nos bastidores. Alguns exemplos desses tipos de modelos seriam métodos complexos de conjuntos que podem levar a boas previsões, mas às vezes são difíceis ou impossíveis de entender.β 1β0 β1
fonte
Na página 20 do livro, os autores fornecem um belo exemplo que me fez entender a diferença.
Aqui está o parágrafo do livro: Uma Introdução à Aprendizagem Estatística
"Por exemplo , em um ambiente imobiliário, pode-se procurar relacionar valores de casas a insumos como taxa de criminalidade, zoneamento, distância de um rio, qualidade do ar, escolas, nível de renda da comunidade, tamanho das casas, etc. Nesse caso, pode-se estar interessado em como as variáveis de entrada individuais afetam os preços - ou seja, quanto mais uma casa valerá se tiver vista para o rio? Esse é um problema de inferência . na previsão do valor de uma casa, dadas as suas características: essa casa é sub ou supervalorizada? Esse é um problema de previsão ".
fonte
A previsão usa f estimado para prever o futuro. Suponha que você observe uma variável , talvez seja a receita da loja. Você deseja fazer planos financeiros para o seu negócio e precisa prever a receita no próximo trimestre. Você suspeita que a receita depende da renda da população neste trimestre e da época do ano . Portanto, você considera que é uma função: x 1 , t x 2 , t y t = f ( x 1 , t - 1 , x 2 , t - 1 ) + ε tyt x1,t x2,t
Agora, se você obtiver os dados sobre renda, digamos séries de renda disponível pessoal da BEA e construir a variável época do ano, poderá estimar a função f e , em seguida, inserir os valores mais recentes da renda da população e da época do ano. função. Isso produzirá a previsão para o próximo trimestre da receita da loja.
A inferência usa a função estimada f para estudar o impacto dos fatores no resultado e fazer outras coisas dessa natureza. No meu exemplo anterior, você pode estar interessado em quanto a estação do ano determina a receita da loja. Então, você pode olhar para a derivada parcial - sensibilidade à estação. Se f fosse de fato um modelo linear, seria um coeficiente de regressão da segunda variável . β 2 x 2 , t - 1∂f/∂x2t β2x2,t−1
fonte
Imagine, você é um médico em uma unidade de terapia intensiva. Você tem um paciente com febre forte e um determinado número de células sanguíneas, um determinado peso corporal e uma centena de dados diferentes e deseja prever se ele sobreviverá. Se sim, ele ocultará a história do outro filho para a esposa; caso contrário, é importante que ele a revele, enquanto pode.
O médico pode fazer essa previsão com base nos dados de ex-pacientes que ele teve em sua unidade. Com base no seu conhecimento de software, ele pode prever usando uma regressão linear generalizada (glm) ou através de uma rede neural (nn).
1. Modelo Linear Generalizado
Existem muitos parâmetros correlatos para o glm. Para chegar a um resultado, o médico terá que fazer suposições (linearidade etc.) e decisões sobre quais parâmetros provavelmente terão influência. O glm o recompensará com um teste t de significância para cada um de seus parâmetros, para que ele possa reunir fortes evidências de que gênero e febre têm uma influência significativa, o peso corporal não necessariamente.
2. Rede neural
A rede neural engolirá e digerirá todas as informações existentes na amostra de ex-pacientes. Não interessa se os preditores estão correlacionados e não revelará tanta informação, se a influência do peso corporal parece ser importante apenas na amostra em questão ou em geral (pelo menos não no nível de especialização que o médico tem a oferecer). Apenas calculará um resultado.
O que é melhor
Qual método escolher depende do ângulo em que você olha para o problema: Como paciente, eu preferiria a rede neural que usa todos os dados disponíveis para uma melhor estimativa do que acontecerá comigo sem suposições fortes e obviamente erradas, como linearidade. Como médico, que deseja apresentar alguns dados em um diário, ele precisa de valores-p. A medicina é muito conservadora: eles vão pedir valores-p. Então, o médico quer relatar que, em tal situação, o gênero tem uma influência significativa. Para o paciente, isso não importa, basta usar qualquer influência que a amostra sugira ser mais provável.
Neste exemplo, o paciente deseja previsão, o lado do cientista do médico deseja inferência. Principalmente, quando você quer entender um sistema, a inferência é boa. Se você precisar tomar uma decisão em que não possa entender o sistema, a previsão terá que ser suficiente.
fonte
Você não está sozinho aqui. Depois de ler as respostas, não estou mais confuso - não porque entendo a diferença, mas porque entendo que está nos olhos de quem vê e é induzida verbalmente. Estou certo de que agora esses dois termos são definições políticas e não científicas. Tomemos, por exemplo, a explicação do livro, aquela que as faculdades tentaram usar como boa: "quanto mais uma casa valerá se tiver vista para o rio? Esse é um problema de inferência". Do meu ponto de vista, isso é absolutamente um problema de previsão. Você é proprietário de uma empresa de construção civil e deseja escolher o melhor terreno para a construção do próximo conjunto de casas. Você tem que escolher entre dois locais na mesma cidade, um perto do rio, o próximo perto da estação de trem. Você quer preveros preços para os dois locais. Ou você quer inferir . Você aplicará os métodos exatos de estatística, mas nomeará o processo. :)
fonte
Há uma boa pesquisa mostrando que um forte indicador de que os mutuários pagarão seus empréstimos é se eles usam feltro para proteger seus pisos de serem arranhados pelas pernas dos móveis. Essa variável "sentida" será uma ajuda distinta para um modelo preditivo em que o resultado é reembolsado versus padrão. No entanto, se os credores quiserem obter uma maior alavancagem sobre esse resultado, eles serão negligentes ao pensar que podem fazê-lo distribuindo o feltro o mais amplamente possível.
"Qual a probabilidade deste devedor pagar?" é um problema de previsão; "Como posso influenciar o resultado?" é um problema de inferência causal.
fonte
y = f (x) então
predição (qual é o valor de Y com um determinado valor de x: se valor específico de x, qual poderia ser o valor de Y
inferência (como y muda com a mudança em x): qual poderia ser o efeito em Y se x mudar
Exemplo de previsão: suponha que y represente o salário de uma pessoa e, se fornecermos informações como anos de experiência, grau como variáveis de entrada, nossa função prediz o salário do funcionário.
Exemplo de inferência: suponha que o custo de vida mude e quanto custa a mudança no salário
fonte