Quais são as diferenças entre "inferência" e "estimativa" no contexto do aprendizado de máquina ?
Como um novato, sinto que inferimos variáveis aleatórias e estimamos os parâmetros do modelo. Meu entendimento está correto?
Caso contrário, quais são exatamente as diferenças e quando devo usar quais?
Além disso, qual é o sinônimo de "aprender"?
machine-learning
inference
terminology
Sibbs Gambling
fonte
fonte
Respostas:
É feita inferência estatística de toda a coleção de conclusões que se pode tirar de um determinado conjunto de dados e de um modelo hipotético associado, incluindo o ajuste do referido modelo. Para citar a Wikipedia ,
e,
A estimativa é apenas um aspecto da inferência em que se substitui parâmetros desconhecidos (associados ao modelo hipotético que gerou os dados) por soluções ótimas baseadas nos dados (e possivelmente informações anteriores sobre esses parâmetros). Deve sempre estar associado a uma avaliação da incerteza das estimativas relatadas, avaliação que é parte integrante da inferência.
A probabilidade máxima é um exemplo de estimativa, mas não cobre toda a inferência. Pelo contrário, a análise bayesiana oferece uma máquina de inferência completa.
fonte
Embora a estimativa em si tenha como objetivo apresentar valores de parâmetros desconhecidos (por exemplo, coeficientes na regressão logística ou no hiperplano de separação em máquinas de vetores de suporte), a inferência estatística tenta anexar uma medida de incerteza e / ou uma declaração de probabilidade a os valores dos parâmetros (erros padrão e intervalos de confiança). Se o modelo assumido pelo estatístico estiver aproximadamente correto, desde que os novos dados recebidos continuem em conformidade com esse modelo, as declarações de incerteza podem ter alguma verdade nelas e fornecer uma medida de quantas vezes você cometerá erros ao usar o modelo para tomar suas decisões.
O mais próximo que o aprendizado de máquina chega é a validação cruzada quando a amostra é dividida nas partes de treinamento e validação, com a última dizendo efetivamente: "se os novos dados se parecerem com os dados antigos, mas não tiverem relação com os dados que foi usado na configuração do meu modelo, então uma medida realista da taxa de erro é tal e tal ". Ele é derivado totalmente empiricamente, executando o mesmo modelo nos dados, em vez de tentar inferir as propriedades do modelo, fazendo suposições estatísticas e envolvendo quaisquer resultados matemáticos como o CLT acima. Indiscutivelmente, isso é mais honesto, mas como ele usa menos informações e, portanto, requer tamanhos de amostra maiores. Além disso, assume implicitamente que o processo não muda,
Embora a frase "inferir o posterior" possa fazer sentido (não sou bayesiana, não sei dizer qual é a terminologia aceita), não creio que haja muita coisa envolvida em fazer suposições nesse passo inferencial. Todas as suposições bayesianas são (1) no modelo anterior e (2) no assumido e, uma vez configuradas, a posterior segue automaticamente (pelo menos em teoria pelo teorema de Bayes; as etapas práticas podem ser extremamente complicadas, e Sipps Gambling ... com licença, a amostragem de Gibbs pode ser um componente relativamente fácil de chegar a esse ponto posterior). Se "inferir o posterior" se refere a (1) + (2), é para mim um tipo de inferência estatística. Se (1) e (2) são declarados separadamente e "inferir o posterior" é outra coisa, então eu não
fonte
Suponha que você tenha uma amostra representativa de uma população.
Inferência é quando você usa essa amostra para estimar um modelo e afirma que os resultados podem ser estendidos para toda a população, com uma certa precisão. Fazer inferência é fazer suposições sobre uma população usando apenas uma amostra representativa.
A estimativa é quando você escolhe um modelo para ajustar sua amostra de dados e calcula com uma certa precisão os parâmetros desse modelo. Isso é chamado de estimativa, porque você nunca poderá calcular os valores reais dos parâmetros, pois você possui apenas uma amostra de dados e não toda a população.
fonte
Esta é uma tentativa de dar uma resposta para qualquer pessoa sem formação em estatística. Para quem está interessado em mais detalhes, existem muitas referências úteis ( como esta, por exemplo ) sobre o assunto.
Resposta curta:
Resposta longa:
O termo "estimativa" é frequentemente usado para descrever o processo de encontrar uma estimativa para um valor desconhecido, enquanto "inferência" geralmente se refere à inferência estatística, um processo de descobrir distribuições (ou características) de variáveis aleatórias e usá-las para tirar conclusões.
Pense em responder à pergunta de: Qual a altura da pessoa média no meu país?
Se você decidir encontrar uma estimativa, poderá andar por alguns dias e medir estranhos que encontrar na rua (criar uma amostra) e depois calcular sua estimativa, por exemplo, como a média da sua amostra. Você acabou de fazer uma estimativa!
Por outro lado, você pode querer encontrar mais do que algumas estimativas, que você sabe que são um número único e que estão erradas. Você pode tentar responder à pergunta com certa confiança, como: Tenho 99% de certeza de que a altura média de uma pessoa no meu país está entre 1,60m e 1,90m.
Para fazer tal afirmação, você precisaria estimar a distribuição da altura das pessoas que você está encontrando e tirar suas conclusões com base nesse conhecimento - que é a base da inferência estatística.
O ponto crucial a ter em mente (como apontado na resposta de Xi'an) é que encontrar um estimador faz parte da inferência estatística.
fonte
Bem, hoje existem pessoas de diferentes disciplinas que fazem carreira na área de ML, e é provável que falem dialetos ligeiramente diferentes.
No entanto, quaisquer que sejam os termos que eles possam usar, os conceitos subjacentes são distintos. Portanto, é importante esclarecer esses conceitos e depois traduzir esses dialetos da maneira que você preferir.
Por exemplo.
Em PRML por Bishop,
Então parece que aqui
Inference
=Learning
=Estimation
Porém, em outro material, a inferência pode diferir da estimativa, onde
inference
significa "prediction
enquanto"estimation
significa o procedimento de aprendizado dos parâmetros.fonte
No contexto do aprendizado de máquina, inferência se refere a um ato de descobrir configurações de variáveis latentes (ocultas), dadas suas observações. Isso também inclui determinar a distribuição posterior de suas variáveis latentes. A estimativa parece estar associada à "estimativa pontual", que é determinar os parâmetros do seu modelo. Exemplos incluem estimativa de probabilidade máxima. Na maximização de expectativa (EM), na etapa E, você faz inferência. Na etapa M, você faz a estimativa de parâmetros.
Acho que ouvi pessoas dizendo "inferir a distribuição posterior" mais do que "estimar a distribuição posterior". O último não é usado na inferência exata usual. É usado, por exemplo, na propagação de expectativa ou Bayes variacional, onde inferir um posterior exato é intratável e suposições adicionais no posterior devem ser feitas. Nesse caso, o posterior inferido é aproximado. As pessoas podem dizer "aproximar o posterior" ou "estimar o posterior".
Tudo isso é apenas minha opinião. Não é uma regra.
fonte
Quero acrescentar às respostas de outras pessoas expandindo a parte "inferência". No contexto do aprendizado de máquina, um aspecto interessante da inferência é estimar a incerteza. Geralmente é complicado com os algoritmos ML: como você coloca um desvio padrão no rótulo de classificação que uma rede neural ou uma árvore de decisão cospe? Nas estatísticas tradicionais, as premissas distributivas nos permitem fazer contas e descobrir como avaliar a incerteza nos parâmetros. No ML, pode não haver parâmetros, nem premissas distributivas, nem nenhuma.
Houve algum progresso nessas frentes, algumas delas muito recentes (mais recentes que as respostas atuais). Uma opção é, como outros já mencionaram, a análise bayesiana, na qual o posterior fornece estimativas de incerteza. Os métodos do tipo Bootstrap são bons. Stefan Wager e Susan Athey, em Stanford, têm algum trabalho dos últimos dois anos obtendo inferência para florestas aleatórias . Analogamente, o BART é um método bayesiano de conjunto de árvores que produz um posterior a partir do qual a inferência pode ser extraída.
fonte