Eu trabalho no campo de mineração de dados e tive muito pouca escolaridade formal em estatística. Ultimamente, tenho lido muito trabalho focado nos paradigmas bayesianos de aprendizado e mineração, o que acho muito interessante.
Minha pergunta é (em várias partes), dado um problema, existe uma estrutura geral pela qual é possível construir um modelo estatístico? Quais são as primeiras coisas que você faz quando recebe um conjunto de dados do qual deseja modelar o processo subjacente? Existem bons livros / tutoriais por aí que explicam esse processo ou é uma questão de experiência? Há inferência na sua mente ao construir seu modelo ou você pretende primeiro descrever os dados antes de se preocupar em como usá-los para calcular?
Qualquer visão seria muito apreciada! Obrigado.
fonte
Respostas:
Nas estatísticas, como na mineração de dados, você começa com dados e uma meta. Nas estatísticas, há muito foco na inferência, ou seja, responder a perguntas do nível da população usando uma amostra. Na mineração de dados, o foco geralmente é a previsão: você cria um modelo a partir de sua amostra (dados de treinamento) para prever dados de teste.
O processo em estatística é então:
Explore os dados usando resumos e gráficos - dependendo de como o estatístico orientado por dados, alguns terão mais mente aberta, observando os dados de todos os ângulos, enquanto outros (especialmente cientistas sociais) analisarão os dados através das lentes do questão de interesse (por exemplo, plote especialmente as variáveis de interesse e não outras)
Escolha uma família de modelos estatísticos apropriada (por exemplo, regressão linear para um Y contínuo, regressão logística para um Y binário ou Poisson para dados de contagem) e execute a seleção do modelo
Estimar o modelo final
Suposições do modelo de teste para garantir que elas sejam atendidas razoavelmente (diferente do teste de precisão preditiva na mineração de dados)
Use o modelo para inferência - esta é a etapa principal que difere da mineração de dados. A palavra "valor-p" chega aqui ...
Dê uma olhada em qualquer livro de estatísticas básicas e você encontrará um capítulo sobre Análise Exploratória de Dados, seguido por algumas distribuições (que ajudarão a escolher modelos razoáveis de aproximação), depois inferência (intervalos de confiança e testes de hipóteses) e modelos de regressão.
Eu descrevi para você o processo estatístico clássico. No entanto, tenho muitos problemas com isso. O foco na inferência dominou completamente os campos, enquanto a previsão (que é extremamente importante e útil) foi quase negligenciada. Além disso, se você observar como os cientistas sociais usam a estatística como inferência, descobrirá que eles a usam de maneira bem diferente! Você pode conferir mais sobre isso aqui
fonte
No que diz respeito aos livros, "The Elements of Statistical Learning" de Hastie, Tibshirani e Friedman é muito bom.
O livro completo está disponível no site dos autores ; você pode dar uma olhada para ver se é adequado às suas necessidades.
fonte
Quanto às referências (on-line), eu recomendaria olhar os slides do tutorial de Andrew Moore sobre estatística de mineração de dados .
Existem muitos livros sobre mineração de dados e aprendizado de máquina; talvez um bom ponto de partida seja Princípios de mineração de dados , de Hand et al., e Introdução ao aprendizado de máquina , de Alpaydin.
fonte
O melhor livro Bayesiano introdutório que encontrei é Análise de Dados - Um Tutorial Bayesiano . É bastante prático.
fonte