Quais são os livros sobre ciência e matemática por trás da ciência de dados? Parece que muitos livros sobre "ciência de dados" são tutoriais de programação e não tocam em coisas como processos de geração de dados e inferência estatística. Eu já posso codificar, o que eu sou fraco é a matemática / estatísticas / teoria por trás do que estou fazendo.
Se eu estiver pronto para queimar US $ 1000 em livros (cerca de 10 livros ... suspiro), o que eu poderia comprar?
Exemplos: análise de dados categóricos da Agresti , modelos mistos lineares para dados longitudinais , etc ... etc ...
statistics
reference-request
Anton
fonte
fonte
Respostas:
Introdutório:
Indo mais fundo:
Alguns exemplos de interesse especial:
Uma referência mais ampla funciona no aprendizado de máquina (não exatamente o que você solicitou, mas a integridade):
Papel bônus:
fonte
Se eu pudesse apenas recomendar um para você, seria: Os Elementos de Aprendizagem e Previsão Estatística de Hastie, Tibshirani e Friedman. Ele fornece a matemática / estatística por trás de muitas técnicas comumente usadas em ciência de dados.
Para as técnicas bayesianas, a análise de dados bayesiana de Gelman, Carlin, Stern, Dunson, Vehtari e Rubin é excelente.
Inferência estatística de Casella e Berger é um bom livro de pós-graduação sobre os fundamentos teóricos da estatística. Este livro exige um nível bastante alto de conforto com a matemática (a teoria da probabilidade é baseada na teoria da medida, o que não é trivial de entender).
Com relação aos processos de geração de dados, não tenho uma recomendação para um livro. O que posso dizer é que um bom entendimento das suposições das técnicas utilizadas e a garantia de que os dados foram coletados ou gerados de uma maneira que não viole essas suposições contribuem muito para uma boa análise.
fonte
Outras respostas recomendaram um bom conjunto de livros sobre a matemática por trás da ciência de dados. Mas, como você mencionou, não são apenas matemáticas e atividades como coleta e inferência de dados têm suas próprias regras e teorias, mesmo que não sejam tão rigorosas quanto as experiências matemáticas (ainda).
Para essas partes, sugiro o livro Beautiful Data: The Stories Behind Elegant Data Solutions, que contém vinte estudos de caso, como capítulos escritos por pessoas realmente envolvidas com problemas de análise de dados do mundo real. Ele não contém matemática, mas explora áreas como a coleta de dados, encontrando maneiras práticas de usar dados em análises, dimensionando e selecionando muito bem as melhores soluções.
Outro livro realmente interessante é Pensando com Dados: Como Transformar Informações em Insights , que também não é técnico (= tutorial de programação), mas aborda tópicos importantes sobre como realmente usar o poder da ciência de dados na tomada de decisões e nos problemas do mundo real.
fonte
Gosto das sugestões de Amir Ali Akbari e adicionarei algumas, concentrando-me em tópicos e habilidades que não são abordados adequadamente na maioria dos livros de aprendizado de máquina e análise de dados que se concentram em matemática e / ou programação.
Limpeza de dados:
Análise de dados bayesiana (alternativa ao teste de significância de hipótese nula no estilo Fisher):
Inferência diante de incertezas, incompletude, contradições, ambiguidade, imprecisão, ignorância, etc .:
Experiências:
Simulação:
Elicitação de especialistas, estimativa probabilística:
fonte