Livros sobre a “ciência” em ciência de dados? [fechadas]

26

Quais são os livros sobre ciência e matemática por trás da ciência de dados? Parece que muitos livros sobre "ciência de dados" são tutoriais de programação e não tocam em coisas como processos de geração de dados e inferência estatística. Eu já posso codificar, o que eu sou fraco é a matemática / estatísticas / teoria por trás do que estou fazendo.

Se eu estiver pronto para queimar US $ 1000 em livros (cerca de 10 livros ... suspiro), o que eu poderia comprar?

Exemplos: análise de dados categóricos da Agresti , modelos mistos lineares para dados longitudinais , etc ... etc ...

Anton
fonte
Perguntar sobre "bons" livros atrairá respostas baseadas em opiniões e, portanto, isso é fora de tópico. Sinalizado.
Spacedman
3
Eu mudei, então estou apenas procurando por livros. Nada baseado em opiniões.
Anton
Está escrito Estatística :) Fique com algo pragmático que se concentra na previsão e não na inferência. Os elementos de aprendizagem estatística e uma introdução à aprendizagem estatística estão na lista da maioria das pessoas.
Dirk Eddelbuettel
Eu não posso adicionar um comentário ainda, mas apenas FYI ESL está disponível gratuitamente on-line como um pdf
idclark
11
Eu acho que essa pergunta deve ser marcada como wiki da comunidade.
Shagun Sodhani

Respostas:

21

Introdutório:

Indo mais fundo:

Alguns exemplos de interesse especial:

Uma referência mais ampla funciona no aprendizado de máquina (não exatamente o que você solicitou, mas a integridade):

Papel bônus:

Def_Os
fonte
2
+1 para o papel de bônus. Boa leitura
Santiago Cepas
13

Se eu pudesse apenas recomendar um para você, seria: Os Elementos de Aprendizagem e Previsão Estatística de Hastie, Tibshirani e Friedman. Ele fornece a matemática / estatística por trás de muitas técnicas comumente usadas em ciência de dados.

Para as técnicas bayesianas, a análise de dados bayesiana de Gelman, Carlin, Stern, Dunson, Vehtari e Rubin é excelente.

Inferência estatística de Casella e Berger é um bom livro de pós-graduação sobre os fundamentos teóricos da estatística. Este livro exige um nível bastante alto de conforto com a matemática (a teoria da probabilidade é baseada na teoria da medida, o que não é trivial de entender).

Com relação aos processos de geração de dados, não tenho uma recomendação para um livro. O que posso dizer é que um bom entendimento das suposições das técnicas utilizadas e a garantia de que os dados foram coletados ou gerados de uma maneira que não viole essas suposições contribuem muito para uma boa análise.

Christopher Louden
fonte
7

Outras respostas recomendaram um bom conjunto de livros sobre a matemática por trás da ciência de dados. Mas, como você mencionou, não são apenas matemáticas e atividades como coleta e inferência de dados têm suas próprias regras e teorias, mesmo que não sejam tão rigorosas quanto as experiências matemáticas (ainda).

Para essas partes, sugiro o livro Beautiful Data: The Stories Behind Elegant Data Solutions, que contém vinte estudos de caso, como capítulos escritos por pessoas realmente envolvidas com problemas de análise de dados do mundo real. Ele não contém matemática, mas explora áreas como a coleta de dados, encontrando maneiras práticas de usar dados em análises, dimensionando e selecionando muito bem as melhores soluções.

Outro livro realmente interessante é Pensando com Dados: Como Transformar Informações em Insights , que também não é técnico (= tutorial de programação), mas aborda tópicos importantes sobre como realmente usar o poder da ciência de dados na tomada de decisões e nos problemas do mundo real.

Amir Ali Akbari
fonte
7

Gosto das sugestões de Amir Ali Akbari e adicionarei algumas, concentrando-me em tópicos e habilidades que não são abordados adequadamente na maioria dos livros de aprendizado de máquina e análise de dados que se concentram em matemática e / ou programação.

Limpeza de dados:

Análise de dados bayesiana (alternativa ao teste de significância de hipótese nula no estilo Fisher):

Inferência diante de incertezas, incompletude, contradições, ambiguidade, imprecisão, ignorância, etc .:

Experiências:

Simulação:

Elicitação de especialistas, estimativa probabilística:

MrMeritology
fonte