Um bom livro com ênfase igual em teoria e matemática

10

Já tive cursos suficientes de estatística durante meus anos de escola e na universidade. Eu tenho um entendimento justo dos conceitos, como IC, valores de p, interpretação da significância estatística, testes múltiplos, correlação, regressão linear simples (com mínimos quadrados) (modelos lineares gerais) e todos os testes de hipótese. Eu tinha sido apresentado a ele muitos dos dias anteriores, principalmente matematicamente. Ultimamente, com a ajuda do livro Bioestatística Intuitiva , compreendi e compreendi sem precedentes a teoria conceitual real, acredito.

Agora, o que acho que falta é a compreensão dos modelos de ajuste (estimativa de parâmetros para o modelo) e similares. Em particular, conceitos como estimativa de máxima verossimilhança, modelos lineares generalizados , abordagens bayesianas da estatística inferencial sempre me parecem estranhos. Não há exemplos ou tutoriais suficientes ou conceitualmente sólidos, como se poderia encontrar em modelos probabilísticos simples ou em outros tópicos (básicos) da Internet.

Eu sou um bioinformático e trabalho com dados de RNA-Seq que lida com contagens brutas de leitura para encontrar, digamos, expressão gênica (ou expressão gênica diferencial). Pela minha formação, mesmo que eu não esteja familiarizado com modelos estatísticos, sou capaz de entender o motivo de uma suposição de distribuição de poisson e binômios negativos e assim por diante. Eu acredito que tenho o background necessário para entender.

Acho que o que estou pedindo é uma abordagem que alguns especialistas considerem úteis e (a) livro (s) que me ajudem a entender esses conceitos de uma maneira mais intuitiva (não apenas matemática rigorosa, mas teoria apoiada na matemática). Como vou aplicá-las principalmente, eu ficaria satisfeito (no momento) com a compreensão do que é o quê e, mais tarde, posso voltar a provas matemáticas rigorosas ... Alguém tem alguma recomendação? Não me importo de comprar mais de um livro se os tópicos solicitados estiverem realmente dispersos para serem abordados em um livro.

Muito obrigado!

Uma corrida
fonte
Você poderia me recomendar algumas boas fontes para aprender sobre os dados de RNA-Seq e os desafios estatísticos neste campo?
Biostat
11
biostat, com certeza, o site seqanswers.com é um recurso muito bom para o NGS. Você pode começar com as diferentes tecnologias e como elas funcionam a partir daqui: goo.gl/NLuvJ Estes são alguns documentos que explicam alguns problemas estatísticos com dados NGS. Em resumo, são estimativas de variância técnica e biológica (no que diz respeito à expressão gênica). 1) Um dos primeiros trabalhos avaliando variação técnica: ncbi.nlm.nih.gov/pubmed/18550803 2) DESeq: uma ferramenta para detecção de expressão gênica: ncbi.nlm.nih.gov/pubmed?term=DESeq%20simon%20anders
Arun
11
Convertido para CW porque parece que várias boas sugestões serão oferecidas e não há um padrão objetivo aparente para decidir o "melhor" entre eles. Espero que isso facilite para os leitores votarem muitas respostas também :-).
whuber
whuber, com certeza! faz sentido. Posso fazer uma postagem no wiki da comunidade? ou requer privilégios de moderador?
Arun

Respostas:

5

Você encontrará tudo o que não é bayesiano sobre as estratégias de modelagem de regressão de Frank Harrell . Gostaria de deixar recomendações bayesianas para pessoas mais informadas (embora eu tenha Gelman, Carlin, Stern e Rubin , assim como Gilks, Richardson e Speigelhalter , na minha estante). Deveria haver alguns livros biostáticos bayesianos no mercado.

Atualização: McCullach e Nelder (1989) é um livro clássico sobre GLMs, é claro. Foi inovador para a época, mas acho francamente entediante. Além disso, ele não cobre as adições posteriores, como diagnóstico residual, modelos inflados a zero ou extensões hierárquicas / multiníveis. Hardin e Hilbe (2007) cobrem algumas dessas coisas mais recentes em bons detalhes com exemplos práticos em Stata (onde GLMs e extensões são muito bem implementadas; Hardin costumava trabalhar na Stata Corp. escrevendo muitos desses comandos, além de contribuir para o estimador sanduíche).

StasK
fonte
Oi StasK, muito obrigado! Acho que o modelo de modelagem de regressão atenderia aos meus requisitos. Quanto eles cobrem GLMs? Vejo também que suas referências à inferência bayesiana são as que eu sempre acho recomendadas. Na sua opinião, quão fácil / difícil eles devem ser seguidos (como se o nível fosse muito avançado)? Além disso, você deu uma olhada no livro Modelos lineares generalizados ? Um dos autores é JA Nelder. Além disso, também gostaria de comprar este livro sobre modelos estatísticos . Você tem alguma opinião sobre este? Obrigado!
Arun
Eu não vi esse livro de Freedman. É bem interessante, embora pareça bastante leve em termos de rigor, e não tenho certeza se estou feliz com isso. (Um livro muito claro sobre matemática que fala sobre regressão sem álgebra matricial, mas MUITO profundo sobre o rigor científico, é Econometrias principalmente inofensivas de Angrist e Pischke, e se você trabalha com modelos causais, este livro é obrigatório.) realmente não conheço sua formação em matemática / estatística, então será difícil para mim julgar se esses livros seriam difíceis. Alguns livros bayesianos podem ser; eles tendem a supor que você já conhece o MLE e o GLM.
21711 StasK
11
Atualizei minha resposta para incluir as referências de McCullach e Nelder.
Stask
Eu sou uma eletrônica engr. virou bioinformático. Tive cursos de estatística (para teoria da comunicação), probabilidade e processos aleatórios, me sinto à vontade com cálculo (embora um pouco enferrujado) e também álgebra linear. Claro que estes são principalmente de graduação ... Meu objetivo é ser conceitualmente correto (mais interpretações geométricas, compreensão dos métodos e mais importante do objetivo) etc ... É claro que não me importo com a matemática, se é que vem junto com estas receitas. Obrigado novamente por suas recomendações!
Arun
3

Eu recomendaria dois livros seguintes:

  1. Métodos estatísticos para bioinformática
  2. Os elementos da aprendizagem estatística
Biostat
fonte
Esses livros explicam coisas boas, mas não as que o OP perguntou.
StasK
@StasK, você poderia explicar quais itens não estão nos livros acima?
Biostat
Eu ensinei com HTF, e o que eu ensinei foi sobre funções básicas, graus efetivos de liberdade, seleção de modelo, laço, validação cruzada, etc. MLE e GLM nos quais o OP estava interessado são mencionados, na melhor das hipóteses. Supõe-se que o estudante de estatística esteja familiarizado com esse material em seu treinamento estatístico geral, ou os estudantes de CS usariam o SVM em vez da regressão logística como a reação instintiva aos dados binários de resultados. As coisas bayesianas também são mencionadas apenas na medida em que as regras de decisão bayesianas sejam ótimas, em algum sentido; nenhum MCMC ou conjugação, digamos.
StasK 18/10/11
Você leu o livro "Métodos estatísticos para bioinformática"?
Biostat
@biostat, não, eu não tenho. Não trabalho com bioinformática, mas sei que é um mundo um pouco diferente. Portanto, não posso fazer recomendações razoáveis. Na minha opinião, o ramo da bioestatística que lida com modelos como GLM, GEE, modelos longitudinais e de sobrevivência tem mais em comum com econometria (por exemplo, o livro de Wooldridge sobre modelos de dados transversais e em painel pode ser uma boa recomendação para algumas pessoas que trabalham com bioestatística com esses modelos) do que com genética estatística, controle de taxa de erro familiar e mineração de dados, que parece ser seu domínio de especialização.
Stask