Hoje, deparei-me com o livro "Teoria da informação: uma introdução tutorial", de James Stone, e pensei por um momento ou dois sobre a extensão do uso da teoria da informação na ciência de dados aplicada (se você não se sente confortável com esse termo ainda um pouco confuso, pense na análise de dados , da qual a ciência de dados IMHO é uma versão glorificada). Estou ciente do uso significativo de abordagens , métodos e medidas baseadas na teoria da informação , especialmente entropia , sob o capô de várias técnicas estatísticas e métodos de análise de dados.
No entanto, estou curioso sobre a extensão / nível de conhecimento necessário para um cientista social aplicado selecionar e aplicar com sucesso esses conceitos, medidas e ferramentas sem mergulhar muito nas origens matemáticas da teoria. Aguardo suas respostas, que podem abordar minha preocupação no contexto do livro mencionado acima (ou outros livros similares - fique à vontade para recomendar) ou em geral.
Também gostaria de receber algumas recomendações para fontes impressas ou online que discutam a teoria da informação e seus conceitos, abordagens, métodos e medidas no contexto de (em comparação com) outras (mais) abordagens estatísticas tradicionais ( freqüentista e bayesiana ).
fonte
Respostas:
Portanto, a primeira parte da pergunta: os cientistas de dados precisam conhecer a teoria da informação ? Eu pensei que a resposta é não até muito recentemente. A razão pela qual mudei de idéia é um componente crucial: o ruído.
Muitos modelos de aprendizado de máquina (estocásticos ou não) usam ruído como parte do processo de codificação e transformação e, em muitos desses modelos, é necessário inferir a probabilidade de que o ruído afetou após decodificar a saída transformada do modelo. Eu acho que essa é uma parte essencial da teoria da informação. Não só isso, na aprendizagem profunda, a divergência de KL é uma medida muito importante usada que também vem da Teoria da Informação.
Segunda parte da pergunta: acho que a melhor fonte é a teoria da informação de David MacKay , os algoritmos de inferência e aprendizado . Ele começa com a Teoria da Informação e leva essas idéias para redes de inferência e até neurais. O PDF é gratuito no site de Dave e as palestras são on-line, que são ótimas
fonte