Uso da teoria da informação na ciência de dados aplicada

9

Hoje, deparei-me com o livro "Teoria da informação: uma introdução tutorial", de James Stone, e pensei por um momento ou dois sobre a extensão do uso da teoria da informação na ciência de dados aplicada (se você não se sente confortável com esse termo ainda um pouco confuso, pense na análise de dados , da qual a ciência de dados IMHO é uma versão glorificada). Estou ciente do uso significativo de abordagens , métodos e medidas baseadas na teoria da informação , especialmente entropia , sob o capô de várias técnicas estatísticas e métodos de análise de dados.

No entanto, estou curioso sobre a extensão / nível de conhecimento necessário para um cientista social aplicado selecionar e aplicar com sucesso esses conceitos, medidas e ferramentas sem mergulhar muito nas origens matemáticas da teoria. Aguardo suas respostas, que podem abordar minha preocupação no contexto do livro mencionado acima (ou outros livros similares - fique à vontade para recomendar) ou em geral.

Também gostaria de receber algumas recomendações para fontes impressas ou online que discutam a teoria da informação e seus conceitos, abordagens, métodos e medidas no contexto de (em comparação com) outras (mais) abordagens estatísticas tradicionais ( freqüentista e bayesiana ).

Aleksandr Blekh
fonte
2
Talvez um dos casos mais conhecidos e "aplicados" de uso de entropia ocorra ao construir uma árvore. Uma das possibilidades quando o algoritmo é dividido é usar a métrica de ganho de informações, que é a diferença entre a entropia entre o nível superior e o nível inferior. Você tem mais informações aqui en.wikipedia.org/wiki/Information_gain_in_decision_trees
D.Castro
@ D.Castro: Obrigado pelo seu comentário - estou ciente desse caso (e até postei uma resposta sobre esse tópico exato, aqui no Cross Validated ou no site Data Science SE). Espero uma cobertura / discussão mais abrangente sobre o assunto.
Aleksandr Blekh
11
Para mim, e em grande parte, é uma questão de disciplina ou campo em que alguém é treinado, bem como o continente geográfico. Na minha opinião, físicos, matemáticos e praticantes de puro aprendizado de máquina são muito mais propensos a receber uma exposição aprofundada à teoria da informação do que, digamos, estatísticos, economistas ou analistas financeiros quantitativos. Além disso, eu dobraria isso para pessoas treinadas na Europa, ou seja, é mais provável que os europeus estejam familiarizados com a TI. No entanto, o advento de modelos para aprendizado estatístico está mudando para os cientistas de dados nos Estados Unidos.
Mike Hunter
@DJohnson Minutest dos pontos mais fracos, mas na Grã-Bretanha e talvez em outros lugares, TI == tecnologia da informação. Caso contrário, suas impressões se parecerão com as minhas.
Nick Cox
@NickCox Obrigado, seu ponto também é válido para os Estados Unidos. Foi um comentário demorado e, se o espaço permitir, eu teria explicitado as palavras ou, melhor ainda, introduzido o significado da sigla em um ponto anterior.
Mike Hunter

Respostas:

4

Portanto, a primeira parte da pergunta: os cientistas de dados precisam conhecer a teoria da informação ? Eu pensei que a resposta é não até muito recentemente. A razão pela qual mudei de idéia é um componente crucial: o ruído.

Muitos modelos de aprendizado de máquina (estocásticos ou não) usam ruído como parte do processo de codificação e transformação e, em muitos desses modelos, é necessário inferir a probabilidade de que o ruído afetou após decodificar a saída transformada do modelo. Eu acho que essa é uma parte essencial da teoria da informação. Não só isso, na aprendizagem profunda, a divergência de KL é uma medida muito importante usada que também vem da Teoria da Informação.

Segunda parte da pergunta: acho que a melhor fonte é a teoria da informação de David MacKay , os algoritmos de inferência e aprendizado . Ele começa com a Teoria da Informação e leva essas idéias para redes de inferência e até neurais. O PDF é gratuito no site de Dave e as palestras são on-line, que são ótimas

Ambodi
fonte
3
É um excelente livro. Qualquer pessoa interessada também deve dar uma olhada em en.wikipedia.org/wiki/David_J._C._MacKay
Nick Cox
Agradecemos sua resposta (+1 e possível aceitação, se não houver respostas mais abrangentes em breve). Agradecimento especial pelas referências. Estou surpreso que você tenha encontrado essa minha pergunta quase esquecida, mas importante. :-)
Aleksandr Blekh
Sim, é interessante. Você nunca deve desistir de uma pergunta. Veio para mim depois que participei do NIPS2016 e vi todas essas conversas sobre divergência de KL e impacto de ruído nos codificadores.
Ambodi