Qual a importância do conhecimento do domínio em nossa profissão?

8

ou: A seleção de um domínio ao inserir um trabalho restringe suas opções futuras para domínios e, portanto, trabalhos?

Para tornar essa pergunta o mais amplamente aplicável possível ...

  • profissão refere-se a todos os tipos de analistas de dados, de estatísticos sobre programadores de máquinas aprendizes a mineradores de dados.
  • imagine que você foi solicitado a aconselhar um público que continha alunos e profissionais de diferentes faixas etárias

Talvez um ponto de partida:

As competições no Kaggle mostraram que pessoas de fora podem superar os modelos criados pelos funcionários da empresa (veja, por exemplo, aqui ). Por outro lado, minha experiência de trabalho (limitada) me levou à conclusão de que entender como e onde os dados foram gerados é absolutamente obrigatório para criar um ambiente abstrato em que algo como uma competição do Kaggle possa acontecer. Além disso, sem conhecimento de domínio, acho difícil relatar os resultados para outras camadas / departamentos. Alguns associam a última habilidade como chave para a "nova" profissão "Data Science" (veja, por exemplo, aqui ou aqui ).

steffen
fonte
A pergunta já foi sinalizada para torná-la cw.
Steffen
1
Wrt. para o exemplo do Kaggle: 1. O "benchmark interno" (que parece ser a base dos "340% de desempenho superior") não diz que é o melhor modelo que a Allstate possui. Outras competições usam modelos razoavelmente simples e básicos para o benchmarking, que também podem ser o caso aqui. 2. Nenhum conhecimento de domínio: não esqueça a quantidade de conhecimento de análise de domínio e de dados que é fornecida durante a preparação do conjunto de dados. E: não conheço a profissão / experiência em aplicação do vencedor.
cbeleites descontente com SX

Respostas:

7

Faço uma analogia: resolver problemas estatísticos sem contexto é como boxear de olhos vendados. Você pode nocautear seu oponente, mas pode bater sua mão no ringpost.

Trabalho principalmente com pesquisadores de ciências médicas e sociais. Parece haver um sentimento generalizado de que o modelo adequado de pesquisa é

1) Eles vêm com uma idéia, recolher dados, escrever sobre ele e , em seguida, 2) Dão a nós para "fazer as estatísticas".

Então, eu concordo que precisamos entender os problemas; é claro que não precisamos de uma compreensão tão completa da pesquisa quanto o profissional. É por isso que eu (e muitas outras pessoas de dados) posso trabalhar com pessoas de diferentes profissões. Porém, quanto menos sabemos sobre um assunto, mais precisamos interagir com o profissional para garantir que os resultados façam sentido.

Uma das muitas coisas que eu gosto no que faço é que eu aprendo um pouco sobre muitos assuntos diferentes.

Peter Flom
fonte
1
Muito boa analogia. Embora um pouco de estatística no DoE (randomização, planejamento do tamanho da amostra) não prejudique, também ... E a necessidade de interação pode explodir se a sobreposição no conhecimento (e também na terminologia) for muito baixa.
cbeleites descontente com SX
5

Qual a importância do conhecimento do domínio em nossa profissão?

  • Importante o suficiente para atribuir nomes distintos às análises de dados orientadas ao domínio (por exemplo: -metrics: biometria, psicometria, quimiometria, ...)

  • A combinação de conhecimento do domínio e conhecimento estatístico é extremamente importante para

    • concepção de experiências, por exemplo, práticas ./. viabilidade estatística, normas específicas de domínio, planejamento do tamanho da amostra
    • guia de análise de dados (que tipo de transformação ou pré-processamento tem significado físico / biológico / químico? Que correções são necessárias ?, critérios para a qualidade dos dados, heurísticas)
    • verificar se os resultados podem ser significativos / corretos
    • interpretação dos resultados
      Aqui está um exemplo de uma interpretação específica de domínio de um classificador que foi possível apenas porque o conhecimento analítico e espectroscópico dos dados estava disponível (seção "LDA descritiva e interpretação espectroscópica"). Tente imaginar a quantidade de comunicação que seria necessária entre um analista de dados sem conhecimento espectroscópico e um espectroscopista sem idéia de LDA para chegar a essa interpretação.
    • No contexto da (falta de) reprodutibilidade dos resultados publicados, existe uma preocupação com a pesquisa realizada como se não houvesse conhecimento adicional do campo / problema / dados, ver, por exemplo, E. R: Dougherty: Desenvolvimento de biomarcadores: prudência, risco e reprodutibilidade, BioEssays, 2012, 34, 277-279.
      Beck-Bornholt & Dubben provavelmente argumentariam que a incorporação de mais conhecimento de domínio aumenta a prevalência (probabilidade prévia) de boas idéias científicas.
    • O teorema do almoço grátis sugere a mesma direção.

    (Sou químico especializado em quimiometria e espectroscopia e faço medições e análises de dados)

A seleção de um domínio ao inserir um trabalho restringe suas opções futuras para domínios e, portanto, trabalhos?

Talvez, mas ao mesmo tempo, você consiga reivindicar mais experiência nessa área e, consequentemente, possa se candidatar a empregos especializados (e minha experiência é que nós quimiometristas somos uma espécie muito procurada).

Além disso, você mostra que pode ingressar no trabalho em novos domínios.

cbeleites
fonte