Quais são algumas boas perguntas da entrevista para candidatos a desenvolvedores de algoritmos estatísticos?

15

Estou entrevistando pessoas para uma posição de desenvolvedor / pesquisador de algoritmos em um contexto de estatística / aprendizado de máquina / mineração de dados.

Estou procurando perguntas para determinar, especificamente, a familiaridade, compreensão e fluidez de um candidato com a teoria subjacente, por exemplo, propriedades básicas de expectativa e variação, algumas distribuições comuns etc.

Minha pergunta atual é: "Existe uma quantidade desconhecida que gostaríamos de estimar. Para esse fim, temos os estimadores que, dados , são todos imparciais e independentes, e cada um tem uma variação conhecida , diferente para cada uma. Encontre o estimador ideal que é imparcial e tem variação mínima ".XY1 1,Y2,...,YnXσEu2Y=f(Y1 1,...,Yn)

Eu esperaria que qualquer candidato sério lidasse com isso com facilidade (dado algum tempo para elaborar os cálculos), e, no entanto, estou surpreso com o número de candidatos que supostamente pertencem a campos relevantes que não conseguem fazer o menor progresso possível. Considero, portanto, uma boa pergunta discriminatória. O único problema com esta pergunta é que ela é apenas uma.

Que outras perguntas podem ser usadas para isso? Como alternativa, onde posso encontrar uma coleção dessas perguntas?

Meni Rosenfeld
fonte
7
Para muitas pessoas de aprendizado de máquina (incluindo as boas), essa questão está fora de sua zona de conforto. Esta é uma pergunta estatística óbvia.
Marc Claesen
4
Esta questão é legitimamente limítrofe do tópico on / off. No entanto, ele tem muitos pontos de vista, vários upvotes, uma resposta com vários upvotes e, além disso, é CW. Pode ficar aberto, IMO.
gung - Restabelece Monica
2
XXXX
4
Um ponto de cautela, o Google fez um grande estudo sobre o processo interno de RH e descobriu que as pontuações dos entrevistadores não se correlacionavam com o desempenho subseqüente no trabalho !! Minha impressão da literatura aqui é que (1) as perguntas do tipo quebra-cabeça são as piores absolutas, servindo apenas para fazer o entrevistador se sentir inteligente (ou seja, 0 poder de previsão) e (2) retomar, perguntas baseadas na experiência podem ter valor preditivo. O desempenho passado prevê o desempenho futuro e você pode focar nas perguntas para verificar qual foi o desempenho passado, mas a entrevista é muito menos informativa do que os entrevistadores pensam.
Matthew Gunn
3
A imparcialidade é garantida pela soma dos pesos à unidade. No entanto, mesmo limitando sua solução a combinações lineares dos estimadores, quase sempre ocorrerá que vários estimadores baseados nos mesmos dados sejam altamente correlacionados. (Se eles forem verdadeiramente independentes, serão aplicados a subconjuntos independentes e independentes dos dados.) Não é de todo evidente que uma combinação linear de estimadores seja ideal.
whuber

Respostas:

12

O que você deseja que seu desenvolvedor de estatística faça?

O Exército dos EUA diz "treine você lutará, porque lutará como se tivesse sido treinado". Teste-os sobre o que você deseja que eles façam o dia inteiro. Realmente, você quer que eles "criem valor" ou "ganhem dinheiro" para a empresa.

Boss 101

Pense "mostre-me o dinheiro".

  • O dinheiro cresce em árvores chamadas funcionários. Você coloca um "centavo" (o salário) e eles pagam um "quarto" (o valor).
  • Se você não pode relacionar o trabalho deles com a forma como eles ganham dinheiro com a empresa, nem você nem eles estão fazendo o trabalho corretamente.

Nota: Se a sua pergunta de manipulação simbólica não se conectar adequadamente ao "dinheiro", você poderá estar fazendo a pergunta errada.

Há três coisas que todo funcionário precisa fazer para ser um funcionário:

  • Ser realmente capaz de fazer o trabalho
  • Trabalhe bem com a equipe
  • Esteja disposto / motivado a realmente fazer o trabalho

Se você não obtiver essas informações sólidas, nenhuma outra resposta será útil.

Se você puder substituí-los por um bom software ou por um adolescente bem treinado, acabará tendo que fazê-lo, e isso lhe custará.

Data 101

O que eles devem ser capazes de fazer:

  • use seus sabores internos de software (rede, SO, escritório, apresentação e análise)
  • use alguns tipos de software padrão da indústria (Excel, R, JMP, MatLab, pick_three )
  • obtenha os dados eles mesmos. Eles devem conhecer conjuntos de dados básicos para tarefas básicas. Eles devem conhecer repositórios. Eles devem saber quais dados famosos são usados ​​para qual tarefa. Fisher Iris. Caranguejo de Pearson. ... talvez haja 20 elementos que deveriam aparecer aqui. UCI, NIST, NOAA.
  • Eles devem conhecer as regras de manipulação de dados. dados binários (T / F) possuem conteúdo de informação muito diferente do categórico (A, B, C, D) ou contínuo. O manuseio adequado dos dados por tipo de dados é importante.
  • Algumas tarefas estatísticas básicas incluem: essas duas são iguais ou diferentes (também conhecidas como cluster / classificação), como isso se relaciona com isso
    (regressão / ajuste incluindo modelos lineares, glm, base radial,
    equações de diferença), é verdade que "x "(teste de hipóteses), quantas amostras eu preciso (amostra de aceitação), como obtenho o máximo de
    dados de algumas experiências baratas / eficientes (desenho estatístico da
    experiência) - isenção de responsabilidade, sou engenheiro, não estatístico Você pode perguntar a elas a pergunta "quais são as diferentes tarefas fundamentais e como você testa se o estatístico pode executá-las de maneira eficiente e correta?
  • acessar / usar os próprios dados. É sobre formatos e ferramentas.
    Eles devem poder ler de csv, xlsx (excel), SQL e
    imagens. (HDF5, Rdata) Se você possui um formato personalizado, eles devem
    poder lê-lo e trabalhar com as ferramentas de maneira rápida e
    eficiente. Eles devem conhecer a força / fraqueza do formato. O CSV é de uso rápido, sempre presente, protótipo rápido, mas inchado, ineficiente e lento para executar.
  • processar os dados corretamente, usando as melhores práticas e não cometer pecados. Nunca jogue fora os dados. Não ajuste dados binomiais com uma linha contínua. Não desafie a física.
  • crie resultados que sejam repetíveis e reproduzíveis. Algumas
    pessoas dizem "existem mentiras, malditas mentiras e estatísticas", mas não na minha
    empresa. A mesma boa entrada fornece a mesma boa saída. A saída não é um número, é sempre uma decisão de negócios que informa uma
    ação técnica e resulta em um resultado de negócios. Testes diferentes podem definir o dial em 5.5 ou 6.5, mas a capacidade está sempre acima de 1,33.
  • apresentar descobertas na linguagem e no nível que os
    tomadores de decisão e / ou desenvolvedores de minions e / ou eles mesmos em um ano possam
    entender com o mínimo de erros. Uma coisa bonita é poder explicar para que sua avó entenda. Esta ( ligação ) é a minha resposta, mas eu gosto.

Zingers analíticos:

Eu acho que perguntas impossíveis são ótimas. Eles são impossíveis por uma razão. Ser capaz de saber se algo é impossível sair do portão é uma coisa boa. Saber por que, ter algumas maneiras de envolvê-lo ou ser capaz de fazer uma pergunta diferente pode ser melhor.

Outras questões de currículo. ( link ) No reddit. ( link ) outros ( link )

BTW: esta foi uma boa pergunta. Talvez eu precise atualizar esta resposta com o tempo.

EngrStudent
fonte
3
Esta parece ser uma boa resposta, para uma pergunta diferente da que eu fiz. Não perguntei como escolher bons funcionários (provavelmente perguntaria algo assim no local de trabalho. Se necessário), perguntei sobre o teste de uma qualificação específica.
Meni Rosenfeld
Só vou reduzi-lo às estatísticas.
EngrStudent - Reintegrar Monica