Estou procurando algumas estatísticas (e probabilidade, eu acho) perguntas da entrevista, desde as mais básicas até as mais avançadas. As respostas não são necessárias (embora os links para perguntas específicas neste site fariam bem).
65
Respostas:
Não tenho certeza qual é o trabalho, mas acho que "Explique x para um iniciante" provavelmente seria bom.
a) porque eles provavelmente precisarão fazer isso no trabalho
b) é um bom teste de entendimento, eu acho.
fonte
O padrão Q em que trabalho é semelhante ao de:
fonte
Você também pode refletir sobre se a entrevista é o melhor meio para medir o construto de interesse. Se você deseja medir o conhecimento prévio de probabilidade ou estatística, é melhor confiar mais em um teste escrito. Você pode fazer mais perguntas e, assim, aumentar a confiabilidade da medição. É mais padronizado na administração e na pontuação. E uma vez desenvolvido, o instrumento provavelmente usa menos recursos para administrar.
Você pode então usar a entrevista como uma ferramenta mais focada, observando fatores como habilidades verbais e interpessoais.
fonte
Duas perguntas foram feitas:
1) Você ajusta uma regressão múltipla para examinar o efeito de uma variável específica em que um funcionário de outro departamento está interessado. A variável volta insignificante, mas seu colega de trabalho diz que isso é impossível, pois é conhecido por ter um efeito. O que você diria / faria?
2) Você tem 1000 variáveis e 100 observações. Você gostaria de encontrar as variáveis significativas para uma resposta específica. O que você faria?
fonte
Eles podem lidar com dados do mundo real?
fonte
Muitas perguntas / respostas neste site podem dar idéias para boas perguntas. Vou dar uma lista com alguns desses links que acho bons. As postagens em que respondi são super-representadas, porque as conheço melhor, não porque necessariamente são as melhores! Faço comentários curtos para cada link, para que você possa decidir se deseja seguir o link.
Qual é a intuição por trás do SVD? "Você pode explicar a um de nossos clientes como o SVD funciona?"
Estimativa de máxima verossimilhança (MLE) em termos leigos "Você pode explicar em linguagem não técnica a idéia de estimativa de máxima verossimilhança?"
Taleb e o cisne negro "Diga-me, o que é um cisne negro e por que isso é relevante? Quando é que é relevante?"
Inferência estatística quando a amostra "é" a população "O que você pode dizer sobre a inferência estatística quando a amostra é toda a população?"
Qualidade do ajuste e qual modelo escolher regressão linear ou Poisson "Temos um problema de regressão em que a resposta é uma variável de contagem. Qual você escolheria neste contexto, mínimos quadrados comuns ou regressão de Poisson (ou talvez outra)? Explique sua escolha , quais são as principais diferenças entre esses modelos? "
Qual é a diferença entre variância finita e infinita "Você pode explicar, na linguagem mais simples possível, o que significa que uma variável aleatória tem expectativa infinita ou variação infinita? Qual é a importância prática dessa distinção? exemplo."
Quais são as alternativas modernas e facilmente usadas para a regressão gradual? "Como você construiria um modelo de regressão complexo quando há muitas variáveis preditivas possíveis? Descreva diferentes estratégias possíveis e conte sobre os problemas de cada uma delas"
Como lidar com a separação perfeita na regressão logística? "Qual é o problema da separação na regressão logística, suas causas, sintomas? O que você pode fazer para resolvê-la, se é realmente um problema?"
Por que a matriz de correlação precisa ser semi-definida positiva e o que significa ser ou não ser semi-definida positiva? e
O que uma matriz de covariância definida não positiva me diz sobre meus dados? "Explique por que uma matriz de covariância deve ser positiva (semi) definida e o que isso significa. Como esse fato pode ser usado?"
Quais são as versões multidimensionais da mediana "Você pode propor uma maneira de generalizar a mediana para dados multivariados?"
Interpretar termos de interação em regressão logit com variáveis categóricas e Quais são as melhores práticas para identificar efeitos de interação? e Dois efeitos principais negativos, mas efeito de interação positivo? e Incluindo a interação, mas não os efeitos principais em um modelo e Como interpretar os efeitos principais quando o efeito da interação não é significativo? "Explique o que se entende por interação em modelos de regressão. Especificamente, o que significa se a interação é significativa enquanto os principais efeitos não são? Existe alguma diferença na interpretação da interação entre regressão linear comum e regressão logística?"
Qual poderia ser o motivo do uso da transformação de raiz quadrada nos dados? e transformação de dados apropriada "Quando, como e por que você transforma a variável de resposta em um modelo de regressão (ou ANOVA)? Existem alternativas?
Posso confiar nos resultados da ANOVA para um DV distribuído normalmente? "Como você trataria uma ANOVA com resíduos não normais?
Por que as estatísticas são úteis quando muitas coisas importantes são únicas?
Como posso modelar eficientemente a soma das variáveis aleatórias de Bernoulli?
Quando usar equações de estimativa generalizada versus modelos de efeitos mistos?
O que está acontecendo aqui, quando uso perda ao quadrado na configuração de regressão logística? "Por que usamos a probabilidade máxima para regressão logística? Por que não menos quadrados?"
fonte
Me perguntaram uma vez como explicaria a relevância do teorema do limite central para uma classe de calouros nas ciências sociais que mal têm conhecimento sobre estatística.
fonte
Exemplo, "Extração automática de recursos para classificar dados de áudio"
Justificativa: Eles podem descobrir como analisar algo estatisticamente que ainda não está em uma grande tabela?
fonte
Boa resposta: validação cruzada
fonte
Costumo perguntar "como você definiria / explicaria o que é previsão?"
Responder a esse tipo de pergunta muito geral me ajuda a ver se as pessoas estão conectadas a um caso específico de previsão. Não existe uma resposta certa, mas responder sinteticamente durante uma entrevista nem sempre é fácil :)
fonte
Para um contexto de dados observacionais:
Considere este modelo de regressão aplicado a esse problema substantivo. O que, se alguma coisa, pode ser interpretado causalmente? [Sonda adicional] O que você precisa aprender para mudar de opinião?
fonte
Como você vai contar o número de árvores de madeira de sandália em Bangalore?
fonte
Sob o título Causa vs correlação :
É comum usar o envolvimento do cliente / usuário como recursos para um modelo preditivo. Por exemplo, as pessoas que clicam neste botão têm maior probabilidade de se inscrever do que as que não clicam. As pessoas que fazem compras às segundas-feiras têm mais chances de fazer compras novamente do que aquelas que fazem compras às terças-feiras.
Se levarmos isso ao extremo: os usuários que clicam em "compra" têm maior probabilidade de comprar um produto do que os usuários que não clicam em compra.
Mas, obviamente, isso não ajuda muito a explicar por que alguns usuários se inscrevem e outros não.
Como você equilibraria o uso dos recursos do cliente, que explicam por que eles se inscrevem em relação aos que estão altamente correlacionados com a assinatura, mas são necessários para realizar a tarefa?
fonte
Eles podem explicar como as estatísticas funcionam no mundo físico?
fonte
Estamos executando um centro de atendimento ao cliente. Estamos recebendo 1 milhão de chamadas por mês. Como reduzimos para dez mil?
fonte
Muitas das perguntas que fazemos são semelhantes às que já foram descritas. Mas algumas que eu ainda não li e que são usadas: você pode ser solicitado a esboçar um programa em um quadro branco para fazer algo como: simular uma rolagem de dados ou outro problema de probabilidade ou calcular uma série de números primos (por exemplo, todos os números primos inferiores a 1.000.000) - você seria capaz de fazer isso em qualquer idioma que quisesse, mas a maioria das pessoas escolhe R e algumas escolhem Python (acredito), mas acho que você pode escolher Stata, SAS, SPSS , Matlab, etc. Você provavelmente terá que fazer perguntas para analisar a profundidade do seu conhecimento da sua linguagem de programação preferida - por que usar apply em vez de um loop for no R, por exemplo.
Você também pode ser solicitado a projetar um experimento ou outro estudo para investigar algo - geralmente algo prático - às vezes isso estará relacionado ao trabalho que fazemos, mas muitas vezes não. (Você não deve ter conhecimento do trabalho que realizamos, mas deve entender a essência de um problema que não ouviu falar e especular sobre ele de forma inteligente, mesmo que, se receber determinado conhecimento de domínio, saiba que estava errado - tudo bem, não se espera que você tenha conhecimento de domínio). Você pode ser solicitado a levar em consideração coisas como poder.
fonte
Ao fazer a análise de variância da variável quantitativa, às vezes descobrimos que a frequência da variável é muito alta (> 5), então usamos o teste exato de Fisher para encontrar a independência da variável.
fonte
A média de participação paga nos jogos dos Yankees no ano passado foi de 55.000. Você pergunta aleatoriamente a várias pessoas em Nova York se elas foram a um jogo dos Yankees na última temporada e, se foram, registram a participação paga. Qual é a participação média paga para os jogos que as pessoas que você perguntou e que foram a um jogo participaram?
Vou dar uma dica para a minha resposta (a dica não foi fornecida): amostragem com viés de comprimento. Marquei um home run nisso, mas não foi o suficiente para vencer o jogo, ha ha. Nota: mencionei muitas advertências relacionadas ao modo como a amostragem foi realizada, e o entrevistador me disse para desconsiderar todas elas.
fonte