Perguntas da entrevista estatística

65

Estou procurando algumas estatísticas (e probabilidade, eu acho) perguntas da entrevista, desde as mais básicas até as mais avançadas. As respostas não são necessárias (embora os links para perguntas específicas neste site fariam bem).

shabbychef
fonte
Seria muito interessante se alguém poderia dar exemplos eles onde se entregaram quando entrevistado ...
Kjetil b Halvorsen

Respostas:

40

Não tenho certeza qual é o trabalho, mas acho que "Explique x para um iniciante" provavelmente seria bom.

a) porque eles provavelmente precisarão fazer isso no trabalho

b) é um bom teste de entendimento, eu acho.

Chris Beeley
fonte
8
(+1): não consigo contar as vezes em que pensei ter entendido alguma coisa, mas não consegui explicar isso a outra pessoa em palavras fáceis. Exemplo: valor-p;)
steffen
6
"Se você não pode explicar isso para uma criança de seis anos, provavelmente não entende por si mesmo" - Albert Einstein. Talvez não seja tão extremo, mas você entendeu o ponto ... :)
JM não é estatístico
11
Eu gosto de "Explique um valor-p", com ou sem a parte "para um iniciante".
shabbychef
é por isso que a validação cruzada é ótima. muitas perguntas e respostas "leigas".
Neil McGuigan
Um conselho realmente bom, esteja você entrevistando ou não!
JMS
21

O padrão Q em que trabalho é semelhante ao de:

Veja esta saída de uma regressão logística múltipla de um pacote estatístico que você afirma ter usado (de preferência um que usamos também). XXX é a variável independente de interesse principal. Como você interpreta os resultados para um colega com conhecimento do assunto, mas sem treinamento estatístico formal? (Se necessário, solicite uma interpretação separada da estimativa pontual, IC, valor-p).

parada
fonte
15
Em contextos mais acadêmicos, pode-se também perguntar: 'dê uma olhada nesta saída do modelo neste artigo que você (co) escreveu . Diga-me o que isso significa. As respostas abaixo do esperado são fatais, porque não existem desculpas desconhecidas, mas são assustadoramente comuns.
conjugateprior
4
@conjugateprior Não é verdade. Desde que haja pelo menos um co-autor que não esteja presente, essa foi a área do co-autor não presente. O principal uso dessa técnica é nas apresentações da conferência.
Mark L. Stone
18

Você também pode refletir sobre se a entrevista é o melhor meio para medir o construto de interesse. Se você deseja medir o conhecimento prévio de probabilidade ou estatística, é melhor confiar mais em um teste escrito. Você pode fazer mais perguntas e, assim, aumentar a confiabilidade da medição. É mais padronizado na administração e na pontuação. E uma vez desenvolvido, o instrumento provavelmente usa menos recursos para administrar.

Você pode então usar a entrevista como uma ferramenta mais focada, observando fatores como habilidades verbais e interpessoais.

Jeromy Anglim
fonte
11
Este é um bom argumento. Descobri no passado que é muito difícil dizer se um determinado candidato funcionará, a menos que você tenha trabalhado com ele no passado.
shabbychef
15

Duas perguntas foram feitas:

1) Você ajusta uma regressão múltipla para examinar o efeito de uma variável específica em que um funcionário de outro departamento está interessado. A variável volta insignificante, mas seu colega de trabalho diz que isso é impossível, pois é conhecido por ter um efeito. O que você diria / faria?

2) Você tem 1000 variáveis ​​e 100 observações. Você gostaria de encontrar as variáveis ​​significativas para uma resposta específica. O que você faria?

Glen
fonte
Você poderia postar as respostas também? Para 1) Presumo que possa haver algumas variáveis ​​dependentes que causam o problema. Para 2) eu provavelmente iria para o teste estatístico χ² (Qui-quadrado)
Rishi Dua
2
Há muitas respostas razoáveis ​​para ambos, e aqui estão meus pensamentos rápidos: 1) o modelo de regressão é de uma amostra, essa amostra tem variação aleatória e, portanto, o modelo é apenas uma estimativa e pode resultar em erros do tipo 1 ou do tipo 2. Também pode haver forte colinearidade entre os preditores. Para 2) é o grande problema P vs pequeno N. Existem muitas técnicas para lidar com essa situação, como reduzir as dimensões e o laço.
Glen
2) fazer ajustes univariados de variáveis e identificar aqueles que são mais significativas para reduzir o conjunto de variáveis
adam
11

Aqui está um grande conjunto de dados. Qual é o seu plano para lidar com discrepantes? Que tal valores ausentes? E as transformações?

Eles podem lidar com dados do mundo real?

Neil McGuigan
fonte
Caro usuário anônimo, não use edit para comentários (não é para você, Neil).
10

Muitas perguntas / respostas neste site podem dar idéias para boas perguntas. Vou dar uma lista com alguns desses links que acho bons. As postagens em que respondi são super-representadas, porque as conheço melhor, não porque necessariamente são as melhores! Faço comentários curtos para cada link, para que você possa decidir se deseja seguir o link.

Qual é a intuição por trás do SVD? "Você pode explicar a um de nossos clientes como o SVD funciona?"

Estimativa de máxima verossimilhança (MLE) em termos leigos "Você pode explicar em linguagem não técnica a idéia de estimativa de máxima verossimilhança?"

Taleb e o cisne negro "Diga-me, o que é um cisne negro e por que isso é relevante? Quando é que é relevante?"

Inferência estatística quando a amostra "é" a população "O que você pode dizer sobre a inferência estatística quando a amostra é toda a população?"

Qualidade do ajuste e qual modelo escolher regressão linear ou Poisson "Temos um problema de regressão em que a resposta é uma variável de contagem. Qual você escolheria neste contexto, mínimos quadrados comuns ou regressão de Poisson (ou talvez outra)? Explique sua escolha , quais são as principais diferenças entre esses modelos? "

Qual é a diferença entre variância finita e infinita "Você pode explicar, na linguagem mais simples possível, o que significa que uma variável aleatória tem expectativa infinita ou variação infinita? Qual é a importância prática dessa distinção? exemplo."

Quais são as alternativas modernas e facilmente usadas para a regressão gradual? "Como você construiria um modelo de regressão complexo quando há muitas variáveis ​​preditivas possíveis? Descreva diferentes estratégias possíveis e conte sobre os problemas de cada uma delas"

Como lidar com a separação perfeita na regressão logística? "Qual é o problema da separação na regressão logística, suas causas, sintomas? O que você pode fazer para resolvê-la, se é realmente um problema?"

Por que a matriz de correlação precisa ser semi-definida positiva e o que significa ser ou não ser semi-definida positiva? e
O que uma matriz de covariância definida não positiva me diz sobre meus dados? "Explique por que uma matriz de covariância deve ser positiva (semi) definida e o que isso significa. Como esse fato pode ser usado?"

Quais são as versões multidimensionais da mediana "Você pode propor uma maneira de generalizar a mediana para dados multivariados?"

Interpretar termos de interação em regressão logit com variáveis ​​categóricas e Quais são as melhores práticas para identificar efeitos de interação? e Dois efeitos principais negativos, mas efeito de interação positivo? e Incluindo a interação, mas não os efeitos principais em um modelo e Como interpretar os efeitos principais quando o efeito da interação não é significativo? "Explique o que se entende por interação em modelos de regressão. Especificamente, o que significa se a interação é significativa enquanto os principais efeitos não são? Existe alguma diferença na interpretação da interação entre regressão linear comum e regressão logística?"

Qual poderia ser o motivo do uso da transformação de raiz quadrada nos dados? e transformação de dados apropriada "Quando, como e por que você transforma a variável de resposta em um modelo de regressão (ou ANOVA)? Existem alternativas?

Posso confiar nos resultados da ANOVA para um DV distribuído normalmente? "Como você trataria uma ANOVA com resíduos não normais?

Por que as estatísticas são úteis quando muitas coisas importantes são únicas?

Como posso modelar eficientemente a soma das variáveis ​​aleatórias de Bernoulli?

Quando usar equações de estimativa generalizada versus modelos de efeitos mistos?

O que está acontecendo aqui, quando uso perda ao quadrado na configuração de regressão logística? "Por que usamos a probabilidade máxima para regressão logística? Por que não menos quadrados?"

kjetil b halvorsen
fonte
9

Me perguntaram uma vez como explicaria a relevância do teorema do limite central para uma classe de calouros nas ciências sociais que mal têm conhecimento sobre estatística.

Wolfgang
fonte
4
A relevância do Teorema do Limite Central é fazer as pessoas pensarem que tudo é Normal, quando na verdade nada é. E, portanto, leva a muitas conclusões errôneas.
Mark L. Stone
8

Como você evita o ajuste excessivo ao criar um modelo estatístico?

Boa resposta: validação cruzada

Neil McGuigan
fonte
6

Costumo perguntar "como você definiria / explicaria o que é previsão?"

Responder a esse tipo de pergunta muito geral me ajuda a ver se as pessoas estão conectadas a um caso específico de previsão. Não existe uma resposta certa, mas responder sinteticamente durante uma entrevista nem sempre é fácil :)

robin girard
fonte
5

Para um contexto de dados observacionais:

Considere este modelo de regressão aplicado a esse problema substantivo. O que, se alguma coisa, pode ser interpretado causalmente? [Sonda adicional] O que você precisa aprender para mudar de opinião?

conjugado
fonte
4

Como você vai contar o número de árvores de madeira de sandália em Bangalore?

user3153
fonte
11
Isso significa um tipo de pergunta de Fermi ?
Thies Heidecke
2
Boa pergunta. Eu usei uma versão disso na aula (árvores em um parque). Eles têm a idéia de amostragem, mas tendem a perder a necessidade de definição operacional: quando você começa a chamá-la de árvore?
Zbicyclist
4

Sob o título Causa vs correlação :

É comum usar o envolvimento do cliente / usuário como recursos para um modelo preditivo. Por exemplo, as pessoas que clicam neste botão têm maior probabilidade de se inscrever do que as que não clicam. As pessoas que fazem compras às segundas-feiras têm mais chances de fazer compras novamente do que aquelas que fazem compras às terças-feiras.

Se levarmos isso ao extremo: os usuários que clicam em "compra" têm maior probabilidade de comprar um produto do que os usuários que não clicam em compra.

Mas, obviamente, isso não ajuda muito a explicar por que alguns usuários se inscrevem e outros não.

Como você equilibraria o uso dos recursos do cliente, que explicam por que eles se inscrevem em relação aos que estão altamente correlacionados com a assinatura, mas são necessários para realizar a tarefa?

ilanman
fonte
3

Aqui está um conjunto TinkerToy . Mostre-me como a distância euclidiana funciona em três dimensões. Agora me mostre como a regressão múltipla funciona.

Eles podem explicar como as estatísticas funcionam no mundo físico?

Neil McGuigan
fonte
11
NN
11
se você quiser Dispersão duas variáveis com 100 observações, você só precisa de 2 dimensões, e não 100 :) e assim por diante
Neil McGuigan
3

Estamos executando um centro de atendimento ao cliente. Estamos recebendo 1 milhão de chamadas por mês. Como reduzimos para dez mil?

user3153
fonte
5
remova 99% dos seus telefones!
21411 shabbychef
5
Pare de pagar a conta telefônica.
Glen
3
Incorrer em uma taxa pela chamada. (um número de 900 nos EUA ...)
gWaldo 07/04
7
Esta questão é sobre 80-20 regra. É uma regra prática comum nos negócios; por exemplo, "80% de suas vendas são provenientes de 20% de seus clientes". A Microsoft observou que, corrigindo os 20% dos bugs mais relatados, 80% dos erros e falhas seriam eliminados. Então, isso significaria criar um FAQ para identificar o endereço estes 20% dos problemas
Rishi Dua
3

Muitas das perguntas que fazemos são semelhantes às que já foram descritas. Mas algumas que eu ainda não li e que são usadas: você pode ser solicitado a esboçar um programa em um quadro branco para fazer algo como: simular uma rolagem de dados ou outro problema de probabilidade ou calcular uma série de números primos (por exemplo, todos os números primos inferiores a 1.000.000) - você seria capaz de fazer isso em qualquer idioma que quisesse, mas a maioria das pessoas escolhe R e algumas escolhem Python (acredito), mas acho que você pode escolher Stata, SAS, SPSS , Matlab, etc. Você provavelmente terá que fazer perguntas para analisar a profundidade do seu conhecimento da sua linguagem de programação preferida - por que usar apply em vez de um loop for no R, por exemplo.

Você também pode ser solicitado a projetar um experimento ou outro estudo para investigar algo - geralmente algo prático - às vezes isso estará relacionado ao trabalho que fazemos, mas muitas vezes não. (Você não deve ter conhecimento do trabalho que realizamos, mas deve entender a essência de um problema que não ouviu falar e especular sobre ele de forma inteligente, mesmo que, se receber determinado conhecimento de domínio, saiba que estava errado - tudo bem, não se espera que você tenha conhecimento de domínio). Você pode ser solicitado a levar em consideração coisas como poder.

Jeremy Miles
fonte
2

Ao fazer a análise de variância da variável quantitativa, às vezes descobrimos que a frequência da variável é muito alta (> 5), então usamos o teste exato de Fisher para encontrar a independência da variável.

Mike Anderson
fonte
Provavelmente isso seria incluído na resposta de Chris.
JM não é estatístico
4
A resposta correta para essa pergunta inclui saber que existe uma controvérsia sobre se os marginais fixos fazem sentido e ter uma opinião informada sobre o assunto?
quer
1

A média de participação paga nos jogos dos Yankees no ano passado foi de 55.000. Você pergunta aleatoriamente a várias pessoas em Nova York se elas foram a um jogo dos Yankees na última temporada e, se foram, registram a participação paga. Qual é a participação média paga para os jogos que as pessoas que você perguntou e que foram a um jogo participaram?

Vou dar uma dica para a minha resposta (a dica não foi fornecida): amostragem com viés de comprimento. Marquei um home run nisso, mas não foi o suficiente para vencer o jogo, ha ha. Nota: mencionei muitas advertências relacionadas ao modo como a amostragem foi realizada, e o entrevistador me disse para desconsiderar todas elas.

Mark L. Stone
fonte