Francamente, não acho que a lei de grandes números tenha um papel enorme na indústria. É útil entender as justificativas assintóticas dos procedimentos comuns, como estimativas e testes de máxima verossimilhança (incluindo GLMs onipresentes e regressão logística, em particular), o bootstrap, mas essas são questões distributivas, em vez de probabilidade de encontrar problemas de amostra ruins .
Além dos tópicos já mencionados (GLM, inferência, autoinicialização), o modelo estatístico mais comum é a regressão linear; portanto, é necessário um entendimento completo do modelo linear. Você nunca pode executar o ANOVA em sua vida no setor, mas se não o entender, não deve ser chamado de estatístico.
Existem diferentes tipos de indústrias. Na indústria farmacêutica, você não pode ganhar a vida sem ensaios randomizados e regressão logística. Nas estatísticas da pesquisa, você não pode ganhar a vida sem o estimador de Horvitz-Thompson e os ajustes sem resposta. Nas estatísticas relacionadas à ciência da computação, você não pode ganhar a vida sem o aprendizado estatístico e a mineração de dados. Nos grupos de reflexão sobre políticas públicas (e, cada vez mais, estatísticas da educação), você não pode ganhar a vida sem estimadores de causalidade e efeito do tratamento (que, cada vez mais, envolvem ensaios randomizados). Na pesquisa de marketing, você precisa ter uma mistura de antecedentes econômicos com a teoria da medida psicométrica (e não pode aprender nenhuma delas em ofertas típicas do departamento de estatística). A estatística industrial opera com seus próprios paradigmas peculiares de sigma seis, que são remotamente conectados às estatísticas convencionais; uma ligação mais forte pode ser encontrada no projeto do material dos experimentos. O material de Wall Street seria econometria financeira, até o cálculo estocástico. Essas são habilidades MUITO díspares, e o termo "indústria" é ainda mais mal definido do que "academia". Eu não acho que alguém possa afirmar conhecer mais de duas ou três das opções acima ao mesmo tempo.
As principais habilidades, no entanto, que seriam universalmente necessárias no "setor" (o que isso possa significar para você) seriam gerenciamento de tempo, gerenciamento de projetos e comunicação com clientes com menos conhecimento estatístico. Portanto, se você deseja se preparar para a colocação no setor, faça aulas na escola de negócios sobre esses tópicos.
ATUALIZAÇÃO: A postagem original foi escrita em fevereiro de 2012; atualmente (março de 2014), você provavelmente deveria se chamar "cientista de dados" em vez de "estatístico" para encontrar um emprego na indústria ... e aprender melhor alguns Hadoop a seguir com essa autoproclamação.
Eu acho que um bom entendimento das questões relacionadas à troca de viés e variância . A maioria dos estatísticos acabará, em algum momento, analisando um conjunto de dados pequeno o suficiente para que a variação de um estimador ou os parâmetros do modelo sejam suficientemente altos para que o viés seja uma consideração secundária.
fonte
Para apontar o super óbvio:
Teorema do limite central
pois permite que os profissionais aproximem os valores de em muitas situações em que é impossível obter valores exatos de . Na mesma linha, qualquer profissional de sucesso estaria bem servido para familiarizar-se, em geral, comp p
Bootstrapping
fonte
Eu não diria que isso é muito semelhante a algo como a lei dos grandes números ou o teorema do limite central, mas como fazer inferências sobre causalidade é frequentemente central, entender o trabalho de Judea Pearl sobre o uso de gráficos estruturados para modelar causalidade é algo que as pessoas deveriam conhecer. com. Ele fornece uma maneira de entender por que os estudos experimentais e observacionais diferem com relação às inferências causais que eles oferecem e oferece maneiras de lidar com dados observacionais. Para uma boa visão geral, seu livro está aqui .
fonte
Uma sólida compreensão do problema substantivo a ser tratado é tão importante quanto qualquer abordagem estatística específica. Um bom cientista do setor tem mais probabilidade do que um estatístico sem esse conhecimento de encontrar uma solução razoável para o seu problema. Um estatístico com conhecimento substantivo pode ajudar.
fonte
O Método Delta, como calcular a variação de estatísticas bizarras e encontrar sua eficiência relativa assintótica, para recomendar alterações de variável e explicar os aumentos de eficiência "estimando a coisa certa". Em conjunto com isso, a desigualdade de Jensen para entender GLMs e tipos estranhos de preconceitos que surgem em transformações como as anteriores. E, agora que o viés e a variação são mencionados, o conceito de trade-off e MSE como uma medida objetiva da precisão preditiva.
fonte
Na minha opinião, a inferência estatística é mais importante para um praticante. A inferência possui duas partes: 1) Estimativa e 2) Teste de hipóteses. O teste de hipóteses é importante. Como na estimativa, na maioria das vezes, é um procedimento único, a estimativa de probabilidade máxima é seguida e é o pacote estatístico mais disponível (portanto, não há confusão).
As perguntas frequentes dos profissionais envolvem testes significativos de análise de diferença ou causalidade. Testes de hipóteses importantes podem ser encontrados neste link .
É necessário conhecer os modelos lineares, o GLM ou, em geral, a modelagem estatística para a interpretação da causa. Suponho que o futuro da análise de dados inclua inferência bayesiana.
fonte
Inferência casual é obrigação. E como lidar com o problema fundamental, você não pode voltar no tempo e não dar tratamento a alguém. Leia artigos sobre Rubin, Fisher, o fundador do moderno estudante de estatística.) .... O que aprender a resolver esse problema, a randomização adequada e como a Lei de grandes números diz que as coisas são adequadamente randomizadas, Teste de hipóteses, Resultados potenciais (vale contra a hipótese de hetroscastisty) e é ótimo com falta), correspondência (ótimo para falta, mas os resultados potenciais são melhores porque é mais generalizado, quero dizer por que aprender uma tonelada de coisas complicadas quando você só pode aprender uma coisa complicada), Bootstrap, estatísticas bayesianas, é claro (regressão bayesiana , regressão bayesiana ingênua, fatores bayesianos) e alternativas não papmétricas.
Normalmente, na prática, basta seguir estas etapas gerais,
Em relação a um comentário anterior, você deve primeiro começar genralmente com uma ANOVA (efeitos aleatórios ou efeitos fixos e transformar tipos contínuos em compartimentos) e depois usar uma regressão (que, se você transformar e alterar, às vezes pode ser tão boa quanto uma ANOVA, mas nunca vencê-la) para ver quais tratamentos específicos são significativos (em vez de fazer o teste t múltiplo e usar alguma correção como Holm methid), use uma regressão.
Nos casos em que você precisa prever as coisas, use a regressão bayasiana.
A falta de mais de 5% usa resultados potenciais
Outro ramo da análise de dados é o aprendizado de máquina supervisionado, que deve ser mencionado
fonte