Não tenho certeza de onde essa pergunta pertence: Validação cruzada ou Local de trabalho. Mas minha pergunta está vagamente relacionada à estatística.
Esta questão (ou acho que perguntas) surgiu durante o meu trabalho como "estagiário de ciência de dados". Eu estava construindo esse modelo de regressão linear e examinando o gráfico residual. Vi sinais claros de heterocedasticidade. Lembro que a heterocedasticidade distorce muitas estatísticas de teste, como intervalo de confiança e teste t. Então, usei o quadrado mínimo ponderado, seguindo o que aprendi na faculdade. Meu gerente viu isso e me aconselhou a não fazer isso porque "eu estava complicando as coisas", o que não era uma razão muito convincente para mim.
Outro exemplo seria "remover uma variável explicativa, pois seu valor-p é insignificante". Sendo assim, esse conselho simplesmente não faz sentido do ponto de vista lógico. De acordo com o que aprendi, o valor p insignificante pode ser devido a diferentes razões: chance, usar o modelo errado, violar as premissas etc.
Outro exemplo é que usei a validação cruzada com dobras k para avaliar meu modelo. De acordo com o resultado, o é bem melhor que o . Mas temos um mais baixo para o modelo 1, e o motivo tem algo a ver com a interceptação . Meu supervisor, no entanto, parece preferir o modelo 2 porque possui mais alto . Suas razões (como são robustas, ou validação cruzada é uma abordagem de aprendizado de máquina, não uma abordagem estatística) simplesmente não parecem convincentes o suficiente para mudar de idéia. C V m o d e l 2 R 2R 2
Como alguém que acabou de se formar na faculdade, estou muito confuso. Sou muito apaixonado por aplicar estatísticas corretas para resolver problemas do mundo real, mas não sei qual das seguintes afirmações é verdadeira:
- As estatísticas que aprendi sozinho estão erradas, por isso estou cometendo erros.
- Há uma enorme diferença entre estatísticas teóricas e modelos de construção nas empresas. E embora a teoria estatística esteja certa, as pessoas simplesmente não a seguem.
- O gerente não está usando as estatísticas corretamente.
Atualização em 17/04/2017: Decidi fazer um doutorado. nas estatísticas. Obrigado a todos pela sua resposta.
Respostas:
Acho que a única coisa a fazer, quando confrontada com esse tipo de situação, é explicar cuidadosamente o que há de errado na prática mal-intencionada, com um ou dois exemplos.
fonte
Kodiologist está certo - você está certo, ele está errado. No entanto, infelizmente, esse é um problema de local ainda mais comum do que o que você está encontrando. Você está realmente em um setor que está se saindo relativamente bem.
Agora, além do fato de que esse intervalo de confiança não está dizendo a eles o que eles realmente precisam (eles precisam de um intervalo de tolerância para isso), isso é feito às cegas em parâmetros que estão pairando perto de algum valor máximo ou mínimo (mas onde o intervalo venceu ' realmente exceder esses valores). Como o Excel calcula o que eles precisam (sim, eu disse o Excel), eles definem suas especificações de acordo com isso, apesar do fato de o parâmetro não estar nem perto de ser normalmente distribuído. Essas pessoas aprenderam estatísticas básicas, mas não gráficos qq ou similares. Um dos maiores problemas é que as estatísticas fornecerão um número, mesmo quando usadas de forma inadequada - para que a maioria das pessoas não saiba quando o fez.
Em outras palavras, as especificações da grande maioria dos produtos, na grande maioria das indústrias, são absurdas.
Um dos piores exemplos que tenho de pessoas que seguem cegamente as estatísticas, sem entender, é o uso do Cpk na indústria automotiva. Uma empresa passou cerca de um ano discutindo sobre um produto com seu fornecedor, porque achou que o fornecedor poderia controlar seu produto a um nível que simplesmente não era possível. Eles estavam definindo apenas uma especificação máxima (sem mínimo) em um parâmetro e usaram o Cpk para justificar sua alegação - até que foi apontado que seus cálculos (quando usados para definir um nível mínimo teórico) não queriam que não tivessem verificado ) implicava um valor negativo maciço. Isso, em um parâmetro que nunca poderia ir abaixo de 0. Cpk assume normal, o processo não forneceu dados próximos nem normais. Demorou muito tempo para que isso acontecesse. Todo esse desperdício de tempo e dinheiro porque as pessoas não não entendo o que eles estavam calculando - e poderia ter sido muito pior se não tivesse sido notado. Isso pode ser um fator que contribui para o porquê de recalls regulares na indústria automotiva!
Eu próprio sou proveniente de ciências e, francamente, o ensino de estatística em ciências e engenharia é chocantemente insuficiente. Eu nunca tinha ouvido falar da maioria do que preciso usar agora - tudo foi autodidata e existem (em comparação com um estatístico adequado) lacunas enormes em meu conhecimento até agora. Por esse motivo, não invejo as pessoas que usam mal as estatísticas (provavelmente ainda o faço regularmente), é uma má educação.
Então, voltando à sua pergunta original, não é realmente fácil. Concordo com a recomendação do Kodiologist de tentar explicar gentilmente essas coisas para que as estatísticas corretas sejam usadas. Mas eu acrescentaria uma advertência extra a isso e também o aconselharia a escolher suas batalhas com sabedoria, para o bem de sua carreira.
É lamentável, mas é fato que você não conseguirá que todos façam as melhores estatísticas todas as vezes. Escolha corrigi-los quando realmente for importante para a conclusão geral final (o que às vezes significa fazer as coisas de duas maneiras diferentes para verificar). Há momentos (por exemplo, o exemplo do seu modelo 1,2) em que o uso da maneira "errada" pode levar às mesmas conclusões. Evite corrigir muitas pessoas com muita frequência.
Sei que isso é intelectualmente frustrante e o mundo deve funcionar de maneira diferente - infelizmente não. Até certo ponto, você terá que aprender a julgar suas batalhas com base nas personalidades individuais de seus colegas. Seu objetivo (de carreira) é ser o especialista para quem eles procuram quando realmente precisam de ajuda, não a pessoa exigente que sempre tenta corrigi-los. E, de fato, se você se tornar essa pessoa, é provavelmente onde terá mais sucesso em conseguir que as pessoas escutem e façam as coisas da maneira certa. Boa sorte.
fonte
O que é descrito parece uma experiência um tanto ruim. No entanto, não deve ser algo que faça com que se questione imediatamente sua própria formação educacional nem o julgamento estatístico de seu supervisor / gerente.
Meu conselho é manter suas armas (estatísticas), mas esteja aberto ao que as pessoas fazem, seja paciente com pessoas que possam se desapegar de novas práticas estatísticas e ofereça conselhos / opiniões quando solicitado , cresça uma pele mais espessa e aprenda com seu ambiente. Se você estiver fazendo as coisas certas, isso será mostrado lentamente, as pessoas desejarão sua opinião, porque reconhecerão que você pode oferecer soluções em que o fluxo de trabalho atual não. Finalmente, sim, claro, se depois de um período de tempo razoável (pelo menos alguns meses) você sentir que está desvalorizado e desrespeitado, apenas siga em frente.
Escusado será dizer que agora você está no setor e não pode relaxar e acha que não precisa aprimorar sua educação em estatística. Modelagem preditiva, estratégias de regressão, algoritmos de agrupamento continuam evoluindo. Por exemplo, o uso da regressão gaussiana de processos em um ambiente industrial estava próximo da ficção científica há 10 anos; agora ele pode ser visto quase como uma coisa de prateleira para tentar.
fonte