Gosto do livro de G van Belle sobre Regras de Estatística , e em menor grau Erros Comuns em Estatística (e Como Evitá-las) de Phillip I Good e James W. Hardin. Eles abordam as armadilhas comuns na interpretação dos resultados de estudos experimentais e observacionais e fornecem recomendações práticas para inferência estatística ou análise exploratória de dados. Mas sinto que faltam diretrizes "modernas", especialmente com o crescente uso de estatísticas computacionais e robustas em vários campos, ou a introdução de técnicas da comunidade de aprendizado de máquina em, por exemplo, bioestatística clínica ou epidemiologia genética.
Além dos truques computacionais ou das armadilhas comuns na visualização de dados que poderiam ser abordadas em outros lugares, gostaria de perguntar: Quais são as principais regras práticas que você recomendaria para uma análise eficiente dos dados? ( uma regra por resposta, por favor ).
Estou pensando nas diretrizes que você pode fornecer a um colega, a um pesquisador sem formação sólida em modelagem estatística ou a um aluno do curso intermediário ao avançado. Isso pode pertencer a vários estágios da análise de dados, por exemplo, estratégias de amostragem, seleção de recursos ou construção de modelos, comparação de modelos, pós-estimativa, etc.
Mantenha sua análise reproduzível. Um revisor, seu chefe ou outra pessoa eventualmente perguntará como exatamente você chegou ao seu resultado - provavelmente seis meses ou mais depois de fazer a análise. Você não se lembrará de como limpou os dados, que análise fez, por que escolheu o modelo específico que usou ... E reconstruir tudo isso é uma dor.
Corolário: use algum tipo de linguagem de script, coloque comentários em seus scripts de análise e mantenha-os. O que você usa (R, SAS, Stata, qualquer que seja) é menos importante do que ter um script completamente reproduzível. Rejeite ambientes nos quais isso é impossível ou embaraçoso.
fonte
Nao tem almoço gratis
Uma grande parte das falhas estatísticas é criada ao clicar em um grande botão brilhante chamado "Calcular significado", sem levar em conta o ônus de suposições ocultas.
Repetir
Mesmo se uma única chamada para um gerador aleatório estiver envolvida, pode-se ter sorte ou má sorte e, assim, tirar conclusões erradas.
fonte
Uma regra por resposta ;-)
Converse com o estatístico antes de conduzir o estudo. Se possível, antes de solicitar a concessão. Ajude-o a entender o problema que está estudando, obtenha informações sobre como analisar os dados que você está prestes a coletar e pense sobre o que isso significa para o design do seu estudo e os requisitos de dados. Talvez o cara / gal de estatísticas sugira fazer um modelo hierárquico para explicar quem diagnosticou os pacientes - então você precisa rastrear quem diagnosticou quem. Parece trivial, mas é muito melhor pensar sobre isso antes de coletar dados (e deixar de coletar algo crucial) do que depois.
Em uma nota relacionada: faça uma análise de energia antes de iniciar. Nada é tão frustrante quanto não ter orçado para um tamanho de amostra suficientemente grande. Ao pensar em qual tamanho de efeito você espera, lembre-se do viés de publicação - o tamanho do efeito que você encontrará provavelmente será menor do que o esperado, dada a literatura (tendenciosa).
fonte
Uma coisa que digo aos meus alunos é produzir um gráfico apropriado para cada valor-p. por exemplo, um gráfico de dispersão se eles testarem correlação, gráficos de caixas lado a lado se fizerem uma ANOVA unidirecional, etc.
fonte
Se você decidir entre duas maneiras de analisar seus dados, tente nos dois sentidos e veja se isso faz diferença.
Isso é útil em muitos contextos:
Isso não deve impedir que alguém pense sobre a questão, mas pelo menos dá uma noção do grau em que as descobertas substantivas são robustas para a escolha.
fonte
Questione seus dados. Na era moderna da RAM barata, geralmente trabalhamos com grandes quantidades de dados. Um erro de "dedo gordo" ou "casa decimal perdida" pode facilmente dominar uma análise. Sem alguma verificação básica de sanidade (ou plotagem dos dados, conforme sugerido por outros aqui), pode-se perder muito tempo. Isso também sugere o uso de algumas técnicas básicas de 'robustez' para os valores extremos.
fonte
Use um software que mostre a cadeia da lógica de programação, desde os dados brutos até as análises / resultados finais. Evite softwares como o Excel, nos quais um usuário pode cometer um erro indetectável em uma célula, para que somente a verificação manual seja detectada.
fonte
Sempre se pergunte "o que esses resultados significam e como eles serão usados?"
Geralmente, o objetivo do uso de estatísticas é auxiliar na tomada de decisões sob incerteza. Portanto, é importante ter em mente "Que decisões serão tomadas como resultado dessa análise e como essa análise influenciará essas decisões?" (por exemplo, publique um artigo, recomende a utilização de um novo método, forneça $ X em financiamento para Y, obtenha mais dados, relate uma quantidade estimada como E, etc. etc.)
Se você acha que não há nenhuma decisão a ser tomada, então se pergunta por que você está fazendo a análise em primeiro lugar (pois é muito caro fazer a análise). Penso nas estatísticas como um "incômodo", pois é um meio para um fim, e não um fim em si. Na minha opinião, quantificamos apenas a incerteza para que possamos usá-la para tomar decisões que explicam essa incerteza de maneira precisa.
Eu acho que essa é uma das razões pelas quais manter as coisas simples é uma boa política em geral, porque geralmente é muito mais fácil relacionar uma solução simples ao mundo real (e, portanto, ao ambiente em que a decisão está sendo tomada) do que a solução complexa. . Também é geralmente mais fácil entender as limitações da resposta simples. Você passa para as soluções mais complexas quando entende as limitações da solução simples e como a complexa as trata.
fonte
Pode haver uma lista longa, mas para citar algumas: (sem ordem específica)
O valor P NÃO é probabilidade. Especificamente, não é a probabilidade de cometer um erro do tipo I. Da mesma forma, os ICs não têm interpretação probabilística para os dados fornecidos. Eles são aplicáveis a experimentos repetidos.
Problemas relacionados à variância dominam o viés na maioria das vezes na prática, portanto, uma estimativa tendenciosa com pequena variação é melhor do que uma estimativa imparcial com grande variação (na maioria das vezes).
O ajuste do modelo é um processo iterativo. Antes de analisar os dados, entenda a fonte dos dados e os possíveis modelos que se encaixam ou não na descrição. Além disso, tente modelar quaisquer problemas de design em seu modelo.
Use as ferramentas de visualização, observe os dados (para possíveis anormalidades, tendências óbvias, etc. para entender os dados) antes de analisá-los. Use os métodos de visualização (se possível) para ver como o modelo se ajusta a esses dados.
Por último, mas não menos importante, use software estatístico para o que eles são feitos (para facilitar sua tarefa de computação), eles não substituem o pensamento humano.
fonte
Para organização / gerenciamento de dados, verifique se, ao gerar novas variáveis no conjunto de dados (por exemplo, calculando o índice de massa corporal de altura e peso), as variáveis originais nunca são excluídas. Uma abordagem não destrutiva é melhor do ponto de vista da reprodutibilidade. Você nunca sabe quando pode digitar incorretamente um comando e, posteriormente, precisar refazer sua geração de variáveis. Sem as variáveis originais, você perderá muito tempo!
fonte
Pense duro sobre o processo de geração de dados subjacente (DGP). Se o modelo que você deseja usar não refletir o DGP, você precisará encontrar um novo modelo.
fonte
Para histogramas, uma boa regra geral para o número de posições em um histograma :
raiz quadrada do número de pontos de dados
fonte
Apesar de conjuntos de dados cada vez maiores e software mais poderoso, os modelos de ajuste excessivo são um grande perigo para os pesquisadores, especialmente aqueles que ainda não foram queimados pelo ajuste excessivo. O excesso de ajuste significa que você ajustou algo mais complicado do que seus dados e o estado da arte. Como o amor ou a beleza, é difícil definir, muito menos definir formalmente, mas mais fácil de reconhecer.
Uma regra prática mínima é de 10 pontos de dados para cada parâmetro estimado para algo como regressão clássica e fique atento às conseqüências se você a ignorar. Para outras análises, geralmente você precisa de muito mais para fazer um bom trabalho, principalmente se houver categorias raras nos dados.
Mesmo que você possa ajustar um modelo facilmente, preocupe-se constantemente com o que ele significa e com que extensão é reproduzível, mesmo com um conjunto de dados muito semelhante.
fonte
fonte
Se o modelo não convergir com facilidade e rapidez, pode ser culpa do software. No entanto, é muito mais comum que seus dados não sejam adequados para o modelo ou o modelo não seja adequado para os dados. Pode ser difícil dizer quais, e empiristas e teóricos podem ter visões diferentes. Mas o pensamento no assunto, olhando realmente os dados e constantemente pensando na interpretação do modelo, ajuda o máximo que puder. Acima de tudo, tente um modelo mais simples se um modelo complicado não convergir.
Não há ganho em forçar a convergência ou em declarar vitória e obter resultados após muitas iterações, mas antes que o seu modelo realmente tenha convergido. Na melhor das hipóteses, você se engana se fizer isso.
fonte
Nas variáveis instrumentais, a regressão sempre verifique a significância conjunta de seus instrumentos. A regra geral da Staiger-Stock diz que uma estatística F inferior a 10 é preocupante e indica que seus instrumentos podem ser fracos, ou seja, não estão suficientemente correlacionados com a variável endógena. No entanto, isso não implica automaticamente que um F acima de 10 garanta instrumentos fortes. Staiger e Stock (1997) mostraram que técnicas de variáveis instrumentais como 2SLS podem ser muito tendenciosas em amostras "pequenas" se os instrumentos estiverem apenas fracamente correlacionados com a variável endógena. O exemplo deles foi o estudo de Angrist e Krueger (1991), que teve mais de 300.000 observações - um fato perturbador sobre a noção de "pequenas" amostras.
fonte
Não há critérios para escolher critérios de informação.
Quando alguém diz algo como "O? IC indica isso, mas geralmente é conhecido por dar resultados errados" (onde? Qualquer letra que você goste), você sabe que também terá que pensar no modelo e, em particular, se ele faz senso científico ou prático.
Nenhuma álgebra pode lhe dizer isso.
fonte
Eu li isso em algum lugar (provavelmente na validação cruzada) e não consegui encontrá-lo em nenhum lugar, então aqui vai ...
Se você descobriu um resultado interessante, provavelmente está errado.
É muito fácil ficar empolgado com a perspectiva de um valor p impressionante ou um erro de validação cruzada quase perfeito. Eu pessoalmente apresentei, em êxtase, resultados impressionantes (falsos) aos colegas, apenas para retirá-los. Na maioria das vezes, se parece bom demais para ser verdade ...
é verdade. É verdade.
fonte
Tente ser mais valoroso do que virtuoso. Ou seja, não permita que sinais mesquinhos de não-normalidade, não-independência ou não-linearidade, etc. bloqueiem seu caminho se essas indicações precisarem ser desconsideradas para que os dados falem alto e claro . - Em dinamarquês, 'dristig' vs. 'dydig' são os adjetivos.
fonte
Ao analisar dados longitudinais, verifique se as variáveis são codificadas da mesma maneira em cada período de tempo.
Enquanto escrevia minha dissertação, que envolvia análise de dados secundários, houve uma semana mais ou menos perplexa de uma mudança de uma unidade nas pontuações médias de depressão em uma média estável por ano: resultou na de um dos anos em que No conjunto de dados, os itens da escala de um instrumento validado foram codificados de 1 a 4 em vez de 0 a 3.
fonte
Sua hipótese deve orientar sua escolha de modelo, e não o contrário.
Parafraseando Maslow, se você é um martelo, tudo parece um prego. Modelos específicos vêm com antolhos e suposições sobre o mundo incorporados: por exemplo, modelos não dinâmicos engasgam com o feedback dos resultados do tratamento.
fonte
Use a simulação para verificar onde a estrutura do seu modelo pode estar criando "resultados" que são simplesmente artefatos matemáticos das suposições do seu modelo
Execute sua análise em variáveis rerandomizadas ou em variáveis simuladas conhecidas por não serem correlacionadas entre si. Faça isso muitas vezes e compare estimativas de pontos médios (e intervalos de confiança ou credibilidade) com os resultados obtidos em dados reais: eles são tão diferentes assim?
fonte
Sou analista de dados e não estatístico, mas essas são minhas sugestões.
1) Antes de analisar os dados, verifique se as suposições do seu método estão corretas. Depois de ver os resultados, pode ser difícil esquecer, mesmo depois que você corrige os problemas e os resultados mudam.
2) Ajuda a conhecer seus dados. Executo séries temporais e obtive um resultado que pouco fazia sentido, dados os últimos anos. Revisei os métodos à luz disso e descobri que a média dos modelos no método estava distorcendo os resultados por um período (e ocorreu uma quebra estrutural).
3) Tenha cuidado com as regras práticas. Eles refletem as experiências de pesquisadores individuais a partir de seus próprios dados e, se o campo deles for muito diferente do seu, as conclusões podem não estar corretas para seus dados. Além disso, e isso foi um choque para mim, os estatísticos frequentemente discordam dos pontos principais.
4) Tente analisar dados com métodos diferentes e veja se os resultados são semelhantes. Entenda que nenhum método é perfeito e tenha cuidado para verificar quando puder violações das suposições.
fonte