A análise exploratória de dados (EDA) geralmente leva a explorar outras "trilhas" que não pertencem necessariamente ao conjunto inicial de hipóteses. Eu enfrento essa situação no caso de estudos com um tamanho de amostra limitado e muitos dados coletados através de diferentes questionários (dados sociodemográficos, escalas neuropsicológicas ou médicas - por exemplo, funcionamento mental ou físico, nível de depressão / ansiedade, lista de verificação de sintomas ) Acontece que a EDA ajuda a destacar alguns relacionamentos inesperados ("inesperado", significando que eles não foram incluídos no plano de análise inicial) que se traduz em perguntas / hipóteses adicionais.
Como é o caso do ajuste excessivo, a dragagem de dados ou a espionagem levam a resultados que não são generalizados. No entanto, quando muitos dados estão disponíveis, é bastante difícil (para o pesquisador ou médico) postular um conjunto limitado de hipóteses.
Gostaria de saber se existem métodos, recomendações ou regras práticas bem reconhecidas que podem ajudar a delinear a AED no caso de estudos com amostras pequenas.
Respostas:
Acho que o principal é ser honesto ao relatar esses resultados, que foram descobertas inesperadas da EDA e não fazem parte do plano de análise inicial com base em uma hipótese a priori . Algumas pessoas gostam de rotular esses resultados como 'geradores de hipóteses': por exemplo, o primeiro hit de uma pesquisa por essa frase no Google Scholar inclui o seguinte na seção de conclusão de seu resumo:
Por se tratar de uma análise "exploratória", esse efeito deve ser considerado como gerador de hipóteses e avaliado prospectivamente em outros estudos ...
Entretanto, observe que, embora essa fosse uma análise de subgrupo post-hoc, foi de um estudo randomizado de controle, não de um estudo observacional, no qual o problema piora. Philip Cole desdenhou a idéia de que estudos observacionais ('epidemiológicos') podem gerar hipóteses em um comentário deliberadamente provocativo, mas divertido:
P Cole. A máquina geradora de hipóteses. Epidemiology 1993; 4 : 271-273.
fonte
Acabei de deixar algumas referências sobre dragagem de dados e estudos clínicos para o leitor interessado. O objetivo é estender a boa resposta do @onestop . Tentei evitar artigos focados apenas em múltiplas comparações ou questões de design, embora estudos com múltiplos endpoints continuem apresentando discussões desafiadoras e controversas (muito tempo depois das alegações de Rothman sobre ajustes inúteis , Epidemiology 1990, 1: 43-46; ou veja a revisão de Feise no BMC. Medical Research Methodology 2002, 2: 8).
Meu entendimento é que, embora tenha falado sobre análise exploratória de dados , minha pergunta geralmente aborda o uso da mineração de dados, com suas possíveis armadilhas, paralelamente aos testes orientados por hipóteses.
fonte