Como lidar com a análise de dados exploratória e a dragagem de dados em estudos de pequenas amostras?

25

A análise exploratória de dados (EDA) geralmente leva a explorar outras "trilhas" que não pertencem necessariamente ao conjunto inicial de hipóteses. Eu enfrento essa situação no caso de estudos com um tamanho de amostra limitado e muitos dados coletados através de diferentes questionários (dados sociodemográficos, escalas neuropsicológicas ou médicas - por exemplo, funcionamento mental ou físico, nível de depressão / ansiedade, lista de verificação de sintomas ) Acontece que a EDA ajuda a destacar alguns relacionamentos inesperados ("inesperado", significando que eles não foram incluídos no plano de análise inicial) que se traduz em perguntas / hipóteses adicionais.

Como é o caso do ajuste excessivo, a dragagem de dados ou a espionagem levam a resultados que não são generalizados. No entanto, quando muitos dados estão disponíveis, é bastante difícil (para o pesquisador ou médico) postular um conjunto limitado de hipóteses.

Gostaria de saber se existem métodos, recomendações ou regras práticas bem reconhecidas que podem ajudar a delinear a AED no caso de estudos com amostras pequenas.

chl
fonte
Não sei ao certo por que o tamanho da sua amostra é importante. Você pode oferecer um raciocínio mais específico sobre o motivo pelo qual você acha que é diferente para n pequeno e para n grande?
Andy W
2
@ Andy Porque, então, fica muito difícil considerar uma amostra de reserva e / ou desequilíbrio de classe com tamanho de amostra muito limitado ( ) geralmente gera uma maior taxa de erro de classificação ao aplicar o CV; alguns indivíduos podem ser considerados outliers ao estudar distribuições bivariadas; e as medidas reunidas em instrumentos com seu próprio erro de medição são menos confiáveis ​​(pequeno , grande ). Em certo sentido, às vezes é difícil separar um relacionamento inesperado de um artefato. n σ13<n<25nσ
chl
Eu acho que posso entender esse sentimento se o que você está interessado é apenas classificação. Penso que, por inferência causal, os problemas com a espionagem de dados são os mesmos (ou seja, os problemas não são resolvidos pelo aumento do poder de identificar relacionamentos). Vou tentar formular essa opinião em uma resposta. Enquanto isso, posso fazer uma pergunta no fórum principal sobre o uso da validação cruzada para inferência causal, pois não encontrei nenhum trabalho no meu campo que faça isso.
Andy W
11
@ Andy Obrigado. Felizmente, sua pergunta receberá muitas respostas interessantes.
quer

Respostas:

10

Acho que o principal é ser honesto ao relatar esses resultados, que foram descobertas inesperadas da EDA e não fazem parte do plano de análise inicial com base em uma hipótese a priori . Algumas pessoas gostam de rotular esses resultados como 'geradores de hipóteses': por exemplo, o primeiro hit de uma pesquisa por essa frase no Google Scholar inclui o seguinte na seção de conclusão de seu resumo:

Por se tratar de uma análise "exploratória", esse efeito deve ser considerado como gerador de hipóteses e avaliado prospectivamente em outros estudos ...

Entretanto, observe que, embora essa fosse uma análise de subgrupo post-hoc, foi de um estudo randomizado de controle, não de um estudo observacional, no qual o problema piora. Philip Cole desdenhou a idéia de que estudos observacionais ('epidemiológicos') podem gerar hipóteses em um comentário deliberadamente provocativo, mas divertido:

P Cole. A máquina geradora de hipóteses. Epidemiology 1993; 4 : 271-273.

uma parada
fonte
+1 Obrigado pelo link (e a nova marcação). Vou olhar nessa direção.
chl
13

Acabei de deixar algumas referências sobre dragagem de dados e estudos clínicos para o leitor interessado. O objetivo é estender a boa resposta do @onestop . Tentei evitar artigos focados apenas em múltiplas comparações ou questões de design, embora estudos com múltiplos endpoints continuem apresentando discussões desafiadoras e controversas (muito tempo depois das alegações de Rothman sobre ajustes inúteis , Epidemiology 1990, 1: 43-46; ou veja a revisão de Feise no BMC. Medical Research Methodology 2002, 2: 8).

Meu entendimento é que, embora tenha falado sobre análise exploratória de dados , minha pergunta geralmente aborda o uso da mineração de dados, com suas possíveis armadilhas, paralelamente aos testes orientados por hipóteses.

  1. Koh, HC e Tan, G (2005). Aplicações de mineração de dados na área da saúde . Journal of Healthcare Information Management , 19 (2), 64-72.
  2. Ioannidis, JPA (2005). Por que a maioria das descobertas de pesquisas publicadas é falsa . PLoS Medicine , 2 (8), e124.
  3. Anderson, DR, Link, WA, Johnson, DH e Burnham, KP (2001). Sugestões para apresentação dos resultados da análise de dados . O Journal of Wildlife Management , 65 (3), 373-378. - isso faz eco ao comentário de @ onestop sobre o fato de que precisamos reconhecer a exploração / modelagem orientada a dados além do conjunto inicial de hipóteses
  4. Michels, KB e Rosner, BA (1996). Rede de arrasto de dados: pescar ou não pescar . Lancet , 348, 1152-1153.
  5. Lord, SJ, Gebski, VJ e Keech, AC (2004). Várias análises em ensaios clínicos: ciência sólida ou dragagem de dados? . The Medical Journal of Australia , 181 (8), 452-454.
  6. Smith, GD e Ebrahim, S (2002). Dragagem de dados, preconceito ou confusão . BMJ , 325, 1437-1438.
  7. Afshartous, D e Wolf, M (2007). Evitando a espionagem de dados em modelos de vários níveis e efeitos mistos . Jornal da Sociedade Estatística Real A , 170 (4), 1035-1059
  8. Anderson, DR, Burnham, KP, Gould, WR e Cherry, S (2001). Preocupações em encontrar efeitos realmente espúrios . Widlife Society Bulletin , 29 (1), 311-316.
Chl
fonte
Esta é apenas uma recapitulação do que li até agora. Obviamente, não aceitarei minha própria resposta . Quaisquer outros pensamentos seriam muito apreciados.
chl
Obrigado por aceitar minha resposta chi, embora sua própria lista de referências seja muito melhor e mais recente. Eu realmente deveria ter pensado um par deles me como eu tenho-os no meu disco rígido, e pode ter até mesmo ler partes deles ...
Onestop