Amostras pequenas e desequilibradas para dois grupos - o que fazer?

10

Eu tenho dados para dois grupos (ou seja, amostras) que desejo comparar, mas o tamanho total da amostra é pequeno (n = 29) e fortemente desequilibrado (n = 22 vs n = 7).

Esses dados são logisticamente difíceis e caros de serem coletados; portanto, 'coletar mais dados' como uma solução óbvia não é útil nesse caso.

Um número de variáveis ​​diferentes foi medido (data de partida, data de chegada, duração da migração etc.) para que haja vários testes, alguns dos quais as variações são muito diferentes (a amostra menor apresenta uma variação maior).

Inicialmente, um colega executou testes t com esses dados, e alguns foram estatisticamente significativos com P <0,001, outro não foi significativo com P = 0,069. Algumas amostras eram normalmente distribuídas, outras não. Alguns testes envolveram grandes desvios de variações 'iguais'.

Eu tenho várias perguntas:

  1. os testes t são apropriados aqui? Se não, por que? Isso se aplica apenas a testes em que as suposições de normalidade e igualdade de variações são atendidas?
  2. o que é uma alternativa adequada? Talvez um teste de permutação?
  3. variação desigual infla o erro do tipo I, mas como? e que efeito o tamanho pequeno e desequilibrado da amostra tem no erro do tipo I?
DeanP
fonte

Respostas:

10

Testes-T que assumem variações iguais das duas populações não são válidos quando as duas populações têm variações diferentes, e é pior para tamanhos de amostra desiguais. Se o menor tamanho de amostra for aquele com maior variação, o teste inflará o erro Tipo I). A versão Welch-Satterthwaite do teste t, por outro lado, não assume variações iguais. Se você está pensando no teste de permutação de Fisher-Pitman, ele também assume variações iguais (se você deseja inferir médias desiguais a partir de um baixo valor de p).

Há várias outras coisas em que você pode querer pensar:

(1) Se as variações são claramente desiguais, você ainda está tão interessado na diferença entre os meios?

(2) As estimativas de efeitos podem ser mais úteis para você do que os valores de p?

(3) Deseja considerar a natureza multivariada dos seus dados, em vez de apenas fazer uma série de comparações univariadas?

Scortchi - Restabelecer Monica
fonte
Olá Scortchi, obrigado pela sua resposta. Eu considerei as perguntas que você colocou:
DeanP 12/12/12
2
(1) Tanto a variação quanto a média podem ser informativas para o nosso estudo (por exemplo, as datas de saída da migração podem ser significativamente mais tarde para uma população E o intervalo nas datas de saída é mais variável).
DeanP
3
(1) Apenas mencionei isso porque as pessoas geralmente veem variações desiguais apenas como um problema técnico e esquecem que é um fato interessante por si só.
Scortchi - Restabelece Monica
2
(2) Meu argumento foi mais que uma lista de valores-p é geralmente menos útil do que uma lista de estimativas de tamanho de efeito (que podem ser médias, medianas, variações ou qualquer outra coisa) com intervalos de confiança. Especialmente com amostras pequenas, os intervalos de confiança podem mostrar se os tamanhos dos efeitos de importância prática ainda estão de acordo com os dados, mesmo quando o valor de p é alto.
Scortchi - Restabelece Monica
2
(3) Eu estava pensando em uma variável independente (grupo) e várias variáveis ​​dependentes (tempo de migração etc.): uma diferença interessante entre os grupos pode ser uma mudança no relacionamento entre as variáveis ​​dependentes. Um primeiro passo seria uma boa matriz com gráficos de caixa ou pontos comparando cada dv entre grupos ao longo da diagonal e gráficos de dispersão para cada par de dvs (novamente grupos distintos) nas outras células. E para ser sincero, para uma análise exploratória com amostras pequenas, esse pode ser o último passo.
Scortchi - Restabelece Monica
1

Primeiro, como Scortchi já apontou, o teste T não é adequado para seus dados, devido a suas suposições sobre a distribuição dos dados.

Para seu segundo ponto, eu proporia uma alternativa ao teste T. Se o seu interesse é apenas o fato, se as distribuições de suas duas amostras são iguais ou não, você também pode tentar usar a versão frente e verso do teste de soma e classificação de Wilcoxon. O teste de soma e classificação de Wilcoxon é um teste não paramétrico. Esse tipo de teste é especialmente útil, se você não tiver certeza da distribuição subjacente dos seus dados.

Existe uma solução exata do teste para amostras pequenas, bem como para grandes coortes. Além disso, existe também um pacote R que realiza o teste de soma e classificação de Wilcoxon.

Como é um teste sem parâmetros e também lida com amostras pequenas, o teste deve ser adequado para o seu caso de teste.

Alex VII
fonte