Os testes estatísticos não fazem suposições sobre o tamanho da amostra. Obviamente, existem suposições diferentes com vários testes (por exemplo, normalidade), mas a igualdade do tamanho da amostra não é uma delas. A menos que o teste usado seja inadequado de alguma outra maneira (não consigo pensar em um problema no momento), a taxa de erro do tipo I não será afetada por tamanhos de grupo drasticamente desiguais. Além disso, o fraseado deles implica (na minha opinião) que eles acreditam que sim. Assim, eles estão confusos sobre essas questões.
Por outro lado, as taxas de erro do tipo II serão afetadas por s altamente desiguais . Isso será verdade, independentemente do teste (por exemplo, teste t , teste U de Mann-Whitney ou teste z de igualdade de proporções, todos serão afetados dessa maneira). Para um exemplo disso, veja minha resposta aqui: Como interpretar a comparação de médias de diferentes tamanhos de amostra? Assim, eles podem muito bem ser "justificados em jogar a toalha" com relação a esse problema. (Especificamente, se você espera obter um resultado não significativo, seja o efeito real ou não, qual é o objetivo do teste?) ntUz
À medida que os tamanhos das amostras divergem, o poder estatístico converge para . Na verdade, esse fato leva a uma sugestão diferente, da qual suspeito que poucas pessoas já ouviram falar e provavelmente teriam problemas em passar por revisores (sem intenção de ofender): uma análise de poder de comprometimento . A idéia é relativamente direta: em qualquer análise de potência, α , β , n 1 , n 2 e o tamanho do efeito d existem em relação um ao outro. Depois de especificar tudo, exceto um, você pode resolver o último. Normalmente, as pessoas fazem o que é chamado de análise de poder a priori , na qual você resolve Nααβn1n2dN(geralmente você está assumindo ). Por outro lado, você pode corrigir n 1 , n 2 , e d , e resolver para α (ou equivalentemente β ), se você especificar a proporção do tipo I para tipo II taxas de erro que você está disposto a viver. Convencionalmente, α = .05 e β = .20 , então você está dizendo que os erros do tipo I são quatro vezes piores que os erros do tipo I. Obviamente, um determinado pesquisador pode discordar disso, mas, depois de especificar uma determinada proporção, você pode resolver o que αn1=n2n1n2dαβα=.05β=.20αvocê deve estar usando para possivelmente manter energia adequada. Essa abordagem é uma opção logicamente válida para os pesquisadores nessa situação, embora reconheça que a exoticidade dessa abordagem possa torná-la uma venda difícil na comunidade de pesquisa mais ampla que provavelmente nunca ouviu falar de algo assim.
Embora a resposta do @gung seja excelente, acho que há uma questão importante que deve ser considerada ao analisar tamanhos de grupos muito diferentes. Geralmente, desde que todos os requisitos do teste sejam cumpridos, a diferença nos tamanhos dos grupos não é importante.
No entanto, em alguns casos, o tamanho do grupo diferente terá um efeito dramático na robustez do teste contra violações contra essa suposição. O teste t não pareado clássico de duas amostras, por exemplo, assume a homongenidade da variância e é robusto contra violações somente se os dois grupos tiverem tamanho semelhante (em ordem de magnitude). Caso contrário, uma variação maior no grupo menor levará a erros do tipo I. Agora, com o teste t, isso não é um grande problema, pois geralmente o teste t de Welch é usado e não assume homogeneidade de variância. No entanto, efeitos semelhantes podem surgir em modelos lineares.
Em resumo, eu diria que isso não é de modo algum um obstáculo para uma análise estatística, mas deve ser lembrado ao decidir como proceder.
fonte