Posso fazer um teste t de análise de potência para grupos de tamanhos desiguais que produzem 2 n mínimos diferentes?

9

Geralmente é simples fazer um Power Analysiscálculo minimum sample size, especialmente em R, que é o meu ambiente de computação estatística preferido.

No entanto, me pedem para realizar uma Análise de energia um pouco diferente de tudo o que fiz ou ao qual posso encontrar referência online. Gostaria de saber se o que estou sendo solicitado é possível / válido.

O projeto basicamente possui dois unequal groupsestados e a hipótese é que esses dois grupos sejam significativamente diferentes em termos de uma variável de resultado (que é a duração das chamadas telefônicas para os clientes). O grupo "controle" consiste em 40 estados e produziu cerca de 2.500 observações. O grupo "teste" possui cerca de 10 estados e 500 observações.

Inicialmente, encontrei o grupo means+ pooled standard deviation, usado para calcular um Effect Size. Em seguida, utilizado um chamado pacote pwrem Re descobriram que I necessário uma dimensão mínima da amostra de cerca de 135 observações por grupo, dada 0,05 significado e 0,8 potência.

No entanto, eles rejeitaram a minha resposta porque desejam que um grupo seja muito maior do que o outro como é agora e esperam dois números mínimos diferentes de observações por grupo ou um percentual mínimo da população em termos de número de estados ou observações que precisam ser inseridas no grupo "teste".

Vejo análises de energia para dois testes t de amostra (ou seja, a função R pwr.t2n.test), mas eu teria que especificar pelo menos um dos tamanhos de amostra, enquanto eles querem que eu informe o tamanho mínimo da amostra para ambos os grupos (como números ou porcentagens) e essa função não reflete as diferenças nos desvios padrão para os dois grupos.

Isso é possível ou apenas digo a eles que não é assim que funciona (ou seja, o melhor que posso fazer é dizer que, considerando um tamanho de amostra e um desvio padrão conjunto, o segundo grupo deve ter pelo menos um determinado tamanho)?

Hack-R
fonte

Respostas:

7

Você pode fazer cálculos de tamanho de amostra para tamanhos de amostra desiguais.

Por exemplo, você pode decidir que os n estão em alguma proporção (como na proporção das populações, talvez).

É então possível fazer cálculos de potência (pelo menos você pode simular para obter a potência sob qualquer conjunto de circunstâncias, independentemente de você poder ou não fazer álgebra).

O problema é que é relativamente ineficiente em encontrar diferenças em comparação com o mesmo número total de observações em tamanhos iguais de amostra.

Imagine que você teve uma amostra total de , com variação igual na população e variação de amostra quase igual, e que sua escolha foi entre uma divisão de 50-50 e uma divisão de ( vs ).n=n1+n2n1=0.5nn1=0.9n

A estatística t de duas amostras é:

t=X¯1X¯2spooled1n1+1n2

O impacto do tamanho da amostra está no termo .1/1n1+1n2

Se você tem a divisão 50-50, é como ter um desvio padrão 40% menor; em um determinado você pode obter um efeito substancialmente menor com a divisão par.n1+n2

Se o tamanho da amostra combinada não for uma restrição efetiva, esse cálculo pode ser inútil. É importante nos casos em que toda observação carrega o mesmo custo marginal, que nem sempre é relevante.

Glen_b -Reinstate Monica
fonte
Obrigado! Portanto, para realizar isso de fato, é minha melhor aposta simplesmente usar algo como pwr.t2n.test () em R para basicamente todas as combinações possíveis, considerando um tamanho de amostra combinado, ou existe uma maneira melhor de recomendar você calcular isso? Se você usa outro idioma / pacote, posso descobrir como traduzir sua resposta em R. Nos dois casos, obrigado pela sua solução.
Hack-R
Eu não entendo o que você está recebendo aqui. Tanto quanto posso dizer, você não tem a capacidade de dividir a proporção que desejar; meu exemplo foi ilustrar o efeito de divisões desiguais. Se você tiver um tamanho total fixo da amostra, divida-o o mais próximo possível de 50 a 50, conforme seria aceito. Se você não tiver um tamanho total fixo da amostra, otimizará com base em seus custos e restrições.
Glen_b -Reinstala Monica
A extensão das minhas informações é que eles atualmente têm esses dois grupos realmente desiguais, que totalizam 3.000 observações em 50 estados dos EUA. Eles pedem o número mínimo de observações por grupo e / ou a porcentagem que deve ser inserida em cada grupo, com base nas médias e desvios padrão que recebo dos dados. Não tenho idéia se eles podem dividir os dados de 50 a 50 ou da maneira que quiserem, mas eu mostraria a eles o n mínimo no grupo 2 para cada valor dos grupos 1 e n e também mostraria o custo de divisões diferentes de 50 -50, provavelmente em termos de poder. Eu pensei que era mais ou menos o que você sugeriu?
Hack-R
Eu vejo. Você certamente poderia calcular algo assim, mas não necessariamente precisaria fazê-lo a cada ; essas coisas progridem sem problemas. n
Glen_b -Reinstala Monica
1
@Glen: É por isso que tentei remover rapidamente meu comentário sobre a (in) utilidade do teste em análise de duração. Mas você foi ainda mais rápido. Outra preocupação é a estrutura agrupada dos dados. Mas sua resposta se encaixa exatamente na pergunta.
22614 Michael Michael M
2

Primeiro, por que você está assumindo variações iguais nos dois grupos? Por favor, não diga: "Porque é conveniente". Eu duvido seriamente que as variações de grupo sejam iguais, embora no caso de tamanhos iguais de amostra isso não seja crucial. Seus graus de liberdade serão reduzidos, mas você sabe que tem pelo menos 130 anos, então quem se importa? Há questões muito maiores a serem abordadas.

Se você permitir (ou exigir) tamanhos de amostra de grupo desiguais, o problema não terá uma solução exclusiva. Existem duas incógnitas ( e e apenas uma restrição (a potência deve ser pelo menos .) Não acho que o problema possa ser resolvido sem uma restrição adicional. Há duas possibilidades óbvias. A primeira é corrigir uma do tamanho da amostra (por exemplo, os patrocinadores desejam pelo menos 300 observações do Grupo I. A outra é fixar a proporção (por exemplo, porque o Grupo I é dez vezes a contagem do Grupo II, queremos ) Agora prossiga com sua análise de energia.n1n2ϕn1=10n2

Dennis
fonte
Como assumi que havia variações iguais? Eu sei que não há ... é por isso que estava perguntando sobre a possibilidade de usar os diferentes desvios padrão para cada grupo para fazer um cálculo, embora a maneira normal de fazer uma Análise de Potência seja usar desvios padrão em pool quando você tiver mais de 1 grupo.
Hack-R
@NerdLife: variação combinada, que você disse que usou, equivale a assumir variações iguais. A maneira "normal" de fazer isso é assumir que e, nesse caso, o pool não importa o valor da estatística de teste. O OSL é afetado porque os graus de liberdade mudam entre e . Mas essas mudanças são bem menores que 30 ou mais df. \ n 1 - 1 2n1=n2\n112(n11)
Dennis