Eu tenho um conjunto de dados com dezenas de milhares de observações de dados de custos médicos. Esses dados são altamente inclinados para a direita e possuem muitos zeros. Parece assim para dois grupos de pessoas (neste caso, duas faixas etárias com> 3000 obs cada):
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.0 0.0 0.0 4536.0 302.6 395300.0
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.0 0.0 0.0 4964.0 423.8 721700.0
Se eu executar o teste t de Welch nesses dados, obtive um resultado de volta:
Welch Two Sample t-test
data: x and y
t = -0.4777, df = 3366.488, p-value = 0.6329
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-2185.896 1329.358
sample estimates:
mean of x mean of y
4536.186 4964.455
Eu sei que não é correto usar um teste t nesses dados, pois é muito normal. No entanto, se eu usar um teste de permutação para a diferença das médias, obtenho quase o mesmo valor p o tempo todo (e ele se aproxima com mais iterações).
Usando o pacote perm em R e permTS com Monte Carlo exato
Exact Permutation Test Estimated by Monte Carlo
data: x and y
p-value = 0.6188
alternative hypothesis: true mean x - mean y is not equal to 0
sample estimates:
mean x - mean y
-428.2691
p-value estimated from 500 Monte Carlo replications
99 percent confidence interval on p-value:
0.5117552 0.7277040
Por que a estatística do teste de permutação está tão próxima do valor t.test? Se eu fizer registros dos dados, recebo um valor p de teste t de 0,28 e o mesmo no teste de permutação. Eu pensei que os valores do teste t seriam mais lixo do que o que estou recebendo aqui. Isso é verdade para muitos outros conjuntos de dados que tenho assim e estou me perguntando por que o teste t parece estar funcionando quando não deveria.
Minha preocupação aqui é que os custos individuais não são iid. Existem muitos subgrupos de pessoas com distribuições de custos muito diferentes (mulheres versus homens, condições crônicas etc.) que parecem anular o requisito iid para o teorema do limite central, ou não devo me preocupar sobre isso?
fonte
Respostas:
Nem o teste t nem o teste de permutação têm muito poder para identificar uma diferença de médias entre duas dessas distribuições extraordinariamente distorcidas. Assim, ambos fornecem valores p de anodino, indicando nenhuma significância. A questão não é que eles parecem concordar; é que, por terem dificuldade em detectar qualquer diferença, simplesmente não podem discordar!
Para alguma intuição, considere o que aconteceria se uma alteração em um único valor ocorresse em um conjunto de dados. Suponha que o máximo de 721.700 não tenha ocorrido no segundo conjunto de dados, por exemplo. A média teria caído em aproximadamente 721700/3000, ou seja, cerca de 240. No entanto, a diferença entre as médias é de apenas 4964-4536 = 438, nem duas vezes maior. Isso sugere (embora não prove) que qualquer comparação dos meios não acharia a diferença significativa.
Podemos verificar, porém, que o teste t não é aplicável. Vamos gerar alguns conjuntos de dados com as mesmas características estatísticas que estes. Para isso, criei misturas nas quais
Acontece nessas simulações que os valores máximos também não estão longe dos máximos relatados.
Vamos replicar o primeiro conjunto de dados 10.000 vezes e rastrear sua média. (Os resultados serão quase os mesmos quando o fizermos para o segundo conjunto de dados.) O histograma dessas médias estima a distribuição amostral da média. O teste t é válido quando essa distribuição é aproximadamente normal; a extensão em que ela se desvia da Normalidade indica até que ponto a distribuição do aluno t irá errar. Portanto, para referência, também desenhei (em vermelho) o PDF da distribuição Normal adequado a esses resultados.
Não podemos ver muitos detalhes porque existem alguns grandes outliers. (Essa é uma manifestação dessa sensibilidade dos meios que mencionei.) Existem 123 deles - 1,23% - acima de 10.000. Vamos nos concentrar no restante para que possamos ver os detalhes e porque esses valores discrepantes podem resultar da normalidade de log assumida da distribuição, o que não é necessariamente o caso do conjunto de dados original.
Aqui está o
R
código que produziu esses números.fonte
Quando n é grande (como 300, muito menos que 3000), o teste t é essencialmente o mesmo que o teste z. Ou seja, o teste t se torna nada mais do que uma aplicação do teorema do limite central, que diz que o MEAN para cada um dos seus dois grupos é quase exatamente normalmente distribuído (mesmo que as observações subjacentes aos dois meios estejam muito longe de serem normalmente normais). distribuído!). Esse também é o motivo pelo qual sua tabela t típica não se preocupa em mostrar valores para n maiores que 1000 (por exemplo, esta tabela t) . Portanto, não estou surpreso ao ver que você está obtendo resultados tão bem-comportados.
Edit: Eu pareço ter subestimado a extremidade do skewness e sua importância. Embora meu argumento acima tenha mérito em circunstâncias menos extremas, a resposta da whuber à pergunta é muito melhor em geral.
fonte
Eu sei que esta resposta está muito atrasada. No entanto, estou fazendo doutorado em pesquisa em serviços de saúde, por isso trabalho muito com dados de saúde, incluindo dados de custo.
Não sei quais dados o OP tinha. Se fossem dados de seção transversal, as chances são de que fosse justificadamente o DII. Independência significa que cada unidade, portanto cada pessoa, é independente. Isso é provavelmente justificável. Quanto à distribuição idêntica, os dados podem ser modelados como todos provenientes, digamos, de uma distribuição gama em um modelo linear generalizado com um link de log. É o que as pessoas costumam fazer na prática. Ou, se você quiser ser chique, provavelmente existem modelos de obstáculos (populares em econometria) que lidam com o excesso de zero. Que, a propósito, são bastante comuns nos gastos com saúde. O OP está tecnicamente correto que os dados não são necessariamente distribuídos de forma idêntica, por exemplo, a média e a variação mudarão com a idade, mas é uma suposição viável em vários modelos de regressão.
Se cada pessoa estivesse no conjunto de dados por mais de um ano, os dados não seriam IID. Existem modelos mais complexos disponíveis para isso. Uma delas relativamente simples seria provavelmente equações de estimativa generalizada, distribuição gama e link de log novamente, assumindo uma correlação de trabalho permutável. Ou, se esses dados são de dados de pesquisa disponíveis ao público, NÃO existe uma probabilidade igual de ser amostrada - muitas dessas pesquisas entrevistam várias pessoas em cada domicílio, e também estratificam a população e superamplificam alguns grupos (por exemplo, minorias raciais). O usuário teria que corrigir isso.
Eu não uso testes t, especialmente não para dados observacionais. Existem muitos fatores de confusão, então você deseja ajustá-los em um modelo linear (generalizado). Portanto, não posso comentar sobre questões relacionadas especificamente aos testes t.
fonte