Um investigador deseja produzir uma análise combinada de vários conjuntos de dados. Em alguns conjuntos de dados, existem observações emparelhadas para o tratamento A e B. Em outros, existem dados A e / ou B não emparelhados. Estou procurando uma referência para uma adaptação do teste t, ou para um teste de razão de verossimilhança, para esses dados parcialmente emparelhados. Estou disposto (por enquanto) a assumir a normalidade com igual variação e que as médias populacionais para A são as mesmas para cada estudo (e da mesma forma para B).
hypothesis-testing
t-test
paired-data
change-scores
Frank Harrell
fonte
fonte
Respostas:
Guo e Yuan sugerem um método alternativo chamado teste t-pool ideal decorrente do teste t-pool de Samawi e Vogel.
Link para referência: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.865.734&rep=rep1&type=pdf
Ótima leitura com várias opções para essa situação.
Novo nos comentários, por favor, informe-me se precisar adicionar mais alguma coisa.
fonte
Bem, se você conhecesse as variações no par e no par (o que geralmente seria bem menor), os pesos ideais para as duas estimativas de diferença nos grupos significariam ter pesos inversamente proporcionais à variação do indivíduo estimativas da diferença de médias.
[Editar: acontece que, quando as variações são estimadas, isso é chamado de estimador de Graybill-Deal. Existem alguns artigos sobre isso. Aqui está um]
A necessidade de estimar a variação causa alguma dificuldade (a proporção resultante da estimativa de variação é F, e acho que os pesos resultantes têm uma distribuição beta, e uma estatística resultante é meio complicada), mas como você está considerando o bootstrap, isso pode ser menos de uma preocupação.
Uma possibilidade alternativa que pode ser melhor em algum sentido (ou pelo menos um pouco mais robusta à não normalidade, já que estamos brincando com taxas de variação) com muito pouca perda de eficiência no normal é basear uma estimativa combinada de desvio testes de classificação pareados e não emparelhados - em cada caso, uma espécie de estimativa de Hodges-Lehmann, no caso não emparelhado com base em medianas de diferenças de amostras cruzadas em pares e no caso pareado em medianas de médias de diferenças de pares em pares. Novamente, a combinação linear ponderada pela variância mínima dos dois seria com pesos proporcionais aos inversos das variâncias. Nesse caso, eu provavelmente me inclinaria para uma permutação (/ randomização) em vez de um bootstrap - mas dependendo de como você implementa seu bootstrap, eles podem acabar no mesmo lugar.
Em qualquer um dos casos, convém robustecer suas variações / diminuir sua taxa de variação. Entrar no estádio certo para o peso é bom, mas você perderá muito pouca eficiência no normal, tornando-o levemente robusto. ---
Alguns pensamentos adicionais que eu não tinha esclarecido o suficiente na minha cabeça antes:
Esse problema tem semelhanças distintas com o problema de Behrens-Fisher, mas é ainda mais difícil.
Se fixássemos os pesos, poderíamos simplesmente bater em uma aproximação do tipo Welch-Satterthwaite; a estrutura do problema é a mesma.
Nosso problema é que queremos otimizar os pesos, o que efetivamente significa que a ponderação não é fixa - e, de fato, tende a maximizar a estatística (pelo menos aproximadamente e mais quase em grandes amostras, pois qualquer conjunto de pesos é uma quantidade aleatória que estima o mesmo numerador e estamos tentando minimizar o denominador; os dois não são independentes).
Suponho que isso pioraria a aproximação do qui-quadrado e quase certamente afetaria ainda mais o df de uma aproximação.
[Se esse problema for possível, também pode haver uma boa regra geral que diga 'você pode fazer o mesmo se usar apenas os dados emparelhados nesses conjuntos de circunstâncias, apenas os não emparelhados nesses outros conjuntos de condições e no resto, esse esquema de peso fixo geralmente é muito próximo do ideal '- mas não vou segurar a respiração esperando essa chance. Essa regra de decisão sem dúvida teria algum impacto sobre o verdadeiro significado em cada caso, mas se esse efeito não fosse tão grande, essa regra geral proporcionaria uma maneira fácil para as pessoas usarem o software legado existente, por isso seria desejável tente identificar uma regra como essa para usuários em tal situação.]
---
Edit: Note to self - Precisa voltar e preencher os detalhes do trabalho em testes de 'sobreposição de amostras', especialmente sobreposição de amostras testes t
---
Ocorre-me que um teste de randomização deve funcionar bem -
onde os dados estão emparelhados, você permite aleatoriamente os rótulos dos grupos em pares
onde os dados não estão emparelhados, mas supõe-se que tenham distribuição comum (sob o nulo), você permite as atribuições de grupo
agora você pode basear os pesos nas estimativas de dois turnos com base nas estimativas de variação relativa ( ), calcular a estimativa ponderada de deslocamento de cada amostra aleatória e ver onde a amostra se encaixa distribuição aleatória.w1=1/(1+v1v2)
(Adicionado muito mais tarde)
Artigo possivelmente relevante:
Derrick, B., Russ B., Toher, D. e White, P. (2017),
"Estatísticas de teste para comparação de médias para duas amostras que incluem observações emparelhadas e independentes"
Journal of Modern Applied Statistical Methods , maio , Vol. 16, No. 1, 137-157.
doi: 10.22237 / jmasm / 1493597280
http://digitalcommons.wayne.edu/cgi/viewcontent.cgi?article=2251&context=jmasm
fonte
Aqui estão alguns pensamentos. Basicamente, chego à conclusão de Greg Snow de que esse problema tem semelhanças distintas com o problema de Behrens-Fisher . Para evitar a ondulação manual, introduzo primeiro algumas anotações e formalizo as hipóteses.
cada observação é a soma do efeito do paciente e do efeito do tratamento. As variáveis aleatórias correspondentes são
com e ( ).Pi,Qi,Ri∼N(0,σ2P) Tτi,Uτi,Vτi∼N(μτ,σ2) τ=A,B
Formamos como de costume uma nova variável . Temos .Xi=XpAi−XpBi Xi∼N(μA−μB,2σ2)
Agora temos três grupos de observações, o (tamanho ), o (tamanho ) e o (tamanho ). Os meios sãoXi n XAi nA XBi nB
O próximo passo natural é considerar
Agora, basicamente, estamos presos. As três somas de quadrados fornecem estimativas de com df, com df e df, respectivamente. Os dois últimos podem ser combinados para fornecer uma estimativa de com df. A variação de é a soma de dois termos, cada um dos quais pode ser estimado, mas a recombinação não é factível, assim como no problema de Behrens Fisher. n - 1 σ 2 P + σ 2 n A - 1 n B - 1 ( 1σ2 n−1 σ2P+σ2 nA−1 nB−1 nA+nB-2Y(1nA+1nB)(σ2P+σ2) nA+nB−2 Y
Neste ponto, acho que se pode conectar qualquer solução proposta ao problema de Behrens Fisher para obter uma solução para o seu problema.
fonte
Meu primeiro pensamento foi um modelo de efeitos mistos, mas isso já foi discutido, então não vou dizer mais nada sobre isso.
Meu outro pensamento é que, se fosse teoricamente possível que você pudesse medir dados emparelhados em todos os assuntos, mas devido a custos, erros ou outro motivo para não possuir todos os pares, seria possível tratar o efeito não medido para os indivíduos não emparelhados como dados perdidos e usar ferramentas como o algoritmo EM ou Imputação Múltipla (a falta aleatória parece razoável, a menos que a razão pela qual um sujeito tenha sido medido apenas em 1 tratamento esteja relacionada ao que seria seu resultado no outro tratamento).
Pode ser ainda mais simples ajustar apenas uma normal bivariada aos dados usando a probabilidade máxima (com a probabilidade fatorada com base nos dados disponíveis por sujeito), em seguida, faça um teste de razão de probabilidade comparando a distribuição com as médias iguais e diferentes.
Já faz muito tempo desde as minhas aulas teóricas, então não sei como elas se comparam à otimalidade.
fonte
talvez modelagem mista com paciente como efeito aleatório possa ser uma maneira. Com a modelagem mista, a estrutura de correlação no caso emparelhado e as perdas parciais no caso não emparelhado poderiam ser contabilizadas.
fonte
gls
função nonlme4
pacote.Um dos métodos propostos em Hani M. Samawi e Robert Vogel (Journal of Applied Statistics, 2013) consiste em uma combinação ponderada de escores T de amostras independentes e dependentes, de forma que o novo escore T seja igual a
fonte