teste t para dados parcialmente emparelhados e parcialmente não emparelhados

28

Um investigador deseja produzir uma análise combinada de vários conjuntos de dados. Em alguns conjuntos de dados, existem observações emparelhadas para o tratamento A e B. Em outros, existem dados A e / ou B não emparelhados. Estou procurando uma referência para uma adaptação do teste t, ou para um teste de razão de verossimilhança, para esses dados parcialmente emparelhados. Estou disposto (por enquanto) a assumir a normalidade com igual variação e que as médias populacionais para A são as mesmas para cada estudo (e da mesma forma para B).

Frank Harrell
fonte
2
Oi Frank. Talvez seja útil tornar as suposições de modelagem mais explícitas. Normalmente, quando penso em projetos emparelhados, penso em um dos seguintes: (i) tentando remover efeitos fixos não observáveis ​​em nível de unidade; (ii) reduzindo a variabilidade de um efeito aleatório entre unidades experimentais; ou (iii) ajustando a não normalidade da resposta tomando diferenças entre os pares, obtendo assim uma melhor aproximação. Em particular, não vejo imediatamente nenhum benefício em pares combinados se a suposição sob o nulo é que as observações são todas normais.
cardeal
4
Cardeal, também tenho muitos dados parecidos com esse. Estávamos tentando coletar dados totalmente emparelhados, mas devido a problemas técnicos ou má sorte, algumas medidas de amostras em A ou B às vezes são estragadas. As duas soluções óbvias - mas insatisfatórias - são: 1) jogar fora todos os pares incompletos e fazer um teste t emparelhado; ou 2) ignorar o emparelhamento e fazer um teste t não pareado em todos os dados. Acho que o pôster está pedindo uma maneira de alavancar o emparelhamento onde ele existe (pelo seu motivo 1 e 2), enquanto recupera o que pode dos outros pontos de dados não pareados.
Matt Krause
2
Eu aprecio todos os comentários. Para os pares pareados, os indivíduos foram testados sob A e B. Uma maneira de alavancar o emparelhamento é usar o intervalo de confiança de percentil não paramétrico de autoinstrução para a diferença entre as médias em A e B. Isso envolveria o uso da autoinstrução de cluster, amostragem com substituição de assuntos. Um sujeito que não possui dados emparelhados teria uma observação mantida ou excluída em uma nova amostra e os dados emparelhados teriam dois registros mantidos ou excluídos. Isso parece respeitar o emparelhamento, mas uma estimativa precisa ser definida e não sabemos sobre otimização.
Frank #: 31512
1
A abordagem bayesiana é fácil de implementar.
Stéphane Laurent
2
Hani M. Samawi e Robert Vogel, Jornal de Estatística Aplicada (2013): notas sobre dois testes de amostra para dados parcialmente correlacionados (emparelhados), dx.doi.org/10.1080/02664763.2013.830285
Suresh:

Respostas:

8

Bem, se você conhecesse as variações no par e no par (o que geralmente seria bem menor), os pesos ideais para as duas estimativas de diferença nos grupos significariam ter pesos inversamente proporcionais à variação do indivíduo estimativas da diferença de médias.

[Editar: acontece que, quando as variações são estimadas, isso é chamado de estimador de Graybill-Deal. Existem alguns artigos sobre isso. Aqui está um]

A necessidade de estimar a variação causa alguma dificuldade (a proporção resultante da estimativa de variação é F, e acho que os pesos resultantes têm uma distribuição beta, e uma estatística resultante é meio complicada), mas como você está considerando o bootstrap, isso pode ser menos de uma preocupação.

Uma possibilidade alternativa que pode ser melhor em algum sentido (ou pelo menos um pouco mais robusta à não normalidade, já que estamos brincando com taxas de variação) com muito pouca perda de eficiência no normal é basear uma estimativa combinada de desvio testes de classificação pareados e não emparelhados - em cada caso, uma espécie de estimativa de Hodges-Lehmann, no caso não emparelhado com base em medianas de diferenças de amostras cruzadas em pares e no caso pareado em medianas de médias de diferenças de pares em pares. Novamente, a combinação linear ponderada pela variância mínima dos dois seria com pesos proporcionais aos inversos das variâncias. Nesse caso, eu provavelmente me inclinaria para uma permutação (/ randomização) em vez de um bootstrap - mas dependendo de como você implementa seu bootstrap, eles podem acabar no mesmo lugar.

Em qualquer um dos casos, convém robustecer suas variações / diminuir sua taxa de variação. Entrar no estádio certo para o peso é bom, mas você perderá muito pouca eficiência no normal, tornando-o levemente robusto. ---

Alguns pensamentos adicionais que eu não tinha esclarecido o suficiente na minha cabeça antes:

Esse problema tem semelhanças distintas com o problema de Behrens-Fisher, mas é ainda mais difícil.

Se fixássemos os pesos, poderíamos simplesmente bater em uma aproximação do tipo Welch-Satterthwaite; a estrutura do problema é a mesma.

Nosso problema é que queremos otimizar os pesos, o que efetivamente significa que a ponderação não é fixa - e, de fato, tende a maximizar a estatística (pelo menos aproximadamente e mais quase em grandes amostras, pois qualquer conjunto de pesos é uma quantidade aleatória que estima o mesmo numerador e estamos tentando minimizar o denominador; os dois não são independentes).

Suponho que isso pioraria a aproximação do qui-quadrado e quase certamente afetaria ainda mais o df de uma aproximação.

[Se esse problema for possível, também pode haver uma boa regra geral que diga 'você pode fazer o mesmo se usar apenas os dados emparelhados nesses conjuntos de circunstâncias, apenas os não emparelhados nesses outros conjuntos de condições e no resto, esse esquema de peso fixo geralmente é muito próximo do ideal '- mas não vou segurar a respiração esperando essa chance. Essa regra de decisão sem dúvida teria algum impacto sobre o verdadeiro significado em cada caso, mas se esse efeito não fosse tão grande, essa regra geral proporcionaria uma maneira fácil para as pessoas usarem o software legado existente, por isso seria desejável tente identificar uma regra como essa para usuários em tal situação.]

---

Edit: Note to self - Precisa voltar e preencher os detalhes do trabalho em testes de 'sobreposição de amostras', especialmente sobreposição de amostras testes t

---

Ocorre-me que um teste de randomização deve funcionar bem -

  • onde os dados estão emparelhados, você permite aleatoriamente os rótulos dos grupos em pares

  • onde os dados não estão emparelhados, mas supõe-se que tenham distribuição comum (sob o nulo), você permite as atribuições de grupo

  • agora você pode basear os pesos nas estimativas de dois turnos com base nas estimativas de variação relativa ( ), calcular a estimativa ponderada de deslocamento de cada amostra aleatória e ver onde a amostra se encaixa distribuição aleatória.w1=1/(1+v1v2)


(Adicionado muito mais tarde)

Artigo possivelmente relevante:

Derrick, B., Russ B., Toher, D. e White, P. (2017),
"Estatísticas de teste para comparação de médias para duas amostras que incluem observações emparelhadas e independentes"
Journal of Modern Applied Statistical Methods , maio , Vol. 16, No. 1, 137-157.
doi: 10.22237 / jmasm / 1493597280
http://digitalcommons.wayne.edu/cgi/viewcontent.cgi?article=2251&context=jmasm

Glen_b -Reinstate Monica
fonte
1
+1. Eu tenho uma pergunta sobre a última parte da sua resposta. Quais estimativas de variação (ou seja, quais pesos) você usaria no teste de permutação - as reais calculadas na amostra real ou você calcularia os pesos para cada permutação com base nos dados dessa permutação?
Ameba diz Reinstate Monica
@amoeba para considerar adequadamente a natureza do cálculo com base em amostra, você o baseará nessa permutação específica.
Glen_b -Reinstate Monica
@amoeba, devo comparar isso com outras abordagens do problema.
Glen_b -Reinstate Monica
1
A propósito, me deparei com esse tópico porque alguém me abordou com os seguintes dados: dois indivíduos com dados emparelhados e dois indivíduos com dados não emparelhados (ou seja, 3 medidas no grupo A, 3 medidas no grupo B, desses 6 valores 2+ 2 estão emparelhados e o restante não emparelhado). Nesse caso, não há dados suficientes para estimar a variação da estimativa de turno não emparelhado, então não pude sugerir nada além de ignorar o emparelhamento e fazer um teste não emparelhado ... Mas essa é, obviamente, uma situação bastante extrema.
Ameba diz Reinstate Monica
6

Aqui estão alguns pensamentos. Basicamente, chego à conclusão de Greg Snow de que esse problema tem semelhanças distintas com o problema de Behrens-Fisher . Para evitar a ondulação manual, introduzo primeiro algumas anotações e formalizo as hipóteses.

  • temos observações emparelhadas e ( );nxipAxipBi=1,,n
  • temos e observações não emparelhadas ( ) e ( );nAnBxiAi=1,,nAxiBi=1,,nB
  • cada observação é a soma do efeito do paciente e do efeito do tratamento. As variáveis ​​aleatórias correspondentes são

    • XipA=Pi+TiA , ,XipB=Pi+TiB
    • XiA=Qi+UiA , XiB=Ri+ViB

    com e ( ).Pi,Qi,RiN(0,σP2)Tiτ,Uiτ,ViτN(μτ,σ2)τ=A,B

    • sob a hipótese nula, .μA=μB

Formamos como de costume uma nova variável . Temos .Xi=XipAXipBXiN(μAμB,2σ2)

Agora temos três grupos de observações, o (tamanho ), o (tamanho ) e o (tamanho ). Os meios sãoXinXiAnAXiBnB

  • XN(μAμB,2nσ2)
  • XAN(μA,1nA(σP2+σ2))
  • XBN(μB,1nB(σP2+σ2))

O próximo passo natural é considerar

  • Y=X+XAXBN(2(μAμB),2nσ2+(1nA+1nB)(σP2+σ2))

Agora, basicamente, estamos presos. As três somas de quadrados fornecem estimativas de com df, com df e df, respectivamente. Os dois últimos podem ser combinados para fornecer uma estimativa de com df. A variação de é a soma de dois termos, cada um dos quais pode ser estimado, mas a recombinação não é factível, assim como no problema de Behrens Fisher. n - 1 σ 2 P + σ 2 n A - 1 n B - 1 ( 1σ2n1σP2+σ2nA1nB1nA+nB-2Y(1nA+1nB)(σP2+σ2)nA+nB2Y

Neste ponto, acho que se pode conectar qualquer solução proposta ao problema de Behrens Fisher para obter uma solução para o seu problema.

Elvis
fonte
1
Corrigi alguns erros de digitação em fórmulas. Por favor, verifique!
b Kjetil Halvorsen
5

Meu primeiro pensamento foi um modelo de efeitos mistos, mas isso já foi discutido, então não vou dizer mais nada sobre isso.

Meu outro pensamento é que, se fosse teoricamente possível que você pudesse medir dados emparelhados em todos os assuntos, mas devido a custos, erros ou outro motivo para não possuir todos os pares, seria possível tratar o efeito não medido para os indivíduos não emparelhados como dados perdidos e usar ferramentas como o algoritmo EM ou Imputação Múltipla (a falta aleatória parece razoável, a menos que a razão pela qual um sujeito tenha sido medido apenas em 1 tratamento esteja relacionada ao que seria seu resultado no outro tratamento).

Pode ser ainda mais simples ajustar apenas uma normal bivariada aos dados usando a probabilidade máxima (com a probabilidade fatorada com base nos dados disponíveis por sujeito), em seguida, faça um teste de razão de probabilidade comparando a distribuição com as médias iguais e diferentes.

Já faz muito tempo desde as minhas aulas teóricas, então não sei como elas se comparam à otimalidade.

Greg Snow
fonte
1
Obrigado Greg. Estou inclinado a adotar uma abordagem de máxima verossimilhança personalizada.
precisa
4

talvez modelagem mista com paciente como efeito aleatório possa ser uma maneira. Com a modelagem mista, a estrutura de correlação no caso emparelhado e as perdas parciais no caso não emparelhado poderiam ser contabilizadas.

psj
fonte
2
Como nenhum dos conjuntos de dados, quando analisados ​​individualmente, levaria um a usar efeitos aleatórios, não estou vendo por que efeitos aleatórios são úteis aqui. Mas pode ser possível usar mínimos quadrados generalizados para permitir que cada sujeito tenha sua própria estrutura de correlação. Observações não emparelhadas teriam correlação zero. Vale a pena pensar. Obrigado.
31712 Frank
sim, você está certo, os conjuntos de dados não exigiriam modelagem mista se usados ​​separadamente. Mas se você os anexar em um único conjunto de dados, poderá usar a abordagem para incorporar a correlação nos dados emparelhados e usar simultaneamente os dados não emparelhados, especificando uma correlação zero.
Psj # 07/12
1
Sim; o meu ponto foi que um modelo misto pode ser um exagero, como você pode facilmente especificar a estrutura de correlação variando no assunto usando mínimos quadrados generalizados (usando, por exemplo de R glsfunção no nlme4pacote.
Frank Harrell
3

Um dos métodos propostos em Hani M. Samawi e Robert Vogel (Journal of Applied Statistics, 2013) consiste em uma combinação ponderada de escores T de amostras independentes e dependentes, de forma que o novo escore T seja igual a

To=γ(μYμXSx2/nX+Sy2/nY)+(1γ)μDSD2/nD

Dγγ

bonobo
fonte
1
T0