Teste de independência vs teste de homogeneidade

10

Estou ministrando um curso básico de estatística e hoje cobrirei o teste do qui-quadrado de independência para duas categorias e o teste de homogeneidade. Esses dois cenários são conceitualmente diferentes, mas podem usar a mesma estatística e distribuição de teste. Em um teste de homogeneidade, presume-se que totais marginais para uma das categorias fazem parte do próprio design - eles representam o número de sujeitos selecionados para cada grupo experimental. Mas como o teste qui-quadrado gira em torno do condicionamento em todos os totais marginais, não há consequências matemáticas para distinguir entre testes de homogeneidade e testes de independência com dados categóricos - pelo menos nenhum quando esse teste é usado.

Minha pergunta é a seguinte: existe alguma escola de pensamento estatístico ou abordagem estatística que produza análises diferentes, dependendo se estamos testando a independência (onde todos os marginais são variáveis ​​aleatórias) ou um teste de homogeneidade (onde um conjunto de marginais é definido pelo design)?

No caso contínuo, diga onde observamos sobre o mesmo assunto e testamos a independência ou observamos (X_1, X_2) em diferentes populações e testamos se eles vêm da mesma distribuição, o método é diferente (correlação análise vs teste t). E se os dados categóricos vierem de variáveis ​​contínuas discretizadas? Os testes de independência e homogeneidade devem ser indistinguíveis?(X,Y)(X1,X2)

Placidia
fonte
2
Você pode fornecer uma fonte que distingue "teste de homogeneidade" e "teste de independência"? Eu costumava pensar que é o mesmo (e a Wikipedia também). É também chamado o qui-quadrado de teste de associação para a Tabela de contingência 2 vias ou as amostras independentes de K do qui-quadrado comparação de teste. Não deve ser confundido com o teste qui-quadrado de uma amostra , também conhecido como teste qui-quadrado de concordância . Nele, testamos as frequências observadas em relação às esperadas teóricas que fornecemos.
ttnphns
2
@ttnphns Parece ser endêmico. Estou usando "Expect the Unexpected", de Raluca Balan e Gilles Lamothe. No ano passado, lecionei no Business Statistics por Sharpe, De Veaux, et al. Ambos os textos fazem bastante distinção. Nos dois casos, temos uma tabela de contingência bidirecional. Escusado será dizer que nenhum dos livros didáticos pensa que vale a pena ensinar um tamanho de efeito para a tabela de contingência: outro caso em que a sutileza triunfa sobre a utilidade nos cursos básicos de estatística.
Placidia
2
A diferença deve aparecer se você tentar obter um intervalo de confiança para o tamanho do efeito.
precisa
2
Isso parece intrigante. Você se importa em adicionar alguns detalhes e fazer disso uma resposta?
Placidia
4
Depende se você deseja torturar os alunos pela distinção de margens condicionais / incondicionais. Caso contrário, você pode se concentrar apenas em explicar que "independência de duas variáveis ​​categóricas" é equivalente a "homogeneidade de distribuições condicionais" e depois apresentar o único . (I geralmente apresentá-lo juntamente com limites de confiança inferiores para a verdadeira de Cramer que mede a força de associação.)χ2V
Michael M

Respostas:

4

Você simplesmente precisa se perguntar: "Como escrevo a hipótese nula?". Considere uma tabela de contingência de frequências de algum comportamento (s / n) entre um número de grupos. Ao tratar o 1º grupo como referente, você tem razões de chances ( ) que descrevem a associação entre frequência e grupo.2×kkk1θi,i=1,2,,k1

Sob independência, como na homogeneidade, você assume que todas as razões de chances são 1. Ou seja, a probabilidade de responder "sim" à condição é igualmente provável, independentemente da atribuição do grupo. Se essas suposições falharem, pelo menos um grupo é diferente.

H0(homogeneity):i=1k1|θi|=0

H0(independence):i=1k1|θi|=0

E esse teste pode ser realizado com o teste do qui-quadrado de Pearson usando frequências observadas / esperadas, que é o teste de pontuação para o modelo de regressão logística que ajusta as variáveis ​​do indicador para a participação no grupo. Então, estruturalmente, podemos dizer que esses testes são os mesmos.k1

No entanto, surgem diferenças quando consideramos a natureza do fator de agrupamento. Nesse sentido, a aplicação contextual do teste, ou melhor, seu nome, é importante. Um grupo pode ser diretamente causal de um resultado, como a presença ou ausência de um gene ou alelo de um traço; nesse caso, quando rejeitamos o nulo, concluímos que o resultado depende do fator de agrupamento em questão.

Por outro lado, quando testamos a homogeneidade, nos exoneramos de fazer quaisquer suposições causais. Assim, quando o "grupo" é um construto sofisticado, como raça (que causa e é causado por determinantes genéticos, comportamentais e socioeconômicos), podemos tirar conclusões como "minorias étnico-raciais experimentam disparidades habitacionais, como evidenciado pela heterogeneidade no índice de privação de vizinhança" . Se alguém contestasse tal argumento dizendo: "bem, porque as minorias alcançam uma educação inferior, ganham menos renda e ganham menos emprego", você poderia dizer: "Eu não afirmei que a raça deles causou essas coisas, apenas que, se você olhar na corrida de alguém, você pode fazer previsões sobre sua condição de vida ".

Dessa forma, os testes de dependência são um caso especial de testes de homogeneidade, onde o possível efeito de fatores ocultos é de interesse e deve ser tratado em uma análise estratificada. O uso de ajustes multivariados no modelo de regressão logística análogo alcança tal coisa, e ainda podemos dizer que estamos realizando um teste de dependência, mas não necessariamente homogeneidade.

AdamO
fonte
3

Há uma clara diferença entre os dois problemas se você os modelar da maneira bayesiana. Em alguns trabalhos, o primeiro caso (homogeneidade) é chamado de amostragem com "uma margem fixa" e o segundo caso (independência) como "tabela total fixa". Veja, por exemplo, Casella et al. (JASA 2009) .
Estou trabalhando neste tópico, mas meu artigo - que também descreve essa distinção - ainda não foi publicado :)

Emanuele
fonte
2
Também existe uma clara diferença da perspectiva freqüentista - é que, assintoticamente, isso não importa, e argumentos costumam ser feitos para condicionar uma ou ambas as margens em qualquer caso.
Scortchi - Restabelecer Monica