Como faço para testar a independência com variáveis ​​categóricas não exclusivas?

8

Introdução

Eu tenho uma tabela de contingência categórica com muitas linhas e um resultado binário, que conto:

name  outcome1  outcome2
----  --------  --------
A     14        5       
B     17        2       
C     6         5       
D     11        8       
E     18        14

Tudo bem, porque as duas categorias (nome e resultado) são independentes uma da outra, ou seja , a pessoa A não pode ser a pessoa B ao mesmo tempo e o resultado1 não ocorre ao mesmo tempo que o resultado2.

Adicionando problemas

No entanto, agora quero enriquecer meu conjunto de dados atribuindo classes aos agentes. As aulas não são exclusivas e algumas podem até depender umas das outras. Para o exemplo acima, com quatro classes C x :

name  C1   C2   C3   C4 
----  ---  ---  ---  ---
A     0    0    1    1  
B     1    0    1    0  
C     1    1    0    1  
D     1    1    0    0  
E     1    1    1    0

Agora, quero descobrir se existe uma dependência de uma classe no resultado do experimento.

Solução possível (ingênua)

Minha ideia era inicialmente agregar com base na classe e depois executar os testes de independência, para que a tabela ficasse assim:

class   outcome1  outcome2
------  --------  --------
C3      49        21
not_C3  17        13

No entanto, ocorreu-me que ocultei a influência das outras classes com esse método, porque me isolo com base na classe, o que pode me dar maus resultados se algumas das classes dependem fortemente uma da outra.

Além disso, meu conjunto de dados real contém cerca de 200 agentes e 30 categorias, portanto, meu método daria muitos resultados que agora eu sei interpretar.

A questão

Com isso em mente, dirijo-me a você: Que método estatístico é aplicável para testar a (in) dependência de um conjunto de dados com uma variável categórica não exclusiva e uma variável categórica binária?

Eu gostaria de obter algum resultado na linha de "Categoria 1 é o preditor mais forte para o resultado ( p <0,01). Ele também se correlaciona com a Categoria 2."

Soluções usando Python ou R são bem-vindas, mas não preciso de código. Eu preciso saber qual método é aplicável.

tschoppi
fonte
resultado1 e resultado2 também são independentes? Você diz apenas que eles não acontecem ao mesmo tempo. Eu imagino que você poderia fazer regressão de Poisson aqui, se você quiser medir a dependência de várias variáveis ​​no resultado. Mas isso pode ser um problema se suas variáveis ​​explicativas forem muito dependentes.
Erosennin
Sim, resultado1 e resultado2 são independentes.
tschoppi
Se "resultado1 não ocorre ao mesmo tempo que resultado2", eles certamente não são independentes. Ajudaria a explicar o contexto - exatamente que observações você está fazendo para cada pessoa?
Scortchi - Restabelece Monica
@ Scortchi Você poderia elaborar essa declaração de independência? Eles não poderiam ser independentes porque ocorrem ao mesmo tempo?
Erosennin
@tschoppi você escreve: "Agora, quero atribuir classes (manualmente) a essas pessoas e testar se a saída depende de uma das classes. Meu problema é que as classes, embora não necessariamente dependentes uma da outra, são não exclusivo. As classes podem, no entanto, depender umas das outras. " O fato de serem exclusivos, você pode resolver fazendo com que eles interajam ao especificar a regressão de Poisson. Se eu não estou completamente fora rastrear aqui incompreensão seus dados e pergunta
Erosennin

Respostas:

0

Sugiro fazer regressão de Poisson separadamente no resultado1 e resultado2 (variáveis ​​de resposta) com classe1, classe2, classe3 ou classe4 como variáveis ​​explicativas.

Você diz que as classes não são exclusivas, mas isso não é um problema se você levar em consideração a interação entre as classes. Você pode ler mais sobre interação na seguinte postagem: Especificação e interpretação de termos de interação usando glm ()

Como lidar com a dependência entre as classes (em termos de regressão de poisson), não vejo saída. Você pode medir o significado da associação com um teste do qui-quadrado e a força da associação com o V de Cramer . Se isso responder à sua pergunta, eu não sei.

Erosennin
fonte
Suspeito que (1) o interesse possa se concentrar nas contagens do resultado 1 em relação ao resultado 2 e (2) ignorar o nível de pessoa / agente pode ser imprudente.
Scortchi - Restabelece Monica
Não (1) será respondido com uma comparação dos coeficientes (resultado da regressão) resultado1 e resultado2?
Erosennin
(1) sim; mas exatamente como compará-los parece ser uma parte importante da questão. (Uma abordagem conveniente seria tratar 'tipo de resultado' como um preditor de 'contagem' e incluir todas as suas interações com variáveis ​​'classe'. Você teria um modelo maior que englobasse suas duas regressões separadas - é um modelo log-linear para uma tabela de contingência multidimensional - mas com as diferenças entre eles facilmente parametrizadas. Alguns podem ir além e transformá-lo em um modelo de regressão logística, condicionando o que eles consideram parâmetros de incômodo.)
Scortchi - Reinstate Monica
(2) O segundo ponto é mais importante. Tom e Dick fumam 20 e 35 cigarros por uma semana; Harry & Pete, em alguns novos tratamentos antitabagistas, 30 e 280. Avaliamos a eficácia do tratamento comparando o total não. cigarros fumados por pessoas que não o usam, 55, no total não. fumado por pessoas que usam, 310?
Scortchi - Restabelece Monica
1
(1) Consulte Que teste posso usar para comparar inclinações de dois ou mais modelos de regressão? para a idéia geral de "um grande modelo" e, em seguida , regressão Log-linear vs. regressão logística e Germán Rodríguez em modelos log-lineares . (2) Uma comparação emparelhada do antes e depois seria útil, mas não pretendi sugerir que, pelo meu exemplo (desculpe) - um modelo hierárquico.
Scortchi - Restabelecer Monica