Introdução
Eu tenho uma tabela de contingência categórica com muitas linhas e um resultado binário, que conto:
name outcome1 outcome2
---- -------- --------
A 14 5
B 17 2
C 6 5
D 11 8
E 18 14
Tudo bem, porque as duas categorias (nome e resultado) são independentes uma da outra, ou seja , a pessoa A não pode ser a pessoa B ao mesmo tempo e o resultado1 não ocorre ao mesmo tempo que o resultado2.
Adicionando problemas
No entanto, agora quero enriquecer meu conjunto de dados atribuindo classes aos agentes. As aulas não são exclusivas e algumas podem até depender umas das outras. Para o exemplo acima, com quatro classes C x :
name C1 C2 C3 C4
---- --- --- --- ---
A 0 0 1 1
B 1 0 1 0
C 1 1 0 1
D 1 1 0 0
E 1 1 1 0
Agora, quero descobrir se existe uma dependência de uma classe no resultado do experimento.
Solução possível (ingênua)
Minha ideia era inicialmente agregar com base na classe e depois executar os testes de independência, para que a tabela ficasse assim:
class outcome1 outcome2
------ -------- --------
C3 49 21
not_C3 17 13
No entanto, ocorreu-me que ocultei a influência das outras classes com esse método, porque me isolo com base na classe, o que pode me dar maus resultados se algumas das classes dependem fortemente uma da outra.
Além disso, meu conjunto de dados real contém cerca de 200 agentes e 30 categorias, portanto, meu método daria muitos resultados que agora eu sei interpretar.
A questão
Com isso em mente, dirijo-me a você: Que método estatístico é aplicável para testar a (in) dependência de um conjunto de dados com uma variável categórica não exclusiva e uma variável categórica binária?
Eu gostaria de obter algum resultado na linha de "Categoria 1 é o preditor mais forte para o resultado ( p <0,01). Ele também se correlaciona com a Categoria 2."
Soluções usando Python ou R são bem-vindas, mas não preciso de código. Eu preciso saber qual método é aplicável.
fonte
Respostas:
Sugiro fazer regressão de Poisson separadamente no resultado1 e resultado2 (variáveis de resposta) com classe1, classe2, classe3 ou classe4 como variáveis explicativas.
Você diz que as classes não são exclusivas, mas isso não é um problema se você levar em consideração a interação entre as classes. Você pode ler mais sobre interação na seguinte postagem: Especificação e interpretação de termos de interação usando glm ()
Como lidar com a dependência entre as classes (em termos de regressão de poisson), não vejo saída. Você pode medir o significado da associação com um teste do qui-quadrado e a força da associação com o V de Cramer . Se isso responder à sua pergunta, eu não sei.
fonte