Como expressar células de uma tabela 2x2 em termos de coeficiente phi e probabilidades marginais

8

Considere uma tabela típica de frequências 2x2 (mostrada nesta imagem): Notação: A variável da linha é denotada R e assume os valores 0 ou 1; a variável da coluna é denominada C e assume os valores 0 ou 1. As células da tabela indicam a frequência de cada combinação de R e C; por exemplo, é a frequência de R = 0 e C = 1. Para os propósitos da minha pergunta, suponha que as contagens de células sejam divididas pelo total, de modo que os valores das células sejam as probabilidades conjuntas das células .
mesa dois por dois
b

Quero expressar as probabilidades das células em termos do coeficiente phi (que é uma medida de correlação com a fórmula fornecida abaixo) e as probabilidades marginais: e . Ou seja, desejo inverter o seguinte sistema de quatro equações: e, é claro, . Em outras palavras, eu gostaria de resolver para , , , e , em termos deμRp(R=1)=c+dμCp(C=1)=b+d

(by defn)ϕ(adbc)/(a+b)(c+d)(a+c)(b+d)(by defn)μR=c+d(by defn)μC=b+d(constraint)1=a+b+c+d
0a,b,c,d1abcdϕ , e .μRμC

Esse problema provavelmente já foi resolvido por alguém antes, mas minhas pesquisas não forneceram uma fonte e minhas fracas tentativas de álgebra não produziram uma resposta, e não consigo encontrar inversores on-line de sistema de equação (não linear) que lidam com este caso. .

John K. Kruschke
fonte

Respostas:

4

Reconhecemos facilmente todos os fatores no denominador de , porque e . Portanto, vamos começar com uma pequena simplificação para evitar escrever muitas raízes quadradas:ϕa+b=1μRa+c=1μC

Δ=adbc=ϕμR(1μR)μC(1μC).

Vamos encontrar :d

d=(1)d=(a+b+c+d)d=ad+bd+cd+d2=ad+(bc+bc)+bd+cd+d2=(adbc)+(c+d)(b+d)=Δ+μRμC.

A localização de , e ocorre da mesma forma devido às simetrias do problema: trocar as colunas alterna e , e , enquanto altera para e , de onde abcabcdμC1μCΔ

c=Δ+μR(1μC).

A permuta entre as permutas fileiras e , e , enquanto mudando a e negação , dondeacbdμR1μRΔ

b=Δ+(1μR)μC.

Trocar linhas e colunas gera

a=Δ+(1μR)(1μC).

Dadas essas expressões para , é simples verificar se e , e apenas um pouco mais difícil de verifique se .a,b,c,da+b+c+d=1,c+d=μR,b+d=μCadbc=Δ

whuber
fonte
Uma observação para outras pessoas que possam usar esta resposta (correta!): Pode gerar valores de a, b, c ou d negativos. Em outras palavras, nem todas as combinações de phi em [-1,1], mu_R em [0,1] e mu_C em [0,1] podem ser criadas por matrizes de probabilidade. Para whuber: Obrigado!
John K. Kruschke
Está correto, John, mas não mencionei esse fato porque, presumivelmente, , e foram obtidos de uma tabela válida em primeiro lugar. Assumindo que e são frequências válidas (no intervalo ), será real. Ele deve estar no intervaloμRμCϕμRμC[0,1]Δ
[min(μRμC,(1μR)(1μC)), min(μR(1μC),(1μR)μC)].
whuber