O quadrado do chi pode ser usado para comparar proporções?

13

Li que o teste do qui quadrado é útil para verificar se uma amostra é significativamente diferente de um conjunto de valores esperados.

Por exemplo, aqui está uma tabela de resultados de uma pesquisa sobre as cores favoritas das pessoas (n = 15 + 13 + 10 + 17 = 55 total de participantes):

red,blue,green,yellow

15,13,10,17

Um teste do qui-quadrado pode me dizer se essa amostra é significativamente diferente da hipótese nula de probabilidade igual de pessoas gostando de cada cor.

Pergunta: O teste pode ser executado nas proporções do total de participantes que gostam de uma determinada cor? Como abaixo:

red,blue,green,yellow

0.273,0.236,0.182,0.309

Onde, é claro, 0,273 + 0,236 + 0,182 + 0,309 = 1.

Se o teste do qui quadrado não for adequado nesse caso, qual seria o teste? Obrigado!

Edit: Tentei a resposta do @Roman Luštrik abaixo e obtive a seguinte saída: por que não estou recebendo um valor-p e por que R diz "a aproximação do qui-quadrado pode estar incorreta"?

> chisq.test(c(0,0,0,8,6,2,0,0),p = c(0.406197174,0.088746395,0.025193306,0.42041479,0.03192905,0.018328576,0.009190708,0))

    Chi-squared test for given probabilities

data:  c(0, 0, 0, 8, 6, 2, 0, 0) 
X-squared = NaN, df = 7, p-value = NA

Warning message:
In chisq.test(c(0, 0, 0, 8, 6, 2, 0, 0), p = c(0.406197174, 0.088746395,  :
  Chi-squared approximation may be incorrect

chi-squared hypothesis-testing proportion hpy
fonte

1

No segundo caso, você está assumindo que conhece o tamanho total da amostra? Ou não?

cardeal

@ cardinal: sim, eu sei o tamanho total da amostra.

Hpy

3

basta multiplicar as proporções pelo tamanho total da amostra para transformar em uma tabela de contagens e aplicar o chi-sq. método correspondente ao seu primeiro exemplo.

Aaron

Eu suspeito que você esteja perguntando sobre o teste de "qualidade do ajuste" (usando o quadrado do chi). O uso do que foi explicado abaixo. Cheers, Tal

Tal Galili

7

Corrija-me se estiver errado, mas acho que isso pode ser feito em R usando este comando

> chisq.test(c(15,13,10,17))

    Chi-squared test for given probabilities

data:  c(15, 13, 10, 17) 
X-squared = 1.9455, df = 3, p-value = 0.5838

Isso assume proporções de 1/4 cada. Você pode modificar os valores esperados via argumento p. Por exemplo, você acha que as pessoas podem preferir (por qualquer motivo) uma cor a outra (s).

> chisq.test(c(15,13,10,17), p = c(0.5, 0.3, 0.1, 0.1))

    Chi-squared test for given probabilities

data:  c(15, 13, 10, 17) 
X-squared = 34.1515, df = 3, p-value = 1.841e-07

Roman Luštrik
fonte

2

Eu suspeito que você esteja vendo isso devido a algumas contagens baixas de células (alguns livros que li sugerem um mínimo de 5 por célula). Talvez alguém com mais conhecimento sobre o assunto possa entrar em contato?

Roman Luštrik

1

Observe também que você pode obter um valor p se tornar a última de sua probabilidade maior que zero (mas o aviso ainda permanece).

Roman Luštrik

1

Ott & Longnecker (Uma introdução aos métodos estatísticos e análise de dados, 5ª edição) afirmam, na página 504, que cada célula deve ter pelo menos cinco, para usar a aproximação confortavelmente.

Roman Luštrik

1

@penyuan: Você deveria ter mencionado que tem zero contagens. Roman está certo, usar um qui-quadrado nesse caso simplesmente não funciona pelas razões que ele mencionou.

Joris Meys

1

@penyuan: Adicionei uma resposta, dando-lhe algumas opções.

Joris Meys

6

Usando as informações extras que você forneceu (sendo que alguns dos valores são 0), é bastante óbvio por que sua solução não retorna nada. Por um lado, você tem uma probabilidade que é 0, então:

na solução de Henry é 0, pelo menos um de i $e_i$
na solução de probabilística lógica é 0 para pelo menos um i $np_i$

O que torna as divisões impossíveis. Agora, dizer que significa que é impossível obter esse resultado. Nesse caso, você pode simplesmente apagá-lo dos dados (consulte o comentário de @cardinal). Se você quer dizer altamente improvável, uma primeira 'solução' pode ser aumentar essa chance 0 com um número muito pequeno. $p=0$

Dado:

X <- c(0,0,0,8,6,2,0,0)
p <- c(0.406197174,0.088746395,0.025193306,0.42041479,0.03192905,0.018328576,0.009190708,0)

Você poderia fazer :

> p2 <- p + 1e-6
> chisq.test(X,p2)

        Pearson's Chi-squared test

data:  X and p2 
X-squared = 24, df = 21, p-value = 0.2931

Mas este não é um resultado correto. De qualquer forma, deve-se evitar o teste do qui-quadrado nesses casos limítrofes. Uma abordagem melhor é usar uma abordagem de autoinicialização, calcular uma estatística de teste adaptada e comparar a da amostra com a distribuição obtida pela autoinicialização.

No código R, isso pode ser (passo a passo):

# The function to calculate the adapted statistic.
# We add 0.5 to the expected value to avoid dividing by 0
Statistic <- function(o,e){
    e <- e+0.5
    sum(((o-e)^2)/e)
}

# Set up the bootstraps, based on the multinomial distribution
n <- 10000
bootstraps <- rmultinom(n,size=sum(X),p=p)

# calculate the expected values
expected <- p*sum(X)

# calculate the statistic for the sample and the bootstrap
ChisqSamp <- Statistic(X,expected)
ChisqDist <- apply(bootstraps,2,Statistic,expected)

# calculate the p-value
p.value <- sum(ChisqSamp < sort(ChisqDist))/n
p.value

Isso fornece um valor p de 0, que está muito mais alinhado com a diferença entre o observado e o esperado. Lembre-se, este método assume que seus dados são extraídos de uma distribuição multinomial. Se essa suposição não se confirmar, o valor p também não se aplica.

Joris Meys
fonte

1

Você pode reconsiderar sua primeira declaração, que não acredito estar correta. Se

para algum

e as contagens observadas são zero (o que eles melhor que seja), então isso só reduz a um submodelo. O efeito é que o número de graus de liberdade é reduzida por um para cada

tal que

. Por exemplo, considerar o teste de uniformidade de um dado de seis lados (isto é

para

). Mas, suponha que (estranhamente) decidamos registrar o número de vezes que os números

p_{i} = 0

$p_i = 0$

i

$i$

i

$i$

p_{i} = 0

$p_i = 0$

p_{i} = 1 / 6

$p_i = 1/6$

i \leq 6

$i \leq 6$

aparecem. Então, o teste do qui-quadrado ainda é válido; apenas somamos os seis primeiros valores.

1, \dots, 10

$1,\ldots,10$

cardinal

@ cardinal: Acabei de descrever os dados, onde o valor esperado é 0, mas o observado não precisa ser. É o que o OP nos deu (embora, pensando bem, realmente pareça irrealista). Portanto, adicionar um pouco ao valor p para torná-lo altamente improvável em vez de impossível ajudará, mas mesmo assim o qui-quadrado é neste caso inválido devido à grande quantidade de células da tabela com contagens menores que 5 (como demonstrado pelo código). Eu adicionei a consideração na minha resposta, thx para o ponteiro.

Joris Meys

sim, eu diria que se

, mas você observar uma contagem para essa célula, então você tem problemas mais sérios em suas mãos, de qualquer maneira. :)

p_{i} = 0

$p_i = 0$

cardeal

4

O teste do qui-quadrado é bom desde que as contagens esperadas sejam grandes, geralmente acima de 10 é bom. abaixo disso o parte tende a dominar o teste. Uma estatística exata do teste é fornecida por: $\frac{1}{E(x_{i})}$

ψ = \sum_{i} x_{i} \log (\frac{x_{i}}{n p_{i}})

$\psi=\sum_{i}x_{i}\log\left(\frac{x_{i}}{np_{i}}\right)$

$x_{i}$ $i$ $i\in \{\text{red, blue, green, yellow}\}$ $n$ $55$ $p_i$ $p_i=p_j$

χ^{2} = \sum_{i} \frac{(x_{i} - n p_{i})^{2}}{n p_{i}} \approx 2 ψ

$\chi^{2}=\sum_{i}\frac{(x_{i}-np_{i})^{2}}{np_{i}}\approx 2\psi$

$f_{i}=\frac{x_{i}}{n}$

ψ = n \sum_{i} f_{i} \log (\frac{f_{i}}{p_{i}})

$\psi=n\sum_{i}f_{i}\log\left(\frac{f_{i}}{p_{i}}\right)$

χ^{2} = n \sum_{i} \frac{(f_{i} - p_{i})^{2}}{p_{i}}

$\chi^{2}=n\sum_{i}\frac{(f_{i}-p_{i})^{2}}{p_{i}}$

$\psi$ $\psi$ $p_{i}$ $\frac{1}{p_{i}}$ $\psi$

$H_{1}$ $H_{2}$ $p_i$ $\psi_{1}$ $\psi_{2}$ $\exp\left(\psi_{1}-\psi_{2}\right)$ $H_{2}$ $H_{1}$ $\exp\left(\frac{1}{2}\chi_{1}^{2}-\frac{1}{2}\chi_{2}^{2}\right)$

$H_{2}$ $\psi_{2}=\chi^{2}_{2}=0$

$\chi_{2}^{2}$ $np_{i}<10$ $\psi$

probabilityislogic
fonte

1

Tenho certeza que os esperados frequências não pode ser maior do que 10. :)

cardeal

@ cardinal - que bom que essa foi sua objeção - pois significa que o restante da minha resposta deve ter sido bom :).

probabilityislogic

Uau, espero não ter uma reputação de ser tão exigente / mal-humorado.

cardeal

1

ψ

$\psi$

2 ψ

$2 \psi$

χ^{2}

$\chi^2$

χ^{2} - 2 ψ \to 0

$\chi^2 - 2 \psi \to 0$

χ^{2}

$\chi^2$

2 ψ

$2\psi$

χ^{2}

$\chi^2$

cardeal

χ^{2}

$\chi^2$

2 ψ

$2 \psi$

3

Sim, você pode testar a hipótese nula: "H0: suporte (vermelho) = suporte (azul) = suporte (verde) = suporte (amarelo) = 1/4" usando um teste do qui quadrado que compara as proporções da pesquisa (0,273 , ...) para as proporções esperadas (1/4, 1/4, 1/4, 1/4)

fonte

Só para confirmar, ele também funcionará com proporções esperadas desiguais entre si?

Hpy

4

o teste não será significativo a menos que você saiba o tamanho total da amostra. As proporções de 1.0 / 0.0 / 0.0 / 0.0 médios coisas muito diferentes, se eles são de uma amostra de tamanho 1, em oposição uma amostra de tamanho 100.

Aaron

Sim, eu sei o tamanho total da amostra.

Hpy

2

A estatística do teste do qui-quadrado de Pearson é

\sum_{i = 1}^{n} \frac{(O_{i} - E_{i})^{2}}{E_{i}}

$\sum_{i=1}^{n} \frac{(O_i - E_i)^2}{E_i}$

$o_i = \dfrac{O_i}{n}$ $e_i = \dfrac{E_i}{n}$ $n=\sum_{i=1}^{n} O_i$ $\sum_{i=1}^{n} e_i =1$

n \sum_{i = 1}^{n} \frac{(o_{i} - e_{i})^{2}}{e_{i}}

$n \sum_{i=1}^{n} \frac{(o_i - e_i)^2}{e_i}$

so a test of the significance of the observed proportions depends on the sample size, much as one would expect.

Henry
fonte

O quadrado do chi pode ser usado para comparar proporções?

Respostas: