Preciso de ajuda para explicar e citar textos estatísticos básicos, documentos ou outras referências, por que geralmente é incorreto usar a estatística da margem de erro (MOE) relatada nas pesquisas para declarar ingenuamente um empate estatístico.
Um exemplo: o candidato A lidera o candidato B em uma pesquisa, %, margem de erro de para eleitores pesquisados.
Meu amigo raciocina assim:
Devido às complexidades da modelagem estatística, a margem de erro significa que o verdadeiro suporte de A pode ser tão baixo quanto 34,5 por cento e B pode ser tão alto quanto 35,5 por cento. Portanto, A e B estão realmente em um empate estatístico.
Toda ajuda apreciada em articular claramente a falha do raciocínio de meu amigo. Tentei explicar que é incorreto rejeitar ingenuamente a hipótese "A leva B" se .
Respostas:
Minha primeira tentativa de resposta foi falha (veja a resposta abaixo). A razão pela qual é falho é que a margem de erro (MOE) relatada se aplica à porcentagem de pesquisa de um candidato, mas não à diferença das porcentagens. Minha segunda tentativa aborda explicitamente um pouco melhor a questão colocada pelo OP.
Segunda tentativa
O amigo do OP raciocina da seguinte maneira:
O principal problema aqui é que o primeiro passo é inválido. Construir intervalos de confiança de forma independente para os dois candidatos não é uma etapa válida, porque as porcentagens de pesquisa dos dois candidatos são variáveis aleatórias dependentes. Em outras palavras, um eleitor que decide não votar em A pode potencialmente decidir votar em B. Portanto, a maneira correta de avaliar se o lead é significativo ou não é construir um intervalo de confiança para a diferença. Consulte o wiki sobre como calcular o erro padrão para a diferença de porcentagens de pesquisa sob algumas suposições.
Resposta defeituosa abaixo
Na minha opinião, a maneira 'correta' de pensar no resultado da pesquisa é a seguinte:
Se você acredita que 'A leva B' ou 'A empata B', então depende da medida em que você deseja aceitar 5% como critério de corte.
fonte
É mais fácil explicar em termos de desvios padrão, em vez de intervalos de confiança.
A conclusão do seu amigo está basicamente correta no modelo mais simples, onde você tem uma amostragem aleatória simples e dois candidatos. Agora, as proporções da amostra satisfazem modo que . Assim, e, portanto, O que torna possível esse relacionamento simples é que e estão perfeitamente correlacionados negativamente, porque em geralpUMA+ pB= 1 pB= 1 - pUMA
Fora deste modelo simples , se não for válido em geral, você deverá levar em consideração a correlação entre e que não está incluída na margem de erro. É possível para .pUMA+ pB= 1 pUMA pB SD ( pUMA- pB) ≪ 2 SD ( pUMA)
Mas toda essa nuance parece indicar que as organizações de votação devem relatar a margem de erro sobre a diferença. Onde está Nate Silver?
fonte
Não é apenas uma maneira ruim de descrever as coisas, mas também não é um empate estatístico.
Você não usa intervalos de confiança sobrepostos dessa maneira. Se você realmente quisesse dizer apenas que o candidato A ia vencer, o candidato A está definitivamente na liderança. A liderança é de 8% MOE 6,4%. O intervalo de confiança dessa pontuação de subtração não é o dobro do intervalo de confiança das pontuações individuais. O que está implícito ao reivindicar a sobreposição de ICs (± MOE) em torno de cada estimativa é um empate. Assumindo N e variância iguais, o MOE da diferença é sqrt (2) vezes 4.5. Isso porque encontrar a diferença entre os valores apenas dobraria a variação (DP ao quadrado). O intervalo de confiança é baseado em um sqrt da variação, portanto, combiná-los é a média (4,5) * sqrt (2). Como o MOE da sua liderança de 8% é de aproximadamente 6,4%, o candidato A está na liderança.
Como um aparte, os MOE são muito conservadores e baseiam-se no valor de 50% da escolha. A fórmula é sqrt (0,25 / n) * 2. Existe uma fórmula para calcular erros padrão das pontuações de diferenças que também poderíamos usar. Nós aplicaríamos isso usando os valores encontrados em vez do ponto de corte de 50% e isso ainda nos dá uma vantagem significativa para o Candidato A (7,5% MOE). Acredito que, dado o comentário dos questionadores e a proximidade desse ponto de corte com o hipotético selecionado, provavelmente era isso que eles estavam procurando.
Qualquer introdução aos intervalos de confiança e ao poder seria útil aqui. Até o artigo da wikipedia no MOE parece muito bom.
fonte