Por que deve (?) A amostragem estatística funcionar para a política (por exemplo, Gallup)?

14

Pesquisas por aí (digamos, Gallup) mostram um número absurdamente baixo de pessoas em comparação com o tamanho da população (por exemplo, talvez mil pessoas entre centenas de milhões).

Agora, para mim, amostrar uma população como um meio de estimar as estatísticas da população faz sentido quando você tem um forte motivo para acreditar que as amostras são representativas da população (ou, de maneira semelhante, de outras amostras ) .

Por exemplo, a amostragem obviamente faz sentido para estudos médicos, porque sabemos a priori que todos os seres humanos têm genomas bastante semelhantes e que esse fator faz com que seus corpos se comportem de maneira semelhante.
Observe que isso não é algum tipo de acoplamento solto - o genoma é um fator determinante bastante forte .

No entanto, eu simplesmente não entendo o que justifica o uso de amostras baixas para coisas como pesquisas políticas.

Eu poderia comprar que talvez 80-90% das pessoas em qualquer bairro votem da mesma forma para o presidente (devido a contextos socioeconômicos / educacionais semelhantes), mas isso dificilmente parece justificar o número absurdamente baixo de amostras. Não há literalmente nenhuma razão convincente (pelo menos para mim) por que 1000 eleitores aleatórios devem se comportar como os 200 milhões de outros eleitores.

Para mim, você precisaria de pelo menos (digamos) 100 × esse valor. Por quê? Posso pensar em várias razões, por exemplo:

  1. Existem ~ 22.000 delegacias apenas na Califórnia . As pessoas crescem de maneira tão diferente em suas origens econômicas e educacionais que uma pesquisa de tamanho 1000 parece ridiculamente pequena. Como você pode resumir delegacias inteiras com <1 pessoa em média?

  2. As pessoas geralmente não podem mudar as respostas de seus corpos à medicina, mas podem mudar suas opiniões sobre política apenas pensando sobre isso. Do meu ponto de vista, não há fator forçador semelhante ao DNA na medicina quando você está lidando com política. Na melhor das hipóteses, eu imagino que deve haver pequenos bolsões de correlação.

No entanto, de alguma forma, pesquisas como essa parecem ... funcionar de qualquer maneira? Ou pelo menos as pessoas parecem pensar que sim?
Mas por que deveriam? Talvez eu fundamentalmente não entenda a amostragem ? Alguém pode explicar?
Eu simplesmente não posso levar a sério nenhuma das pesquisas que vejo, mas sinto que estou mais ou menos sozinha nisso ...

user541686
fonte
4
"a amostragem obviamente faz sentido para os estudos médicos, porque sabemos a priori que todos os seres humanos têm genomas bastante semelhantes." Não tenho formação médica, mas será que o nosso DNA realmente difere menos do que nossas visões políticas? Se sim, por que é tão difícil estudar genética e por que ainda não tínhamos total entendimento? Eu apostaria que, se você pegar duas pessoas aleatórias, será mais provável que elas tenham as mesmas visões políticas, o mesmo DNA.
Tim
3
@ Tim: "Eu apostaria que, se você pegar duas pessoas aleatórias, será mais provável que elas tenham as mesmas opiniões políticas e o mesmo DNA". Quanto você quer apostar? google.com/search?q=dna+similarity+between+humans
user541686 6/06
2
Mas não é a diferença de 0,5% a coisa mais importante quando você faz essas comparações? Além disso, compartilhamos 60% dos genes com as moscas , então acho que poderíamos colher amostras de seres humanos e moscas de forma intercambiável para pesquisas médicas? Comparado: em 2008, Obama obteve 53% dos votos nas eleições presidenciais dos EUA. Além disso, eu argumentaria que, ao pesquisar medicamentos que salvam vidas, mas potencialmente perigosos, você deve ter mais cuidado na amostragem do que nas pesquisas sobre preferência pelo uso de sabão produzido pela empresa A vs B ou por grupos de opinião.
Tim
2
@ user2338816: "É convincente porque tem uma precisão histórica" ​​é menos como matemática e mais como ciência. Estou completamente disposto a comprá-lo por motivos científicos (porque é assim que a ciência rola), mas não por motivos puramente matemáticos (baseados em provas).
user541686
1
Eu contestaria a afirmação (cautelosa) de que as pesquisas funcionam para as eleições. Não me lembro das pesquisas estarem próximas dos resultados reais das eleições de onde sou. Há simplesmente muitos fatores que você realmente não pode explicar - por exemplo, com a nossa participação de ~ 60%, você tem quase a mesma probabilidade de experimentar alguém que não vai votar do que alguém que não está. Participar de uma pesquisa é menos esforço do que votar e, às vezes, você é pago por ela. Alguns partidos têm uma participação muito maior do que outros (como o partido comunista). Você precisa citar o desvio e os "resultados" em qualquer amostra.
Luaan

Respostas:

13

Parece que você está imaginando um modelo de amostragem muito simples.

O modelo mais simples para amostragem é chamado apropriadamente de Amostragem Aleatória Simples . Você seleciona um subconjunto da população (por exemplo, discando números de telefone aleatoriamente) e pergunta a quem responde como está votando. Se 487 dizem Clinton, 463 dizem Trump, e o restante dá uma resposta maluca, a empresa de pesquisa informa que 49% dos eleitores preferem Clinton, enquanto 46% preferem Trump. No entanto, as empresas de votação fazem muito mais do que isso. Uma amostra aleatória simples dá peso igual a todos os pontos de dados. No entanto, suponha que sua amostra contenha - por acaso - 600 homens e 400 mulheres, o que claramente não é representativo da população como um todo. Se os homens como um grupo se inclinarem de uma maneira, enquanto as mulheres se inclinarem da outra, isso influenciará seu resultado. No entanto, como temos boas estatísticas demográficas, você pode ponderar *as respostas contando as respostas das mulheres um pouco mais e as dos homens um pouco menos, para que a resposta ponderada represente melhor a população. As organizações de pesquisa têm modelos de pesagem mais complicados que podem fazer com que uma amostra não representativa se pareça com uma mais representativa.

A idéia de ponderar as respostas amostradas está em um terreno estatístico bastante firme, mas há alguma flexibilidade na escolha de quais fatores contribuem para os pesos. A maioria dos pesquisadores realiza a ponderação com base em fatores demográficos, como sexo, idade e raça. Dado isso, você pode pensar que a identificação partidária (democrata, republicana etc.) também deve ser incluída, mas acontece que a maioria das empresas de votação não a usa em seus pesos: a identificação ( partidária) do indivíduo está confusa à escolha do eleitor de uma maneira que a torne menos útil.

Muitos grupos de pesquisas também relatam seus resultados entre "prováveis ​​eleitores". Nesses, os entrevistados são selecionados ou ponderados com base na probabilidade de que eles realmente apareçam nas pesquisas. Sem dúvida, esse modelo também é orientado por dados, mas a escolha precisa dos fatores permite certa flexibilidade. Por exemplo, incluir interações entre candidato e raça (ou gênero) não era sensato até 2008 ou 2016, mas suspeito que eles tenham algum poder preditivo agora.

Em teoria, você pode incluir todo tipo de coisa como fator de ponderação: preferência musical, cor dos olhos etc. No entanto, fatores demográficos são escolhas populares para fatores de ponderação, porque:

  • Empiricamente, eles se correlacionam bem com o comportamento dos eleitores. Obviamente, não existe uma lei de ferro que "force" os homens brancos a serem republicanos magros, mas nos últimos cinquenta anos, eles tenderam a fazê-lo.
    • Os valores da população são bem conhecidos (por exemplo, do censo ou dos Registros Vitais)

No entanto, os pesquisadores também veem as mesmas notícias que todo mundo vê e podem ajustar as variáveis ​​de ponderação, se necessário.

Também existem alguns "fatores de falsificação" que às vezes são invocados para explicar os resultados da pesquisa. Por exemplo, às vezes os entrevistados relutam em dar respostas "socialmente indesejáveis". O Efeito Bradley postula que os eleitores brancos às vezes subestimam seu apoio a candidatos brancos que concorrem contra uma minoria para evitar parecer racista. É nomeado após Tom Bradley, um candidato governamental afro-americano que perdeu por pouco as eleições apesar de liderar confortavelmente nas pesquisas.

Finalmente, você está completamente correto de que o próprio ato de pedir a opinião de alguém pode mudar isso. As empresas de votação tentam escrever suas perguntas de maneira neutra. Para evitar problemas com a ordem das respostas possíveis, os nomes dos candidatos podem ser listados em ordem aleatória. Às vezes, várias versões de uma pergunta também são testadas uma contra a outra. Esse efeito também pode ser explorado para fins nefastos em uma pesquisa por push , em que o entrevistador não está realmente interessado em coletar respostas, mas em influenciá-las. Por exemplo, uma pesquisa por push pode perguntar "Você votaria no [Candidato A], mesmo que fosse relatado que ele era um molestador de crianças?".


* Você também pode definir metas explícitas para sua amostra, como incluir 500 homens e 500 mulheres. Isso é chamado de amostragem estratificada - a população é estratificada em diferentes grupos e cada grupo é então amostrado aleatoriamente. Na prática, isso não é feito com muita frequência nas pesquisas, porque você precisa se estratificar em muitos grupos exaustivos (por exemplo, homens com formação universitária entre 18 e 24 anos no Urban Texas).

Matt Krause
fonte
2
Eu definitivamente entendo que eles não estão fazendo amostragem aleatória simples, mas minha pergunta é se o que eles estão fazendo é bom apenas porque acontece que suas suposições estão corretas (ou seja, um palpite razoável, mas subjetivo), ou se as suposições também são estatisticamente justificável. Veja meu comentário sobre a outra resposta aqui .
user541686
3
Ambos, eu acho. Ponderar a amostra é a coisa estatisticamente correta a ser feita, mas há ... flexibilidade para decidir como escolher quais fatores vão para os pesos. Por exemplo, raça, gênero e educação são úteis, mas acontece que a identificação do partido geralmente não é (por exemplo, theguardian.com/commentisfree/2012/sep/27/… ), provavelmente porque está ligada ao candidato do eleitor escolha.
Matt Krause
1
Da mesma forma, os pesos às vezes incluem uma estimativa da probabilidade de o entrevistado votar: os jovens fazem muito barulho, mas nem sempre aparecem; os idosos raramente participam de comícios, mas aparecem de maneira confiável nas pesquisas. Isso pode ser estimada a partir de dados históricos (listas de eleitores são, por vezes público), mas eu poderia imaginar alguns lugares ajustados-lo para os afro-americanos em 2008 e para as mulheres em 2016.
Matt Krause
Obrigado! Pode ser bom mencionar que a "flexibilidade" também está na sua resposta :) +1
user541686
10

Existe um teorema matemático chamado "lei dos grandes números". Imagine que você deseja determinar a probabilidade de uma moeda aparecer na cara. A "população" de lançamentos de moedas é infinita - muito maior que as mais de 300.000.000 de pessoas nos Estados Unidos. Mas, de acordo com a Lei dos Grandes Números, quanto mais moedas você fizer, mais precisa será sua estimativa.

A pesquisa ideal: na pesquisa ideal, os pesquisadores selecionavam aleatoriamente nomes do censo dos EUA, descobriam onde essas pessoas vivem, depois batiam à porta. Se a pessoa diz que planeja votar, o pesquisador pergunta em quem está votando e registra sua resposta. Pesquisas como esta são matematicamente garantidas para funcionar e a quantidade de erros em sua medição para qualquer nível de confiança pode ser calculada facilmente .

Aqui está o que o erro significa: Suponha que, com base na sua pesquisa, você tenha 52% de chance de o candidato Awesome McPerfect vencer, com um erro de 3% e 98% de confiança. Isso significa que você pode ter 98% de confiança de que a verdadeira parcela de eleitores que favorecem o candidato Awesome McPerfect está entre 49% e 55%.

Uma observação sobre erro e confiança Para um determinado tamanho de amostra, quanto mais confiante você estiver, maior será o seu erro. Pense nisso - você está 100% confiante de que a verdadeira proporção que suporta o canditate Awesome está entre 0% e 100% (maior erro possível) e você está 0% confiante de que a verdadeira proporção que suporta o canditate Awesome é exatamente 52.0932840985028390984308% (erro zero). Mais confiança significa mais erro, menos confiança significa menos erro. No entanto, a relação entre confiança e erro NÃO é linear! (Veja: https://en.wikipedia.org/wiki/Confidence_interval )

Pesquisas no mundo real: como é caro enviar helicópteros para todas as partes do país para bater nas portas de pessoas aleatórias (embora eu adorasse ver isso acontecer; se você é um bilhão de dólares e vê isso, por favor considere financiar isso), as pesquisas no mundo real são mais complexas. Vamos analisar uma das estratégias mais comuns - chamar eleitores aleatórios e perguntar em quem eles votariam. É uma boa estratégia, mas tem algumas falhas bem conhecidas:

  1. As pessoas geralmente optam por não atender o telefone e responder a pesquisas (ex. Eu)
  2. É mais provável que algumas informações demográficas tenham um telefone fixo (por exemplo, eleitores mais velhos)
  3. Alguns dados demográficos têm maior probabilidade de responder a pesquisas de opinião (por exemplo, eleitores mais velhos)

Como diferentes demografias votam de maneiras diferentes, os pesquisadores precisam fazer o possível para controlar as diferenças em seus dados brutos (com base em quem decidiu atender o telefone) e nos resultados das eleições reais. Por exemplo, se 10% das pessoas que atenderam ao telefone eram hispânicos, mas 30% dos eleitores na última eleição eram hispânicos, então eles darão três vezes o peso aos eleitores hispânicos em sua pesquisa. Se 50% das pessoas que atenderam ao telefone tiverem mais de 60 anos, mas apenas 30% das pessoas que votaram nas últimas eleições tiverem mais de 60 anos, elas darão menos peso aos eleitores mais velhos que responderam. Não é perfeito, mas pode levar a alguns feitos impressionantes de previsão (Nate Silver previu corretamente os resultados em cada um dos 50 estados nas eleições de 2012 usando estatísticas,

Uma palavra de cautela para os sábios: os pesquisadores fazem as melhores previsões possíveis com base em como as coisas funcionaram no passado. De um modo geral , as coisas funcionam da mesma maneira que no passado, ou pelo menos a mudança é lenta o suficiente para que o passado recente (no qual eles se concentram mais) se pareça com o presente. No entanto, ocasionalmente há mudanças rápidas no eleitorado e as coisas dão errado. Talvez os eleitores de Trump tenham um pouco menos probabilidade do que o seu eleitor médio de atender o telefone, e a ponderação demográfica não explica isso. Ou talvez os jovens (que apóiam esmagadoramente Hillary) sejam ainda maisé improvável que atenda ao telefone do que os modelos prevêem, e os que atendem ao telefone têm maior probabilidade de serem republicanos. Ou talvez o oposto de ambos seja verdadeiro - não sabemos. coisas assim são variáveis ​​ocultas que não aparecem na demografia comum coletada.

Nós iria saber se nós enviou pesquisadores para bater nas portas aleatórias (ahem, billionare imaginário lendo este), desde então, não teria de coisas de peso com base em dados demográficos, mas até então, dedos cruzados.

J. Antonio Perez
fonte
3
Agradeço a resposta, mas é um pouco elementar em relação à pergunta que eu estava tentando fazer e ao meu histórico (não tenho certeza se você notou, mas eu não sou exatamente novo no básico de probabilidade / estatísticas); Não acho que a resposta para minha pergunta aqui seja tão básica quanto a sua. Por exemplo: uma suposição para a lei clássica de grandes números é que temos variáveis ​​aleatórias com distribuições idênticas ... mas não vejo uma justificativa para isso em um contexto político: por que a distribuição que você colocou no meu voto e na sua deve ser o mesmo em tudo ?
user541686
Além disso, nem tenho certeza de que a lei dos grandes números justifique o que você estava tentando justificar, mesmo que suas suposições sejam atendidas. A questão é sobre tamanhos de amostra que a lei de grandes números não aborda realmente (pelo menos não da maneira que você sugeriu); precisamos de alguma noção da variação ou taxa de convergência aqui, não apenas da convergência da média no infinito. Talvez você pretendesse invocar o teorema do limite central em vez da lei dos grandes números? (Embora, consulte o meu comentário anterior uma vez que este é provavelmente discutível.)
user541686
2
As distribuições não são aplicadas a votos individuais. Votos individuais não são aleatórios. Eles são aplicados ao comportamento de voto da população como um todo. É como desenhar bolas coloridas de uma urna - cada bola é predeterminada para ser vermelha ou azul, mas você pode ter uma probabilidade de desenhar cada cor e construir uma distribuição para a probabilidade de desenhar uma determinada cor de bola com base em uma amostra das bolas na urna
J. Antonio Perez
1
Vamos olhar algo diferente de política com as pessoas. O sabor favorito de alguém para sorvete depende de tantas coisas quanto suas visões políticas. Poderia depender das preferências de seus amigos, boas lembranças de sua infância, boas ou más experiências na sorveteria. Talvez eles gostem de um sabor, porque o obtiveram no primeiro encontro com a esposa ou o marido. Talvez eles não gostem de um sabor, porque isso os lembra do ex. Mas se eu fizesse uma pesquisa aleatória de pessoas na América, você não concordaria que eu poderia julgar os principais sabores de sorvete favoritos da América?
J. Antonio Perez
1
A "variável aleatória" é qual pessoa é selecionada pelo pesquisador para ser solicitada sua preferência. A preferência de um indivíduo não é aleatória; qual indivíduo o pesquisador seleciona é aleatório.
J. Antonio Perez
7

Em primeiro lugar, isso está além dos seus pontos principais, mas vale a pena mencionar. No teste médico, você pode ter 1000 pessoas testando um medicamento que pode ser administrado a 10000 pessoas que estão doentes anualmente. Você pode olhar para isso e pensar "Isso está sendo testado em 10% da população"; na verdade, a população não é de 10.000 pessoas, são todos os futuros pacientes, portanto o tamanho da população é infinito. 1000 pessoas não são grandes em comparação com os infinitos usuários em potencial da droga, mas esses tipos de estudos funcionam. Não é importante se você testar 10%, 1% ou 0,1% da população; o que é importante é o tamanho absoluto da amostra, e não o tamanho dela em comparação com a população.

A seguir, seu ponto principal é que existem muitas variáveis ​​confusas que podem influenciar o voto das pessoas. Você está tratando os 22.000 distritos da Califórnia como 22.000 variáveis, mas na verdade elas são apenas algumas variáveis ​​(renda e educação, como você mencionou). Você não precisa de uma amostra representativa de cada distrito, apenas de amostras suficientes para cobrir a variação devido à renda, educação, etc.

kknnσ2nkkσ2n

kn

Editar:

A fórmula acima estava assumindo que cada variável de confusão é igualmente importante. Se quisermos considerar centenas de coisas que podem adicionar variação aos resultados, essa suposição não é válida (por exemplo, talvez os usuários do twitter ofereçam mais um candidato, mas sabemos que o uso do twitter não é tão importante quanto o sexo).

σ20.9σ20.92σ2n=0σ20.9n=10σ2

n10σ2n0.9

Hugh
fonte
Obrigado pela resposta! Em relação ao primeiro ponto, acho que isso é verdade, mas o que quero dizer é que nem importa qual é o tamanho da população humana, já que você tem um fator forçador (DNA etc.) que tornaria os resultados bastante semelhantes para qualquer amostra. Em relação à segunda, porém: posso comprar que possa haver algumas variáveis ​​na prática, mas a única maneira de justificar essa suposição matematicamente e usá-la mais tarde é realmente provar primeiro um grande número de pessoas e demonstrá-la, certo? Sem isso, a conclusão não parece mais estatisticamente rigorosa ou justificável.
user541686
Estabelecemos por experimento que idade, sexo, renda e alguns outros são fatores-chave no padrão de votação das pessoas e também sabemos disso apenas por conhecimento geral. Você está certo de que pode haver centenas de outros fatores pequenos que influenciam os votos e, em teoria, eles podem resultar em algo significativo, mas nosso conhecimento geral nos diz que eles não são importantes. Neste ponto, o modelo não é rigorosamente justificado, mas quem testará fatores menores como "Ser loira faz as pessoas votarem em Clinton? Usar uma peruca faz as pessoas votarem em Trump?".
Hugh
"mas quem vai testar fatores menores como [...]" - mas esse é o problema aqui. Se a resposta for "porque é o melhor que podemos praticamente fazer / porque simplesmente funciona / porque custa caro de outra forma / etc.", Essa é uma resposta perfeita para a pergunta "Por que eles não estão entrevistando 100.000 pessoas? ", mas não é realmente uma resposta para" Como 1.000 pessoas podem ser estatisticamente justificáveis? ". É por isso que estou perguntando isso no Stats.SE em oposição ao Politics.SE ... Não me importo se mais amostras são impraticáveis; minha pergunta é por que as pessoas pensam que os métodos atuais são estatisticamente justificados.
user541686
As primeiras frases do último comentário parecem ser uma resposta razoável, se você está dizendo que esse tipo de estudo foi realizado em larga escala (~ centenas de milhares, se não milhões de pessoas) e que esse é o fundamento de nossas suposições. Em caso afirmativo, acho que eles devem ser adicionados à sua resposta, pois abordam o cerne da minha pergunta (idealmente com algumas citações, embora eu não possa realmente ser muito exigente, pois é um pouco tangente e isso não é política. )
user541686
Você está certo que testar fatores menores é impraticável, mas matematicamente relevante. Eu editei minha resposta para fornecer alguns argumentos sobre por que não estamos preocupados com centenas de pequenos fatores que influenciam o resultado. Tenho certeza que você pode encontrar pesquisas feitas sobre a influência do fator principal.
Hugh