Primeiro foi o Brexit , agora a eleição dos EUA. Muitas previsões de modelos tiveram uma margem ampla e existem lições a serem aprendidas aqui? Ainda às 16:00 PST de ontem, os mercados de apostas ainda favoreciam Hillary por 4 a 1.
Entendo que os mercados de apostas, com dinheiro real em jogo, devem agir como um conjunto de todos os modelos de previsão disponíveis no mercado. Portanto, não é exagero dizer que esses modelos não fizeram um bom trabalho.
Vi uma explicação: os eleitores não estavam dispostos a se identificar como apoiadores de Trump. Como um modelo poderia incorporar efeitos como esse?
Uma explicação macro que li é a ascensão do populismo . A questão então é como um modelo estatístico poderia capturar uma tendência macro como essa?
Esses modelos de previsão estão colocando muito peso nos dados de pesquisas e sentimentos, não o suficiente de onde o país está em uma visão de 100 anos? Estou citando os comentários de um amigo.
fonte
Respostas:
Em suma, a pesquisa nem sempre é fácil. Esta eleição pode ter sido a mais difícil.
Sempre que estamos tentando fazer inferência estatística, uma questão fundamental é se nossa amostra é uma boa representação da população de interesse. Uma suposição típica que é necessária para muitos tipos de inferência estatística é a de que nossa amostra seja uma amostra completamente aleatória da população de interesse (e, muitas vezes, também precisamos que as amostras sejam independentes). Se essas premissas forem verdadeiras, normalmente temos boas medidas de nossa incerteza com base na teoria estatística.
Mas definitivamente não temos essas suposições verdadeiras nas pesquisas! Temos exatamente 0 amostras da nossa população de interesse: votos reais expressos no dia da eleição. Nesse caso, não podemos fazer nenhum tipo de inferência válida sem suposições adicionais e não testáveis sobre os dados. Ou pelo menos, não testável até depois do dia da eleição.
Desistimos completamente e dizemos "50% -50%!"? Normalmente não. Podemos tentar fazer o que acreditamos serem suposições razoáveis sobre como os votos serão expressos. Por exemplo, talvez desejemos acreditar que as pesquisas são estimativas imparciais para os votos no dia das eleições, além de algum ruído temporal imparcial (isto é, evolução da opinião pública com o passar do tempo). Eu não sou especialista em métodos de pesquisa, mas acredito que esse é o tipo de modelo 538. E em 2012, funcionou muito bem. Portanto, essas suposições eram provavelmente bastante razoáveis. Infelizmente, não há maneira real de avaliar essas suposições, fora do raciocínio estritamente qualitativo. Para obter mais discussões sobre um tópico semelhante, consulte o tópico sobre falta não ignorável.
Minha teoria de por que as pesquisas foram tão ruins em 2016: as pesquisas não eram estimativas imparciais do comportamento do dia dos eleitores. Ou seja, eu acho que os apoiadores de Trump (e provavelmente também apoiadores do Brexit) estavam muito mais desconfiados dos pesquisadores. Lembre-se de que Trump denunciou ativamente as pesquisas. Como tal, acho que os apoiadores de Trump eram menos propensos a relatar suas intenções de voto aos pesquisadores do que os de seus oponentes. Eu especularia que isso causou um forte viés imprevisto nas pesquisas.
Como os analistas poderiam explicar isso ao usar os dados da pesquisa? Com base apenas nos dados da pesquisa, não há maneira real de fazer isso de maneira quantitativa. Os dados da pesquisa não informam nada sobre aqueles que não participaram. No entanto, pode-se melhorar as pesquisas de maneira qualitativa, escolhendo suposições mais razoáveis (mas não testáveis) sobre a relação entre os dados da pesquisa e o comportamento do dia da eleição. Isso não é trivial e a parte realmente difícil de ser um bom pesquisador (nota: eu não sou um pesquisador). Observe também que os resultados também foram muito surpreendentes para os especialistas, por isso não é como se houvesse sinais óbvios de que as suposições estavam fora dessa época.
A pesquisa pode ser difícil.
fonte
Existem várias fontes de erro de pesquisa:
Você encontra algumas pessoas difíceis de alcançar
Isso é corrigido através da análise demográfica e correção do seu viés de amostragem. Se sua análise demográfica não refletir as coisas que dificultam o acesso das pessoas, essa correção não reparará os danos.
As pessoas mentem
Você pode usar taxas históricas nas quais as pessoas mentem para os pesquisadores para influenciar seu modelo. Como exemplo, historicamente as pessoas afirmam que vão votar em terceiros muito mais do que realmente fazem no dia das eleições. Suas correções podem estar erradas aqui.
Essas mentiras também podem atrapalhar suas outras correções; se mentirem sobre votar na última eleição, podem ser contados como provável eleitor, mesmo que não sejam, por exemplo.
Somente as pessoas que votam acabam contando
Alguém pode ter muito apoio, mas se seus apoiadores não aparecerem no dia das eleições, isso não conta. É por isso que registramos modelos de eleitor, provável eleitor, etc. Se esses modelos estão errados, as coisas não funcionam.
Votação custa dinheiro
Fazer pesquisas é caro, e se você não espera (digamos) o Michigan virar, talvez não faça pesquisas com muita frequência. Isso pode causar surpresa quando um estado que você pesquisou três semanas antes da eleição não se parece nada com isso no dia da eleição.
As pessoas mudam de idéia
Durante minutos, horas, dias, semanas ou meses, as pessoas mudam de idéia. A pesquisa sobre "o que você faria agora" não ajuda muito se eles mudarem de idéia antes que isso conte. Existem modelos que adivinham aproximadamente a taxa com que as pessoas mudam de idéia com base em pesquisas históricas.
Pastoreio
Se todos os outros afirmarem que Hillary é +3 e você receber uma pesquisa mostrando Hillary +11 ou Donald +1, você pode questioná-lo. Você pode fazer outra passagem e ver se há uma falha na análise. Você pode até jogar fora e fazer outra enquete. Quando você recebe uma pesquisa Hillary +2 ou +4, talvez não o faça. Discrepâncias maciças, mesmo que o modelo estatístico diga que isso acontece às vezes, pode fazer você "parecer mal".
Uma forma particularmente péssima disso aconteceu no dia das eleições, onde todos os que divulgaram uma pesquisa magicamente convergiram para o mesmo valor; eles provavelmente foram onde pesquisas outlier, mas ninguém quer ser o único que disse (digamos) Hillary +11 no dia antes desta eleição. Estar errado em um rebanho te machuca menos.
Erro de amostragem esperado
Se você tem 1 milhão de pessoas e pergunta a 100 pessoas perfeitamente aleatórias e metade diz "Apple" e metade diz "Orange", o erro esperado que você obteria da amostragem é de +/- 10 ou mais, mesmo que nenhum dos problemas acima ocorrer. Esta última parte é o que as pesquisas descrever como a sua margem de erro. Pesquisas raramente descrevem o que os fatores de correção acima podem apresentar como erro.
Nate Silver, 538, foi um dos poucos agregadores de pesquisas que usaram meios conservadores (cautelosos) para lidar com a possibilidade dos tipos de erros acima. Ele considerou a possibilidade de erros correlatos sistêmicos nos modelos de pesquisa.
Enquanto outros agregadores previam 90% de chance de o HC ser eleito, Nate Silver declarava 70%, porque as pesquisas estavam dentro do "erro de votação normal" da vitória de Donald.
Essa foi uma medida histórica do erro do modelo , em oposição ao erro de amostragem estatística bruto; e se o modelo e as correções no modelo estivessem erradas?
As pessoas ainda estão analisando os números. Porém, resultados preliminares indicam que grande parte eram modelos de participação. Os apoiadores de Donald apareceram nas pesquisas em maior número e os da Hillary em menor número do que os modelos de pesquisa (e as pesquisas de saída!) Indicaram.
O latino votou mais em Donald do que o esperado. Os negros votaram mais em Donald do que o esperado. (A maioria dos dois votou em Hillary). As mulheres brancas votaram mais em Donald do que o esperado (mais delas votaram em Donald do que Hillary, o que não era esperado).
A participação dos eleitores foi baixa em geral. Os democratas tendem a vencer quando há alta participação de eleitores e os republicanos quando há baixa.
fonte
Isso foi mencionado nos comentários sobre a resposta aceita (gorjeta para Mehrdad ), mas acho que deve ser enfatizada. 538 realmente fez isso muito bem neste ciclo * .
538 é um agregador de pesquisa que executa modelos em cada estado para tentar prever o vencedor. Sua corrida final deu a Trump cerca de 30% de chance de ganhar. Isso significa que, se você realizou três eleições com dados como esse, esperaria que a equipe Red vencesse uma delas. Isso não é realmente tão pequeno de uma chance. É certamente suficientemente grande que tomei precauções (por exemplo: na sexta-feira antes de pedir quarta-feira 9 de folga no trabalho, considerando a probabilidade de estar perto o suficiente para ser tarde da noite).
Uma coisa que o 538 dirá se você sair de casa é que, se as pesquisas forem desativadas, há uma boa chance de que todas elas sigam na mesma direção. Isto é por algumas razões.
* - 538 publicou sua própria análise . Principalmente, concorda com o que foi dito acima, mas vale a pena ler se você quiser muito mais detalhes.
Agora um pouco de especulação pessoal. Eu estava realmente cético em relação às% de chances finais de 538 nos últimos 3 dias. O motivo remonta à segunda bala acima. Vamos dar uma olhada na história do modelo deles para esta eleição (no site)
(Infelizmente, os rótulos o ocultam, mas depois disso as curvas divergiram novamente nos últimos três dias, com mais de 70% de chance para Clinton)
O padrão que vemos aqui é a repetida divergência seguida pela decadência em direção à liderança de Trump. As bolhas de Clinton foram todas causadas por eventos. A primeira foram as convenções (normalmente faltam alguns dias para que um evento comece a aparecer nas pesquisas). O segundo parece ter sido iniciado pelo primeiro debate, provavelmente ajudado pela fita da TMZ. Depois, há o terceiro ponto de inflexão que marquei na imagem.
Aconteceu em 5 de novembro, 3 dias antes da eleição. Que evento causou isso? Alguns dias antes, houve outro surto de e-mail, mas isso não deveria ter funcionado a favor de Clinton.
A melhor explicação que eu poderia ter na época era a pesquisa de opinião. Faltavam apenas três dias para a eleição, dois dias para as pesquisas finais, e os pesquisadores começaram a se preocupar com seus resultados finais. A "sabedoria convencional" de toda essa eleição (como evidenciado pelos modelos de apostas) foi uma vitória fácil de Clinton. Portanto, parecia uma possibilidade distinta de que isso não fosse uma inflexão verdadeira. Se fosse esse o caso, a verdadeira curva a partir de 5 de novembro provavelmente era uma continuação dessa em direção à convergência.
Seria preciso um matemático melhor do que eu para estimar a curva adiante aqui sem esse ponto de inflexão final suspeito, mas, de olho no olho, acho que o dia 8 de novembro estaria próximo do ponto de cruzamento . Na frente ou atrás, depende de quanto dessa curva era realmente real.
Agora não posso dizer com certeza que foi isso que aconteceu. Existem outras explicações muito plausíveis (por exemplo: Trump conseguiu seus eleitores muito melhores do que qualquer pesquisador esperava). Mas era minha teoria do que estava acontecendo na época, e certamente se mostrou preditivo.
fonte
Não é realmente a primeira vez, por exemplo, a eleição presidencial francesa de 2002 "levou a sérias discussões sobre técnicas de votação".
Lixo dentro, lixo fora.
Veja o viés de resposta e, em particular, o viés de desejabilidade social . Outras leituras interessantes: maioria silenciosa e efeito Bradley .
fonte
A pesquisa do USC / LA Times tem alguns números precisos. Eles previram que Trump estaria na liderança. Veja A pesquisa do USC / LA Times viu o que outras pesquisas perderam: uma onda de apoio a Trump
http://www.latimes.com/politics/la-na-pol-usc-latimes-poll-20161108-story.html
Eles tinham números precisos para 2012 também.
Você pode revisar: http://graphics.latimes.com/usc-presidential-poll-dashboard/
E o NY Times queixou-se de sua ponderação: http://www.nytimes.com/2016/10/13/upshot/how-one-19-year-old-illinois-man-is-distorting-national-polling-averages. html
Resposta do LA Times: http://www.latimes.com/politics/la-na-pol-daybreak-poll-questions-20161013-snap-story.html
fonte
Nenhum terreno alto reivindicado aqui. Eu trabalho em um campo (Monitoramento e Avaliação) tão repleto de pseudo-ciências quanto qualquer outra ciência social que você possa nomear.
Mas aqui está o acordo: a indústria de votação está supostamente em 'crise' hoje porque errou as previsões das eleições nos Estados Unidos, as ciências sociais em geral têm uma 'crise' de replicabilidade e, no final dos anos 2000, tivemos uma 'crise' financeira mundial porque alguns profissionais acreditavam que os derivativos hipotecários subprime eram uma forma válida de dados financeiros (se lhes dermos o benefício da dúvida ...).
E todos nós apenas cometemos erros independentemente. Todos os dias, vejo as construções de questionadores mais questionáveis usadas como abordagens de coleta de dados e, portanto, eventualmente usadas como dados (tudo, desde escalas quase ordinais até categorias de respostas fixas totalmente líderes). Pouquíssimos pesquisadores parecem perceber que precisam ter uma estrutura conceitual para tais construções antes que possam esperar entender seus resultados. É como se tivéssemos analisado as abordagens de "pesquisa" de mercado e decidido adotar apenas o pior de seus erros, com a adição de um pouco de numerologia ao lado.
Queremos ser considerados 'cientistas', mas o rigor é um pouco difícil de ser incomodado, por isso, coletamos dados de lixo e oramos ao deus da estatística do tipo Loki para superar magicamente o axioma do GIGO.
Mas como o Sr. Feynman, fortemente citado, aponta:
“Não importa o quão bonita seja sua teoria, não importa o quão inteligente você seja. Se não concorda com o experimento, está errado ”.
Existem maneiras melhores de lidar com os dados qualitativos com os quais estamos frequentemente presos, mas eles exigem um pouco mais de trabalho e essas construções agradáveis de pesquisador costumam ser muito mais fáceis de serem inseridas no SPSS. A conveniência parece superar a ciência todas as vezes (sem trocadilhos).
Em resumo, se não começarmos a levar a sério a qualidade dos dados brutos, acho que estamos desperdiçando tempo e dinheiro de todos, inclusive o nosso. Então, alguém quer colaborar em uma 'iniciativa de qualidade de dados' em relação aos métodos das ciências sociais (sim, há muitos livros sobre essas coisas, mas ninguém parece prestar atenção a essa fonte após os exames).
Quem tiver a maior gravidade acadêmica será o líder! (Não serei eu.)
Só para esclarecer minha resposta aqui: vejo problemas sérios e fundamentais com tipos de dados brutos 'inventados' com tanta frequência que gostaria de sugerir a necessidade de começar do início. Portanto, mesmo antes de nos preocuparmos com a amostragem ou com os testes a serem executados nos dados, precisamos examinar a validade / limitações dos tipos de dados que coletamos em relação aos modelos que estamos propondo. Caso contrário, o modelo preditivo geral é definido de maneira incompleta.
fonte
As pesquisas tendem a ter uma margem de erro de 5% da qual você não consegue se livrar, porque não é um erro aleatório, mas um viés. Mesmo se você tiver uma média de muitas pesquisas, isso não ficará muito melhor. Isso tem a ver com grupos de eleitores deturpados, falta de mobilização, incapacidade de ir à votação em um dia de trabalho, falta de vontade de responder, falta de vontade de responder decisões corretas e espontâneas de última hora, ... porque esse viés tende a ser "correlacionado" nas pesquisas, você não pode se livrar dele com mais pesquisas; você também não pode se livrar dele com amostras maiores; e você também não parece capaz de prever esse viés, porque muda muito rápido (e elegemos presidentes muito raramente).
Devido ao estúpido princípio de vencedor leva tudo, ainda presente em quase todos os estados, um erro de 5% pode causar resultados muito diferentes: suponha que as pesquisas sempre previssem 49-51, mas o resultado real foi 51-49 (portanto, um erro de apenas 2%), o resultado é 100% de desconto; por causa do vencedor leva tudo.
Se você observar estados individuais, a maioria dos resultados estará dentro das margens de erro previstas!
Provavelmente o melhor que você pode fazer é provar esse viés (+ -5%), aplicar os extremos do vencedor leva tudo e agregar os resultados. Provavelmente é semelhante ao que 538 fez; e em 30% das amostras, Donald Trump ganhou ...
fonte
No final, expôs uma falha colossal da análise numérica para compensar a falta de conhecimento do assunto. As pessoas tinham vergonha de abraçar explicitamente o candidato vencedor por razões óbvias.
O pior modelo de computador poderia ter chegado mais perto do resultado se alguém se desse ao trabalho de realizar uma pesquisa preliminar cara a cara, batendo nas portas. Aqui está um exemplo: o Trafalgar Group (nenhuma afiliação ou conhecimento além do que se segue) tinha Trump liderando em PA, FL, MI, GA, UT e NV (este último estado ficou finalmente azul) um dia antes da eleição. Qual foi a magia?
Bastante de baixa tecnologia, incluindo a falta de verificação ortográfica, mostrando muito sobre a natureza humana. Aqui está a discrepância no PA :
Pensilvânia histórica - longe de ser percebida como a gota d'água na derrota democrata poucas horas antes dessa realização final às 1:40 da manhã de 9 de novembro de 2016:
fonte
Uma das razões para a inexatidão das pesquisas nas eleições nos EUA, além de algumas pessoas, por qualquer motivo que não dizem a verdade, é que o efeito "vencedor leva tudo" torna as previsões ainda menos fáceis. Uma diferença de 1% em um estado pode levar a uma mudança completa de um estado e influenciar fortemente todo o resultado. Hillary teve mais eleitores como Al Gore vs Bush.
O referendo do Brexit não foi uma eleição normal e, portanto, também mais difícil de prever (não existem bons dados históricos e todos foram como eleitores pela primeira vez sobre esse assunto). Pessoas que por décadas votam no mesmo partido estabilizam as previsões.
fonte
(Apenas responda a esse bit, pois as outras respostas parecem ter coberto todo o resto.)
Não ... mas indiretamente sim.
Os mercados de apostas são projetados para que os apostadores obtenham lucro, aconteça o que acontecer. Por exemplo, digamos que as probabilidades atuais citadas foram 1-4 em Hilary e 3-1 em Trump. Se todas as próximas dez pessoas apostarem US $ 10 no Hilary, os US $ 100 recebidos custarão US $ 25 se Hilary vencer. Então, eles encurtam Hilary para 1-5 e aumentam Trump para 4-1. Agora, mais pessoas apostam em Trump e o equilíbrio é restaurado. Ou seja, é puramente baseado em como as pessoas apostam, não nos especialistas ou nos modelos de previsão.
Mas, é claro, os clientes das casas de apostas estão olhando para essas pesquisas e ouvindo esses especialistas. Eles ouvem que Hilary está 3% à frente, um certificado morto para ganhar, e decidem que uma maneira rápida de ganhar US $ 10 é apostar US $ 40 nela.
Indiretamente, os especialistas e pesquisas estão mudando as chances.
(Algumas pessoas também percebem que todos os seus amigos no trabalho vão votar em Trump, então faça uma aposta nele; outros notam que todas as postagens de seus amigos do Facebook são pró-Hilary, então faça uma aposta nela, para que haja um pouco de realidade influenciando eles, dessa maneira.)
fonte
Não é de surpreender que esses esforços tenham falhado, quando você considera a disparidade entre quais informações os modelos têm acesso e quais informações direcionam o comportamento na cabine de votação. Estou especulando, mas os modelos provavelmente levam em conta:
Mas, as pesquisas pré-eleitorais não são confiáveis (vimos falhas constantes no passado), os estados podem mudar e não houve ciclos eleitorais suficientes em nossa história para explicar a multiplicidade de situações que podem surgir e surgir .
Outra complicação é a confluência do voto popular com o colégio eleitoral. Como vimos nesta eleição, o voto popular pode ser extremamente próximo dentro de um estado, mas uma vez que o estado é ganho, todos os votos vão para um candidato, e é por isso que o mapa tem tanto vermelho.
fonte
Os modelos de votação não consideraram quantos libertários poderiam mudar de Johnson para Trump quando se tratava de votação real. Os estados que foram conquistados por uma margem fina foram vencidos com base na porcentagem de votos que Johnson obteve. O PA (que empurrou Trump além de 270 na noite da eleição) deu apenas 2% a Johnson. NH (que foi para Clinton) deu 4% + para Johnson. Johnson estava pesquisando entre 4% e 5% no dia anterior à eleição e ele obteve aproximadamente 3% no dia da eleição.
Então, por que os libertarianos, de repente, mudaram no dia da eleição? Ninguém considerou qual era o problema central dos eleitores libertários. Eles tendem a ver a interpretação literal da Constituição como cânone. A maioria das pessoas que votou em Clinton não achou que sua falta de lei fosse uma prioridade suficientemente alta para ser considerada. Certamente, não superior a tudo o que eles não gostaram em Trump.
Independentemente de seus problemas legais serem importantes ou não para os outros, eles seriam importantes para os libertários. Eles colocariam uma prioridade muito alta em manter o cargo de alguém que considerasse opcional a conformidade legal, na melhor das hipóteses. Portanto, para um grande número deles, manter Clinton fora do cargo se tornaria uma prioridade mais alta do que afirmar que a filosofia libertária é uma filosofia política viável.
Muitos deles podem nem gostar de Trump, mas se pensassem que ele seria mais respeitoso com o Estado de direito do que Clinton, o pragmatismo teria conquistado princípios para muitos deles e os levaria a mudar de voto quando chegou a hora de realmente votar.
fonte
Pesquisas não são tendências históricas. Um bayesiano indagaria sobre as tendências históricas. Desde Abraham Lincoln, houve um partido republicano e um partido democrata ocupando o cargo presidencial. A tendência de mudança de partido 16 vezes desde então da Wikipedia tem a seguinte função de massa cumulativa
O que levou os jornalistas, o Partido Democrata e os pesquisadores a pensar que as chances eram favoráveis à vitória dos liberais foi talvez uma ilusão. O comportamento pode ser previsível, dentro de limites, mas, neste caso, os democratas desejavam que as pessoas não votassem em uma mudança e, de uma perspectiva histórica, parece mais provável que exista uma.
fonte
Penso que os resultados das pesquisas foram extrapolados na medida em que o público suponha que os dados demográficos dos eleitores serão semelhantes aos dados demográficos dos entrevistados e constituam uma boa representação de toda a população. Por exemplo, se 7 das 10 minorias apóiam Hillary nas pesquisas e se essa minoria representa 30% da população dos EUA, a maioria das pesquisas presumiu que 30% dos eleitores serão representados por essa minoria e traduzidos para esse ganho de 21% para Hillary. Na realidade, homens brancos da classe média e alta estavam melhor representados entre os eleitores. Menos de 50% das pessoas elegíveis votaram e isso não se traduziu em 50% de desconto em todos os sexos, raças etc.
Ou, as pesquisas assumiram uma randomização perfeita e basearam seus modelos nisso, mas, na realidade, os dados do eleitor foram direcionados para homens mais velhos da classe média-alta.
Ou, as pesquisas não assumiram exatamente a aleatorização perfeita, mas seus parâmetros de extrapolação subestimaram a heterogeneidade da demografia dos eleitores.
ETA: As pesquisas das duas eleições anteriores tiveram melhor desempenho devido ao aumento da atenção à votação por grupos que geralmente não são bem representados.
fonte
HoraceT e CliffAB (desculpe demais pelos comentários) Receio ter uma vida inteira de exemplos, que também me ensinaram que preciso ter muito cuidado com a explicação deles, se quiser evitar ofender as pessoas. Portanto, embora eu não queira sua indulgência, peço sua paciência. Aqui vai:
Para começar com um exemplo extremo, vi uma vez uma pergunta de pesquisa proposta que pedia a agricultores analfabetos das aldeias (sudeste da Ásia) que estimassem sua 'taxa de retorno econômico'. Deixando de lado as opções de resposta por agora, esperamos que todos vejam que isso é uma coisa estúpida, mas explicar consistentemente por que é estúpido não é tão fácil. Sim, podemos simplesmente dizer que é estúpido porque o entrevistado não entenderá a questão e apenas a descartará como uma questão semântica. Mas isso realmente não é bom o suficiente em um contexto de pesquisa. O fato de essa pergunta ter sido sugerida implica que os pesquisadores têm variabilidade inerente ao que consideram "estúpido". Para abordar isso de maneira mais objetiva, precisamos recuar e declarar de forma transparente uma estrutura relevante para a tomada de decisões sobre tais coisas. Existem muitas opções,
Portanto, vamos assumir de forma transparente que temos dois tipos de informações básicas que podemos usar nas análises: qualitativa e quantitativa. E que os dois estão relacionados por um processo transformador, de modo que todas as informações quantitativas começaram como informações qualitativas, mas passaram pelas seguintes etapas (simplificadas):
Observe que (nesse modelo) sem a etapa 1, não existe qualidade e, se você não começar com a etapa 1, nunca poderá gerar uma quantidade significativa.
Uma vez declarado, tudo isso parece muito óbvio, mas são esses conjuntos de primeiros princípios que (eu acho) são geralmente ignorados e, portanto, resultam em 'Garbage-In'.
Portanto, a 'estupidez' no exemplo acima se torna muito claramente definível como uma falha em estabelecer uma convenção comum entre o pesquisador e os entrevistados. É claro que este é um exemplo extremo, mas erros muito mais sutis podem gerar igualmente lixo. Outro exemplo que eu vi é uma pesquisa com agricultores na Somália rural, que perguntou: “Como as mudanças climáticas afetaram seu modo de vida?”. Mais uma vez deixando de lado as opções de resposta no momento, eu sugeriria que, mesmo perguntando isso aos agricultores no Centro-Oeste de os Estados Unidos constituiriam uma falha grave no uso de uma convenção comum entre pesquisador e entrevistado (isto é, o que está sendo medido como 'mudança climática').
Agora vamos às opções de resposta. Ao permitir que os respondentes codifiquem respostas de código próprio a partir de um conjunto de opções de múltipla escolha ou construção semelhante, você também está empurrando esse problema de "convenção" para esse aspecto do questionamento. Isso pode ser bom se todos mantivermos convenções efetivamente 'universais' nas categorias de resposta (por exemplo, pergunta: em que cidade você mora? Categorias de resposta: lista de todas as cidades na área de pesquisa [mais 'não nesta área']). No entanto, muitos pesquisadores realmente parecem se orgulhar das nuances sutis de suas perguntas e categorias de respostas para atender às suas necessidades. Na mesma pesquisa em que a pergunta 'taxa de retorno econômico' apareceu, o pesquisador também pediu aos entrevistados (moradores pobres) que fornecessem em qual setor econômico eles contribuíram: com categorias de resposta de 'produção', 'serviço', 'fabricação' e 'marketing'. Novamente, uma questão de convenção qualitativa obviamente surge aqui. No entanto, porque ele tornou as respostas mutuamente exclusivas, de modo que os entrevistados pudessem escolher apenas uma opção (porque “é mais fácil alimentar o SPSS dessa maneira”), e os agricultores da aldeia costumam produzir colheitas, vender seu trabalho, fabricar artesanato e levar tudo para mercados locais, esse pesquisador em particular não tinha apenas um problema de convenção com seus entrevistados, ele tinha um com a própria realidade.
É por isso que entediantes antigos como eu sempre recomendam a abordagem mais trabalhosa de aplicar a codificação à pós-coleta de dados - pois pelo menos você pode treinar adequadamente codificadores em convenções realizadas por pesquisadores (e observe que tentar transmitir essas convenções aos entrevistados em ' instruções de pesquisa 'é um jogo de caneca - apenas confie em mim por enquanto). Observe também que, se você aceitar o 'modelo de informação' acima (que, novamente, não estou afirmando que seja necessário), também mostrará por que as escalas de resposta quase ordinais têm uma má reputação. Não são apenas os problemas básicos de matemática da convenção de Steven (ou seja, você precisa definir uma origem significativa mesmo para ordinais, não é possível adicionar e calcular a média, etc. etc.), também é comum que eles nunca tenham passado por nenhum processo transformador declarado de forma transparente e logicamente consistente que equivaleria a 'quantificação' (ou seja, uma versão estendida do modelo usado acima que também engloba a geração de 'quantidades ordinais' [isso não é difícil]. façam]). De qualquer forma, se ele não atender aos requisitos de informações qualitativas ou quantitativas, o pesquisador está realmente afirmando ter descoberto um novo tipo de informação fora da estrutura e, portanto, o ônus está neles para explicar completamente sua base conceitual fundamental ( ou seja, definir de forma transparente uma nova estrutura).
Finalmente, vamos analisar os problemas de amostragem (e acho que isso está alinhado com algumas das outras respostas já aqui). Por exemplo, se um pesquisador deseja aplicar uma convenção sobre o que constitui um eleitor "liberal", ele precisa ter certeza de que as informações demográficas usadas para escolher seu regime de amostragem são consistentes com esta convenção. Esse nível geralmente é o mais fácil de identificar e lidar, pois está amplamente sob o controle do pesquisador e é geralmente o tipo de convenção qualitativa assumida que é declarada de forma transparente na pesquisa. É também por isso que é o nível geralmente discutido ou criticado, enquanto as questões mais fundamentais não são abordadas.
Assim, enquanto os pesquisadores de opinião se apegam a perguntas como 'em quem você planeja votar neste momento?', Provavelmente ainda estamos bem, mas muitos deles querem ficar muito mais extravagantes do que isso ...
fonte