Preciso de um pouco de ajuda para recuperar os dados de um questionário.
Um dos meus colegas aplicou um questionário, mas, inadvertidamente, em vez de usar a escala Likert original de 5 pontos (discordo totalmente de concordar totalmente), ele inseriu uma sexta resposta na escala. E, para piorar a situação, a 6ª opção de resposta é… “Eu não sei”.
O problema é a grande proporção de entrevistados que, em um ponto ou outro, escolheram "não sei". Se eles fossem uma porcentagem razoavelmente pequena, eu os teria excluído do banco de dados. No entanto, o núcleo da pesquisa se baseia em um modelo conceitual, e a exclusão de tantos registros criaria um problema para o modelo.
Alguém poderia me apontar na direção certa aqui? Existem 'boas práticas', ou posso fazer qualquer coisa para usar (transformar, converter etc.) aquelas respostas “não sei”?
Além disso, se eu manipular os dados em questão (por exemplo, se eu converter as respostas "não sei", por substituição, imputação etc.), que tipo de 'aviso', 'aviso', anotação, devo usar?
Sei que é um tiro no escuro, mas confesso que, além de recuperar as respostas, também estou curioso sobre qual é a prática acordada (se houver), nesse tipo de caso.
PS: Eu sei que parece infantil, mas não, o 'colega' não sou eu :)
fonte
Respostas:
Por que tentar forçar uma calibração em algo que não é verdadeiro? Como Maarten disse, isso não é uma perda de dados, mas um ganho de informação. Se a pílula mágica que você procura existir, isso significa que existem algumas suposições sobre sua população que são feitas, por exemplo, um viés a favor de um rótulo específico, mesmo que os usuários digam "eu não sei".
Entendo totalmente sua frustração, mas a maneira correta de abordar o problema é modificar o modelo para atender às suas necessidades com base nos dados reais existentes, e não o contrário (modificando os dados).
fonte
Se esse foi um questionário padronizado que foi validado de forma independente, não é possível afirmar que o novo questionário é equivalente e que os dados não são mais comparáveis. Você pode tentar validar e examinar o questionário em experimentos separados (que consomem muito tempo e esforço, especialmente se você também deseja mostrar comparabilidade com a versão antiga) ou apenas aceitar que está lidando com uma qualidade de evidência mais baixa (desde que seus dados cheguem de um questionário não validado).
Ao usar seus dados, você precisará levar a alteração em consideração. Quando confrontadas com uma pergunta de atitude, as pessoas não dão uma resposta "objetivamente verdadeira", elas dão a resposta que consideram verdadeira - e isso certamente é influenciado pelas opções de resposta disponíveis (elas "normatizam" suas respostas). à escala) e ao conhecimento que eles têm sobre o assunto (existem vieses conhecidos que funcionam de maneira diferente, às vezes em direções diferentes (!), dependendo se o participante tem muito ou pouco conhecimento sobre o assunto).
Portanto, se estivermos lidando com um quesitonnaire estabelecido, você tem a boa opção para fazer uma comparação entre sua versão do questionário e a original. Se o original presumir que as pessoas sabem o que estão selecionando, e acontece que não, você pode discutir como o modelo antigo se baseia em suposições erradas e quais são as consequências disso. Observe que esta é uma descoberta "lateral", que faz uma nova pergunta de pesquisa interessante, mas o afasta da original e mostra que responder à original é muito mais difícil do que se pensava, por isso certamente multiplica seu trabalho.
Se você não está lidando com um questionário estabelecido, pode seguir o fluxo e fingir que seu questionário ad-hoc foi planejado dessa maneira e avaliar os resultados de acordo. Novamente, isso pode significar que os resultados que você esperava não podem ser obtidos com esse método, mas isso também é importante.
Para uma boa compreensão de como as palavras e as opções influenciam a maneira como os questionários são respondidos, sugiro ler "Psychology of the survey response", de Tourangeau et al. É uma ótima leitura para todos que criam um questionário.
fonte
Se você perguntar a quantos filhos o entrevistado deu à luz, as respostas "zero" e "não aplicável" não significariam estritamente a mesma coisa, pois os homens não podem dar à luz.
Para alguns contextos, equiparar "não sei" à resposta neutra pode ser, igualmente, um erro conceitual.
Na verdade, você tem duas perguntas: uma dicotômica "Você tem uma opinião?" e um ordinal "O que é isso?", assim como, acima, você tem um implícito "Você é uma mulher?" além da sua pergunta explícita.
Obviamente, você pode introduzir algumas suposições (às vezes corretamente, às vezes apenas por conveniência, às vezes forçosamente) para permitir alguma modelagem, mas não vejo uma estratégia universalmente aplicável sem entrar no domínio das especificidades do seu fenômeno.
Como último ponto a ser pensado, não faria sentido tentar inferir à população masculina nada das respostas de fecundidade feminina.
fonte
O dilema de incluir ou não a opção de resposta Não sei em um questionário que consiste em escalas de classificação do tipo Likert é eterno. Freqüentemente, quando os itens perguntam sobre a opinião, a DK é incluída porque não ter opinião é um status importante por si só e a opção como tal é esperada pelos entrevistados. Nos inventários de características pessoais, em que as pessoas atribuem qualidades a uma opção de DK de destino geralmente são descartadas, porque normalmente é esperado que um respondente seja capaz de avaliar a extensão da afinidade de uma característica (ou seja, o entrevistado sempre é considerado qualificado); e quando ele ocasionalmente encontra dificuldade, é permitido (por instrução) pular esse item. Nos inventários de características pessoais, em que as pessoas descrevem uma DK alvo (itens comportamentais) (ou não)
@Hatim em sua resposta, @Maarten e alguns outros comentaristas da questão do OP argumentaram sensatamente que uma grande quantidade de respostas de DK observadas no estudo atual indica problemas (validade de conteúdo ou validade de face) nos itens ou que os sujeitos não ' não se enquadre no questionário solicitado a eles.
Mas você nunca pode contar a história; em última análise, a interpretação do impedimento é sua (a menos que você o lide em uma investigação separada). Pode-se alegar, por exemplo, que a inclusão da opção DK para os Likerts nesse questionário (digamos, é um inventário de atribuição de características) serve mal, não é bom. Não forneceu informações (das quais os comentaristas dizem que
it proves that the [rating] model is inadequate
), mas distraiu / seduziu um entrevistado. Não fosse fornecida, a decisão de classificação guiada pelo esquema implícito de características cognitivas poderia ter sido desencadeada; mas ver a opção de resfriamento impede o esquema e faz com que alguém se apresse em se retirar.Se você admitir ainda mais - por seu risco, mas por que não? - que um sujeito facilmente distraído ou preguiçoso é aquele cujo potencial, visão retida é válida, mas tende a ser fracamente diferenciada - ou seja, ele invocaria facilmente o Das Man convencional , em vez de Erlebnis pessoal , esquema - então você pode especular que sua resposta ausente está em torno da média da amostra ou da população para esse item. Em caso afirmativo, por que não substituir (sem ruído) as respostas ausentes? Ou você pode fazer EM ou imputação regressiva (+ ruído) para levar em consideração as correlações.
Repetindo: a decisão de imputação é possível, mas arriscada, e é improvável, dada a grande quantidade de dados ausentes, restaurar "verdadeiramente" os dados ausentes. Como o @rumtscho disse, certamente que o novo questionário com DK não é equivalente ao original sem DK, e os dados não são mais comparáveis.
Essas eram especulações. Mas antes de tudo, você deve tentar investigar os padrões observados de falta. Quem são os sujeitos que selecionaram DK? Eles se agrupam em subtipos? Como eles são diferentes nos demais itens da subamostra "ok"? Alguns softwares possuem o pacote de análise de valor ausente. Em seguida, você pode decidir se deve ou não deixar as pessoas total ou parcialmente ou imputá-las ou analisá-las como uma subamostra separada.
PS Observe também que os entrevistados são "estúpidos". Eles geralmente se confundem com as notas da escala. Por exemplo, se o ponto DK fosse colocado próximo a um polo da balança, ele freqüentemente seria confundido por desatenção com esse polo. Eu não estou brincando.
fonte
Agora você tem os entrevistados auto-selecionados por terem uma opinião sobre o assunto. Tudo o que você concluir será exclusivamente sobre essas pessoas. Isso pode ser bom, já que pesquisar aqueles que "não sabem" é, por definição, menos útil.
fonte