Uma amostra populacional aleatória foi pesquisada. Eles foram perguntados se eles comem dieta vegetariana. Se eles responderam que sim, também foram solicitados a especificar por quanto tempo eles seguem a dieta vegetariana sem interrupção. Eu quero usar esses dados para calcular o tempo médio de adesão ao vegetarianismo. Em outras palavras, quando alguém se torna vegetariano, quero saber por muito tempo, em média, que eles permanecem vegetarianos. Vamos supor que:
- Todos os entrevistados deram respostas corretas e precisas
- O mundo é estável: a popularidade do vegetarianismo não está mudando, a duração média da adesão também não está mudando.
Meu raciocínio até agora
Achei útil analisar um modelo de brinquedo do mundo, onde no início de cada ano duas pessoas se tornam vegetarianas. Toda vez, um deles permanece vegetariano por 1 ano e outro por 3 anos. Obviamente, a duração média de adesão neste mundo é (1 + 3) / 2 = 2 anos. Aqui está um gráfico que ilustra o exemplo. Cada retângulo representa um período do vegetarianismo:
Digamos que façamos uma pesquisa no meio do ano 4 (linha vermelha). Obtemos os seguintes dados:
Obteríamos os mesmos dados se fizéssemos a pesquisa a qualquer ano, a partir do ano 3. Se fizermos a média das respostas, obtemos:
(2 * 0,5 + 1,5 + 2,5) / 4 = 1,25
Subestimamos porque assumimos que todos deixaram de ser vegetarianos logo após a pesquisa, o que é obviamente incorreto. Para obter uma estimativa mais próxima dos tempos médios reais em que esses participantes permaneceriam vegetarianos, podemos supor que, em média, eles relataram um tempo na metade do período do vegetarianismo e multiplicaram as durações relatadas por 2. Em uma grande pesquisa realizada aleatoriamente da população (como a que estou analisando), acho que essa é uma suposição realista. Pelo menos, daria um valor esperado correto. No entanto, se dobrar é a única coisa que fazemos, obtemos uma média de 2,5, o que é uma superestimação. Isso ocorre porque, quanto mais a pessoa permanecer vegetariana, maior a probabilidade de pertencer à amostra de vegetarianos atuais.
Eu então pensei que a probabilidade de alguém estar na amostra de vegetarianos atuais é proporcional à sua duração do vegetarianismo. Para explicar esse viés, tentei dividir o número de vegetarianos atuais pela duração prevista de adesão:
No entanto, isso também fornece uma média incorreta:
(2 * 1 + ⅓ * 3 + ⅕ * 5) / (2 + ⅓ + ⅕) = 4 / 2,533333 = 1,579 anos
Daria a estimativa correta se o número de vegetarianos fosse dividido pelos comprimentos corretos de adesão:
(1 + ⅓ * (1 + 3 + 5)) / (1 + ⅓ * 3) = 2 anos
Mas não funciona se eu usar comprimentos previstos de aderência e eles são tudo o que tenho na realidade. Não sei mais o que tentar. Eu li um pouco sobre análise de sobrevivência, mas não tenho certeza de como aplicá-la neste caso. Idealmente, eu também gostaria de poder calcular um intervalo de confiança de 90%. Quaisquer dicas seriam extremamente apreciadas.
EDIT: Pode ser possível que a pergunta acima não tenha resposta. Mas também houve outro estudo que perguntou a uma amostra aleatória de pessoas se elas eram / eram vegetarianas e quantas vezes foram vegetarianas no passado. Eu também sei a idade de todos em ambos os estudos e algumas outras coisas. Talvez essa informação possa ser usada em conjunto com a pesquisa de vegetarianos atuais para obter a média de alguma forma. Na realidade, o estudo sobre o qual falei é apenas uma peça do quebra-cabeça, mas muito importante e quero tirar mais proveito disso.
fonte
Respostas:
Seja denotado o pdf do comprimento de aderência X do vegetarianismo na população. O nosso objectivo é o de estimar E X = ∫ ∞ 0 x f X ( x ) d x .fX(x) X EX=∫∞0xfX(x)dx
Supondo que a probabilidade de ser incluída na pesquisa (o evento ) seja proporcional a X , o pdf do comprimento de adesão X entre os incluídos na pesquisa é f X | S ( x ) = x f X ( x )S X X
No momento de ser incluído na pesquisa, apenas um tempoZpassou. Condicional emX(eS), o tempo relatado como vegetariano é uniforme com pdf
fZ| X=x(z)=1
Código R simulando dados e implementando os dois métodos:
fonte
(Eu hesitei em adicionar isso, como parece que @JarleTufto já deu uma boa abordagem matemática; no entanto, não sou inteligente o suficiente para entender sua resposta, e agora estou curioso para saber se é exatamente a mesma abordagem ou se a abordagem que descrevo abaixo sempre tem seus usos.)
O que eu faria é adivinhar um comprimento médio, e adivinhar algumas distribuições em torno dele e, em seguida, para cada um, fazer uma simulação da minha população e fazer uma amostra regularmente.
Você disse que presume que a população total de vegetarianos não está mudando; portanto, toda vez que meu modelo faz alguém parar, um novo vegetariano é criado. Precisamos executar o modelo por vários anos simulados para garantir que ele se estabeleceu antes que possamos começar a amostrar. Depois disso, acho que você pode colher amostras todos os meses simulados (*) até ter o suficiente para formar seu intervalo de confiança de 90%.
*: ou qualquer resolução que funcione com seus dados. Se as pessoas responderem ao ano mais próximo, a amostragem a cada 6 meses é boa o suficiente.
De todas as suas suposições, você escolhe a média e a distribuição que (em média todas as amostras que você tirou) oferecem o resultado mais próximo do que sua pesquisa na vida real deu.
Eu repetia minhas suposições algumas vezes, para me concentrar na melhor partida.
A melhor distribuição pode não ter um pico. Os ex-vegetarianos em quem consigo pensar pararam por causa de grandes mudanças no estilo de vida (normalmente casando / morando com um país não-vegetariano, ou em movimento, ou ficando gravemente doente e um médico sugerindo que pode ser dieta); do outro lado, está o poder do hábito: quanto mais você é vegetariano, maior a probabilidade de continuar sendo um. Se seus dados solicitassem idade e status de relacionamento, também poderíamos incluí-lo na simulação acima.
fonte