Como provar quando você não conhece a distribuição

9

Eu sou bastante novo em estatística (um punhado de cursos Uni de nível iniciante) e estava pensando em amostragem de distribuições desconhecidas. Especificamente, se você não tem idéia da distribuição subjacente, existe alguma maneira de "garantir" que você obtenha uma amostra representativa?

Exemplo para ilustrar: digamos que você esteja tentando descobrir a distribuição global de riqueza. Para qualquer indivíduo, você pode descobrir de alguma forma a riqueza exata deles; mas você não pode "provar" cada pessoa na Terra. Então, digamos que você experimente n = 1000 pessoas aleatoriamente.

Se sua amostra não incluiu Bill Gates, você pode pensar que não existem bilionários.
Se você incluir Bill Gates, talvez pense que bilionários são mais comuns do que realmente são.

Em ambos os casos, você não pode realmente dizer quão bilionários são comuns ou raros; você pode nem ser capaz de dizer se existe algum.

Existe um melhor mecanismo de amostragem para um caso como este?

Como você informaria a priori qual procedimento de amostragem usar (e quantas amostras são necessárias)?

Parece-me que você pode ter que "provar" uma grande porcentagem da população para saber, com algo que se aproxima de uma certeza razoável, como bilionários comuns ou raros são no planeta, e que isso se deve à distribuição subjacente ser um pouco difícil trabalhar com.

distributions estimation sampling sample-size algorithms syenmesh
fonte

11

No caso da distribuição da riqueza, muito dependeria exatamente qual era o objetivo. Se, por exemplo, o objetivo fosse estimar os níveis de riqueza que colocariam um indivíduo entre os 10%, 20% e assim por diante, não seria crítico se a amostra incluísse bilionários. Mas se o objetivo era estimar a proporção de riqueza mantida no total pelos 10% principais, então como a amostragem lidaria com bilionários provavelmente seria crítica. O ponto geral aqui é que se uma amostra é representativa é sempre relativa ao que você está tentando fazer.

Adam Bailey

realmente? problema aberto, as respostas são boas, ainda são aproximações (às vezes melhores, às vezes piores). É um problema aberto, talvez o único problema aberto de estatística #

Nikos M.

9

Eu contesto sua afirmação de que "em ambos os casos, você não pode realmente dizer como bilionários comuns ou raros são". Seja a fração desconhecida de bilionários na população. Com um uniforme anterior a , a distribuição posterior de após empates que acabou com 0 bilionários é uma distribuição Beta (1.001), que se parece com isso: $f$ $f$ $f$ $1000$ p (f | b = 0)

Enquanto a distribuição posterior de após empates que acabou com 1 bilionário é uma distribuição Beta (2.100), que se parece com isso: $f$ $1000$ p (f | b = 1)

$f < 0.01$

Tom Minka
fonte

7

Há duas coisas que você pode fazer (separadamente ou em combinação)

Modele a cauda

Uma é modelar a cauda da distribuição usando uma distribuição paramétrica. Sabe-se que as leis de poder ajustam-se bem à distribuição da riqueza; portanto, tente uma distribuição de Pareto. Você ajustaria essa distribuição pela máxima probabilidade, ou seja, encontrando os parâmetros que melhor representam sua amostra. Ou melhor, você pode colocar um prior Bayesiano nos parâmetros e calcular o posterior completo.

Infelizmente, as leis de energia são muito sensíveis aos parâmetros e, sem muitos pontos de dados grandes em sua amostra, haverá muita incerteza sobre o expoente. O número estimado de bilionários será sensível a esse parâmetro, mas muito menor que a riqueza média dos bilionários, portanto a situação não é tão ruim.

Amostragem de importância

A outra é mudar a maneira como você coleta sua amostra. Suponha que você suspeite (como deveria) que há mais bilionários per capita em Mônaco ou Zurique do que em Mogadíscio. Se você conhece a população de cada uma dessas cidades, pode coletar uma amostra maior nas cidades onde espera ver mais bilionários e uma menor nas demais.

Digamos que Zurique tenha 400.000 pessoas e Mogadíscio 1.400.000 e queremos pesquisar 9.000 pessoas. Estamos interessados aqui no número de milionários, não bilionários.

Uma amostra imparcial selecionaria 2.000 pessoas em Zurique e 7.000 em Mogadíscio. No entanto, influenciaremos a amostra amostrando sete vezes mais vezes em Zurique. Então, vamos "fingir" que Zurique tem 2.800.000 pessoas e nos ajustar depois. Isso significa que entrevistamos 6.000 pessoas em Zurique, em vez de 2.000 e 4.000 em Mogadíscio.

Digamos que contamos 21 milionários em nossa amostra de Zurique e apenas 1 em nossa amostra de Mogadíscio. Como amostramos mais de 7 vezes Zurique, só contaríamos como 3 milionários.

Este procedimento diminuirá a variação do seu estimador. Também pode ser usado em conjunto com o primeiro método; nesse caso, você estará ajustando a amostragem de importância ao ajustar uma distribuição paramétrica.

Arthur B.
fonte

6

Eu acho que um bom método de amostragem é baseado no conhecimento prévio do sistema. Em seu campo, você tem conhecimento sobre possíveis vieses que podem afetar sua amostragem. Se você não tiver esse conhecimento, poderá adquiri-lo na literatura.

No seu exemplo, você sabe que existem bilionários e que eles podem influenciar sua amostragem. Assim, você pode decidir estratificar a amostragem por nível de educação, país, tipo de trabalho, etc. Existem várias opções.

Vamos tentar com outro exemplo. Seu objetivo é determinar a abundância de espécies de ratos em um parque. Neste parque, há florestas e prados. Pela literatura, você sabe que os ratos são mais abundantes na floresta do que nos prados. Então você estratifica sua amostragem por essa característica. Existe outro procedimento de amostragem possível, mas acho que suas melhores informações serão da literatura existente.

E se não houver literatura sobre o seu campo? Improvável, mas nesse contexto, eu faria um pré-estudo para ver quais fatores precisam ser levados em consideração na amostragem.

Emilie
fonte

2

Se uma amostra é representativa ou não, nada tem a ver com as medições observadas da amostra. Uma amostra é representativa se cada conjunto de unidades observacionais tiver a mesma probabilidade de ser escolhido como qualquer outro conjunto do mesmo tamanho. É claro que isso é difícil, a menos que você possa obter uma enumeração completa do seu espaço de amostra. Supondo que você possa obter isso (a partir de dados do setor censitário, por exemplo), uma amostra aleatória simples será representativa.

Não importa como você obtenha sua amostra, sempre haverá pelo menos três fontes de erro separadas a serem consideradas:

erro de amostragem: por acaso você inclui Bill Gates na sua amostra representativa. Os métodos estatísticos, especialmente as larguras de intervalos de confiança, etc., são projetados para cuidar disso, desde que você tenha um conhecimento aproximado da distribuição disponível (por exemplo, normalidade, cuja distribuição de riqueza definitivamente não possui).

viés de amostragem: a amostra não foi representativa. Exemplo: Bill Gates tem um número não listado, para que sua pesquisa por telefone nunca possa alcançá-lo (a menos que você use algo como "discagem de dígitos aleatórios"). Este é um exemplo extremo, mas o viés de amostragem é muito difundido. Uma ocorrência comum é coletar amostras no local ou por conveniência: você experimenta os clientes do restaurante se eles gostam do local, com que frequência eles estiveram lá e se planejam voltar. Os clientes repetidos têm muito mais probabilidade de serem amostrados do que os clientes antigos, e amostras desse tipo podem ter severas tendências nas suas atitudes.

viés de resposta: as próprias medições são imprecisas. Isso pode ocorrer devido a qualquer coisa, desde mau funcionamento do medidor, mentira consciente até efeitos quânticos (por exemplo, o princípio da incerteza de Heisenberg).

user3697176
fonte

Esta resposta tem conselhos úteis e cobre boas bases. Eu gostaria de sugerir que a caracterização de "representativo" possa ser muito restritiva, no entanto, porque exclui formas comuns e úteis de amostragem (incluindo algumas especificamente mencionadas em outras respostas), como amostragem estratificada, amostragem de importância e formas de amostragem sistemática. . Não seria suficiente permitir que uma amostra seja representativa quando a chance de incluir qualquer conjunto de unidades observacionais é conhecida (e, portanto, pode ser usada para produzir estimativas imparciais), mas não necessariamente constante para todos os conjuntos de um determinado tamanho?

whuber

@whuber "Não seria suficiente permitir que uma amostra seja representativa quando se sabe a chance de incluir qualquer conjunto de unidades de observação ...": Isso está correto, e eu devo editar minha resposta para reconhecer amostras estratificadas e amostras importantes. No entanto, a amostragem sistemática é arriscada e os conselhos dados no link e em outros lugares estão simplesmente errados. Se houver padrões sistemáticos nos dados, um ponto de partida aleatório não eliminará o viés, tudo o que fará é garantir que você não será capaz de calcular o viés.

user3697176

talvez a melhor resposta até agora (no sentido de apontar diretamente para o ponto de estatística)

Nikos M.

Como provar quando você não conhece a distribuição

Respostas: