Bootstrapping - preciso remover os outliers primeiro?

Realizamos um teste de divisão de um novo recurso do produto e queremos avaliar se o aumento da receita é significativo. Definitivamente, nossas observações não são distribuídas normalmente (a maioria de nossos usuários não gasta e, naquelas que gastam, é fortemente direcionada a muitos pequenos gastadores e alguns grandes).

Decidimos usar o bootstrapping para comparar os meios, contornar o problema de os dados não serem normalmente distribuídos (questão secundária: esse é um uso legítimo do bootstrapping?)

Minha pergunta é: preciso cortar os valores discrepantes do conjunto de dados (por exemplo, os poucos gastadores muito grandes) antes de executar o bootstrapping, ou isso não importa?

bootstrap outliers user31228
fonte

Boa pergunta: provavelmente posso argumentar a favor e contra a remoção de valores discrepantes. Por que não usar medianas se você está preocupado com discrepâncias e o que você está procurando é apenas uma "tendência central"? Dado que variáveis relacionadas a dinheiro geralmente têm distribuição altamente distorcida (por exemplo, Pareto) que pode não ser razoável em primeiro lugar.

usεr11852 diz Reinstate Monic

@ user11852 As medianas falam pouco sobre a média, que é relevante para a receita. Seria interessante ver seu argumento a favor da remoção dos "discrepantes", especialmente quando esses provavelmente são os principais contribuintes da receita total.

whuber

Infelizmente mediana seria sempre zero, como <10% dos usuários gastam em tudo

user31228

@ user11852 Seu argumento geral de que os outliers são legítimos é útil. Mas, com relação à possibilidade de amplificação, parece-me que o contrário é verdadeiro: o bootstrapping só pode funcionar se a amostra completa for usada. Caso contrário, apresenta um conto de fadas, nos dizendo como seriam as coisas se não houvesse discrepâncias - mas obviamente elas existem. O maior problema é que o bootstrapping tem pouca justificativa teórica quando aplicada a pequenas amostras: a teoria é assintótica .

whuber

Esta é uma pergunta importante (+1). Você pode adicionar uma pequena amostra do seu conjunto de dados ou uma amostra simulada semelhante à pergunta? Eu acho que fornecer uma ilustração será mais proveitoso neste caso.

user603

Respostas:

Antes de abordar isso, é importante reconhecer que a má prática estatística de "remover valores extremos" foi erroneamente promulgada em grande parte da pedagogia estatística aplicada. Tradicionalmente, os valores extremos são definidos como observações de alta alavancagem e alta influência. Pode-se e deve-se identificar essas observações na análise dos dados, mas essas condições por si só não garantem a remoção dessas observações. Um "verdadeiro outlier" é uma observação de alta alavancagem / alta influência que é inconsistente com as repetições do projeto experimental. Considerar uma observação como tal requer conhecimento especializado dessa população e da ciência por trás do "mecanismo de geração de dados". O aspecto mais importante é que você deve ser capaz de identificar discrepantes em potencial a priori .

Quanto ao aspecto das coisas de bootstrap, o bootstrap deve simular empates independentes e repetidos da população de amostragem. Se você pré-especificar critérios de exclusão em seu plano de análise, ainda deverá deixar valores excluídos na distribuição de amostragem de autoinicialização referente . Isso ocorre porque você contabilizará a perda de energia devido à aplicação de exclusões após a amostragem de seus dados. No entanto, se não houver critérios de exclusão pré-especificados e os discrepantes forem removidos usando adjudicação post hoc , como obviamente estou me opondo, a remoção desses valores propagará os mesmos erros de inferência causados pela remoção de discrepantes.

Considere um estudo sobre riqueza e felicidade em uma amostra aleatória simples e não estratificada de 100 pessoas. Se adotássemos a afirmação, "1% da população detém 90% da riqueza do mundo" literalmente, observaríamos, em média, um valor muito influente. Suponha ainda que, além de proporcionar uma qualidade de vida básica, não houvesse excesso de felicidade atribuível à maior renda (tendência linear não constante). Portanto, esse indivíduo também é de alta alavancagem.

O ajuste do coeficiente de regressão dos mínimos quadrados em dados não adulterados estima uma tendência média de primeira ordem da população nesses dados. Isso é fortemente atenuado por nosso indivíduo na amostra cuja felicidade é consistente com aqueles próximos aos níveis médios de renda. Se removermos esse indivíduo, a inclinação da regressão dos mínimos quadrados é muito maior, mas a variância do regressor é reduzida; portanto, a inferência sobre a associação é aproximadamente a mesma. A dificuldade de fazer isso é que não especifiquei as condições nas quais os indivíduos seriam excluídos. Se outro pesquisador replicasse o desenho deste estudo, ele amostraria uma média de um indivíduo de renda alta e moderadamente feliz e obteria resultados inconsistentes com meus resultados "aparados".

Se estivéssemos a priori interessados na associação de felicidade de renda moderada, deveríamos ter pré-especificado que deveríamos, por exemplo, "comparar indivíduos que ganham menos de $ 100.000 de renda familiar anual". Portanto, remover o outlier nos leva a estimar uma associação que não podemos descrever; portanto, os valores-p não têm sentido.

Por outro lado, equipamentos médicos mal calibrados e mentiras facultadas de auto-relato podem ser removidos. Quanto mais precisamente os critérios de exclusão puderem ser descritos antes da análise real, mais válidos e consistentes serão os resultados que essa análise produzirá.

AdamO
fonte

Não sei se entendi por que " se você pré-especificar os critérios de exclusão em seu plano de análise, ainda deve deixar valores excluídos na distribuição de amostragem de autoinicialização referente " . Você menciona que é " porque " será responsável pela perda de energia devido a aplicação de exclusões após a amostragem de seus dados. "Não vejo por que se supõe que a aplicação de critérios de exclusão após a amostragem leve à perda de energia, nem como / por que deixar os casos excluídos na amostra de bootstrap" explica "(?) isso, nem mais por que isso é algo que claramente deve ser "considerado". Talvez eu esteja sendo densa aqui.

Jake Westfall

p

$p$

Hmm, meu pensamento era que, se alguém especificasse os critérios de exclusão com antecedência - para que não explicitamente nos interessássemos em certos tipos de casos, e presumivelmente futuras replicações de estudos usariam esses mesmos critérios de exclusão -, faria sentido deixar esses casos fora da amostra de bootstrap, pois são um segmento da população sobre o qual não queremos inferir. Eu vejo como futuras repetições pode acabar excluindo uma proporção diferente de casos, mas eu não consigo fazer a conexão de porque isso é importante para os casos que nós explicitamente estão interessados em ..

Jake Westfall

p

$p$

H_{0}

$\mathcal{H}_0$

Ver isso como um problema externo parece errado para mim. Se "menos de 10% dos usuários gastam", você precisa modelar esse aspecto. A regressão de Tobit ou Heckman seria duas possibilidades.

JKP
fonte

No momento, isso é mais um comentário do que uma resposta. Você se importaria em expandi-lo um pouco para torná-lo mais receptivo?

gung - Restabelece Monica