Realizamos um teste de divisão de um novo recurso do produto e queremos avaliar se o aumento da receita é significativo. Definitivamente, nossas observações não são distribuídas normalmente (a maioria de nossos usuários não gasta e, naquelas que gastam, é fortemente direcionada a muitos pequenos gastadores e alguns grandes).
Decidimos usar o bootstrapping para comparar os meios, contornar o problema de os dados não serem normalmente distribuídos (questão secundária: esse é um uso legítimo do bootstrapping?)
Minha pergunta é: preciso cortar os valores discrepantes do conjunto de dados (por exemplo, os poucos gastadores muito grandes) antes de executar o bootstrapping, ou isso não importa?
Respostas:
Antes de abordar isso, é importante reconhecer que a má prática estatística de "remover valores extremos" foi erroneamente promulgada em grande parte da pedagogia estatística aplicada. Tradicionalmente, os valores extremos são definidos como observações de alta alavancagem e alta influência. Pode-se e deve-se identificar essas observações na análise dos dados, mas essas condições por si só não garantem a remoção dessas observações. Um "verdadeiro outlier" é uma observação de alta alavancagem / alta influência que é inconsistente com as repetições do projeto experimental. Considerar uma observação como tal requer conhecimento especializado dessa população e da ciência por trás do "mecanismo de geração de dados". O aspecto mais importante é que você deve ser capaz de identificar discrepantes em potencial a priori .
Quanto ao aspecto das coisas de bootstrap, o bootstrap deve simular empates independentes e repetidos da população de amostragem. Se você pré-especificar critérios de exclusão em seu plano de análise, ainda deverá deixar valores excluídos na distribuição de amostragem de autoinicialização referente . Isso ocorre porque você contabilizará a perda de energia devido à aplicação de exclusões após a amostragem de seus dados. No entanto, se não houver critérios de exclusão pré-especificados e os discrepantes forem removidos usando adjudicação post hoc , como obviamente estou me opondo, a remoção desses valores propagará os mesmos erros de inferência causados pela remoção de discrepantes.
Considere um estudo sobre riqueza e felicidade em uma amostra aleatória simples e não estratificada de 100 pessoas. Se adotássemos a afirmação, "1% da população detém 90% da riqueza do mundo" literalmente, observaríamos, em média, um valor muito influente. Suponha ainda que, além de proporcionar uma qualidade de vida básica, não houvesse excesso de felicidade atribuível à maior renda (tendência linear não constante). Portanto, esse indivíduo também é de alta alavancagem.
O ajuste do coeficiente de regressão dos mínimos quadrados em dados não adulterados estima uma tendência média de primeira ordem da população nesses dados. Isso é fortemente atenuado por nosso indivíduo na amostra cuja felicidade é consistente com aqueles próximos aos níveis médios de renda. Se removermos esse indivíduo, a inclinação da regressão dos mínimos quadrados é muito maior, mas a variância do regressor é reduzida; portanto, a inferência sobre a associação é aproximadamente a mesma. A dificuldade de fazer isso é que não especifiquei as condições nas quais os indivíduos seriam excluídos. Se outro pesquisador replicasse o desenho deste estudo, ele amostraria uma média de um indivíduo de renda alta e moderadamente feliz e obteria resultados inconsistentes com meus resultados "aparados".
Se estivéssemos a priori interessados na associação de felicidade de renda moderada, deveríamos ter pré-especificado que deveríamos, por exemplo, "comparar indivíduos que ganham menos de $ 100.000 de renda familiar anual". Portanto, remover o outlier nos leva a estimar uma associação que não podemos descrever; portanto, os valores-p não têm sentido.
Por outro lado, equipamentos médicos mal calibrados e mentiras facultadas de auto-relato podem ser removidos. Quanto mais precisamente os critérios de exclusão puderem ser descritos antes da análise real, mais válidos e consistentes serão os resultados que essa análise produzirá.
fonte
Ver isso como um problema externo parece errado para mim. Se "menos de 10% dos usuários gastam", você precisa modelar esse aspecto. A regressão de Tobit ou Heckman seria duas possibilidades.
fonte