Vindo do campo da visão computacional, frequentemente utilizei o método RANSAC (Random Sample Consensus) para ajustar modelos a dados com muitos outliers.
No entanto, nunca o vi usado por estatísticos, e sempre tive a impressão de que não era considerado um método "estatisticamente correto". Por que? É de natureza aleatória, o que dificulta a análise, mas o mesmo ocorre com os métodos de inicialização.
Ou é simplesmente um caso de silos acadêmicos não conversando entre si?
Respostas:
Eu acho que a chave aqui é o descarte de uma grande parte dos dados no RANSAC.
Na maioria das aplicações estatísticas, algumas distribuições podem ter caudas pesadas e, portanto, pequenos números de amostra podem distorcer a estimativa estatística. Estimadores robustos resolvem isso ponderando os dados de maneira diferente. O RANSAC, por outro lado, não tenta acomodar os outliers, foi criado para casos em que os pontos de dados realmente não pertencem, não apenas distribuídos de maneira não-normal.
fonte
Para nós, é apenas um exemplo de uma regressão robusta - acredito que é usada também por estatísticos, mas talvez não seja tão ampla porque possui algumas alternativas mais conhecidas.
fonte
Isso soa muito como ensacamento, que é uma técnica frequentemente usada.
fonte
Você joga fora os dados com o RANSAC, potencialmente sem justificá-los, mas com base no aumento do ajuste do modelo. Descartar dados para aumentar o ajuste geralmente é evitado, pois você pode perder dados importantes. A remoção de valores discrepantes sem justificativa é sempre problemática.
É claro que é possível justificá-lo. Por exemplo, se você soubesse que os dados devem seguir um determinado padrão, mas que também existem desvios nos dados em relação ao padrão devido a erros nas medições.
fonte