Por que o RANSAC não é mais amplamente usado em estatística?

26

Vindo do campo da visão computacional, frequentemente utilizei o método RANSAC (Random Sample Consensus) para ajustar modelos a dados com muitos outliers.

No entanto, nunca o vi usado por estatísticos, e sempre tive a impressão de que não era considerado um método "estatisticamente correto". Por que? É de natureza aleatória, o que dificulta a análise, mas o mesmo ocorre com os métodos de inicialização.

Ou é simplesmente um caso de silos acadêmicos não conversando entre si?

Bossykena
fonte
11
Eu me pergunto uma coisa sobre métodos de visão computacional vs. métodos estatísticos: o desempenho no primeiro é obrigatório. Talvez exista uma troca entre desempenho e "correção", e a visão e as estatísticas do computador tenham pesos diferentes para essas variáveis.
Lucas Reis

Respostas:

10

Eu acho que a chave aqui é o descarte de uma grande parte dos dados no RANSAC.

Na maioria das aplicações estatísticas, algumas distribuições podem ter caudas pesadas e, portanto, pequenos números de amostra podem distorcer a estimativa estatística. Estimadores robustos resolvem isso ponderando os dados de maneira diferente. O RANSAC, por outro lado, não tenta acomodar os outliers, foi criado para casos em que os pontos de dados realmente não pertencem, não apenas distribuídos de maneira não-normal.

nbubis
fonte
11
Ótima resposta. Eu vi o RANSAC mais usado em CV para estimar homografias. Isso é mais amplamente usado quando sabemos que algumas das medidas correspondentes são extremamente não confiáveis. Além disso, o desempenho em tempo real e outras considerações tornaram essa técnica bastante popular, pois pode ser facilmente paralelizada.
Luca
7

Para nós, é apenas um exemplo de uma regressão robusta - acredito que é usada também por estatísticos, mas talvez não seja tão ampla porque possui algumas alternativas mais conhecidas.


fonte
11
Você pode dar exemplos de alternativas? Eu gostaria de investigar isso.
21710 Bossykena
5
A mais conhecida e a mais simples é a regressão Mediana-Mediana, bem conhecida pelas calculadoras inteligentes (Suspiro!). Consulte também a Wikipedia en.wikipedia.org/wiki/Robust_regression e talvez a exibição Robusta de tarefas do CRAN cran.r-project.org/web/views/Robust.html
Existem alternativas ao RANSAC que não apenas fornecem a regressão imparcial, mas também os pontos de dados a partir dos quais o modelo foi estimado? Obrigado
Valerio
2

Isso soa muito como ensacamento, que é uma técnica frequentemente usada.

Zach
fonte
3
O RANSAC é muito diferente - no ensacamento, todas as amostras são levadas em consideração de alguma forma. O RANSAC é usado nos casos em que até 50% dos dados devem ser completamente descartados.
Nbubis
1

Você joga fora os dados com o RANSAC, potencialmente sem justificá-los, mas com base no aumento do ajuste do modelo. Descartar dados para aumentar o ajuste geralmente é evitado, pois você pode perder dados importantes. A remoção de valores discrepantes sem justificativa é sempre problemática.

É claro que é possível justificá-lo. Por exemplo, se você soubesse que os dados devem seguir um determinado padrão, mas que também existem desvios nos dados em relação ao padrão devido a erros nas medições.

NegativeFeedbackLoop
fonte