Winsorizing data significa substituir os valores extremos de um conjunto de dados por um determinado valor percentual de cada extremidade, enquanto Recortar ou Truncar envolve remover esses valores extremos.
Eu sempre vejo os dois métodos discutidos como uma opção viável para diminuir o efeito de valores discrepantes ao calcular estatísticas como a média ou desvio padrão, mas não vi por que alguém pode escolher um sobre o outro.
Existem vantagens ou desvantagens relativas ao uso de Winsorizing ou Recorte? Existem certas situações em que um método seria preferível? É usado com mais frequência na prática ou é basicamente intercambiável?
Respostas:
Em uma pergunta diferente, porém relacionada, sobre o corte que eu acabei de encontrar, uma resposta teve a seguinte visão útil sobre por que alguém pode usar o winsorizing ou o corte:
Estou curioso para saber se existe uma abordagem mais definitiva, mas a lógica acima parece razoável.
fonte
Uma boa pergunta que é enfrentada com muita frequência em todos os campos! Nos dois casos, você está tecnicamente removendo-os do conjunto de dados.
Sei que é prática comum ao tentar encontrar graficamente uma tendência para usar uma forma de truncamento: use todo o conjunto de dados para fins de plotagem, mas exclua os valores extremos para a interpretação.
O problema com o 'winsorizing' é que as partes adicionadas são preenchidas automaticamente, ou seja, são originárias do próprio conjunto de dados e, portanto, são apenas suportadas. Existem problemas semelhantes se você examinar o trabalho de validação cruzada / classificação no aprendizado de máquina, ao decidir como usar os conjuntos de dados de treinamento e teste.
Eu nunca encontrei uma abordagem padronizada em nenhum caso - ela é sempre específica dos dados. Você pode tentar descobrir qual percentil seus dados (os valores discrepantes) estão causando uma determinada porcentagem da volatilidade / st. desvio e encontre um equilíbrio entre reduzir essa volatilidade, mas reter o máximo de dados possível.
fonte
Esta é uma boa pergunta, e uma que eu já enfrentei. Nos casos em que você tem um grande conjunto de dados ou um conjunto de dados com maior precisão, em grande parte, em que a minoria dos valores dos dados varia em uma ampla escala (mas ainda assim é necessário que sejam mostrados) e a maioria do conjunto de dados está em uma faixa estreita, de modo que, se os dados são plotados como estão, os detalhes em que a maioria dos dados estão perdidos e a normalização ou padronização não mostra diferenciação adequada (pelo menos visualmente) ou dados brutos são necessários, em vez disso, truncando ou vencendo o valores extremos de dados ajudam a melhorar a visualização dos dados.
fonte
fonte