Quais são os méritos relativos dos dados de Winsorizing vs. Recorte?

31

Winsorizing data significa substituir os valores extremos de um conjunto de dados por um determinado valor percentual de cada extremidade, enquanto Recortar ou Truncar envolve remover esses valores extremos.

Eu sempre vejo os dois métodos discutidos como uma opção viável para diminuir o efeito de valores discrepantes ao calcular estatísticas como a média ou desvio padrão, mas não vi por que alguém pode escolher um sobre o outro.

Existem vantagens ou desvantagens relativas ao uso de Winsorizing ou Recorte? Existem certas situações em que um método seria preferível? É usado com mais frequência na prática ou é basicamente intercambiável?

Brian
fonte
2
A terminologia aqui é enganosa. Aparar significa ignorar valores extremos, alguma fração em cada cauda. Isso não implica a exclusão ou queda de valores nas caudas, até porque você pode, e geralmente deveria, incluí-los em outras análises. O termo truncamento é melhor reservado para outros significados. Veja, por exemplo, en.wikipedia.org/wiki/Truncation_(statistics)
Nick Cox

Respostas:

11

Em uma pergunta diferente, porém relacionada, sobre o corte que eu acabei de encontrar, uma resposta teve a seguinte visão útil sobre por que alguém pode usar o winsorizing ou o corte:

Se você pegar a distribuição aparada, declara explicitamente: não estou interessado em discrepâncias / caudas da distribuição. Se você acredita que os "valores extremos" são realmente extremos (ou seja, eles não pertencem à distribuição, mas são de "outro tipo"), faça o corte. Se você acha que eles pertencem à distribuição, mas deseja ter uma distribuição menos distorcida, pode pensar em vitórias.

Estou curioso para saber se existe uma abordagem mais definitiva, mas a lógica acima parece razoável.

Brian
fonte
4

Uma boa pergunta que é enfrentada com muita frequência em todos os campos! Nos dois casos, você está tecnicamente removendo-os do conjunto de dados.

Sei que é prática comum ao tentar encontrar graficamente uma tendência para usar uma forma de truncamento: use todo o conjunto de dados para fins de plotagem, mas exclua os valores extremos para a interpretação.

O problema com o 'winsorizing' é que as partes adicionadas são preenchidas automaticamente, ou seja, são originárias do próprio conjunto de dados e, portanto, são apenas suportadas. Existem problemas semelhantes se você examinar o trabalho de validação cruzada / classificação no aprendizado de máquina, ao decidir como usar os conjuntos de dados de treinamento e teste.

Eu nunca encontrei uma abordagem padronizada em nenhum caso - ela é sempre específica dos dados. Você pode tentar descobrir qual percentil seus dados (os valores discrepantes) estão causando uma determinada porcentagem da volatilidade / st. desvio e encontre um equilíbrio entre reduzir essa volatilidade, mas reter o máximo de dados possível.

n1k31t4
fonte
6
Como no meu comentário acima, "removê-los do conjunto de dados" é muito forte aqui. Aparar ou Winsorizing significa apenas o que ele faz, ignorando ou substituindo, como pode ser, para um determinado cálculo. Você não é obrigado a remover os valores finais do conjunto de dados, como se estivesse jogando frutas podres. Por exemplo, diante de possíveis discrepantes, você pode fazer uma análise dos dados à medida que eles chegam e uma análise baseada no corte e ver qual a diferença que isso faz.
Nick Cox
-1

Esta é uma boa pergunta, e uma que eu já enfrentei. Nos casos em que você tem um grande conjunto de dados ou um conjunto de dados com maior precisão, em grande parte, em que a minoria dos valores dos dados varia em uma ampla escala (mas ainda assim é necessário que sejam mostrados) e a maioria do conjunto de dados está em uma faixa estreita, de modo que, se os dados são plotados como estão, os detalhes em que a maioria dos dados estão perdidos e a normalização ou padronização não mostra diferenciação adequada (pelo menos visualmente) ou dados brutos são necessários, em vez disso, truncando ou vencendo o valores extremos de dados ajudam a melhorar a visualização dos dados.

hóspede
fonte
É uma boa pergunta, mas você não responde. Você acabou de dizer que truncar ou Winsorizing pode ajudar na visualização.
Nick Cox
-2

O(nregistron)O(n)(1,2,3,4,4)(2+2+3+4+4)/5(2+3+4)/3(2+3+4+4)/4

Mark Lakata
fonte
1
O(nregistron)O(n)
Você está certo. Eu digitei errado meu post original. Às vezes, os dedos digitando e o cérebro não estão sincronizados. Eu quis dizer para calcular corretamente uma média truncada verdadeira , você precisa classificar todos os elementos de dados. Eu acredito que isso ainda é verdade. Eu atualizei por resposta.
Mark Lakata
2
Isso parece implicar que Winsorizing significa Winsorizing 25% em cada cauda. Você pode Winsorize o quanto for apropriado.
Nick Cox