Eu tenho um conjunto de dados com todas as chamadas feitas para um serviço de emergência e os tempos de resposta do departamento de ambulância. Eles admitiram que existem alguns erros nos tempos de resposta, pois há casos em que eles não começaram a gravar (portanto, o valor é 0) ou em que não pararam o relógio (portanto, o valor pode ser extremamente alto).
Eu quero descobrir a tendência central e fiquei pensando se é melhor usar a mediana ou a média aparada para se livrar dos valores extremos?
mean
outliers
median
trimmed-mean
Duarte_RV
fonte
fonte
Respostas:
Considere o que significa uma média aparada: No caso prototípico, você primeiro classifica seus dados em ordem crescente. Então você conta até a porcentagem de corte da parte inferior e descarta esses valores. Por exemplo, uma média aparada de 10% é comum; nesse caso, você conta com o valor mais baixo até passar 10% de todos os dados em seu conjunto. Os valores abaixo dessa marca são anulados. Da mesma forma, você faz a contagem regressiva do valor mais alto até ultrapassar sua porcentagem de corte e define todos os valores maiores que isso. Agora você fica com os 80% do meio. Você calcula a média disso, e essa é a sua média aparada em 10%. (Observe que você pode cortar proporções desiguais das duas caudas, ou apenas cortar uma cauda, mas essas abordagens são menos comuns e não parecem aplicáveis à sua situação.)
Agora pense no que aconteceria se você calculasse uma média aparada de 50%. A metade inferior seria reservada, assim como a metade superior. Você ficaria com apenas o valor único no meio (normalmente). Você usaria a média disso (ou seja, você usaria esse valor) como sua média aparada. Observe, no entanto, que esse valor é a mediana. Em outras palavras, a mediana é uma média aparada (é uma média aparada de 50%). É apenas um muito agressivo. Parte-se do princípio de que 99% dos seus dados estão contaminados. Isso oferece a melhor proteção contra discrepantes à custa da perda máxima de potência / eficiência .
Meu palpite é que uma média mediana / 50% aparada é muito mais agressiva do que o necessário para seus dados e desperdiça muito as informações disponíveis. Se você tiver alguma noção da proporção de discrepantes existentes, eu usaria essas informações para definir a porcentagem de corte e usar a média aparada apropriada. Se você não tiver base para escolher a porcentagem de corte, poderá selecionar uma por validação cruzada ou usar uma análise de regressão robusta com apenas uma interceptação.
fonte
Antes de tudo, remova os dados inválidos.
Em segundo lugar, você não precisa remover os valores discrepantes, pois são valores observados. Em alguns casos, é útil (como na regressão linear), mas no seu caso eu não entendo o ponto.
Por fim, prefira usar a mediana, pois é mais preciso encontrar o centro dos seus dados. Como você disse, a média pode ser sensível a valores discrepantes (o uso da média aparada pode ser tendenciosa).
fonte