Precisamos nos preocupar com discrepâncias ao usar testes baseados em classificação?

8

Desculpas se esta é uma pergunta muito básica.

Se tivermos dados que normalmente não são distribuídos (por exemplo, enviesados, o teste Shapiro-Wilk é significativo) e recorrermos a métodos baseados em classificação (por exemplo, teste Wilcoxon Signed Rank), então precisamos nos preocupar com discrepâncias?

Imagine, por exemplo, plotar os dados usando um boxplot e uma minoria de pontos de dados são marcados como outliers. Devemos transformar esses pontos? Ou removê-los? Parece-me que muitos livros didáticos falam sobre como lidar com discrepantes, mas apenas porque exercem uma grande influência sobre parâmetros como média e desvio padrão. No entanto, quando usamos um teste baseado em classificação, eles já serão 'transformados' para serem o próximo valor na classificação e, portanto, não exercerão grande influência no teste. Eu não vi isso declarado explicitamente em um livro de estatísticas até agora, então pensei em fazer a pergunta aqui.

Precisamos nos preocupar com discrepâncias ao usar testes baseados em classificação?

trev
fonte
3
Os testes estatísticos com base em classificação são robustos em relação a valores extremos. Mas um outlier é um outlier, no nível operacional o analista ainda deve examinar esse caso. Então, eu diria que ainda precisamos "parcialmente" nos preocupar com discrepâncias.
Penguin_Knight 25/09
Tudo bem, mesmo que a pergunta possa ser muito básica. Enquanto a questão é unasked neste site, até mesmo questões básicas são boas perguntas
Hotaka

Respostas:

9

Não. Quando os dados são classificados, um outlier será simplesmente reconhecido como um caso classificado acima ou abaixo do próximo caso menos extremo. Independentemente de haver 0,01 ou 5 desvios padrão entre o valor mais e o segundo mais extremo, esse grau de diferença é descartado quando os dados são classificados.

De fato, uma das muitas razões pelas quais alguém pode usar um teste baseado em classificação (ou não paramétrico) é por causa de valores discrepantes.

Hotaka
fonte
3
E a excelente eficiência dos métodos não paramétricos e semiparamétricos é uma razão para não pré-testar a normalidade (além do poder inadequado do teste de normalidade).
precisa saber é o seguinte
Não sei se devo aceitar essa resposta concisa ou a instigante e detalhada da @NickCox. Vou esperar alguns dias para ver qual termina com mais votos!
trev
9

A resposta de @ Hotaka é bastante correta. A classificação torna a transformação desnecessária; é ela própria uma transformação que ignora valores exatos, exceto na medida em que leva a diferenças de classificação. De fato, um pouco de reflexão, ou alguns exemplos de cálculos, mostrarão que os resultados após a classificação dos logaritmos ou raízes quadradas ou qualquer outra transformação monotônica são exatamente os mesmos que após a classificação dos dados originais.

Mas mais pode ser dito. O pensamento ou-ou

  • Meus dados são normalmente distribuídos e eu posso usar procedimentos padrão ou clássicos.

  • Ou eu preciso recorrer a testes baseados em classificação.

é um pouco gritante e (pode ser sugerido) simplificado demais. Embora seja difícil sugerir exatamente o que você deveria fazer sem ver seus dados e suas metas precisas, há outras perspectivas:

  1. Muitos usuários de estatísticas examinam distribuições marginais (univariadas) e avaliam se estão próximas da normalidade, mas isso pode até não ser relevante. Por exemplo, a normalidade marginal não é necessária para procedimentos do tipo regressão. Para muitos procedimentos, é como os meios se comportam, não como os dados se comportam, que é mais importante e mais próximo das principais premissas.

  2. Mesmo (digamos) um resultado significativo em níveis convencionais para um teste de Shapiro-Wilk é ambíguo em termos de orientação de análises posteriores. Apenas diz "sua distribuição é detectável diferente de uma distribuição normal". Isso, por si só, não implica que o grau de não normalidade que você tem torne inválido ou absurdo o que você tem em mente. Pode apenas significar: vá com cuidado, pois as suposições subjacentes não são exatamente satisfeitas. (Na prática, eles nunca estão exatamente satisfeitos, de qualquer maneira.) O hábito de cultivar é pensar que todos os valores-P são aproximações. (Mesmo quando não estão sendo feitas suposições sobre distribuições, são geralmente implícitas suposições sobre amostragem ou independência ou medição sem erros.)

  3. Embora muitos textos e cursos impliquem o contrário, a estatística não paramétrica é um beco sem saída glorioso: há um conjunto de testes às vezes úteis, mas na prática você desiste da maioria da modelagem útil que é central nas estatísticas modernas.

  4. Os outliers são mencionados aqui e sempre merecem muita atenção. Eles nunca devem ser omitidos apenas porque são inconvenientes ou parecem ser a razão pela qual as suposições não são satisfeitas. Às vezes, a análise em uma escala transformada é o melhor caminho a seguir. Às vezes, alguns discrepantes leves não são tão problemáticos quanto os usuários menos experientes das estatísticas temem. Com amostras pequenas, os dados costumam parecer irregulares ou irregulares, mesmo que o processo de geração seja bem comportado; com amostras grandes, um único outlier não precisa dominar o restante dos dados.

  5. Sempre há a opção de realizar os dois tipos de testes, por exemplo, t de Student e Mann-Whitney-Wilcoxon. Eles não fazem exatamente a mesma pergunta, mas geralmente é fácil ver se apontam na mesma direção. Ou seja, se no teste e no outro teste ambos derem sinais claros de que dois grupos são diferentes, você tem alguma garantia de que sua conclusão é bem apoiada (e alguma defesa contra o cético que desconfia de um ou outro procedimento devido ao cheiro de não normalidade) ) Se os dois testes fornecerem respostas muito diferentes, isso por si só é uma evidência útil de que você precisa pensar com muito cuidado sobre a melhor forma de analisar os dados. (Talvez esse erro externo maciço realmente determine de que maneira a resposta será dada.)

P<0.05

Nick Cox
fonte
Obrigado pela sua resposta detalhada. Com relação à escolha do método, acredito que a maioria dos usuários de estatísticas é bastante exploradora durante a primeira análise de seus dados. Mas quando escrevem um artigo, precisam justificar qual método escolheram. Eu acho que isso depende em parte do campo e se estamos mais interessados ​​em modelar muitos dados ou testar uma hipótese. Para este último, um Shapiro-Wilk, ainda que com pouca potência, deve parecer melhor do que relatar distorção sem um teste e depois realizar um teste não paramétrico.
trev
1
Eu gosto bastante da idéia de (5), fazendo testes paramétricos e não paramétricos. Mas raramente vi um artigo (pelo menos em psicologia) que diz "aqui estão os resultados de vários testes estatísticos alternativos". Eles apenas escolhem um método e relatam isso, o que pode ser problemático, porque eles podem apenas escolher o método que lhes dá um resultado significativo, conforme destacado no artigo de ciências psicológicas aqui: bit.ly/15uTFlT
trev
Obviamente, a alternativa de relatar vários métodos quase certamente levará a alguma ambiguidade, ou seja, alguns métodos sejam significativos e outros não. Quantos você precisaria concluir que tem um efeito? 4 de 5 significativos? Que tal 3 em 5?
trev
1
Seus comentários ponderados merecem uma discussão muito detalhada. Minha experiência confirma que pessoas em muitos campos estão muito preocupadas em mostrar que há uma única análise correta de um determinado conjunto de dados, que foi o que eles fizeram.
Nick Cox