Desculpas se esta é uma pergunta muito básica.
Se tivermos dados que normalmente não são distribuídos (por exemplo, enviesados, o teste Shapiro-Wilk é significativo) e recorrermos a métodos baseados em classificação (por exemplo, teste Wilcoxon Signed Rank), então precisamos nos preocupar com discrepâncias?
Imagine, por exemplo, plotar os dados usando um boxplot e uma minoria de pontos de dados são marcados como outliers. Devemos transformar esses pontos? Ou removê-los? Parece-me que muitos livros didáticos falam sobre como lidar com discrepantes, mas apenas porque exercem uma grande influência sobre parâmetros como média e desvio padrão. No entanto, quando usamos um teste baseado em classificação, eles já serão 'transformados' para serem o próximo valor na classificação e, portanto, não exercerão grande influência no teste. Eu não vi isso declarado explicitamente em um livro de estatísticas até agora, então pensei em fazer a pergunta aqui.
Precisamos nos preocupar com discrepâncias ao usar testes baseados em classificação?
Respostas:
Não. Quando os dados são classificados, um outlier será simplesmente reconhecido como um caso classificado acima ou abaixo do próximo caso menos extremo. Independentemente de haver 0,01 ou 5 desvios padrão entre o valor mais e o segundo mais extremo, esse grau de diferença é descartado quando os dados são classificados.
De fato, uma das muitas razões pelas quais alguém pode usar um teste baseado em classificação (ou não paramétrico) é por causa de valores discrepantes.
fonte
A resposta de @ Hotaka é bastante correta. A classificação torna a transformação desnecessária; é ela própria uma transformação que ignora valores exatos, exceto na medida em que leva a diferenças de classificação. De fato, um pouco de reflexão, ou alguns exemplos de cálculos, mostrarão que os resultados após a classificação dos logaritmos ou raízes quadradas ou qualquer outra transformação monotônica são exatamente os mesmos que após a classificação dos dados originais.
Mas mais pode ser dito. O pensamento ou-ou
Meus dados são normalmente distribuídos e eu posso usar procedimentos padrão ou clássicos.
Ou eu preciso recorrer a testes baseados em classificação.
é um pouco gritante e (pode ser sugerido) simplificado demais. Embora seja difícil sugerir exatamente o que você deveria fazer sem ver seus dados e suas metas precisas, há outras perspectivas:
Muitos usuários de estatísticas examinam distribuições marginais (univariadas) e avaliam se estão próximas da normalidade, mas isso pode até não ser relevante. Por exemplo, a normalidade marginal não é necessária para procedimentos do tipo regressão. Para muitos procedimentos, é como os meios se comportam, não como os dados se comportam, que é mais importante e mais próximo das principais premissas.
Mesmo (digamos) um resultado significativo em níveis convencionais para um teste de Shapiro-Wilk é ambíguo em termos de orientação de análises posteriores. Apenas diz "sua distribuição é detectável diferente de uma distribuição normal". Isso, por si só, não implica que o grau de não normalidade que você tem torne inválido ou absurdo o que você tem em mente. Pode apenas significar: vá com cuidado, pois as suposições subjacentes não são exatamente satisfeitas. (Na prática, eles nunca estão exatamente satisfeitos, de qualquer maneira.) O hábito de cultivar é pensar que todos os valores-P são aproximações. (Mesmo quando não estão sendo feitas suposições sobre distribuições, são geralmente implícitas suposições sobre amostragem ou independência ou medição sem erros.)
Embora muitos textos e cursos impliquem o contrário, a estatística não paramétrica é um beco sem saída glorioso: há um conjunto de testes às vezes úteis, mas na prática você desiste da maioria da modelagem útil que é central nas estatísticas modernas.
Os outliers são mencionados aqui e sempre merecem muita atenção. Eles nunca devem ser omitidos apenas porque são inconvenientes ou parecem ser a razão pela qual as suposições não são satisfeitas. Às vezes, a análise em uma escala transformada é o melhor caminho a seguir. Às vezes, alguns discrepantes leves não são tão problemáticos quanto os usuários menos experientes das estatísticas temem. Com amostras pequenas, os dados costumam parecer irregulares ou irregulares, mesmo que o processo de geração seja bem comportado; com amostras grandes, um único outlier não precisa dominar o restante dos dados.
Sempre há a opção de realizar os dois tipos de testes, por exemplo, t de Student e Mann-Whitney-Wilcoxon. Eles não fazem exatamente a mesma pergunta, mas geralmente é fácil ver se apontam na mesma direção. Ou seja, se no teste e no outro teste ambos derem sinais claros de que dois grupos são diferentes, você tem alguma garantia de que sua conclusão é bem apoiada (e alguma defesa contra o cético que desconfia de um ou outro procedimento devido ao cheiro de não normalidade) ) Se os dois testes fornecerem respostas muito diferentes, isso por si só é uma evidência útil de que você precisa pensar com muito cuidado sobre a melhor forma de analisar os dados. (Talvez esse erro externo maciço realmente determine de que maneira a resposta será dada.)
fonte