Por que os laços são tão difíceis nas estatísticas não paramétricas?

14

Meu texto não paramétrico , Estatísticas Práticas Não Paramétricas , geralmente fornece fórmulas limpas para expectativas, variações, estatísticas de testes e similares, mas inclui a ressalva de que isso só funciona se ignorarmos laços. Ao calcular a estatística U de Mann-Whitney, é recomendável que você jogue pares empatados ao comparar qual é maior.

Entendo que os laços não nos dizem muito sobre qual população é maior (se é nisso que estamos interessados), já que nenhum grupo é maior que o outro, mas não parece que isso importaria ao desenvolver distribuições assintóticas.

Por que, então, é um dilema lidar com laços em alguns procedimentos não paramétricos? Existe uma maneira de extrair qualquer informação útil dos laços, em vez de simplesmente jogá-los fora?

EDIT: No que diz respeito ao comentário do @ whuber, verifiquei minhas fontes novamente, e alguns procedimentos usam uma média de classificações em vez de reduzir completamente os valores vinculados. Embora isso pareça mais sensato em relação à retenção de informações, também me parece que carece de rigor. O espírito da questão ainda permanece, no entanto.

Christopher Aden
fonte
Você está dizendo que a estatística não paramétrica prática diz para você " jogar fora " os dados quando eles estão vinculados? Você poderia estar interpretando mal seus conselhos? Você poderia citar exatamente?
whuber
Sim, é possível que eu esteja interpretando mal o conselho. Do mesmo autor: jstor.org/stable/2284536 "Wilcoxon sugeriu remover os zeros dos dados inicialmente e executar o teste no conjunto reduzido de dados. Se não houver vínculos diferentes de zero, esse procedimento resultará em uma condição (dado o número distribuição livre de zeros) e permite que as tabelas exatas existentes de valores críticos sejam usadas. Por esse motivo, a maioria dos livros de estatística não paramétrica incorpora o método de Wilcoxon em sua descrição do teste "
Christopher Aden
É verdade que isso se refere ao teste Wilcoxon Signed Rank, mas ouvi conselhos semelhantes usados ​​em outros procedimentos de PN. No que diz respeito ao exemplo de Mann-Whitney, voltei e verifiquei o livro, e você está certo de que estou enganado. Com Mann-Whitney, o livro recomenda calcular a média das classificações dos valores vinculados, ou seja: se as classificações 6 e 7 estiverem vinculadas, atribuindo a cada um um valor de 6,5.
Christopher Aden
2
Obrigado. Existem maneiras rigorosas de explicar grupos vinculados. Eles são importantes ao trabalhar com dados censurados (mas contínuos), porque freqüentemente os valores censurados constituem um grande grupo vinculado. Para os testes de Kruskal-Wallis e Wilcoxon Rank Sum, consulte o capítulo 18 do RO Gilbert, * Métodos estatísticos para monitoramento de poluição ambiental. "As fórmulas que envolvem dados vinculados podem ser complicadas, mas em alguns casos (como o teste KW), tudo o que você precisa fazer é calcular uma tabela ANOVA para as fileiras.
whuber

Respostas:

14

A maior parte do trabalho sobre não paramétricos foi originalmente feita assumindo que havia uma distribuição contínua subjacente na qual os laços seriam impossíveis (se medidos com precisão suficiente). A teoria pode então se basear nas distribuições de estatísticas de pedidos (que são muito mais simples sem vínculos) ou em outras fórmulas. Em alguns casos, a estatística parece ser aproximadamente normal, o que facilita as coisas. Quando os empates são introduzidos porque os dados foram arredondados ou são naturalmente discretos, as suposições padrão não se mantêm. A aproximação ainda pode ser boa o suficiente em alguns casos, mas não em outros; geralmente, a coisa mais fácil a fazer é apenas avisar que essas fórmulas não funcionam com vínculos.

Existem ferramentas para alguns dos testes não paramétricos padrão que calcularam a distribuição exata quando os empates estão presentes. O pacote exactRankTests para R é um exemplo.

Uma maneira simples de lidar com laços é usar testes de randomização, como testes de permutação ou inicialização. Eles não se preocupam com distribuições assintóticas, mas usam os dados como são, empates e tudo (observe que com muitos empates, mesmo essas técnicas podem ter pouca energia).

Havia um artigo há alguns anos atrás (pensei no Estatístico Americano, mas não o estou encontrando) que discutia as idéias de vínculos e algumas das coisas que você pode fazer com eles. Um ponto é que depende de qual pergunta você está fazendo, o que fazer com os laços pode ser muito diferente em um teste de superioridade vs. um teste de não inferioridade.

Greg Snow
fonte