Sinto que isso pode ter sido solicitado em outro lugar, mas não com o tipo de descrição básica de que preciso. Eu sei que não paramétrico depende da mediana em vez da média para comparar ... alguma coisa. Eu também acredito que se baseia em "graus de liberdade" (?) Em vez de desvio padrão. Corrija-me se eu estiver errado, no entanto.
Eu fiz uma pesquisa muito boa, ou pensei, tentando entender o conceito, o que está por trás dele, o que os resultados do teste realmente significam e / ou o que fazer com os resultados do teste; no entanto, ninguém parece se aventurar nessa área.
Por uma questão de simplicidade, vamos nos ater ao teste U de Mann-Whitney, que eu notei ser bastante popular (e também aparentemente muito mal usado e usado demais para forçar o "modelo quadrado de alguém em um buraco circular"). Se você também deseja descrever os outros testes, sinta-se à vontade, embora sinta que depois de entender um, posso entender os outros de maneira análoga a vários testes t etc.
Digamos que eu execute um teste não paramétrico com meus dados e recebo esse resultado de volta:
2 Sample Mann-Whitney - Customer Type
Test Information
H0: Median Difference = 0
Ha: Median Difference ≠ 0
Size of Customer Large Small
Count 45 55
Median 2 2
Mann-Whitney Statistic: 2162.00
p-value (2-sided, adjusted for ties): 0.4156
Eu estou familiarizado com outros métodos, mas o que é diferente aqui? Devemos querer que o valor-p seja menor que 0,05? O que significa a "estatística de Mann-Whitney"? Existe alguma utilidade para isso? Essas informações aqui apenas verificam ou não se uma fonte específica de dados que tenho deve ou não ser usada?
Tenho uma experiência razoável em regressão e no básico, mas estou muito curioso sobre esse material não paramétrico "especial" - que eu sei que terá suas próprias deficiências.
Imagine que eu sou da quinta série e veja se você pode me explicar.
Respostas:
Dificilmente quaisquer testes não paramétricos realmente "dependem" de medianas nesse sentido. Só consigo pensar em um casal ... e o único que espero que você provavelmente já tenha ouvido falar seria o teste do sinal.
Se eles dependessem de medianas, presumivelmente seria comparar medianas. Mas - apesar do que várias fontes tentam lhe dizer - testes como o teste de classificação assinado, ou o Wilcoxon-Mann-Whitney ou o Kruskal-Wallis não são realmente um teste de medianas; se você fizer algumas suposições adicionais, poderá considerar o Wilcoxon-Mann-Whitney e o Kruskal-Wallis como testes de medianas, mas sob as mesmas suposições (enquanto existirem os meios de distribuição), você poderá igualmente considerá-los como um teste de meios .
A estimativa de localização real relevante para o teste de Classificação Assinada é a mediana das médias aos pares dentro da amostra, a de Wilcoxon-Mann-Whitney (e implicitamente, no Kruskal-Wallis) é a mediana das diferenças aos pares entre as amostras .
A maioria dos testes não paramétricos não tem "graus de liberdade", embora a distribuição de muitos mude com o tamanho da amostra, e você pode considerar isso um pouco semelhante aos graus de liberdade no sentido em que as tabelas mudam com o tamanho da amostra. As amostras, é claro, mantêm suas propriedades e têm n graus de liberdade nesse sentido, mas os graus de liberdade na distribuição de uma estatística de teste não são tipicamente algo com que estamos preocupados. Pode acontecer que você tenha algo mais parecido com graus de liberdade - por exemplo, você certamente poderia argumentar que o Kruskal-Wallis tem graus de liberdade basicamente no mesmo sentido que um qui-quadrado, mas geralmente não é visto. dessa maneira (por exemplo, se alguém está falando sobre os graus de liberdade de um Kruskal-Wallis, quase sempre significa o df
Uma boa discussão sobre os graus de liberdade pode ser encontrada aqui /
Não tenho certeza do que você quer dizer com isso.
Eu poderia sugerir alguns livros, como o Estatística Prática Não Paramétrica de Conover e, se você puder obtê-lo, o livro de Neave e Worthington ( testes sem distribuição ), mas existem muitos outros - Marascuilo e McSweeney, Hollander & Wolfe ou o livro de Daniel, por exemplo. Sugiro que você leia pelo menos 3 ou 4 dos que melhor falam com você, preferencialmente aqueles que explicam as coisas da maneira mais diferente possível (isso significaria pelo menos ler um pouco de talvez 6 ou 7 livros para encontrar, digamos, 3 que se encaixam).
É isso que me intrigou com a sua afirmação "ninguém parece se aventurar nessa área" - muitas pessoas que usam esses testes 'se aventuram na área' de que você estava falando.
Eu diria que testes não paramétricos geralmente são subutilizados, se houver algo (incluindo o Wilcoxon-Mann-Whitney) - principalmente testes de permutação / randomização, embora eu não questionasse necessariamente que eles são frequentemente mal utilizados (mas também são testes paramétricos, mesmo mais).
[recorte]
Quais outros métodos você quer dizer? Com o que você quer que eu compare isso?
Editar: você menciona regressão mais tarde; Suponho que você esteja familiarizado com um teste t de duas amostras (já que é realmente um caso especial de regressão).
Sob as premissas do teste t ordinário de duas amostras, a hipótese nula tem que as duas populações são idênticas, contra a alternativa de que uma das distribuições mudou. Se você observar o primeiro dos dois conjuntos de hipóteses para o Wilcoxon-Mann-Whitney abaixo, a coisa básica que está sendo testada é quase idêntica; é apenas que o teste t é baseado no pressuposto de que as amostras provêm de distribuições normais idênticas (além de uma possível mudança de local). Se a hipótese nula for verdadeira e as suposições anexas forem verdadeiras, a estatística de teste possui uma distribuição t. Se a hipótese alternativa for verdadeira, será mais provável que a estatística do teste aceite valores que não pareçam consistentes com a hipótese nula, mas pareçam consistentes com a alternativa - nos concentramos no mais incomum,
A situação é muito semelhante à de Wilcoxon-Mann-Whitney, mas mede o desvio do nulo de maneira um pouco diferente. De fato, quando as suposições do teste t são verdadeiras *, é quase tão bom quanto o melhor teste possível (que é o teste t).
* (que na prática nunca é, embora isso não seja tão problemático quanto parece)
De fato, é possível considerar o Wilcoxon-Mann-Whitney como efetivamente um "teste t" realizado nas fileiras dos dados - embora ele não tenha uma distribuição t; a estatística é uma função monotônica de uma estatística t de duas amostras calculada nas fileiras dos dados, de modo que induz a mesma ordem ** no espaço da amostra (que é um "teste t" nas fileiras - executado adequadamente - geraria os mesmos valores de p que um Wilcoxon-Mann-Whitney) e, portanto, rejeita exatamente os mesmos casos.
** (estritamente, pedido parcial, mas vamos deixar isso de lado)
[Você pensaria que apenas o uso das fileiras jogaria fora muita informação, mas quando os dados são extraídos de populações normais com a mesma variação, quase todas as informações sobre a mudança de localização estão nos padrões das fileiras. Os valores reais dos dados (condicionais em suas fileiras) adicionam muito pouca informação adicional a isso. Se você for mais pesado do que o normal, não demorará muito para que o teste de Wilcoxon-Mann-Whitney tenha melhor poder, além de manter seu nível de significância nominal, de modo que informações "extras" acima das fileiras acabem se tornando não apenas informativas, mas em alguns sentido, enganoso. No entanto, a cauda pesada quase simétrica é uma situação rara; o que você costuma ver na prática é assimetria.]
As idéias básicas são bastante semelhantes, os valores-p têm a mesma interpretação (a probabilidade de um resultado como, ou mais extremo, se a hipótese nula for verdadeira) - até a interpretação de uma mudança de local, se você fizer as premissas necessárias (veja a discussão das hipóteses no final deste post).
Se eu fizesse a mesma simulação que nas plotagens acima para o teste t, as plotagens pareceriam muito semelhantes - a escala nos eixos x e y pareceria diferente, mas a aparência básica seria semelhante.
Você não deve "querer" nada lá. A idéia é descobrir se as amostras são mais diferentes (em um sentido de localização) do que as que podem ser explicadas por acaso, para não 'desejar' um resultado específico.
Se eu disser "Você pode ver de que cor o carro de Raj é, por favor?", Se eu quiser uma avaliação imparcial dele, não quero que você vá "Cara, eu realmente espero que seja azul! Só precisa ser azul". Melhor apenas ver qual é a situação, em vez de concordar com alguns 'eu preciso que seja alguma coisa'.
Se o nível de significância escolhido for 0,05, você rejeitará a hipótese nula quando o valor de p estiver abaixo de 0,05. Mas a falha em rejeitar quando você tem um tamanho de amostra grande o suficiente para quase sempre detectar tamanhos de efeito relevantes é pelo menos tão interessante, porque diz que todas as diferenças existentes são pequenas.
A estatística de Mann-Whitney .
É realmente apenas significativo em comparação com a distribuição de valores que pode ser adotada quando a hipótese nula é verdadeira (consulte o diagrama acima), e isso depende de qual das várias definições particulares um programa em particular pode usar.
Geralmente, você não se importa com o valor exato, mas onde está a distribuição nula (seja mais ou menos típico dos valores que você deve ver quando a hipótese nula for verdadeira ou mais extrema)
Este teste não diz nada sobre "uma fonte específica de dados que eu tenho ou não deveria ser usada".
Veja minha discussão sobre as duas maneiras de analisar as hipóteses WMW abaixo.
Não há nada de especial nos testes não paramétricos (eu diria que os 'padrão' são, em muitos aspectos, ainda mais básicos do que os testes paramétricos típicos) - desde que você realmente entenda o teste de hipóteses.
Provavelmente, esse é um tópico para outra pergunta.
Existem duas maneiras principais de analisar o teste de hipótese de Wilcoxon-Mann-Whitney.
i) Alguém pode dizer "Estou interessado em mudança de local - ou seja, sob a hipótese nula, as duas populações têm a mesma distribuição (contínua) , contra a alternativa de que uma pessoa é 'deslocada' para cima ou para baixo em relação à de outros"
O Wilcoxon-Mann-Whitney funciona muito bem se você fizer essa suposição (que sua alternativa é apenas uma mudança de local)
Nesse caso, o Wilcoxon-Mann-Whitney na verdade é um teste para medianas ... mas igualmente é um teste para médias, ou mesmo qualquer outra estatística equivalente à localização (percentis 90, por exemplo, médias aparadas ou qualquer número de outras coisas), pois todos são afetados da mesma maneira pela mudança de local.
O bom disso é que é muito facilmente interpretável - e é fácil gerar um intervalo de confiança para essa mudança de local.
No entanto, o teste de Wilcoxon-Mann-Whitney é sensível a outros tipos de diferença além de uma mudança de local.
fonte
Suponha que você e eu estamos treinando equipes de atletismo. Nossos atletas vêm da mesma escola, têm idades semelhantes e têm o mesmo sexo (ou seja, são da mesma população), mas eu afirmo ter descoberto um Novo Sistema Revolucionário de Treinamento que fará com que os membros da minha equipe corram muito mais rápido do que Sua. Como posso convencê-lo de que realmente funciona?
Nós temos uma corrida.
Depois, sento e calculo o tempo médio dos membros da minha equipe e o tempo médio dos membros da sua equipe. Vou reivindicar a vitória se o tempo médio para meus atletas não for apenas mais rápido que o médio para o seu, mas a diferença também for grande em comparação com a "dispersão", ou desvio padrão, de nossos resultados.
"Mas Matt", você reclama, "isso não é justo. Nossas equipes são muito parecidas, mas você - por pura chance - acabou sendo o corredor mais rápido do distrito. Ele não está na mesma liga que todos" ele é praticamente uma aberração da natureza.Ele terminou 3 minutos antes do próximo finalizador mais rápido, o que reduz muito o tempo médio, mas o resto dos concorrentes é bastante equilibrado.Vamos ver a ordem de chegada. realmente funciona, os finalistas anteriores devem ser principalmente do seu time, mas, se isso não acontecer, a ordem de chegada deve ser bem aleatória. Isso não dá peso excessivo à sua super estrela! "
fonte
Você pediu para ser corrigido se errado. Aqui estão alguns comentários nesse cabeçalho para complementar as sugestões positivas de @Peter Flom.
"não paramétrico depende da mediana em vez da média": geralmente na prática, mas isso não é uma definição. Vários testes não paramétricos (por exemplo, qui-quadrado) não têm nada a ver com medianas.
confia em graus de liberdade em vez de desvio padrão; isso é muito confuso. A idéia de graus de liberdade não é, de forma alguma, uma alternativa ao desvio padrão; graus de liberdade como uma idéia se aplicam diretamente às estatísticas.
"uma fonte específica de dados que eu devo ou não deveria ser usada": esta questão não tem nada a ver com o teste de significância aplicado, que é exatamente a diferença entre subconjuntos de dados e é formulado em termos de diferença entre medianas.
fonte
Você "deseja" as mesmas coisas de um valor-p aqui que deseja em qualquer outro teste.
A estatística U é o resultado de um cálculo, assim como a estatística t, a razão de chances, a estatística F ou o que você tem. A fórmula pode ser encontrada em muitos lugares. Não é muito intuitivo, mas não há outras estatísticas de teste até você se acostumar com elas (reconhecemos em 2 como estando na faixa significativa porque as vemos o tempo todo).
O restante da saída no texto do seu bloco deve estar claro.
Para uma introdução mais geral aos testes não paramétricos, eu eco no @NickCox .... compre um bom livro. Não paramétrico significa simplesmente "sem parâmetros"; existem muitos testes e estatísticas não paramétricos para uma ampla variedade de propósitos.
fonte
Como resposta a uma pergunta fechada recentemente , isso também aborda o acima. Abaixo está uma citação dos clássicos testes estatísticos livres de distribuição de Bradley (1968, p. 15-16) que, embora um pouco longos, são uma explicação bastante clara, acredito.
fonte