O que exatamente um teste não paramétrico realiza e o que você faz com os resultados?

22

Sinto que isso pode ter sido solicitado em outro lugar, mas não com o tipo de descrição básica de que preciso. Eu sei que não paramétrico depende da mediana em vez da média para comparar ... alguma coisa. Eu também acredito que se baseia em "graus de liberdade" (?) Em vez de desvio padrão. Corrija-me se eu estiver errado, no entanto.

Eu fiz uma pesquisa muito boa, ou pensei, tentando entender o conceito, o que está por trás dele, o que os resultados do teste realmente significam e / ou o que fazer com os resultados do teste; no entanto, ninguém parece se aventurar nessa área.

Por uma questão de simplicidade, vamos nos ater ao teste U de Mann-Whitney, que eu notei ser bastante popular (e também aparentemente muito mal usado e usado demais para forçar o "modelo quadrado de alguém em um buraco circular"). Se você também deseja descrever os outros testes, sinta-se à vontade, embora sinta que depois de entender um, posso entender os outros de maneira análoga a vários testes t etc.

Digamos que eu execute um teste não paramétrico com meus dados e recebo esse resultado de volta:

2 Sample Mann-Whitney - Customer Type       

Test Information        
H0: Median Difference = 0       
Ha: Median Difference ≠ 0       

Size of Customer    Large   Small
Count                    45    55
Median                    2     2

Mann-Whitney Statistic: 2162.00 
p-value (2-sided, adjusted for ties):   0.4156  

Eu estou familiarizado com outros métodos, mas o que é diferente aqui? Devemos querer que o valor-p seja menor que 0,05? O que significa a "estatística de Mann-Whitney"? Existe alguma utilidade para isso? Essas informações aqui apenas verificam ou não se uma fonte específica de dados que tenho deve ou não ser usada?

Tenho uma experiência razoável em regressão e no básico, mas estou muito curioso sobre esse material não paramétrico "especial" - que eu sei que terá suas próprias deficiências.

Imagine que eu sou da quinta série e veja se você pode me explicar.

Taal
fonte
4
Sim, eu li isso muitas vezes. Às vezes, o jargão que a wikipedia usa pode se tornar irresistível e, embora tenha uma descrição precisa - ele não necessariamente tem uma descrição clara para alguém que está começando a tentar aprender a área. Não tenho certeza de quem votou mal, mas eu legitimamente quero apenas uma explicação básica e clara que quase todo mundo possa entender. Sim, tentei muito encontrar alguém acredite ou não. Não há necessidade de me rebaixar instantaneamente e me conectar à wikipedia. Alguém já reparou como alguns professores são melhores que outros? Estou procurando um bom "professor" para um conceito em que estou preso.
Taal 12/08
1
Vá para um bom texto estatístico não paramétrico básico, como Sprent e Smeeton, Hollander e Wolfe, Conover. ou encontre um texto introdutório que inclua Mann-Whitney.
Nick Cox
1
Analisar a sua pergunta e a outra pergunta que você fez recentemente usando apenas a Internet não está funcionando bem para você, pois você está evidentemente muito confuso. É por isso que Peter Flom e eu estamos recomendando livros. Não tenho outras sugestões reservadas. Eu também recomendaria - sinceramente e no seu melhor interesse - tentar escrever perguntas muito mais concisas e menos faladoras. Seu estilo digressivo não ajuda a esclarecer suas perguntas.
Nick Cox
1
Somente a internet está realmente funcionando melhor do que qualquer livro ou classe já fez para que eu seja honesto - e isso vale para qualquer tópico. Peço desculpas por escrever perguntas "tagarelas".
Taal
3
Não, não parece estar funcionando tão bem quanto um bom livro. Parafraseando Stephen Senn, é estranho que a estatística seja a única ciência que as pessoas exigem que seja compreensível à primeira vista.
precisa

Respostas:

41

Eu sei não paramétrico depende da mediana em vez da média

Dificilmente quaisquer testes não paramétricos realmente "dependem" de medianas nesse sentido. Só consigo pensar em um casal ... e o único que espero que você provavelmente já tenha ouvido falar seria o teste do sinal.

para comparar ... alguma coisa.

Se eles dependessem de medianas, presumivelmente seria comparar medianas. Mas - apesar do que várias fontes tentam lhe dizer - testes como o teste de classificação assinado, ou o Wilcoxon-Mann-Whitney ou o Kruskal-Wallis não são realmente um teste de medianas; se você fizer algumas suposições adicionais, poderá considerar o Wilcoxon-Mann-Whitney e o Kruskal-Wallis como testes de medianas, mas sob as mesmas suposições (enquanto existirem os meios de distribuição), você poderá igualmente considerá-los como um teste de meios .

A estimativa de localização real relevante para o teste de Classificação Assinada é a mediana das médias aos pares dentro da amostra, a de Wilcoxon-Mann-Whitney (e implicitamente, no Kruskal-Wallis) é a mediana das diferenças aos pares entre as amostras .

Eu também acredito que se baseia em "graus de liberdade?" em vez de desvio padrão. Corrija-me se eu estiver errado.

A maioria dos testes não paramétricos não tem "graus de liberdade", embora a distribuição de muitos mude com o tamanho da amostra, e você pode considerar isso um pouco semelhante aos graus de liberdade no sentido em que as tabelas mudam com o tamanho da amostra. As amostras, é claro, mantêm suas propriedades e têm n graus de liberdade nesse sentido, mas os graus de liberdade na distribuição de uma estatística de teste não são tipicamente algo com que estamos preocupados. Pode acontecer que você tenha algo mais parecido com graus de liberdade - por exemplo, você certamente poderia argumentar que o Kruskal-Wallis tem graus de liberdade basicamente no mesmo sentido que um qui-quadrado, mas geralmente não é visto. dessa maneira (por exemplo, se alguém está falando sobre os graus de liberdade de um Kruskal-Wallis, quase sempre significa o df

Uma boa discussão sobre os graus de liberdade pode ser encontrada aqui /

Eu fiz uma pesquisa muito boa, ou pelo menos pensei, tentando entender o conceito, o que está por trás dele, o que os resultados do teste realmente significam e / ou o que fazer com os resultados do teste; no entanto, ninguém parece se aventurar nessa área.

Não tenho certeza do que você quer dizer com isso.

Eu poderia sugerir alguns livros, como o Estatística Prática Não Paramétrica de Conover e, se você puder obtê-lo, o livro de Neave e Worthington ( testes sem distribuição ), mas existem muitos outros - Marascuilo e McSweeney, Hollander & Wolfe ou o livro de Daniel, por exemplo. Sugiro que você leia pelo menos 3 ou 4 dos que melhor falam com você, preferencialmente aqueles que explicam as coisas da maneira mais diferente possível (isso significaria pelo menos ler um pouco de talvez 6 ou 7 livros para encontrar, digamos, 3 que se encaixam).

Por uma questão de simplicidade, vamos continuar com o teste U de Mann Whitney, que eu notei ser bastante popular

É isso que me intrigou com a sua afirmação "ninguém parece se aventurar nessa área" - muitas pessoas que usam esses testes 'se aventuram na área' de que você estava falando.

- e também aparentemente mal utilizado e usado em excesso

Eu diria que testes não paramétricos geralmente são subutilizados, se houver algo (incluindo o Wilcoxon-Mann-Whitney) - principalmente testes de permutação / randomização, embora eu não questionasse necessariamente que eles são frequentemente mal utilizados (mas também são testes paramétricos, mesmo mais).

Digamos que eu execute um teste não paramétrico com meus dados e recebo esse resultado de volta:

[recorte]

Eu estou familiarizado com outros métodos, mas o que é diferente aqui?

Quais outros métodos você quer dizer? Com o que você quer que eu compare isso?

Editar: você menciona regressão mais tarde; Suponho que você esteja familiarizado com um teste t de duas amostras (já que é realmente um caso especial de regressão).

Sob as premissas do teste t ordinário de duas amostras, a hipótese nula tem que as duas populações são idênticas, contra a alternativa de que uma das distribuições mudou. Se você observar o primeiro dos dois conjuntos de hipóteses para o Wilcoxon-Mann-Whitney abaixo, a coisa básica que está sendo testada é quase idêntica; é apenas que o teste t é baseado no pressuposto de que as amostras provêm de distribuições normais idênticas (além de uma possível mudança de local). Se a hipótese nula for verdadeira e as suposições anexas forem verdadeiras, a estatística de teste possui uma distribuição t. Se a hipótese alternativa for verdadeira, será mais provável que a estatística do teste aceite valores que não pareçam consistentes com a hipótese nula, mas pareçam consistentes com a alternativa - nos concentramos no mais incomum,

A situação é muito semelhante à de Wilcoxon-Mann-Whitney, mas mede o desvio do nulo de maneira um pouco diferente. De fato, quando as suposições do teste t são verdadeiras *, é quase tão bom quanto o melhor teste possível (que é o teste t).

* (que na prática nunca é, embora isso não seja tão problemático quanto parece)

wmw sob nulo e alternativo

De fato, é possível considerar o Wilcoxon-Mann-Whitney como efetivamente um "teste t" realizado nas fileiras dos dados - embora ele não tenha uma distribuição t; a estatística é uma função monotônica de uma estatística t de duas amostras calculada nas fileiras dos dados, de modo que induz a mesma ordem ** no espaço da amostra (que é um "teste t" nas fileiras - executado adequadamente - geraria os mesmos valores de p que um Wilcoxon-Mann-Whitney) e, portanto, rejeita exatamente os mesmos casos.

** (estritamente, pedido parcial, mas vamos deixar isso de lado)

[Você pensaria que apenas o uso das fileiras jogaria fora muita informação, mas quando os dados são extraídos de populações normais com a mesma variação, quase todas as informações sobre a mudança de localização estão nos padrões das fileiras. Os valores reais dos dados (condicionais em suas fileiras) adicionam muito pouca informação adicional a isso. Se você for mais pesado do que o normal, não demorará muito para que o teste de Wilcoxon-Mann-Whitney tenha melhor poder, além de manter seu nível de significância nominal, de modo que informações "extras" acima das fileiras acabem se tornando não apenas informativas, mas em alguns sentido, enganoso. No entanto, a cauda pesada quase simétrica é uma situação rara; o que você costuma ver na prática é assimetria.]

As idéias básicas são bastante semelhantes, os valores-p têm a mesma interpretação (a probabilidade de um resultado como, ou mais extremo, se a hipótese nula for verdadeira) - até a interpretação de uma mudança de local, se você fizer as premissas necessárias (veja a discussão das hipóteses no final deste post).

Se eu fizesse a mesma simulação que nas plotagens acima para o teste t, as plotagens pareceriam muito semelhantes - a escala nos eixos x e y pareceria diferente, mas a aparência básica seria semelhante.

Devemos querer que o valor-p seja menor que 0,05?

Você não deve "querer" nada lá. A idéia é descobrir se as amostras são mais diferentes (em um sentido de localização) do que as que podem ser explicadas por acaso, para não 'desejar' um resultado específico.

Se eu disser "Você pode ver de que cor o carro de Raj é, por favor?", Se eu quiser uma avaliação imparcial dele, não quero que você vá "Cara, eu realmente espero que seja azul! Só precisa ser azul". Melhor apenas ver qual é a situação, em vez de concordar com alguns 'eu preciso que seja alguma coisa'.

Se o nível de significância escolhido for 0,05, você rejeitará a hipótese nula quando o valor de p estiver abaixo de 0,05. Mas a falha em rejeitar quando você tem um tamanho de amostra grande o suficiente para quase sempre detectar tamanhos de efeito relevantes é pelo menos tão interessante, porque diz que todas as diferenças existentes são pequenas.

O que significa o número "mann whitley"?

A estatística de Mann-Whitney .

É realmente apenas significativo em comparação com a distribuição de valores que pode ser adotada quando a hipótese nula é verdadeira (consulte o diagrama acima), e isso depende de qual das várias definições particulares um programa em particular pode usar.

Existe alguma utilidade para isso?

Geralmente, você não se importa com o valor exato, mas onde está a distribuição nula (seja mais ou menos típico dos valores que você deve ver quando a hipótese nula for verdadeira ou mais extrema)

P(X<Y)

Esses dados aqui apenas verificam ou não se uma fonte específica de dados que eu tenho deve ou não ser usada?

Este teste não diz nada sobre "uma fonte específica de dados que eu tenho ou não deveria ser usada".

Veja minha discussão sobre as duas maneiras de analisar as hipóteses WMW abaixo.

Tenho uma experiência razoável em regressão e no básico, mas estou muito curioso sobre esse material não paramétrico "especial"

Não há nada de especial nos testes não paramétricos (eu diria que os 'padrão' são, em muitos aspectos, ainda mais básicos do que os testes paramétricos típicos) - desde que você realmente entenda o teste de hipóteses.

Provavelmente, esse é um tópico para outra pergunta.


Existem duas maneiras principais de analisar o teste de hipótese de Wilcoxon-Mann-Whitney.

i) Alguém pode dizer "Estou interessado em mudança de local - ou seja, sob a hipótese nula, as duas populações têm a mesma distribuição (contínua) , contra a alternativa de que uma pessoa é 'deslocada' para cima ou para baixo em relação à de outros"

O Wilcoxon-Mann-Whitney funciona muito bem se você fizer essa suposição (que sua alternativa é apenas uma mudança de local)

Nesse caso, o Wilcoxon-Mann-Whitney na verdade é um teste para medianas ... mas igualmente é um teste para médias, ou mesmo qualquer outra estatística equivalente à localização (percentis 90, por exemplo, médias aparadas ou qualquer número de outras coisas), pois todos são afetados da mesma maneira pela mudança de local.

O bom disso é que é muito facilmente interpretável - e é fácil gerar um intervalo de confiança para essa mudança de local.

mudança de local

No entanto, o teste de Wilcoxon-Mann-Whitney é sensível a outros tipos de diferença além de uma mudança de local.

1212

desvio em P (X <Y) de 1/2

Glen_b -Reinstate Monica
fonte
Eu desenhei a distribuição nula aproximada (a vermelha no novo gráfico superior) como se fosse contínua ... mas a distribuição real é discreta. A imagem é menos confusa dessa maneira.
Glen_b -Reinstala Monica
3
+1 ótima resposta. Uma das melhores e mais acessíveis explicações do teste de Wilcoxon-Mann-Whitney que conheço. Obrigado.
COOLSerdash
"Nesse caso, o Wilcoxon-Mann-Whitney é realmente um teste para medianas ... mas igualmente é um teste para meios" No entanto, algumas distribuições não têm meios, enquanto sua mediana é bem definida (por exemplo, Cauchy).
caracal
@caracal Embora seja verdade (é um argumento que já fiz várias vezes aqui), se alguém testar a igualdade de população significa, presumivelmente, eles já assumem que a população é finita. Caso contrário, eles têm um problema bem antes de chegarem ao ponto de escolher um teste. Considerando que existe uma hipótese de população igual (e, portanto, finita), com base nas mesmas premissas que geralmente são usadas para torná-lo um teste de medianas (alternativas de turno), o WMW também é um teste de meios.
Glen_b -Reinstate Monica
17

Suponha que você e eu estamos treinando equipes de atletismo. Nossos atletas vêm da mesma escola, têm idades semelhantes e têm o mesmo sexo (ou seja, são da mesma população), mas eu afirmo ter descoberto um Novo Sistema Revolucionário de Treinamento que fará com que os membros da minha equipe corram muito mais rápido do que Sua. Como posso convencê-lo de que realmente funciona?

Nós temos uma corrida.

Depois, sento e calculo o tempo médio dos membros da minha equipe e o tempo médio dos membros da sua equipe. Vou reivindicar a vitória se o tempo médio para meus atletas não for apenas mais rápido que o médio para o seu, mas a diferença também for grande em comparação com a "dispersão", ou desvio padrão, de nossos resultados.


t


"Mas Matt", você reclama, "isso não é justo. Nossas equipes são muito parecidas, mas você - por pura chance - acabou sendo o corredor mais rápido do distrito. Ele não está na mesma liga que todos" ele é praticamente uma aberração da natureza.Ele terminou 3 minutos antes do próximo finalizador mais rápido, o que reduz muito o tempo médio, mas o resto dos concorrentes é bastante equilibrado.Vamos ver a ordem de chegada. realmente funciona, os finalistas anteriores devem ser principalmente do seu time, mas, se isso não acontecer, a ordem de chegada deve ser bem aleatória. Isso não dá peso excessivo à sua super estrela! "


t

p

ttt

Matt Krause
fonte
Você realmente respondeu minha pergunta exatamente do jeito que eu quero dizer, exatamente como eu queria que fosse respondida. Glen também se aproximou mais do lado matemático, e a combinação dessas duas respostas fez o clique para mim. Mas não posso tirar a recompensa dele - quero dizer ... ele está desenhando gráficos, apesar da clareza da sua resposta. Sinto que você teve algum tipo de trabalho de professor no passado. Eu sei que pode haver algumas generalizações nas respostas aqui, mas eu sabia que não tinha que comprar um livro e estudá-lo intensamente para começar a ser capaz de aplicar praticamente não-paramétricas em algum nível
Taal
t
A ironia de tudo isso é que eu não vou usá-lo provavelmente, apenas me incomodou que eu não conseguisse uma resposta direta sobre o que era. A resposta de Glen é muito mais do que eu esperava e recebi originalmente - as melhores respostas que sinto que não posso descrever, pois qualquer descrição seria inadequada. Como dizer a alguém como é a cor azul. Se você já leu algum dos coisas de whuber, parece que você pode ter um sabor semelhante ...
Taal
6

Você pediu para ser corrigido se errado. Aqui estão alguns comentários nesse cabeçalho para complementar as sugestões positivas de @Peter Flom.

  • "não paramétrico depende da mediana em vez da média": geralmente na prática, mas isso não é uma definição. Vários testes não paramétricos (por exemplo, qui-quadrado) não têm nada a ver com medianas.

  • confia em graus de liberdade em vez de desvio padrão; isso é muito confuso. A idéia de graus de liberdade não é, de forma alguma, uma alternativa ao desvio padrão; graus de liberdade como uma idéia se aplicam diretamente às estatísticas.

  • "uma fonte específica de dados que eu devo ou não deveria ser usada": esta questão não tem nada a ver com o teste de significância aplicado, que é exatamente a diferença entre subconjuntos de dados e é formulado em termos de diferença entre medianas.

Nick Cox
fonte
Acredito que sua opinião sobre eu pedir para "ser corrigido onde estiver errado" tem sido a melhor resposta até agora. Suponho que precisei de algumas hipóteses nulas refutadas ou para aprender pelo processo de eliminação. Sua resposta me forneceu novas informações que eu entendo - ainda existem alguns grandes buracos na minha compreensão do tópico, mas não posso esperar perfeição. Talvez esses buracos sejam maiores do que eu previa originalmente ao escrever esta pergunta e a troca de pilha não fosse suficiente, não importa o quão "tagarelada" eu fiz a pergunta.
Taal 12/08
4

Você "deseja" as mesmas coisas de um valor-p aqui que deseja em qualquer outro teste.

A estatística U é o resultado de um cálculo, assim como a estatística t, a razão de chances, a estatística F ou o que você tem. A fórmula pode ser encontrada em muitos lugares. Não é muito intuitivo, mas não há outras estatísticas de teste até você se acostumar com elas (reconhecemos em 2 como estando na faixa significativa porque as vemos o tempo todo).

O restante da saída no texto do seu bloco deve estar claro.

Para uma introdução mais geral aos testes não paramétricos, eu eco no @NickCox .... compre um bom livro. Não paramétrico significa simplesmente "sem parâmetros"; existem muitos testes e estatísticas não paramétricos para uma ampla variedade de propósitos.

Peter Flom - Restabelece Monica
fonte
Sim, idealmente, um bom livro ajudaria; no entanto, parece desnecessário os recursos atuais (como stackexchange), a wikipedia (às vezes), a concorrência no mercado do youtube (você sabia por cada milhão de visualizações que alguém recebe por US $ 4000?), além de vários outros recursos. Geralmente, assim como meu estilo de aprendizagem, também falho bastante no simples aprendizado de livros.
Taal 12/08
1
Agradeço sua postagem, no entanto, ela já reitera a maior parte do que eu já sei ou assumi, infelizmente. Parece haver algum tipo de padrão em que quase todas as explicações que eu recebo param nesse ponto específico. Talvez este seja o ponto em que se torna complexo demais para explicar ou muito esforço - não tenho certeza. De qualquer forma, é um padrão que tenho experimentado em todas as fontes de informações que normalmente uso - que ironicamente reiterariam a declaração de todos. Talvez eu não percebesse que a resposta era tão complexa; então, novamente, eu vi uma resposta intensa no SE.
Taal 12/08
2
Primeiro você pede que simplifiquemos, depois reclama que nossas respostas são simples! Se você quiser entender a fórmula para U (ou qualquer outra coisa), VEJA. Se você quer algo simples, não peça complexidades! A entrada da Wikipedia é uma entrada excelente e detalhada com todos os detalhes. Você não entende isso. Tão. O que você quer?
Peter Flom - Restabelece Monica
1
Suponho em algum lugar no meio. Eu admito que não sou o melhor em me comunicar e posso entender sua frustração, heh. É uma característica minha que eu realmente estou ciente. Para ser sincero, acho que vou ter que pensar no que realmente quero - pois é quase como se eu estivesse tentando empurrar a pergunta o suficiente para se sobrepor a uma área que eu não conhecia ou não conhecia anteriormente. sobre. É difícil perguntar sobre algo que você não entende em geral. Só vou ter que voltar a isso, suponho.
Taal 12/08
1

Como resposta a uma pergunta fechada recentemente , isso também aborda o acima. Abaixo está uma citação dos clássicos testes estatísticos livres de distribuição de Bradley (1968, p. 15-16) que, embora um pouco longos, são uma explicação bastante clara, acredito.

Os termos não paramétrico e livre de distribuição não são sinônimos, e nemterm fornece uma descrição totalmente satisfatória da classe de estatística à qual eles se destinam a se referir.… Grosso modo, um teste não paramétrico é aquele que não faz nenhuma hipótese sobre o valor de um parâmetro em uma função de densidade estatística, enquanto um teste livre de distribuição é aquele que não faz suposições sobre a forma precisa da população amostrada. As definições não são mutuamente exclusivas, e um teste pode ser livre de distribuição e paramétrico. ... Para ser totalmente claro sobre o que se entende por livre de distribuição, é necessário distinguir entre três distribuições: (a) a do população amostrada; (b) a característica de observação realmente usada pelo teste; e (c) a estatística de teste. A distribuição a partir da qual os testes são "gratuitos" é a de (a), a população amostrada. E a liberdade de que gozam é ​​geralmente relativa.… No entanto, as suposições nunca são tão elaboradas a ponto de implicar uma população cuja distribuição é completamente especificada.… A razão… é muito simples: as magnitudes não são usadas como tal no teste [não paramétrico] nem há outro atributo populacional fortemente vinculado da variável. Em vez de nem há outro atributo populacional fortemente vinculado da variável. Em vez de nem há outro atributo populacional fortemente vinculado da variável. Em vez decaracterísticas vinculadas à amostra das observações obtidas ... fornecem as informações utilizadas pela estatística do teste. ... Assim, embora os testes paramétricos e não paramétricos exijam que a forma de uma distribuição, associada às observações, seja totalmente conhecida, esse conhecimento, no caso paramétrico, geralmente não é um anúncio próximo, a distribuição necessária de magnitudes deve, portanto, ser "assumida" ou inferida com base em informações aproximadas ou incompletas. No caso não paramétrico, por outro e, a distribuição da característica de observaçãoé geralmente conhecido precisamente a partir de considerações a priori e, portanto, não precisa ser "assumido". A diferença, então, não é uma exigência, mas sim o que é necessário e a certeza de que o requisito será atendido.

Avraham
fonte