Adequação do teste de posto assinado de Wilcoxon

11

Examinei um pouco os arquivos da Cross Validated e não pareceu encontrar uma resposta para minha pergunta. Minha pergunta é a seguinte: A Wikipedia fornece três suposições que precisam ser mantidas para o teste de classificação assinado Wilcoxon (ligeiramente modificado para minhas perguntas):

Seja Zi = Xi-Yi para i = 1, ..., n.

  1. As diferenças Zi são assumidas como independentes.

  2. (a.) Cada Zi vem da mesma população contínua e (b.) cada Zi é simétrico em relação a uma mediana comum;

  3. Os valores que Xi e Yi representam são ordenados ... então as comparações 'maior que', 'menor que' e 'igual a' são úteis.

A documentação para? Wilcox.test em R, no entanto, parece indicar que (2.b) é realmente algo testado pelo procedimento:

"... se x e y são dados e emparelhados é VERDADEIRO, um teste de nulo assinado por Wilcoxon é nulo de que a distribuição ... de x - y (no caso de duas amostras emparelhadas) é simétrica em relação a mu é executada."

A soa-me como se o ensaio é realizado para a hipótese nula de que "Z é distribuída simetricamente em torno de mu mediana = SomeMu" - de modo a que a rejeição fo o nulo pode ser quer uma rejeição da simetria ou uma rejeição que os mu em torno dos quais Z é simétrico é SomeMu.

Esse é um entendimento correto da documentação R do wilcox.test? A razão pela qual isso é importante, é claro, é que estou conduzindo vários testes de diferença pareada em alguns dados antes e depois ("X" e "Y" acima). Os dados "antes" e "depois" individualmente são altamente distorcidos, mas as diferenças não são tão distorcidas tanto (embora ainda assim distorcidas). Com isso, quero dizer que os dados "antes" ou "depois" considerados sozinhos têm assimetria de 7 a 21 (dependendo da amostra que estou vendo), enquanto os dados de "diferenças" têm assimetria ~ = 0,5 a 5. Ainda assim, mas não tanto.

Se a distorção nos meus dados de "diferenças" fizer com que o teste de Wilcoxon me dê resultados falsos / tendenciosos (como o artigo da Wikipedia parece indicar), a distorção pode ser uma grande preocupação. Se, no entanto, os testes de Wilcoxon estiverem realmente testando se a distribuição de diferenças é "simétrica em torno de mu = SomeMu" (como? Wilcox.test parece indicar), isso é menos preocupante.

Assim, minhas perguntas são:

  1. Qual interpretação acima está correta? A assimetria na minha distribuição de "diferenças" vai influenciar meu teste de Wilcoxon?

  2. Se a inclinação é uma preocupação: "Quanta inclinação é uma preocupação?"

  3. Se os testes de classificação assinados por Wilcoxon parecem grosseiramente inadequados aqui, alguma sugestão para o que devo usar?

Muito obrigado. Se você tiver outras sugestões sobre como eu poderia fazer essa análise, fico feliz em ouvi-las (embora também possa abrir outro tópico para esse fim). Além disso, esta é minha primeira pergunta sobre Cross Validated; se você tiver sugestões / comentários sobre como eu fiz essa pergunta, também estou aberto a isso!


Um pouco de fundo: estou analisando um conjunto de dados que contém observações sobre o que chamarei de "erros na produção firme". Eu tenho uma observação sobre erros ocorridos no processo de produção antes e depois de uma inspeção surpresa, e um dos objetivos da análise é responder à pergunta "a inspeção faz diferença no número de erros?"

O conjunto de dados é mais ou menos assim:

ID, errorsBefore, errorsAfter, size_large, size_medium, typeA, typeB, typeC, typeD
0123,1,1,1,0,1,1,1,0 
2345,1,0,0,0,0,1,1,0
6789,2,1,0,1,0,1,0,0
1234,8,8,0,0,1,0,0,0

Existem cerca de 4000 observações. As outras variáveis ​​são observações catagóricas que descrevem as características das firmas. O tamanho pode ser pequeno, médio ou grande, e cada empresa é uma e apenas uma delas. As empresas podem ser um ou todos os "tipos".

Me pediram para executar alguns testes simples para ver se havia diferenças estatisticamente significativas nas taxas de erro observadas antes e depois das inspeções para todas as empresas e vários subgrupos (com base no tamanho e tipo). Os testes T foram lançados porque os dados foram severamente distorcidos antes e depois, por exemplo, em R, os dados anteriores pareciam algo assim:

summary(errorsBefore)
# Min.  1st Qu.  Median   Mean  3rd Qu.    Max
# 0.000  0.000    4.000  12.00    13.00  470.0

(Eles são feitos - receio não poder postar os dados reais ou quaisquer manipulações reais devido a problemas de propriedade / privacidade - minhas desculpas!)

As diferenças emparelhadas eram mais centralizadas, mas ainda não se encaixavam muito bem em uma distribuição normal - com pico demais. Dados de diferenças pareciam algo assim:

summary(errorsBefore-errorsAfter)
# Min.   1st Qu.  Median   Mean  3rd Qu.    Max
# -110.0  -2.000   0.000  0.005   2.000   140.0

Foi sugerido que eu usasse um teste de classificação assinado por Wilcoxon e, após uma breve perseguição de? Wilcox.test e Wikipedia, e aqui, este parece ser o teste a ser usado. Considerando as premissas acima, acredito que (1) está bem, dado o processo de geração de dados. A suposição (2.a) não é estritamente verdadeira para meus dados, mas a discussão aqui: Alternativa ao teste de Wilcoxon quando a distribuição não é contínua? parecia indicar que isso não era uma preocupação demais. A suposição (3) está correta. Minha única preocupação (acredito) é a Assunção (2.b).

Uma observação adicional , alguns anos depois: eu finalmente fiz um excelente curso de estatísticas não paramétricas e passei muito tempo nos testes de soma das classificações. Embutida na suposição (2.a), "Cada Zi vem da mesma população contínua", está a idéia de que ambas as amostras vêm de populações com igual variação - isso acaba sendo extremamente importante, na prática. Se você tiver preocupações sobre diferentes variações em suas populações (das quais você extrai as amostras), deve se preocupar em usar o WMW.

CompEcon
fonte
Obrigado pelas duas respostas! Ambos igualmente me ajudaram. Eu teria "escolhido os dois" se pudesse. Mike me indicou uma parte do entendimento teórico, que foi muito útil conceitualmente, embora o de Aniko estivesse respondendo um pouco mais diretamente à minha pergunta original. Graças a vocês dois!
CompEcon

Respostas:

8

A Wikipedia enganou você ao afirmar "... se x e y são dados e emparelhados é VERDADEIRO, um teste de classificação assinado por Wilcoxon do nulo que a distribuição ... de x - y (no caso de duas amostras emparelhadas) é simétrica sobre o mu é realizado. "

zi=xiyi

ln(xi)ln(yi)

Eu? Eu faria os dois e qualquer outra coisa que eu pudesse preparar (teste de razão de probabilidade nas contagens de Poisson por tamanho da empresa?). O teste de hipóteses tem como objetivo determinar se as evidências são convincentes, e algumas pessoas se convencem bastante.

Mike Anderson
fonte
Ah, isso faz muito sentido. Especialmente agora que cheguei em casa e peguei meu antigo livro DeGroot & Schervish, que tem uma boa descrição do que esses testes de sinais estão realmente fazendo. Fantástico. E obrigado pelos pensamentos gerais sobre o teste de hipóteses :) Eu gosto da perspectiva. Uma observação secundária: a parte que você considera enganosa é realmente de R, da documentação do wilcox.test. Isto é um pouco perturbador para mim ...
CompEcon
9

Tanto a Wikipedia quanto a página de ajuda do R estão corretas e estão tentando afirmar a mesma coisa, apenas a expressam de maneira diferente.

O artigo da Wikipedia declara as hipóteses como (mediana = 0) vs (mediana! = 0) e diz que você pode concluir isso a partir do teste se as diferenças tiverem uma distribuição simétrica (+ as outras suposições).

A página de ajuda do R é mais específica, indica as hipóteses como (mediana = 0 e as diferenças têm uma distribuição simétrica) vs (pelo menos uma delas é falsa). Por isso, mudou uma suposição para a hipótese nula. Eu acho que eles fizeram isso para enfatizar a necessidade de simetria: com diferenças distorcidas, o teste de classificação assinada rejeitará a hipótese nula, mesmo que a mediana esteja morta. Se você ler um livro, também poderá dizer que a hipótese nula que está sendo testada é P (X> Y) = 0,5 - o restante, na verdade, segue apenas isso.

Em termos de aplicação, é claro que a questão é se você se importa especificamente com a mediana (e a assimetria é um problema, e o teste mediano é uma alternativa possível) ou se você se importa com toda a distribuição e depois com P (X> y)! = 0.5 é evidência de alterações.

Aniko
fonte
1
Ok, isso faz sentido. Obrigado pela contribuição! Percebo que a página da Wikipedia para o teste mediano diz que o teste não pareado de Mann-Whitney-U é o preferido. Isso imediatamente me faz pensar que estou de volta ao ponto em que comecei, pensando que o teste de Wilcoxon emparelhado de alguma forma usa mais informações. Talvez o que realmente estou tentando pensar seja o que você quer dizer quando diz "se preocupa especificamente com a mediana ... ou com toda a distribuição". Eu me importo com toda a distribuição, mas estou caracterizando-a através da mediana ..
CompEcon