Posso usar testes de permutação para evitar o problema de comparação múltipla no contexto de proporções?

9

Estou avaliando a eficácia de 5 métodos diferentes para prever um resultado binário específico (chame-os de 'Sucesso' e 'Falha'). Os dados são assim:

Method    Sample_Size    Success    Percent_Success
1         28             4          0.14  
2         19             4          0.21  
3         24             7          0.29  
4         21             13         0.61  
5         22             9          0.40 

Eu gostaria de realizar um teste entre esses 5 métodos para avaliar a superioridade relativa dos métodos. Em outras palavras, desejo ordenar os métodos em ordem de desempenho como método 1> método 2> ... método 5. Para evitar o problema de múltiplas comparações, pretendo fazer um teste de permutação nas seguintes linhas:

Etapa 1: agrupe todos os dados para que o tamanho total da amostra seja 114 com 37 sucessos.

Etapa 2: divida os dados aleatoriamente em 5 grupos com os tamanhos de amostra correspondentes de 28, 19, 24, 21 e 22.

Etapa 3: Incremente um contador se a ordem observada de Percent_Success da etapa 2 for consistente com a ordem dos meus dados.

Etapa 4: repita as etapas 2 e 3 várias vezes (por exemplo, 10000).

Valor p desejado = Valor final do contador / 10000.

Questões:

  1. O procedimento acima está correto?

  2. Existe algo no R que me permita executar o teste acima?

  3. Qualquer sugestão de melhoria ou métodos alternativos seria útil.

sxv
fonte
@whuber Você tem código R talvez para compartilhar como você fez isso?
B_Miner

Respostas:

6

O procedimento proposto não responde à sua pergunta. Ele apenas estima a frequência, sob a hipótese nula, com a qual a ordem observada ocorreria. Porém, sob esse nulo, para uma boa aproximação, todos os pedidos são igualmente prováveis, de onde seu cálculo produzirá um valor próximo a 1/5! = cerca de 0,83%. Isso não nos diz nada.

Mais uma observação óbvia: a ordem, com base nos seus dados, é 4> 5> 3> 2> 1. Suas estimativas de suas superioridades relativas são 0,61 - 0,40 = 21%, 0,40 - 0,21 = 11%, etc.

Agora, suponha que sua pergunta diga respeito à extensão em que qualquer uma das diferenças de proporções entre pode ser devida ao acaso, sob a hipótese nula de nenhuma diferença. Você pode realmente avaliar essas dez perguntas com um teste de permutação. No entanto, em cada iteração, é necessário rastrear dez indicadores de diferença relativa em proporção, não um indicador global do pedido total.(52)=10

Para seus dados, uma simulação com 100.000 iterações fornece os resultados

543210.024390.00030.132330.2996120.097630.003740.2922230.202530.0088440.08702

É improvável que as diferenças de proporções entre o método 4 e os métodos 1, 2 e 3 sejam devidas ao acaso (com probabilidades estimadas de 0,03%, 0,37%, 0,88%, respectivamente), mas as outras diferenças podem ser. Há alguma evidência (p = 2,44%) de diferença entre os métodos 1 e 5. Portanto, parece que você pode ter certeza de que as diferenças nas proporções envolvidas nos relacionamentos 4> 3, 4> 2 e 4> 1 são todas positivas , e provavelmente é a diferença em 5> 1.

whuber
fonte
11
Essa é uma resposta muito melhor que a minha! Falha ao ler a pergunta corretamente, receio (Etapa 3 em particular). Pensei em excluir minha resposta, mas defendo a maior interpretabilidade de uma abordagem bayesiana: é realmente o ranking que interessa.
onestop 19/10/10
Apenas para ter certeza de que entendi corretamente. O indicador que rastreia a diferença relativa entre os métodos 4 e 5 será atualizado sempre que houver uma diferença maior que 0,21.
Sxv 19/10/10
@ sxv Sim, está certo. (Bem, na verdade, usei maior ou igual. Laços acontecem. Acho que incluir a igualdade entre os resultados significativos é a coisa certa a ser feita, porque estamos avaliando a probabilidade de que diferenças tão grandes ou maiores possam ocorrer por acaso.)
whuber
1

Seu procedimento de teste de permutação de Monte-Carlo sugerido produzirá um valor-p para um teste da hipótese nula de que a probabilidade de sucesso é a mesma para todos os métodos. Mas há poucas razões para fazer um teste de permutação de Monte Carlo aqui quando o teste de permutação exata correspondente é perfeitamente viável. Esse é o teste exato de Fisher (bem, algumas pessoas reservam esse nome para tabelas 2x2, nesse caso, é um teste exato condicional). Acabei de digitar seus dados em Stata e -tabi ..., exatamente - deu p = 0,0067 (para comparação, o teste qui-quadrado de Pearson dá p = 0,0059). Tenho certeza de que há uma função equivalente em R que os gurus R adicionarão em breve.

Se você realmente deseja examinar a classificação, pode ser melhor usar uma abordagem bayesiana, pois pode fornecer uma interpretação simples como a probabilidade de que cada método seja realmente o melhor, o segundo melhor, o terceiro melhor, .... Isso tem o preço de exigir que você coloque prévios em suas probabilidades, é claro. A estimativa de probabilidade máxima das fileiras é simplesmente a ordem observada, mas é difícil quantificar a incerteza no ranking em uma estrutura freqüentista de uma maneira que possa ser facilmente interpretada, até onde eu saiba.

Sei que não mencionei várias comparações, mas não vejo como isso entra nisso.

uma parada
fonte
2
O teste exato de Fisher e o qui-quadrado de Pearson testam a hipótese nula de que todos os 5 métodos são igualmente eficazes contra a alternativa de que pelo menos 1 é melhor que os outros. Os valores p dizem que o nulo é rejeitado. Então, se eu quiser descobrir quais métodos são realmente melhores que os outros, não precisarei fazer 10 comparações pareadas?
Sxv 19/10/10