Como suas duas métricas são 1) binárias e 2) pesadas, evite o teste t, que assume distribuições normais.
Eu acho que Mann-Whitney U é sua melhor escolha e deve ser suficientemente eficiente, mesmo que suas distribuições sejam quase normais.
Em relação à sua segunda pergunta:
O que acontece se um teste sugere diferença significativa entre as coortes e algum outro teste sugere diferença não significativa?
Isso não é incomum se a diferença estatística for limítrofe e os dados tiverem distribuições de amostra "confusas". Essa situação exige que o analista considere cuidadosamente todas as suposições e limitações de cada teste estatístico e dê mais peso ao teste estatístico que possui o menor número de violações de suposições.
Tome como pressuposto a distribuição Normal. Existem vários testes de normalidade, mas esse não é o fim da história. Alguns testes funcionam muito bem em distribuições simétricas, mesmo se houver algum desvio da normalidade, mas não funcionam bem em distribuições inclinadas.
Como regra geral, sugiro que você não execute nenhum teste em que alguma de suas suposições seja claramente violada.
EDIT: Para a segunda variável, pode ser possível transformar a variável em uma que é normalmente distribuída (ou pelo menos próxima), desde que a transformação preserve a ordem. Você precisa ter boa confiança de que a transformação produz uma distribuição normal para ambas as coortes. Se você ajustar a segunda variável à distribuição normal de log, uma função de log a transformará em uma distribuição normal. Mas se a distribuição for Pareto (lei do poder), não haverá transformação para uma distribuição normal.
EDIT: Como sugerido neste comentário , você definitivamente deve considerar a estimativa bayesiana como uma alternativa ao teste t e outros testes de significância de hipótese nula (NHST).
Para os dados com valor real, convém também gerar sua própria estatística de teste com base em uma inicialização de seus dados. Essa abordagem tende a produzir resultados precisos quando você está lidando com distribuições populacionais não normais ou tentando desenvolver um intervalo de confiança em torno de um parâmetro que não possui uma solução analítica conveniente. (O primeiro é verdadeiro no seu caso. Mencionei apenas o último como contexto.)
Para seus dados com valor real, faça o seguinte:
Depois de obter essa distribuição, calcule a diferença de médias para suas amostras reais e calcule um valor-p.
fonte
Eu segundo @ resposta MrMeritology. Na verdade, eu queria saber se o teste MWU seria menos poderoso que o teste de proporções independentes, pois os livros didáticos que aprendi e ensinei disseram que o MWU pode ser aplicado apenas a dados ordinais (ou intervalo / razão).
Mas meus resultados de simulação, plotados abaixo, indicam que o teste MWU é realmente um pouco mais poderoso que o teste de proporção, enquanto controla bem o erro do tipo I (na proporção populacional do grupo 1 = 0,50).
A proporção da população do grupo 2 é mantida em 0,50. O número de iterações é 10.000 em cada ponto. Repeti a simulação sem a correção de Yate, mas os resultados foram os mesmos.
fonte