Teste de diferença significativa nas proporções de variáveis ​​aleatórias distribuídas normalmente

9

Relacionado a Analisar proporções de variáveis e Como parametrizar a proporção de duas variáveis ​​normalmente distribuídas ou o inverso de uma? .

Suponha que eu tenha um número de amostras de quatro distribuições aleatórias contínuas diferentes, todas as quais podemos assumir como aproximadamente normais. No meu caso, eles correspondem a algumas métricas de desempenho de dois sistemas de arquivos diferentes (por exemplo, ext4 e XFS), com e sem criptografia. A métrica pode ser, por exemplo, o número de arquivos criados por segundo ou a latência média para alguma operação de arquivo. Podemos assumir que todas as amostras retiradas dessas distribuições sempre serão estritamente positivas. Vamos chamar estas distribuições , onde f s tPerffstype,encryption e de e n c r y p t i o n { C r y p t o , n o c r y p t o } .fstype{xfs,ext4}encryption{crypto,nocrypto}

Agora, minha hipótese é que a criptografia diminui um dos sistemas de arquivos por um fator maior que o outro. Existe algum teste simples para a hipótese ?E[Perfxfs,crypto]E[Perfxfs,nocrypto]<E[Perfext4,crypto]E[Perfext4,nocrypto]

Sami Liedes
fonte
Alguns textos parecem ter sido excluídos do meio desta pergunta. Você acha que poderia restaurá-lo?
whuber
Eu acho que o "Assim, o" foi deixado lá por engano, pelo menos não consigo pensar no que eu gostaria de acrescentar a isso. Provavelmente foi algo que finalmente mudei para o segundo parágrafo.
Sami Liedes
Você pode ajustar um modelo linear generalizado para uma distribuição normal com uma função de link de log.
onestop
11
"Número de arquivos" e "latência média" não podem ser normalmente distribuídos (nem negativos para começar). É provável que ambos estejam de certa forma inclinados. O número de arquivos é uma contagem discreta.
Glen_b -Reinstala Monica

Respostas:

12

Uma alternativa à boa resposta do StasK é usar um teste de permutação. O primeiro passo é definir uma estatística de teste , talvez:T

T=Perf^ext4,cryptoPerf^ext4,nocryptoPerf^xfs,cryptoPerf^xfs,nocrypto

onde é, talvez, a média amostral das observações de Perf e x t 4 , c r y p t o , etc. (Isso se encaixa na sua definição de a hipótese como a razão das expectativas em vez da possibilidade alternativa da expectativa da razão - qual alternativa pode ser o que você realmente deseja.) O segundo passo é permutar aleatoriamente os rótulos e x t 4 , x fPerf^ext4,cryptoPerfext4,crypto nos dados muitas vezes, digamos, i = 1 , ... , 10000 , e calcular T i para cada permutação. O último passo é comparar o seu original T com o observado T i ; o valor p estimado-permutação seria a fracção do t iT . ext4, xfsi=1,,10000TiTTiTiT

O teste de permutação liberta você da dependência de assintóticos, mas é claro que, dependendo do tamanho da sua amostra (e dos dados também, é claro), o método delta, que também uso ocasionalmente, pode funcionar bem.

jbowman
fonte
Essa é uma boa sugestão também!
StasK
Observe que a proporção de duas variáveis ​​normais centralizadas é uma variável de Cauchy.
Xian
11
@ Xi'an: Está claro que podemos assumir que aqui são independentes? Como você sabe, isso seria necessário para que esse resultado se mantivesse (e tenha a chance de ser útil).
cardeal
@ cardinal: sim, de fato, eles teriam que ser independentes!
Xian
11
Como um ponto técnico muito esnobe - a permutação funciona um pouco melhor quando sua estatística de teste é essencial / não envolve parâmetros desconhecidos / é estabilizada por variância ... pelo menos sob o nulo. Com proporções, você pode fazer uma transformação de arco-pecado. Com quantidades contínuas estritamente positivas, eu provavelmente começaria com logs. Mas isso é realmente cereja no topo do bolo.
StasK
4

Você pode calcular o erro padrão (assintótico) da proporção usando o método delta . Se você possui duas variáveis ​​aleatórias e Y, tais que XY

n(X¯μXY¯μY)N((00),(σXXσXYσXYσYY))
r=Y¯/X¯ro=μY/μX
n(rr0)N(0,μY2μX4σXX2μYμX3σXY+1μX2σYY)
XYσXY
CV2[r]=CV2[X¯]+CV2[Y¯]
zH0:

Espero que você possa pegá-lo de lá e realizar os cálculos restantes do verso do envelope para obter a fórmula final.

rr0O(1/n)O(1/n)

StasK
fonte
Obrigado pela resposta excelente e esclarecedora! Acho que vou escolher o teste de permutação de jbowban para os meus estudos porque acho que o compreendo e suas limitações melhor, mas o método delta definitivamente parece algo que preciso estudar e descobrir.
Sami Liedes
@stask isso poderia ser feito aqui? stats.stackexchange.com/questions/398436/…
Xavier Bourret Sicotte,
Xavier, acho que @ usεr11852 deu uma boa resposta. Não vou me incomodar em adicionar isso.
StasK 21/03/19
@StasK - sob quais condições as condições que você declara na sua resposta são válidas? A convergência da estatística de razão é garantida pelo pressuposto anterior e pelo método Delta?
Xavier Bourret Sicotte
É assintótico ... nada é garantido e é difícil obter limites de erro. Todo o método delta (ou qualquer outro resultado de convergência fraco) está dizendo: à medida que você aumenta o tamanho da amostra, a diferença entre a distribuição finita real da amostra e a distribuição assintótica fica menor. Isso pode significar que, à medida que você aumenta o tamanho da amostra de 1000 para 10000, a diferença vertical entre os cdfs diminui de 0,2 para 0,1, e o último ainda é inaceitável para fins práticos. Ou pode significar que a diferença vai de 0,01 a 0,001.
StasK
0

A razão de variáveis ​​normais é distribuída Cauchy. Sabendo disso, você pode simplesmente executar um Teste do fator Bayes.

Essa foi uma ideia bastante espontânea. Agora não tenho certeza sobre o mecanismo de geração de dados. Você instala sistemas de arquivos diferentes no mesmo PC e depois faz a comparação dos dois casos, para que possamos assumir uma estrutura hierárquica de dados?

Também não tenho certeza se as taxas de procura realmente fazem sentido.

E então você escreveu a proporção dos valores esperados, enquanto eu pensava no valor esperado das proporções. Acho que preciso de mais informações sobre a geração de dados antes de prosseguir.

joint_p
fonte
11
A proporção de normais é apenas Cauchy se (a) forem independentes e (b) tiverem a mesma variação.
cardeal
Xi'an tinha o mesmo pensamento que eu acho ...
joint_p
11
Não está claro (pelo menos para mim) que existe essa estrutura de independência ou que elas terão média zero. Talvez, se você puder expandir sua resposta, isso ajudará a tornar mais clara a abordagem que você está sugerindo. :)
cardeal
11
@ cardinal - Eu pensei que era uma proporção de normais independentes com média zero e cauchy com mediana zero e parâmetro de escala igual à proporção dos desvios padrão normais. Se eles têm média diferente de zero, então não é cauteloso.
probabilityislogic
@ pro: (+1) Você está certo! Obrigado por capturar isso. Abandonei o "padrão" e a "média zero" no meu primeiro comentário (este último conseguiu fazer o meu segundo).
cardeal
0

Nos casos em que você não pode executar permutações, por exemplo, quando o tamanho da amostra cria milhões de possibilidades, outra solução seria a reamostragem de Monte Carlo.

ext4xfsnocryptocryptoext4xfsnocryptocrypto

H0:Tobserved=xnocryptonnocryptoxcryptoncrypto=0

x=ext4xfs

n=samplesize

H0nocryptocryptoTobserved=0

Tresampling=x1random+xnrandomnnocryptox1random+xnrandomncrypto

TresamplingH0nocryptocryptoTobserved(p<0.05)Tresampling

user1979481
fonte