Relacionado a Analisar proporções de variáveis e Como parametrizar a proporção de duas variáveis normalmente distribuídas ou o inverso de uma? .
Suponha que eu tenha um número de amostras de quatro distribuições aleatórias contínuas diferentes, todas as quais podemos assumir como aproximadamente normais. No meu caso, eles correspondem a algumas métricas de desempenho de dois sistemas de arquivos diferentes (por exemplo, ext4 e XFS), com e sem criptografia. A métrica pode ser, por exemplo, o número de arquivos criados por segundo ou a latência média para alguma operação de arquivo. Podemos assumir que todas as amostras retiradas dessas distribuições sempre serão estritamente positivas. Vamos chamar estas distribuições , onde f s t e de e n c r y p t i o n ∈ { C r y p t o , n o c r y p t o } .
Agora, minha hipótese é que a criptografia diminui um dos sistemas de arquivos por um fator maior que o outro. Existe algum teste simples para a hipótese ?
fonte
Respostas:
Uma alternativa à boa resposta do StasK é usar um teste de permutação. O primeiro passo é definir uma estatística de teste , talvez:T
onde é, talvez, a média amostral das observações de Perf e x t 4 , c r y p t o , etc. (Isso se encaixa na sua definição de a hipótese como a razão das expectativas em vez da possibilidade alternativa da expectativa da razão - qual alternativa pode ser o que você realmente deseja.) O segundo passo é permutar aleatoriamente os rótulos e x t 4 , x fPe r fˆe x t 4 , c r yp t o Perfe x t 4 , c r yp t o nos dados muitas vezes, digamos, i = 1 , ... , 10000 , e calcular T i para cada permutação. O último passo é comparar o seu original T com o observado T i ; o valor p estimado-permutação seria a fracção do t i ≤ T . e x t 4 , x f s i = 1 , … , 10000 TEu T Ti Ti≤T
O teste de permutação liberta você da dependência de assintóticos, mas é claro que, dependendo do tamanho da sua amostra (e dos dados também, é claro), o método delta, que também uso ocasionalmente, pode funcionar bem.
fonte
Você pode calcular o erro padrão (assintótico) da proporção usando o método delta . Se você possui duas variáveis aleatórias e Y, tais que √X Y
Espero que você possa pegá-lo de lá e realizar os cálculos restantes do verso do envelope para obter a fórmula final.
fonte
A razão de variáveis normais é distribuída Cauchy. Sabendo disso, você pode simplesmente executar um Teste do fator Bayes.
Essa foi uma ideia bastante espontânea. Agora não tenho certeza sobre o mecanismo de geração de dados. Você instala sistemas de arquivos diferentes no mesmo PC e depois faz a comparação dos dois casos, para que possamos assumir uma estrutura hierárquica de dados?
Também não tenho certeza se as taxas de procura realmente fazem sentido.
E então você escreveu a proporção dos valores esperados, enquanto eu pensava no valor esperado das proporções. Acho que preciso de mais informações sobre a geração de dados antes de prosseguir.
fonte
Nos casos em que você não pode executar permutações, por exemplo, quando o tamanho da amostra cria milhões de possibilidades, outra solução seria a reamostragem de Monte Carlo.
fonte