Quão significativo é um valor comparado a uma lista de valores? Na maioria dos casos, o teste estatístico envolve a comparação de um conjunto de amostras com uma população. No meu caso, a amostra é composta por um valor e a comparamos com a população.
Sou um diletante no teste de hipóteses estatísticas confrontado talvez com o problema mais básico. Não é apenas um teste, mas centenas deles. Eu tenho um espaço de parâmetro e devo fazer um teste de significância para cada ponto. O valor e a lista de plano de fundo (população) são gerados para cada combinação de parâmetros. Então, eu estou ordenando isso pelo valor-p e encontro combinações interessantes de parâmetros. De fato, o achado de combinações de parâmetros em que esse p-val é alto (não significativo) também é importante.
Então, vamos fazer um único teste: eu tenho um valor calculado gerado a partir de um conjunto selecionado e um conjunto de valores em segundo plano calculado escolhendo um conjunto de treinamento aleatório. O valor calculado é 0,35 e o conjunto de plano de fundo é (provavelmente?) Normalmente distribuído com uma média de 0,25 e um valor padrão muito estreito (e-7). Na verdade, eu não tenho conhecimento da distribuição, porque as amostras são calculadas a partir de outra coisa, não são amostras de números aleatórios de alguma distribuição, portanto, fundo é a palavra correta para ela.
A hipótese nula seria que "a média do teste da amostra é igual ao meu valor calculado, de 0,35". Quando devo considerar que isso é um teste Z ou um teste T? Eu quero que o valor seja significativamente maior que a média da população, portanto, é um teste de cauda única.
Estou um pouco confuso sobre o que considerar como amostra: ou tenho uma amostra de uma (a observação) e a lista de segundo plano como a população OU minha amostra é a lista de segundo plano e estou comparando isso com o todo (sem amostra) população que, segundo a hipótese nula, deveria ter a mesma média. Uma vez decidido, o teste vai para direções diferentes, eu acho.
Se for um teste T, como computo seu valor-p? Gostaria de calculá-lo eu mesmo, em vez de usar uma função R / Python / Excel (eu já sei como fazer isso), portanto, devo estabelecer primeiro a fórmula correta.
Para começar, suspeito que um teste T seja um pouco genérico demais, pois, no meu caso, o teste T estaria vinculado ao tamanho da amostra e teria a forma: que Z = ˉ X
- Como computo um valor-p? (ou seja, não use uma função R / Python / Excel ou pesquisa de tabela de valor p, mas na verdade calcule-a com base em uma fórmula, porque quero saber o que estou fazendo)
- Como decido um limite de significância com base no tamanho da minha amostra? (uma fórmula seria legal)
fonte
Respostas:
Você levanta uma pergunta interessante. Primeiro, se você tem uma observação de 0,35, uma média de 0,25 e um desvio padrão de 1/10 ^ 7 (é assim que eu interpreto seu bit e ^ -7), você realmente não precisa entrar em nenhuma hipótese. exercício de teste. Sua observação de 0,35 é muito diferente da média de 0,25, uma vez que haverá vários milhares de desvios-padrão da média e provavelmente haverá vários milhões de erros padrão da média.
A diferença entre o teste Z e o teste t refere-se principalmente ao tamanho da amostra. Com amostras menores que 120, você deve usar o teste t para calcular os valores de p. Quando os tamanhos das amostras são maiores que isso, não faz muita diferença se você usa qual deles. É divertido calculá-lo nos dois sentidos, independentemente do tamanho da amostra e observar a pouca diferença entre os dois testes.
Quanto a você mesmo calcular as coisas, você pode calcular a estatística t dividindo a diferença entre sua observação e a média e dividi-la pelo erro padrão. O erro padrão é o desvio padrão dividido pela raiz quadrada do tamanho da amostra. Agora, você tem seu status. Para calcular um valor de p, acho que não há alternativa a não ser procurar seu valor t na tabela de teste. Se você aceitar um TDIST alternativo simples do Excel (valor de estatística t, DF, 1 ou 2 para 1 ou 2 valores de cauda p), o truque será necessário. Para calcular um valor de p usando Z, a fórmula do Excel para um teste de 1 cauda é: (1 - NORMSDIST (valor Z). O valor de Z é o mesmo que o stat t (ou o número de erro padrão longe da média).
Assim como uma ressalva, esses métodos de teste de hipóteses podem se distorcer pelo tamanho da amostra. Em outras palavras, quanto maior o tamanho da amostra, menor o erro padrão, maior o valor Z resultante ou o estatuto t, menor o valor de p e maior a significância estatística. Como atalho nessa lógica, grandes tamanhos de amostra resultarão em alta significância estatística. Porém, a alta significância estatística associada ao grande tamanho da amostra pode ser completamente irrelevante. Em outras palavras, estatisticamente significante é uma frase matemática. Não significa necessariamente significativo (por dicionário Webster).
Para se livrar dessa grande armadilha de tamanho de amostra, os estatísticos passaram para os métodos de Tamanho de efeito. Estes últimos usam como unidade de distância estatística entre duas observações o desvio padrão em vez do erro padrão. Com essa estrutura, o tamanho da amostra não terá impacto na sua significância estatística. O uso do tamanho do efeito também tenderá a afastar os valores de p e os intervalos de confiança, que podem ser mais significativos em inglês comum.
fonte
O teste de hipóteses sempre se refere à população. Se você deseja fazer uma declaração sobre a amostra, não precisa testar (basta comparar o que vê). Os freqüentistas acreditam em assintóticos, desde que o tamanho da amostra seja grande, não se preocupe com a distribuição dos seus dados. O teste Z e o teste T fazem basicamente o mesmo em termos de cálculo da estatística do teste, apenas os valores críticos são obtidos de diferentes distribuições (Normal vs Student-T). Se o tamanho da sua amostra for grande, a diferença é marginal.
Em relação ao Q1: basta procurar na distribuição T com n-1 graus de liberdade, onde n é o tamanho da amostra.
Em relação ao Q2: você calcula o limite com base no nível de significância desejado para um teste Z e com base no nível de significância no tamanho da amostra no caso do Teste T.
Mas, falando sério, você deve revisar alguns princípios.
fonte