O teste estatístico para um valor significativamente mais distante da população significa: é um teste Z ou um teste T?

12

Quão significativo é um valor comparado a uma lista de valores? Na maioria dos casos, o teste estatístico envolve a comparação de um conjunto de amostras com uma população. No meu caso, a amostra é composta por um valor e a comparamos com a população.

Sou um diletante no teste de hipóteses estatísticas confrontado talvez com o problema mais básico. Não é apenas um teste, mas centenas deles. Eu tenho um espaço de parâmetro e devo fazer um teste de significância para cada ponto. O valor e a lista de plano de fundo (população) são gerados para cada combinação de parâmetros. Então, eu estou ordenando isso pelo valor-p e encontro combinações interessantes de parâmetros. De fato, o achado de combinações de parâmetros em que esse p-val é alto (não significativo) também é importante.

Então, vamos fazer um único teste: eu tenho um valor calculado gerado a partir de um conjunto selecionado e um conjunto de valores em segundo plano calculado escolhendo um conjunto de treinamento aleatório. O valor calculado é 0,35 e o conjunto de plano de fundo é (provavelmente?) Normalmente distribuído com uma média de 0,25 e um valor padrão muito estreito (e-7). Na verdade, eu não tenho conhecimento da distribuição, porque as amostras são calculadas a partir de outra coisa, não são amostras de números aleatórios de alguma distribuição, portanto, fundo é a palavra correta para ela.

A hipótese nula seria que "a média do teste da amostra é igual ao meu valor calculado, de 0,35". Quando devo considerar que isso é um teste Z ou um teste T? Eu quero que o valor seja significativamente maior que a média da população, portanto, é um teste de cauda única.

Estou um pouco confuso sobre o que considerar como amostra: ou tenho uma amostra de uma (a observação) e a lista de segundo plano como a população OU minha amostra é a lista de segundo plano e estou comparando isso com o todo (sem amostra) população que, segundo a hipótese nula, deveria ter a mesma média. Uma vez decidido, o teste vai para direções diferentes, eu acho.

Se for um teste T, como computo seu valor-p? Gostaria de calculá-lo eu mesmo, em vez de usar uma função R / Python / Excel (eu já sei como fazer isso), portanto, devo estabelecer primeiro a fórmula correta.

Para começar, suspeito que um teste T seja um pouco genérico demais, pois, no meu caso, o teste T estaria vinculado ao tamanho da amostra e teria a forma: que Z = ˉ X

T=Z/s,
e s é, a amostra padrão versus a população padrão. Portanto, tenho dois casos: ou o tamanho da minha amostra é o tamanho da população, o que eu "acho" significaria que estou lidando com um teste Z, ou as estatísticas da população (n e std) são desconhecidas, mas a distribuição pode estar em de alguma forma aproximada e estou realmente lidando com um teste-T. De qualquer forma, minhas perguntas a seguir são:
Z=X¯σn
s=σ^/σ
  1. Como computo um valor-p? (ou seja, não use uma função R / Python / Excel ou pesquisa de tabela de valor p, mas na verdade calcule-a com base em uma fórmula, porque quero saber o que estou fazendo)
  2. Como decido um limite de significância com base no tamanho da minha amostra? (uma fórmula seria legal)
grokkaine
fonte
3
1060,35=106×10-7+0,250,35
1
@grokkaine - Esta pergunta levanta questões interessantes e parece valiosa, mas eu acho ainda mais valiosa se você a editar um pouco, tendo o cuidado de ser muito preciso com seus termos.
Rolando2 29/02/12
Não é apenas um teste, mas centenas deles. Eu tenho um espaço de parâmetro e devo fazer um teste de significância para cada ponto. O valor e a lista de plano de fundo (população) são gerados para cada combinação de parâmetros. Então, eu estou ordenando isso pelo valor-p e encontro combinações interessantes de parâmetros. De fato, o achado de combinações de parâmetros em que esse p-val é alto (não significativo) também é importante. Vou tentar editar minha postagem um pouco mais tarde.
239122 grokkaine

Respostas:

9

Você levanta uma pergunta interessante. Primeiro, se você tem uma observação de 0,35, uma média de 0,25 e um desvio padrão de 1/10 ^ 7 (é assim que eu interpreto seu bit e ^ -7), você realmente não precisa entrar em nenhuma hipótese. exercício de teste. Sua observação de 0,35 é muito diferente da média de 0,25, uma vez que haverá vários milhares de desvios-padrão da média e provavelmente haverá vários milhões de erros padrão da média.

A diferença entre o teste Z e o teste t refere-se principalmente ao tamanho da amostra. Com amostras menores que 120, você deve usar o teste t para calcular os valores de p. Quando os tamanhos das amostras são maiores que isso, não faz muita diferença se você usa qual deles. É divertido calculá-lo nos dois sentidos, independentemente do tamanho da amostra e observar a pouca diferença entre os dois testes.

Quanto a você mesmo calcular as coisas, você pode calcular a estatística t dividindo a diferença entre sua observação e a média e dividi-la pelo erro padrão. O erro padrão é o desvio padrão dividido pela raiz quadrada do tamanho da amostra. Agora, você tem seu status. Para calcular um valor de p, acho que não há alternativa a não ser procurar seu valor t na tabela de teste. Se você aceitar um TDIST alternativo simples do Excel (valor de estatística t, DF, 1 ou 2 para 1 ou 2 valores de cauda p), o truque será necessário. Para calcular um valor de p usando Z, a fórmula do Excel para um teste de 1 cauda é: (1 - NORMSDIST (valor Z). O valor de Z é o mesmo que o stat t (ou o número de erro padrão longe da média).

Assim como uma ressalva, esses métodos de teste de hipóteses podem se distorcer pelo tamanho da amostra. Em outras palavras, quanto maior o tamanho da amostra, menor o erro padrão, maior o valor Z resultante ou o estatuto t, menor o valor de p e maior a significância estatística. Como atalho nessa lógica, grandes tamanhos de amostra resultarão em alta significância estatística. Porém, a alta significância estatística associada ao grande tamanho da amostra pode ser completamente irrelevante. Em outras palavras, estatisticamente significante é uma frase matemática. Não significa necessariamente significativo (por dicionário Webster).

Para se livrar dessa grande armadilha de tamanho de amostra, os estatísticos passaram para os métodos de Tamanho de efeito. Estes últimos usam como unidade de distância estatística entre duas observações o desvio padrão em vez do erro padrão. Com essa estrutura, o tamanho da amostra não terá impacto na sua significância estatística. O uso do tamanho do efeito também tenderá a afastar os valores de p e os intervalos de confiança, que podem ser mais significativos em inglês comum.

Sympa
fonte
Obrigado pela resposta, estou um pouco confuso sobre o que considerar como amostra: ou tenho uma amostra de uma (a observação) e a lista de segundo plano como a população OU minha amostra é a lista de segundo plano e estou comparando isso com toda a população (sem amostra) que, de acordo com a hipótese nula, deveria ter a mesma média. Uma vez decidido, o teste vai para direções diferentes, eu acho.
22812 grokkaine
Use todas as observações que você tem como amostra (como quiser). E calcule a distância estatística entre sua única observação e a média da amostra, conforme definido. Calcule o desvio padrão e o erro padrão da sua amostra. E a distância estatística da sua observação da média é: (Observação - Média) / Erro padrão = t stat. Use a função TDIST do Excel (DF, t stat, 1 (para uma cauda)) e você obtém seu valor de p.
Sympa
5

O teste de hipóteses sempre se refere à população. Se você deseja fazer uma declaração sobre a amostra, não precisa testar (basta comparar o que vê). Os freqüentistas acreditam em assintóticos, desde que o tamanho da amostra seja grande, não se preocupe com a distribuição dos seus dados. O teste Z e o teste T fazem basicamente o mesmo em termos de cálculo da estatística do teste, apenas os valores críticos são obtidos de diferentes distribuições (Normal vs Student-T). Se o tamanho da sua amostra for grande, a diferença é marginal.

Em relação ao Q1: basta procurar na distribuição T com n-1 graus de liberdade, onde n é o tamanho da amostra.

Em relação ao Q2: você calcula o limite com base no nível de significância desejado para um teste Z e com base no nível de significância no tamanho da amostra no caso do Teste T.

Mas, falando sério, você deve revisar alguns princípios.

joint_p
fonte
Obrigado pela resposta. Na verdade, era o t-dist que eu estava usando, mas também queria entender "por que" usá-lo. Como você define uma amostra "grande" e como o valor de p é diferente. Mais importante, como sabemos quando uma distribuição é normal ou estudante-t? Existe um teste estatístico para isso? Talvez use o teste kolmogorov-smirnov para o segundo e hmm .. o que usar para o primeiro?
22812 Grokkaine
2
grande ... bem Z e t convergem começando com n = 60. Basta comparar os valores-p obtidos nos dois testes. A suposição de distribuição t / Normal não depende da distribuição dos dados subjacentes. É baseado no pressuposto de que a distribuição amostral da média é normal. Mesmo se a variável que você está testando for distribuída Gamma, isso ainda será válido. Com n = 200 ou mais, deve funcionar bem. Novamente, todo esse material é baseado em estatísticas freqüentistas.
28412
+1 para o comentário na hipótese de testar sempre se referindo a população, mas -1 para parecendo perder o ponto que o entrevistador tem uma amostra de 1.
Peter Ellis
1
Eu não tinha muita certeza do que "eu tenho um valor calculado e um conjunto de valores gerados aleatoriamente em segundo plano. O valor calculado é 0,35" deveria significar ... Eu pensei que isso de alguma forma implicava que havia mais de uma observação.
28512
republicando meus comentários dos outros parágrafos: Estou um pouco confuso quanto ao que considerar como amostra: ou tenho uma amostra de uma (a observação) e a lista de segundo plano como a população OU minha amostra é a lista de segundo plano e Estou comparando isso com toda a população (sem amostra) que, de acordo com a hipótese nula, deveria ter a mesma média. Uma vez decidido, o teste vai para direções diferentes, eu acho.
grokkaine 29/02/2012