Como realizar o teste t de Student com apenas tamanho amostral, média amostral e média populacional conhecidas?

28

O teste do aluno requer o desvio padrão da amostra s . No entanto, como computo s quando apenas o tamanho e a média da amostra são conhecidos?tss

Por exemplo, se o tamanho da amostra for e a média da amostra for 112 , tentarei criar uma lista de 49 amostras idênticas com valores de 112 cada. Espera-se que o desvio padrão da amostra seja 0 . Isso criará um problema de divisão por zero no teste t .49112491120t

DADOS ADICIONAIS:
A renda média dos trabalhadores da ACME North Factory é de . É relatado que uma amostra aleatória de 49 trabalhadores na ACME South Factory teve uma renda anual de US $ 112 . Essa diferença é estatisticamente significativa?$20049$112

Estou correto ao dizer que a média da população é de ?$200

Kit
fonte
Que problema você está tentando resolver? Isso nos ajudaria se você nos dissesse mais.
Pmgjones
Certo. Eu adicionei um problema de amostra.
Kit

Respostas:

32

Isso pode surpreender muitos, mas para resolver esse problema, você não precisa necessariamente estimar s . De fato, você não precisa saber nada sobre a disseminação dos dados (embora isso seja útil, é claro). Por exemplo, Wall, Boen e Tweedie, em um artigo de 2001, descrevem como encontrar um intervalo de confiança finito para a média de qualquer distribuição unimodal com base em um único sorteio.

No presente caso, temos alguma base para visualizar a média amostral de 112 como um sorteio de uma distribuição aproximadamente normal (a saber, a distribuição amostral da média de uma amostra aleatória simples de 49 salários). Estamos assumindo implicitamente que existe um número razoavelmente grande de operários e que sua distribuição salarial não é tão distorcida ou multimodal a ponto de tornar inoperante o teorema do limite central. Então, um IC conservador de 90% para a média se estende até

112+5.84 |112|,

cobrindo claramente a média real de 200. (Veja Wall et al. fórmula 3.) Dadas as informações limitadas disponíveis e as suposições feitas aqui, portanto, não podemos concluir que 112 difere "significativamente" de 200.

Referência: "Um intervalo de confiança eficaz para a média com amostras do tamanho um e dois". The American Statistician, maio de 2001, vol. 55, No. 2: pp. 102-105. ( pdf )

whuber
fonte
4
Sim! É por isso que vale a pena estudar: os desafios para a nossa intuição são excepcionalmente educacionais. Soube disso pela primeira vez em um artigo claro na página de Carlos Rodriguez (SUNY Albany), mas não consegui encontrá-la hoje de manhã: parece que o servidor está inoperante. Tente pesquisar "estatísticas de carlos rogriguez" no Google posteriormente. (Seu papel é suposto ser a omega.albany.edu/8008/confint.html , mas isso pode ser uma URL de idade.)
whuber
4
Surpreendente. Eu não sabia disso. Obrigado pela referência.
Rob Hyndman
4
Obrigado - alguma chance de este artigo do Rodriguez você estar pensando? arxiv.org/abs/bayes-an/9504001
ars
2
Isso é ótimo. No entanto, estou curioso para saber por que você aplicou a fórmula (3) (que vem de Edelman), que Wall et al descrevem como "mais ampla que o necessário". No final do parágrafo imediatamente antes de mencionar (3), eles usam 4,84 (exatamente 1 menor que 5,84) por um intervalo de 90%, que vem da equação (4). Sem dúvida, eu perdi alguma coisa.
Glen_b -Replica Monica
2
@ Glen_b Pelo contrário, provavelmente perdi alguma coisa. Prestarei atenção a isso na próxima vez que precisar deste documento, mas, enquanto isso, a diferença de constantes não afeta a análise aqui.
whuber
13

Parece ser uma pergunta um tanto artificial. 49 é um quadrado exato de 7. O valor de uma distribuição t com 48 DoF para um teste bilateral de p <0,05 é muito próximo de 2 (2,01).

Rejeitamos a hipótese nula de igualdade de médias se | sample_mean - popn_mean | > 2 * StdError, ou seja, 200-112> 2 * SE, então SE <44, ou seja, SD <7 * 44 = 308.

Seria impossível obter uma distribuição normal com uma média de 112 com um desvio padrão de 308 (ou mais) sem salários negativos.

Dado que os salários são limitados abaixo, é provável que eles sejam distorcidos, portanto, assumindo que uma distribuição log-normal seria mais apropriada, mas ainda seria necessário salários altamente variáveis ​​para evitar p <0,05 em um teste t.

Thylacoleo
fonte
3

μ=0.999112+0.00188112=200.49/1000<0.05a média da amostra será 112. De fato, ajustando a proporção de trabalhadores / CEOs e o salário do CEO, podemos tornar arbitrariamente improvável que uma amostra de 49 funcionários atraia um CEO, enquanto fixa a média da população em 200, e a média da amostra em 112. Portanto, sem fazer algumas suposições sobre a distribuição subjacente, você não pode tirar nenhuma inferência sobre a média da população.

shabbychef
fonte
2
$
11
(1) boa captura. (2), sim, eu posso tornar o problema configurado assintoticamente perverso para resultados fixos, post hoc . minha culpa. no entanto, não tenho mais certeza do que o OP está tentando testar. Se eles sabem que a média da população é 200, por que eles estão tentando testá-lo?
precisa saber é o seguinte
11
BTW, evidentemente, um salário de CEO / salário menos pago de 400 não é considerado extremo nos EUA. 800 é um pouco perverso, no entanto.
precisa saber é o seguinte
2

Presumo que você esteja se referindo a um teste t de uma amostra. Seu objetivo é comparar a média da sua amostra com uma média hipotética. Em seguida, calcula (assumindo que sua população é gaussiana) um valor P que responde a essa pergunta: se a média da população realmente era o valor hipotético, quão improvável seria desenhar uma amostra cuja média esteja tão distante desse valor (ou mais) que você observou? Obviamente, a resposta para essa pergunta depende do tamanho da amostra. Mas isso também depende da variabilidade. Se seus dados tiverem uma quantidade enorme de dispersão, eles serão consistentes com uma ampla variedade de meios populacionais. Se seus dados são realmente compactos, eles são consistentes com uma faixa menor de meios populacionais.

Harvey Motulsky
fonte