O teste do aluno requer o desvio padrão da amostra s . No entanto, como computo s quando apenas o tamanho e a média da amostra são conhecidos?
Por exemplo, se o tamanho da amostra for e a média da amostra for 112 , tentarei criar uma lista de 49 amostras idênticas com valores de 112 cada. Espera-se que o desvio padrão da amostra seja 0 . Isso criará um problema de divisão por zero no teste t .
DADOS ADICIONAIS:
A renda média dos trabalhadores da ACME North Factory é de . É relatado que uma amostra aleatória de 49 trabalhadores na ACME South Factory teve uma renda anual de US $ 112 . Essa diferença é estatisticamente significativa?
Estou correto ao dizer que a média da população é de ?
Respostas:
Isso pode surpreender muitos, mas para resolver esse problema, você não precisa necessariamente estimar s . De fato, você não precisa saber nada sobre a disseminação dos dados (embora isso seja útil, é claro). Por exemplo, Wall, Boen e Tweedie, em um artigo de 2001, descrevem como encontrar um intervalo de confiança finito para a média de qualquer distribuição unimodal com base em um único sorteio.
No presente caso, temos alguma base para visualizar a média amostral de 112 como um sorteio de uma distribuição aproximadamente normal (a saber, a distribuição amostral da média de uma amostra aleatória simples de 49 salários). Estamos assumindo implicitamente que existe um número razoavelmente grande de operários e que sua distribuição salarial não é tão distorcida ou multimodal a ponto de tornar inoperante o teorema do limite central. Então, um IC conservador de 90% para a média se estende até
cobrindo claramente a média real de 200. (Veja Wall et al. fórmula 3.) Dadas as informações limitadas disponíveis e as suposições feitas aqui, portanto, não podemos concluir que 112 difere "significativamente" de 200.
Referência: "Um intervalo de confiança eficaz para a média com amostras do tamanho um e dois". The American Statistician, maio de 2001, vol. 55, No. 2: pp. 102-105. ( pdf )
fonte
Parece ser uma pergunta um tanto artificial. 49 é um quadrado exato de 7. O valor de uma distribuição t com 48 DoF para um teste bilateral de p <0,05 é muito próximo de 2 (2,01).
Rejeitamos a hipótese nula de igualdade de médias se | sample_mean - popn_mean | > 2 * StdError, ou seja, 200-112> 2 * SE, então SE <44, ou seja, SD <7 * 44 = 308.
Seria impossível obter uma distribuição normal com uma média de 112 com um desvio padrão de 308 (ou mais) sem salários negativos.
Dado que os salários são limitados abaixo, é provável que eles sejam distorcidos, portanto, assumindo que uma distribuição log-normal seria mais apropriada, mas ainda seria necessário salários altamente variáveis para evitar p <0,05 em um teste t.
fonte
a média da amostra será 112. De fato, ajustando a proporção de trabalhadores / CEOs e o salário do CEO, podemos tornar arbitrariamente improvável que uma amostra de 49 funcionários atraia um CEO, enquanto fixa a média da população em 200, e a média da amostra em 112. Portanto, sem fazer algumas suposições sobre a distribuição subjacente, você não pode tirar nenhuma inferência sobre a média da população.fonte
Presumo que você esteja se referindo a um teste t de uma amostra. Seu objetivo é comparar a média da sua amostra com uma média hipotética. Em seguida, calcula (assumindo que sua população é gaussiana) um valor P que responde a essa pergunta: se a média da população realmente era o valor hipotético, quão improvável seria desenhar uma amostra cuja média esteja tão distante desse valor (ou mais) que você observou? Obviamente, a resposta para essa pergunta depende do tamanho da amostra. Mas isso também depende da variabilidade. Se seus dados tiverem uma quantidade enorme de dispersão, eles serão consistentes com uma ampla variedade de meios populacionais. Se seus dados são realmente compactos, eles são consistentes com uma faixa menor de meios populacionais.
fonte