O que é exatamente distribuído de acordo com a distribuição t?

8

Eu tento entender a idéia por trás da distribuição t. Aqui estão as etapas que eu entendi até agora:

  1. Utilizamos uma amostra de N elementos para estimar a média da população. Em mais detalhes, usamos a média da amostra como uma estimativa da média da população.
  2. Queremos saber o quão perto está nossa estimativa do valor real. Ou, mais especificamente, queremos saber quão grande deve ser o intervalo em torno da média da amostra, para que possamos dizer que a média da população está dentro desse intervalo com uma certa probabilidade.
  3. Para responder a essa pergunta, assumimos que os valores na população são distribuídos de acordo com uma distribuição normal com uma média e desvio padrão conhecidos.
  4. Tendo os parâmetros da distribuição dos valores na população, podemos calcular a distribuição da média da amostra em função da distribuição da população e do tamanho da amostra.
  5. Podemos mostrar que a distribuição da média da amostra também é uma distribuição normal com a mesma média que a distribuição da população e o desvio padrão dados pela fórmula a seguir , em que é o tamanho da amostra .s=σ/NN
  6. Tendo a distribuição da média da amostra, podemos calcular facilmente a probabilidade de que a média da amostra seja separada da média real por X. Ou, em outras palavras, podemos calcular a probabilidade de que a média da população esteja dentro de um determinado intervalo em torno da média da amostra .
  7. É quase o que precisamos. O único problema é que, nas situações da vida real, geralmente não sabemos o desvio padrão da distribuição da população (e esse é o parâmetro que determina como a média da nossa amostra é distribuída em torno da média da população).
  8. O que podemos fazer é substituir o desvio padrão da população pelo desvio padrão da amostra. Em outras palavras, substituímos o parâmetro exato e desconhecido por nossa estimativa aproximada dele.

Então, é aqui que estou até agora. Ao substituir a população STD pela amostra STD, pioramos nossa estimativa da distribuição da amostra. E para "compensar" esse valor "errado" dos parâmetros da distribuição, alteramos a forma da distribuição (dizemos que não é mais uma distribuição normal, é uma distribuição t). Mas o que exatamente é distribuído de acordo com a distribuição t? Quando conhecemos a população STD, sabemos como a média da amostra é distribuída em torno da média da população. Agora não conhecemos a população STD, mas isso não altera a distribuição da média da amostra em torno da média da população!

romano
fonte

Respostas:

7

Você está muito perto ...

Se é uma amostra de observações normais de iid com média e variância , a média padronizada é normal normal. Agora, como você apontou, na realidade nunca sabemos . Portanto, substituímos pela estimativa amostral e consideramos a média "estudada" . Essa variável aleatória é um pouco diferente da acima. Consequentemente, sua distribuição é levemente não normal, ou seja, Student com graus de liberdade.X1,,Xnμσ2

X¯nμσ/n
σσS
T=X¯nμS/n
n1

Para não muito pequeno , está próximo de (essa é a consistência do desvio padrão da amostra). Então, a média padronizada é muito próxima da média estudada. Isso explica por que a distribuição de Alunos com muitos graus de liberdade se parece com a normal.nSσ

A média estudada é o ponto de partida para derivar intervalos de confiança e testes de hipótese para .μ

Exemplo : Para encontrar um limite de confiança inferior a 95% para , você resolve a seguinte equação para . Para fazer isso, tente modificar a equação na probabilidade para que a média estudada apareça (tente descobrir as subetapas): Então você usa o fato de que tem uma distribuição de Student com df para se livrar da probabilidade: que é o correspondente quantil de 95%. Assim, X¯ncμ

P(X¯ncμ)=0.95
c
P(TcS/n)=0.95.
Tn1
cS/n=qt0.95;n1,
qt0.95;n1
c=Snqt0.95;n1
e segue o (famoso) limite de confiança mais baixo:
X¯nSnqt0.95;n1
Michael M
fonte
Isso significa que, em vez de falar sobre média amostral ( X_n), falamos sobre "média padronizada". Podemos dizer que a distribuição da média padronizada é normal, com média zero e DST igual a 1. Não, definimos outra variável substituindo a população STD pela amostra STD e dizemos que essa nova variável é distribuída de acordo com a distribuição t. ESTÁ BEM. A última coisa que não entendo é por que não substituímos a média da população pela média da amostra. Se não conhecemos o sigma, provavelmente também não conhecemos o mu.
Roman
Nós fazemos! Mas a maioria das questões interessantes sobre como "no que variam vai estar com alta certeza" (-> intervalo de confiança) ou "é realmente diferente de 0" (-> teste de hipótese) são respondidas usando o fato de que o A média estudada segue uma distribuição de Student. Você não pode responder a perguntas como essa apenas olhando a estimativa. μμμ
Michael M