Eu tento entender a idéia por trás da distribuição t. Aqui estão as etapas que eu entendi até agora:
- Utilizamos uma amostra de N elementos para estimar a média da população. Em mais detalhes, usamos a média da amostra como uma estimativa da média da população.
- Queremos saber o quão perto está nossa estimativa do valor real. Ou, mais especificamente, queremos saber quão grande deve ser o intervalo em torno da média da amostra, para que possamos dizer que a média da população está dentro desse intervalo com uma certa probabilidade.
- Para responder a essa pergunta, assumimos que os valores na população são distribuídos de acordo com uma distribuição normal com uma média e desvio padrão conhecidos.
- Tendo os parâmetros da distribuição dos valores na população, podemos calcular a distribuição da média da amostra em função da distribuição da população e do tamanho da amostra.
- Podemos mostrar que a distribuição da média da amostra também é uma distribuição normal com a mesma média que a distribuição da população e o desvio padrão dados pela fórmula a seguir , em que é o tamanho da amostra .
- Tendo a distribuição da média da amostra, podemos calcular facilmente a probabilidade de que a média da amostra seja separada da média real por X. Ou, em outras palavras, podemos calcular a probabilidade de que a média da população esteja dentro de um determinado intervalo em torno da média da amostra .
- É quase o que precisamos. O único problema é que, nas situações da vida real, geralmente não sabemos o desvio padrão da distribuição da população (e esse é o parâmetro que determina como a média da nossa amostra é distribuída em torno da média da população).
- O que podemos fazer é substituir o desvio padrão da população pelo desvio padrão da amostra. Em outras palavras, substituímos o parâmetro exato e desconhecido por nossa estimativa aproximada dele.
Então, é aqui que estou até agora. Ao substituir a população STD pela amostra STD, pioramos nossa estimativa da distribuição da amostra. E para "compensar" esse valor "errado" dos parâmetros da distribuição, alteramos a forma da distribuição (dizemos que não é mais uma distribuição normal, é uma distribuição t). Mas o que exatamente é distribuído de acordo com a distribuição t? Quando conhecemos a população STD, sabemos como a média da amostra é distribuída em torno da média da população. Agora não conhecemos a população STD, mas isso não altera a distribuição da média da amostra em torno da média da população!
X_n
), falamos sobre "média padronizada". Podemos dizer que a distribuição da média padronizada é normal, com média zero e DST igual a 1. Não, definimos outra variável substituindo a população STD pela amostra STD e dizemos que essa nova variável é distribuída de acordo com a distribuição t. ESTÁ BEM. A última coisa que não entendo é por que não substituímos a média da população pela média da amostra. Se não conhecemos o sigma, provavelmente também não conhecemos o mu.