Estou enfrentando algumas dúvidas ao entender como os graus de liberdade são considerados nas distribuições.
Em particular, vamos nos referir à variável Student, ou seja,
Onde é uma variável gaussiana, é o valor médio, é o desvio padrão obtido dos dados.
A função densidade de probabilidade do aluno é
E no meu livro, encontro "porque em aparece o valor médio , calculado a partir dos dados, o que implica a perda de um grau de liberdade".
Pergunta: Não deveria ser ? Em eu tenho e então existem dois parâmetros determinados a partir dos dados.
Por outro lado, no segundo formulário que escrevi em , não aparece; portanto, talvez apenas deva ser considerado uma restrição aos dados. Mas isso não faz muito sentido.
Portanto, nesses casos em que o valor médio e o desvio padrão são determinados a partir dos dados, os graus de liberdade são perdidos 2 ou apenas 1?
Essa é uma dúvida mais geral: quando mais de um parâmetro é determinado a partir dos dados, mas de certa forma esses parâmetros estão relacionados (como é para e ), quantos graus de liberdade são perdidos se todos esses parâmetros forem considerados?
Digamos, por exemplo, que eu determine parâmetros do mesmo conjunto de dados. Todos os parâmetros podem ser expressos como funções de dados e . Agora considero todos os parâmetros juntos: quantos graus de liberdade eu perdi? ou apenas ?
Respostas:
A distribuição T é definida como a distribuição da razão de uma variável aleatória normal padrão e uma variável aleatória independente de escala de qui. Seu parâmetro de graus de liberdade é igual ao parâmetro de graus de liberdade da variável aleatória chi em seu denominador . Portanto, o parâmetro DF é uma questão de determinar os graus de liberdade do estimador de variância que você está usando.
Lembre-se: A distribuição T surge apenas quando você considera a razão de uma variável aleatória normal e um denominador que é algum tipo de estimador de desvio padrão (raiz quadrada de um estimador de variância). Isso pressupõe que já exista um estimador de variância na imagem. A perda de graus de liberdade ocorre então a partir da estimativa média (ou no contexto da regressão, a partir de múltiplas estimativas de coeficientes).
É possível formar quantidades semelhantes às mostradas e encontrar suas distribuições. Suponha que tenhamos e forme algum valor padronizado. Se assumirmos que é conhecido, mas é desconhecido, padronizaremos definindo a estatística T:X1,...,Xn∼IID N(μ,σ2) μ σ
onde é o estimador de variância da amostra com conhecido . A quantidade é uma variável aleatória com escala de chi com graus de liberdade, portanto a estatística tem uma distribuição T com graus de liberdade. Este é um caso de linha de base em que não houve perda de graus de liberdade, embora tenhamos estimado a variação.S2μ≡1n∑ni=1(Xi−μ)2 μ Sμ/σ n Tμ n
Agora, no caso em que também é desconhecido, substituiríamos a média conhecida no estimador de variância pela média da amostra que temos:μ μ x¯
onde é o estimador de variância da amostra com desconhecido . A quantidade é uma variável aleatória escalonada com graus de liberdade, portanto a estatística tem uma distribuição T com graus de liberdade. Perdemos um grau de liberdade devido à estimativa da média dentro do estimador de variância .S2≡1n−1∑ni=1(Xi−x¯)2 μ S/σ n−1 T n−1
Espero que isso ajude você a entender esse problema. O conceito de graus de liberdade, dentro do contexto de falar sobre a distribuição T, pressupõe que já exista algum estimador de variância sendo usado para a alunoização. Estimar o parâmetro médio (ou parâmetros do coeficiente em uma regressão) altera esse estimador de variação, tornando-o menos variável, e isso implica uma perda de graus de liberdade.
fonte
Vamos considerar um exemplo para entender os graus de liberdade:
Finja que temos 5 observações . Se eu lhe disser a média desse conjunto de dados ( ), mas não os valores das próprias observações, você poderá criar quatro valores sem alterar a média. Se você escolher como suas quatro primeiras observações, o último número a ser escolhido deverá ser se a média for fixada em . Se apenas nos importamos com a média, temos uma equação e uma desconhecida.(1,2,1,3,5) 2.4 (3,4,3,5) −3 2.4
Se você tiver observações com uma média fixa, terá a liberdade de escolher qualquer número que desejar, sem alterar a média - mas a observação é determinada. Observe, no entanto, que eu escolhi o valor de no parágrafo acima arbitrariamente, para poder escolher outra coisa. Portanto, tenho grau de liberdade dos dados e grau de liberdade porque escolhi a média; portanto, tenho graus de liberdade se estimar 1 parâmetro.n n−1 nth 2.4 n−1 1 n
Agora, digamos que eu lhe diga a média e o desvio padrão: para a mesma amostra de , a média é e o desvio padrão é . Agora eu posso escolher três dos cinco números, e os dois últimos serão determinados (duas equações, duas incógnitas). Os parâmetros são um pouco diferentes, no entanto, porque o desvio padrão da amostra é uma função da média da amostra - eles não são independentes um do outro. Isso significa que eu tenho graus de liberdade dos dados, mas ainda tenho apenas grau de liberdade dos parâmetros, para um total de graus de liberdade.(1,2,1,3,5) 2.4 1.673 n−2 1 n−1
Consulte esta pergunta do Stack Exchange para obter mais informações.
fonte