A configuração é expressa convencionalmente na forma
y=Xβ+ε
para um vetor de respostas , uma matriz modelo e um vetor de parâmetros , sob as premissas de que os erros aleatórios não estão correlacionados com variâncias iguais e zero significa: isto é,nyn×kXkβε=(εi)σ2
E(ε)=0; Var(ε)=σ2In.
Nesse caso, a estimativa dos mínimos quadrados ordinários é
β^=(X′X)−X′y.
Seja uma matriz cujas linhas e fornecem os valores dos regressores para Rachel e Thomas, respectivamente. As respostas previstas estão no vetor . As respostas reais são e onde esses novos epsilons são variáveis aleatórias não correlacionadas com média zero, independentes do original e com variações comuns .Z2×kzRzT2Zβ^zRβ+εRzTβ+εTϵσ2
A diferença entre esses valores para Rachel menos Thomas, que chamarei de , é simplesmenteδ
δ=(zRβ+εR)−(zTβ+εT)=(1,−1)Zβ+εR−εT.
Ambos os lados são matrizes - isto é, números - e, evidentemente, são aleatórios em virtude da aparência de no lado direito. (O lado direito é a diferença estimada entre as respostas de Rachel e Thomas, mais o desvio entre as respostas reais e previstas de Rachel, menos o desvio entre as respostas reais e previstas de Thomas.) Podemos calcular seu termo de expectativa por termo:1×1yεRεT
E(δ)=E((1,−1)Zβ+εR−εT)=(1,−1)Zβ+0−0=z1β−z2β.
Isso é exatamente o que se poderia supor: a diferença esperada é a diferença nos valores previstos. Pode ser estimado substituindo os parâmetros por suas estimativas. Para indicar isso, vamos colocar um chapéu sobre o " ":E
E^(δ)=(1,−1)Zβ^=z1β^−z2β^.(1)
Esse é o aparece na pergunta.2.88−2.51
Podemos continuar a análise da diferença entre Rachel e Thomas, expressando os dois componentes da incerteza sobre essa distribuição: um é porque e são estimados a partir de dados aleatórios e o outro é a aparência desses desvios aleatórios e . βσεRεT
Var(Rachel−Thomas)=Var((1,−1)Zβ^+εR−εT)=(1,−1)ZVar(β^)Z′(1,−1)′+Var(εR)+Var(εT)=(1,−1)ZVar(β^)Z′(1,−1)′+2σ^2.(2)
As variações dos epsilons são estimadas por . Não conhecemos porque depende de . É rotineiro estimar essa variação substituindo por sua estimativa de mínimos quadrados , produzindo uma quantidade às vezes escrita .σ^2Var(β^)σσ2σ^2Varˆ(β^)
Estas estimativas podem ser convertidos em probabilidades apenas por fazer suposições mais específicos sobre as distribuições condicionais de sobre . yX De longe, o mais simples é assumir que é Normal multivariada, pois então (sendo uma transformação linear do vetor ) em si é Normal e, portanto, sua média e variância determinam completamente sua distribuição. Sua distribuição estimada é obtida colocando os chapéus em e .yδyEVar
Finalmente, reunimos todas as informações necessárias para uma solução. O procedimento OLS estima que a distribuição da resposta de Rachel menos a resposta de Thomas seja Normal com uma média igual à diferença nos valores previstos e com uma variação estimada por , que envolve a variação de erro estimada e a matriz de variância-covariância das estimativas do coeficiente, .(1)(2)σ^2Var(β^)
Este R
código realiza diretamente os cálculos exibidos nas fórmulas e :(1)(2)
fit <- lm(cgpa ~ hgpa + sat + ltrs, data=df) # model to predict College GPA
Z <- as.matrix(data.frame(intercept=1, hgpa=c(4,3), sat=c(1168,1168),ltrs=c(6,6)))
cont <- matrix(c(1,-1), 1, 2) # Rachel - Thomas "contrast".
beta.hat <- coef(fit) # Estimated coefficients for prediction
delta.hat <- cont %*% Z %*% beta.hat # Predicted mean difference
sigma.hat <- sigma(fit) # Estimated error SD
var.delta.hat <- cont %*% Z %*% vcov(fit) %*% t(Z) %*% t(cont) + 2 * sigma.hat^2
pnorm(0, -delta.hat, sqrt(var.delta.hat)) # Chance Rachel > Thomas
A saída para esses dados é : a OLS estima que há uma probabilidade de que o CGPA de Rachel exceda o de Thomas. (Neste caso, porque Rachel e Thomas são muito parecidos, o modelo se encaixa muito bem e a quantidade de dados é tão grande que é minúsculo em comparação para e, portanto, pode ser negligenciado. Isso nem sempre será o caso.)0.6767%Varˆ(δ^)2σ^2
Este é o mecanismo subjacente ao cálculo dos intervalos de previsão : podemos calcular intervalos de previsão para a diferença entre o CGPA de Rachel e Thomas usando essa distribuição.
pnorm
calcula a chance de uma variável ser menor que seu argumento, enquanto queremos a chance de ser maior . Tecnicamente, então, eu deveria ter invocadopnorm(0, delta.hat, sqrt(var.delta.hat), lower.tail=FALSE)
, mas explorei sua simetria para encurtar a afirmação. (2) Não está claro quais valores você propõe para seu ecdf. (3) Para distribuições de resposta não normais, você provavelmente precisaria de um modelo linear generalizado ou de alguma outra generalização.Seu problema pode parecer fácil, mas é surpreendentemente complicado.
A fim de avaliar a probabilidade de que CPGA de Rachel (chamemos-lhe ) é maior do que Tobias' ( ), sabendo que os seus , e -scores são, é o mesmo que escrever , onde são suas pontuações. Como podemos escrever , também podemos dizery1 y2 P(y2−y1>0|X) X yi=yi^+ϵi
hgpa
sat
ltrs
É aqui que você fica preso, porque não sabemos ao . O melhor que podemos fazer aqui é estimar calculando a variação de seus resíduos de regressão. Se sua amostra for grande o suficiente ( ), isso convergirá para .σ2y →∞ σ2y
Se você deseja ignorar o erro de estimativa em , pode implementá-lo em R:σ2y^
fonte