São normalmente distribuídos X e Y com maior probabilidade de resultar em resíduos normalmente distribuídos?

12

Aqui, a interpretação errônea da suposição de normalidade na regressão linear é discutida (que a 'normalidade' refere-se ao X e / ou Y ao invés dos resíduos), e o pôster pergunta se é possível ter X e Y distribuídos normalmente. e ainda tem resíduos normalmente distribuídos.

Minha pergunta é: normalmente são distribuídos X e Y com maior probabilidade de resultar em resíduos normalmente distribuídos? Houve muitos posts relacionados, mas não acredito que alguém tenha feito essa pergunta especificamente.

Sei que talvez esse seja um ponto trivial se houver apenas uma regressão a ser feita, mas menos se houver vários testes. Digamos que eu tenho 100 variáveis X, todas com a mesma inclinação e quero testá-las todas. Se eu os transformasse todos em uma distribuição normal, seria provável que eu tivesse menos variáveis X que precisassem reexaminar (com transformação diferente / nenhuma) devido a resíduos distribuídos normalmente, ou uma transformação pré-regressão seria totalmente arbitrária?

regression normal-distribution data-transformation residuals assumptions Scott
fonte

1

Para responder "mais provável", presumivelmente teríamos que postular algo sobre a distribuição conjunta, não apenas sobre as margens.

Glen_b -Reinstala Monica

15

$Y$ $X$ $Y$ $X$ $X$ $X + 10$ $X^{-1/5}$ $X/\pi$ $Y$ $X$ $X$ $Y$ $Y | X$ ) será o mesmo. Ou seja, será normal ou não, como antes. (Para entender melhor este tópico, pode ser útil ler minha resposta aqui: E se os resíduos forem normalmente distribuídos, mas Y não for? )

$X$ $X$ $Y$ $X$ $X$ $X$ $Y$

Para saber mais sobre como transformações não lineares podem alterar o modelo e as perguntas que o modelo responde (com ênfase na transformação de log), pode ajudá-lo a ler esses excelentes tópicos de CV:

$X$ $Y$ $\hat \beta_0$ $0$ $X$ $\hat \beta_{1{\rm\ (m)}} = 100 \times \hat \beta_{1{\rm\ (cm)}}$ $Y$ aumentará 100 vezes mais de 1 metro e mais de 1 cm).

$Y$ $Y$ $Y$ $\lambda$ $Y$ $X$

$X$ $Y$

$Y$ $X$ R

set.seed(9959)              # this makes the example exactly reproducible
x = rnorm(100)              # x is drawn from a normal population
y = 7 + 0.6*x + runif(100)  # the residuals are drawn from a uniform population

mod = lm(y~x)
summary(mod)
# Call:
# lm(formula = y ~ x)
# 
# Residuals:
#     Min      1Q  Median      3Q     Max 
# -0.4908 -0.2250 -0.0292  0.2539  0.5303 
# 
# Coefficients:
#             Estimate Std. Error t value Pr(>|t|)    
# (Intercept)  7.48327    0.02980   251.1   <2e-16 ***
# x            0.62081    0.02971    20.9   <2e-16 ***
# ---
# Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
# 
# Residual standard error: 0.2974 on 98 degrees of freedom
# Multiple R-squared:  0.8167,  Adjusted R-squared:  0.8148 
# F-statistic: 436.7 on 1 and 98 DF,  p-value: < 2.2e-16

insira a descrição da imagem aqui

Nas parcelas, vemos que ambos os marginais parecem razoavelmente normais, e a distribuição conjunta parece razoavelmente bivariada. No entanto, a uniformidade dos resíduos aparece em seu gráfico qq; as duas caudas caem muito rapidamente em relação a uma distribuição normal (como de fato devem).

Repor a Monica
fonte

0

A resposta curta está na clássica Teoria da Regressão Simples, X é fixo e assumido conhecido (veja, por exemplo, http://www.theanalysisfactor.com/the-distribution-of-independent-variables-in-regression-models-2/ ), mesmo sem nenhum erro de medição, seu beta de mínimos quadrados pode ser tendencioso e até inconsistente (consulte https://www.google.com/url?sa=t&source=web&rct=j&ei=Bd3sU4_kHfPjsATAm4LADA&url=https://files.nyu .edu / mrg217 / public / measure_handouts.pdf & cd = 2 & ved = 0CCMQFjAB & usg = AFQjCNF_pZvocW1SzInQPYpQTifUsQ36kQ & sig2 = 4lAnOQO23FiZbZ7323jOzA ).

No que diz respeito a transformar X em uma variável, a Wikipedia, sobre o teorema de Gauss-Markov, afirma muito brevemente, para citar:

"Na maioria dos tratamentos de OLS, os dados X são considerados fixos. Essa suposição é considerada inadequada para uma ciência predominantemente não experimental como a econometria. [2] Em vez disso, as suposições do teorema de Gauss-Markov são declaradas condicionais em X "

que eu li como uma grande transformação desagradável da ciência para a arte, ou arte / ciência.

AJKOER
fonte

São normalmente distribuídos X e Y com maior probabilidade de resultar em resíduos normalmente distribuídos?

Respostas: