Estou um pouco confuso se uma variável independente (também chamada de preditor ou recurso) em um modelo estatístico, por exemplo, o na regressão linear , é uma variável aleatória?Y = β 0 + β 1 X
25
Estou um pouco confuso se uma variável independente (também chamada de preditor ou recurso) em um modelo estatístico, por exemplo, o na regressão linear , é uma variável aleatória?Y = β 0 + β 1 X
Respostas:
Existem duas formulações comuns de regressão linear. Para focar nos conceitos, vou abstraí-los um pouco. A descrição matemática é um pouco mais envolvida que a descrição em inglês, então vamos começar com a última:
Na maioria dos casos, o conjunto de possíveis distribuições é uma família de locais com os parâmetrosα e θ e β(X) fornece o parâmetro α . O exemplo arquetípico é a regressão ordinária em que o conjunto de distribuições é a família Normal N(μ,σ) e μ=β(X) é uma função linear dos regressores.
Como ainda não descrevi isso matematicamente, ainda é uma questão em aberto a que tipos de objetos matemáticosX , Y , β e θ referem - e acredito que esse é o principal problema neste segmento. Embora se possa fazer várias escolhas (equivalentes), a maioria será equivalente ou casos especiais da descrição a seguir.
Regressores fixos. Os regressores são representados como vetores reaisX∈Rp . A resposta é uma variável aleatória Y:Ω→R (onde Ω é dotado com um campo sigma e probabilidade). O modelo é uma função f:R×Θ→Md (ou, se desejar, um conjunto de funções R→Md parametrizado por Θ ). Md é uma subvariedade topológica dimensional finita (geralmente a segunda diferenciável) (ou subvariedade com limite) da dimensão d do espaço das distribuições de probabilidade. f é geralmente considerado contínuo (ou suficientemente diferenciável). Q ⊂ Rd- 1 são os "parâmetros de perturbação." Supõe-se que a distribuição de Y seja f( β( X) , θ ) para algum vetor duplo desconhecido β∈ Rp ∗ (os "coeficientes de regressão") e θ ∈ Θ desconhecidoθ ∈ Θ . Podemos escrever esse Y∼ f( β( X) , θ ) .
Regressores aleatórios. Os regressores e resposta são ump + 1 dimensional variável aleatória vector Z= ( X, Y) : Ω′→ Rp× R . O modelo f é o mesmo tipo de objeto de antes, mas agora fornece a probabilidade condicional Y| X∼ f( β( X) , θ ) .
A descrição matemática é inútil sem alguma receita indicando como se destina a ser aplicada aos dados. No caso do regressor fixo, concebemosX como sendo especificado pelo experimentador. Assim, pode ajudar a visualizar Ω como um produto Rp× Ω′ dotado de uma álgebra sigma de produto. O experimentador determina X e a natureza determina (alguns desconhecidos, abstratos) ω ∈ Ω′ . No caso do regressor aleatório, a natureza determina ω ∈ Ω′ , o componente X da variável aleatória πX( Z( Ω ) ) determinaX (que é "observado") e agora temos um par ordenado( X( ω ) , ω ) ) ∈ Ω exatamente como no caso do regressor fixo.
O exemplo arquetípico da regressão linear múltipla (que expressarei usando a notação padrão para os objetos em vez desta mais geral) é quef( β( X) , σ) = N( β( x ) , σ) para alguma constante σ∈ Θ = R+ . Como x varia ao longo Rp , a sua imagem segue differentiably um subconjunto unidimensional - uma curva --no o colector bidimensional de distribuições normais.
Quando - em qualquer forma whatsoever--β é estimado como β e σ como σ , o valor de β ( x ) é o valor previsto de Y associada com x --whether x é controlado pelo experimentador (caso 1 ) ou é apenas observado (caso 2). Se definirmos um valor (caso 1) ou observarmos uma realização (caso 2) x de X , a resposta Y associada a esse X é uma variável aleatória cuja distribuição é N (β^ σ σ^ β^( X ) Y x x x X Y X N( β( x ) , σ) , que é desconhecida, masestima-seN( β^( x ) , σ^) .
fonte
Primeiro de tudo, o @whuber deu uma excelente resposta. Vou dar uma visão diferente, talvez mais simples em algum sentido, também com referência a um texto.
MOTIVAÇÃO
pode ser aleatório ou fixo na formulação de regressão. Isso depende do seu problema. Para os chamados estudos observacionais, deve ser aleatório e, para experimentos, geralmente é fixo.X
Exemplo um. Estou estudando o impacto da exposição à radiação de elétrons na dureza de uma peça de metal. Então, colho algumas amostras da peça metálica e expô-las a níveis variáveis de radiação. Meu nível de exposição é X e é fixo , porque eu defini os níveis que escolhi. Eu controlo totalmente as condições do experimento, ou pelo menos tento. Eu posso fazer o mesmo com outros parâmetros, como temperatura e umidade.
Exemplo dois Você está estudando o impacto da economia na frequência de ocorrências de fraude nos aplicativos de cartão de crédito. Então, você regride o evento de fraude conta com o PIB. Você não controla o PIB, não pode definir o nível desejado. Além disso, você provavelmente deseja observar regressões multivariadas, para ter outras variáveis, como desemprego, e agora possui uma combinação de valores em X, que observa , mas não controla. Nesse caso, X é aleatório .
Exemplo 3 Você está estudando a eficácia do novo pesticida em campo, ou seja, não nas condições do laboratório, mas na fazenda experimental real. Nesse caso, você pode controlar algo, por exemplo, você pode controlar a quantidade de pesticida a colocar. No entanto, você não controla tudo, por exemplo, condições climáticas ou do solo. Ok, você pode controlar o solo até certo ponto, mas não completamente. Este é um caso intermediário, em que algumas condições são observadas e outras são controladas . Existe todo esse campo de estudo chamado design experimental que está realmente focado neste terceiro caso, em que a pesquisa agrícola é uma das maiores aplicações dela.
MATEMÁTICA
Aqui vai a parte matemática de uma resposta. Há um conjunto de suposições que geralmente são apresentadas quando se estuda regressão linear, denominada condições de Gauss-Markov. Eles são muito teóricos e ninguém se incomoda em provar que possui alguma configuração prática. No entanto, eles são muito úteis para entender as limitações do método dos mínimos quadrados ordinários (OLS).
Portanto, o conjunto de suposições é diferente para X aleatório e fixo, que correspondem aproximadamente a estudos observacionais vs. experimentais. Grosso modo, porque, como mostrei no terceiro exemplo, às vezes estamos realmente entre os extremos. Achei que a seção do teorema de "Gauss-Markov" na Enciclopédia de Design de Pesquisa de Salkind é um bom ponto de partida, está disponível no Google Livros.
As diferentes suposições do projeto fixo são as seguintes para o modelo de regressão usual :Y= Xβ+ ε
vs. as mesmas suposições no design aleatório:
Como você pode ver, a diferença está em condicionar as suposições na matriz de design para o design aleatório. O condicionamento faz essas suposições mais fortes. Por exemplo, não estamos apenas dizendo, como no design fixo, que os erros têm média zero; no design aleatório, também dizemos que eles não dependem de covariáveis X.
fonte
Nas estatísticas, uma variável aleatória é uma quantidade que varia aleatoriamente de alguma forma. Você pode encontrar uma boa discussão neste excelente tópico do CV: O que se entende por uma "variável aleatória"?
Em um modelo de regressão, as variáveis preditoras (variáveis X, variáveis explicativas, covariáveis etc.) são assumidas como fixas e conhecidas . Eles não são considerados aleatórios. Supõe-se que toda a aleatoriedade no modelo esteja no termo de erro. Considere um modelo de regressão linear simples, conforme formulado de maneira padronizada:
O termo de erro, ε , é uma variável aleatória e é a fonte da aleatoriedade no modelo. Como resultado do termo de erro, Y também é uma variável aleatória. Mas X não é considerado uma variável aleatória. (Obviamente, pode ser uma variável aleatóriana realidade, mas isso não é assumido ou refletido no modelo.)
fonte
Não tenho certeza se entendi a pergunta, mas se você está apenas perguntando "deve uma variável independente sempre ser uma variável aleatória", a resposta é não.
Uma variável independente é uma variável cuja hipótese é correlacionada com a variável dependente. Em seguida, você testa se esse é o caso através da modelagem (presumivelmente análise de regressão).
Existem muitas complicações e "ifs, buts e maybes" aqui, então eu sugiro que você obtenha uma cópia de um livro básico de econometria ou estatística que cubra a análise de regressão e leia-a completamente, ou então obtenha as notas da aula de uma estatística / econometria básica curso on-line, se possível.
fonte