Variável independente = Variável aleatória?

25

Estou um pouco confuso se uma variável independente (também chamada de preditor ou recurso) em um modelo estatístico, por exemplo, o na regressão linear , é uma variável aleatória?Y = β 0 + β 1 XXY=β0 0+β1X

l7ll7
fonte
12
O modelo linear é condicional em X , portanto, se é aleatório ou não, não deve importar.
Xi'an
4
Verifique isso . Boa pergunta, BTW.
Antoni Parellada
@ Xi'an, no design fixo, as suposições do modelo linear não estão condicionadas ao X , veja minha resposta. Então, isso importa muito. Essa é a razão pela qual as experiências são muito mais fáceis de interpretar do que resultados de estudos observacionais
Aksakal

Respostas:

19

Existem duas formulações comuns de regressão linear. Para focar nos conceitos, vou abstraí-los um pouco. A descrição matemática é um pouco mais envolvida que a descrição em inglês, então vamos começar com a última:

A regressão linear é um modelo no qual uma resposta Y é assumida como aleatória com uma distribuição determinada pelos regressores X através de um mapa linear β(X) e, possivelmente, por outros parâmetros θ .

Na maioria dos casos, o conjunto de possíveis distribuições é uma família de locais com os parâmetros α e θ e β(X) fornece o parâmetro α . O exemplo arquetípico é a regressão ordinária em que o conjunto de distribuições é a família Normal N(μ,σ) e μ=β(X) é uma função linear dos regressores.

Como ainda não descrevi isso matematicamente, ainda é uma questão em aberto a que tipos de objetos matemáticos X , Y , β e θ referem - e acredito que esse é o principal problema neste segmento. Embora se possa fazer várias escolhas (equivalentes), a maioria será equivalente ou casos especiais da descrição a seguir.


  1. Regressores fixos. Os regressores são representados como vetores reais XRp . A resposta é uma variável aleatória Y:ΩR (onde Ω é dotado com um campo sigma e probabilidade). O modelo é uma função f:R×ΘMd (ou, se desejar, um conjunto de funções RMd parametrizado por Θ ). Mdé uma subvariedade topológica dimensional finita (geralmente a segunda diferenciável) (ou subvariedade com limite) da dimensão d do espaço das distribuições de probabilidade. f é geralmente considerado contínuo (ou suficientemente diferenciável). ΘRd-1 são os "parâmetros de perturbação." Supõe-se que a distribuição de Y seja f(β(X),θ) para algum vetor duplo desconhecido βRp (os "coeficientes de regressão") e θ Θ desconhecidoθΘ. Podemos escrever esse

    Yf(β(X),θ).

  2. Regressores aleatórios. Os regressores e resposta são um p+1 dimensional variável aleatória vector Z=(X,Y):ΩRp×R . O modelo f é o mesmo tipo de objeto de antes, mas agora fornece a probabilidade condicional

    Y|Xf(β(X),θ).

A descrição matemática é inútil sem alguma receita indicando como se destina a ser aplicada aos dados. No caso do regressor fixo, concebemos X como sendo especificado pelo experimentador. Assim, pode ajudar a visualizar Ω como um produto Rp×Ω dotado de uma álgebra sigma de produto. O experimentador determina X e a natureza determina (alguns desconhecidos, abstratos) ωΩ . No caso do regressor aleatório, a natureza determina ωΩ , o componente X da variável aleatória πX(Z(ω)) determinaX (que é "observado") e agora temos um par ordenado(X(ω),ω))Ω exatamente como no caso do regressor fixo.


O exemplo arquetípico da regressão linear múltipla (que expressarei usando a notação padrão para os objetos em vez desta mais geral) é que

f(β(X),σ)=N(β(x),σ)
para alguma constante σΘ=R+ . Como x varia ao longo Rp , a sua imagem segue differentiably um subconjunto unidimensional - uma curva --no o colector bidimensional de distribuições normais.

Quando - em qualquer forma whatsoever-- β é estimado como β e σ como σ , o valor de β ( x ) é o valor previsto de Y associada com x --whether x é controlado pelo experimentador (caso 1 ) ou é apenas observado (caso 2). Se definirmos um valor (caso 1) ou observarmos uma realização (caso 2) x de X , a resposta Y associada a esse X é uma variável aleatória cuja distribuição é N (β^σσ^β^(x)YxxxX YXN(β(x),σ) , que é desconhecida, masestima-seN(β^(x),σ^) .

whuber
fonte
Permitam-me apenas mencionar que esta é uma resposta fantástica (mas provavelmente não para todos).
L7ll7
2
PS: Você conhece algum livro em que essas questões fundamentais são explicadas exatamente como você fez aqui? Como matemático, todos os livros que encontrei refletiam as outras respostas aqui, que são muito menos precisas do ponto de vista matemático. (Isso não os torna ruim, é claro, é apenas que esses livros não são para mim - Eu adoraria um livro que é mais preciso, como esta resposta.)
l7ll7
No primeiro período do último parágrafo, não é β ( x ) o valor previsto para y (uma realização da variável aleatória Y ), não o valor previsto para x ? Ou entendi mal o seu idioma e "valor previsto para x " significa "valor previsto quando x é o valor definido (observado) de X ?" β^(x)yYxxxX
Chad
1
@ Chad Obrigado por apontar a linguagem ambígua. Eu editei essa frase para esclarecer o significado, que é consistente com a sua compreensão.
whuber
7

Primeiro de tudo, o @whuber deu uma excelente resposta. Vou dar uma visão diferente, talvez mais simples em algum sentido, também com referência a um texto.

MOTIVAÇÃO

pode ser aleatório ou fixo na formulação de regressão. Isso depende do seu problema. Para os chamados estudos observacionais, deve ser aleatório e, para experimentos, geralmente é fixo.X

Exemplo um. Estou estudando o impacto da exposição à radiação de elétrons na dureza de uma peça de metal. Então, colho algumas amostras da peça metálica e expô-las a níveis variáveis ​​de radiação. Meu nível de exposição é X e é fixo , porque eu defini os níveis que escolhi. Eu controlo totalmente as condições do experimento, ou pelo menos tento. Eu posso fazer o mesmo com outros parâmetros, como temperatura e umidade.

Exemplo dois Você está estudando o impacto da economia na frequência de ocorrências de fraude nos aplicativos de cartão de crédito. Então, você regride o evento de fraude conta com o PIB. Você não controla o PIB, não pode definir o nível desejado. Além disso, você provavelmente deseja observar regressões multivariadas, para ter outras variáveis, como desemprego, e agora possui uma combinação de valores em X, que observa , mas não controla. Nesse caso, X é aleatório .

Exemplo 3 Você está estudando a eficácia do novo pesticida em campo, ou seja, não nas condições do laboratório, mas na fazenda experimental real. Nesse caso, você pode controlar algo, por exemplo, você pode controlar a quantidade de pesticida a colocar. No entanto, você não controla tudo, por exemplo, condições climáticas ou do solo. Ok, você pode controlar o solo até certo ponto, mas não completamente. Este é um caso intermediário, em que algumas condições são observadas e outras são controladas . Existe todo esse campo de estudo chamado design experimental que está realmente focado neste terceiro caso, em que a pesquisa agrícola é uma das maiores aplicações dela.

MATEMÁTICA

Aqui vai a parte matemática de uma resposta. Há um conjunto de suposições que geralmente são apresentadas quando se estuda regressão linear, denominada condições de Gauss-Markov. Eles são muito teóricos e ninguém se incomoda em provar que possui alguma configuração prática. No entanto, eles são muito úteis para entender as limitações do método dos mínimos quadrados ordinários (OLS).

Portanto, o conjunto de suposições é diferente para X aleatório e fixo, que correspondem aproximadamente a estudos observacionais vs. experimentais. Grosso modo, porque, como mostrei no terceiro exemplo, às vezes estamos realmente entre os extremos. Achei que a seção do teorema de "Gauss-Markov" na Enciclopédia de Design de Pesquisa de Salkind é um bom ponto de partida, está disponível no Google Livros.

As diferentes suposições do projeto fixo são as seguintes para o modelo de regressão usual :Y=Xβ+ε

  • E[ε]=0 0
  • Homocedasticidade, E[ε2]=σ2
  • Sem correlação serial, E[εEu,εj]=0 0

vs. as mesmas suposições no design aleatório:

  • E[ε|X]=0 0
  • Homoscedasticidade, E[ε2|X]=σ2
  • Sem correlação serial, E[εEu,εj|X]=0 0

Como você pode ver, a diferença está em condicionar as suposições na matriz de design para o design aleatório. O condicionamento faz essas suposições mais fortes. Por exemplo, não estamos apenas dizendo, como no design fixo, que os erros têm média zero; no design aleatório, também dizemos que eles não dependem de covariáveis ​​X.

Aksakal
fonte
2

Nas estatísticas, uma variável aleatória é uma quantidade que varia aleatoriamente de alguma forma. Você pode encontrar uma boa discussão neste excelente tópico do CV: O que se entende por uma "variável aleatória"?

Em um modelo de regressão, as variáveis ​​preditoras (variáveis ​​X, variáveis ​​explicativas, covariáveis ​​etc.) são assumidas como fixas e conhecidas . Eles não são considerados aleatórios. Supõe-se que toda a aleatoriedade no modelo esteja no termo de erro. Considere um modelo de regressão linear simples, conforme formulado de maneira padronizada:
O termo de erro, ε , é uma variável aleatória e é a fonte da aleatoriedade no modelo. Como resultado do termo de erro, Y também é uma variável aleatória. Mas X não é considerado uma variável aleatória. (Obviamente, pode ser uma variável aleatóriana realidade, mas isso não é assumido ou refletido no modelo.)

Y=β0 0+β1X+εOnde εN(0 0,σ2)
εYX
- Reinstate Monica
fonte
Então você quer dizer que é uma constante? Porque essa é a única outra maneira de entender o significado de X do ponto de vista matemático, já que ε é uma variável aleatória e a adição é definida apenas entre duas variáveis ​​aleatórias e não "outra coisa" + variável aleatória. Embora uma das duas variáveis ​​aleatórias possa ser constante, é o caso ao qual estou me referindo. XXε
l7ll7
PS: Olhei para todas as explicações do referido link e nenhuma muito esclarecedora: Por quê? Porque ninguém faz a conexão entre variáveis ​​aleatórias, como os probabilistas a entendem versus como os estatísticos a entendem. Assim, algumas respostas reafirmam a definição padrão da teoria da probabilidade precisa, enquanto outras reafirmam a definição estatística vaga (ainda que não esteja clara para mim). Mas ninguém realmente explica a conexão entre esses dois conceitos (a única exceção é a resposta longa do modelo ticket-in-a-box, que pode mostrar alguma promessa, mas mesmo assim [...]
l7ll7 15/11/16
a diferença não foi especificada com clareza suficiente para ser surpreendentemente esclarecedora; Vou ter que meditar sobre esta resposta específica para ver se há qualquer valor a ele)
l7ll7
@ user10324, se quiser, você pode pensar em como um conjunto de constantes. Você também pode pensar nisso como uma variável não aleatória. X
gung - Restabelece Monica
Não, o modo de pensar variável não aleatório não funciona, por duas razões: uma, como argumentei nos comentários acima, não existe uma "variável" em matemática e duas, mesmo que fosse , a adição nesse caso não está definida, como argumentei nos comentários acima.
l7ll7
1

Não tenho certeza se entendi a pergunta, mas se você está apenas perguntando "deve uma variável independente sempre ser uma variável aleatória", a resposta é não.

Uma variável independente é uma variável cuja hipótese é correlacionada com a variável dependente. Em seguida, você testa se esse é o caso através da modelagem (presumivelmente análise de regressão).

Existem muitas complicações e "ifs, buts e maybes" aqui, então eu sugiro que você obtenha uma cópia de um livro básico de econometria ou estatística que cubra a análise de regressão e leia-a completamente, ou então obtenha as notas da aula de uma estatística / econometria básica curso on-line, se possível.

Analista de estatísticas
fonte
XXYXYX
xxxxX
Parece que você tem uma compreensão muito maior da matemática do que eu. Estou apenas dando a você a resposta padrão em economia / estatística da universidade. Eu me pergunto se talvez você esteja pensando demais, pelo menos da perspectiva da análise prática. Com relação à citação desse livro, minha interpretação disso é que o xey específico a que ele está se referindo é aleatório - mas isso não significa que qualquer x ou y seja aleatório.
Statsanalyst
por exemplo, a variável dependente em um modelo para tendências de votação na política do Reino Unido pode ser o número de votos recebidos pelo candidato conservador em cada círculo eleitoral (Equitação para canadenses, Distrito para americanos) e a variável independente pode ser o preço médio da habitação (uma proxy para riqueza / renda no Reino Unido). Nenhuma delas é uma variável "aleatória", como eu a entendo, mas isso seria perfeitamente razoável de modelar.
Statsanalyst
Ok, é bom saber que tipo de respostas eu posso esperar / é o padrão nos departamentos de econometria / estatística e aprecio muito esse feedback (eu votaria novamente, mas não posso, pois já o fiz). O problema com a matemática é "uma vez que você fica preto, nunca mais volta": o treinamento de um ano em precisão matemática induzirá um sentimento de desconforto se algo não estiver claro até que se obtenha esclarecimentos [...]
l7ll7