Na análise de regressão, por que chamamos variáveis ​​independentes de "independentes"?

30

Quero dizer, algumas dessas variáveis ​​estão fortemente correlacionadas entre si. Como / por que / em que contexto os definimos como variáveis independentes ?

Amarpreet Singh
fonte
1
Isso é histórico e vem de trabalhos científicos franceses. Estou tentando encontrar a referência.
Alecos Papadopoulos
1
Eu chamaria um conjunto de variáveis ​​de "potencialmente co-dependente" para evitar inferir a causalidade.
Qd
1
Uma boa pergunta!
Rafael Marazuela

Respostas:

29

Se nos afastarmos da ênfase atual no aprendizado de máquina e relembrarmos quanto da análise estatística foi desenvolvida para estudos experimentais controlados, a frase "variáveis ​​independentes" faz muito sentido.

Em estudos experimentais controlados, as escolhas de um medicamento e suas concentrações, ou as escolhas de um fertilizante e suas quantidades por hectare, são feitas de forma independente pelo investigador. O interesse está em como uma variável de resposta de interesse (por exemplo, pressão arterial, rendimento da colheita) depende dessas manipulações experimentais. Idealmente, as características das variáveis ​​independentes são rigorosamente especificadas, essencialmente sem erros no conhecimento de seus valores. Então a regressão linear padrão, por exemplo, modela as diferenças entre os valores das variáveis ​​dependentes em termos dos valores das variáveis ​​independentes mais os erros residuais.

O mesmo formalismo matemático usado para a regressão no contexto de estudos experimentais controlados também pode ser aplicado à análise de conjuntos de dados observados com pouca ou nenhuma manipulação experimental; portanto, talvez não seja surpreendente que a frase "variáveis ​​independentes" tenha transitado para esses tipos de estudos. Mas, como outros usuários desta página observam, essa é provavelmente uma escolha infeliz, com "preditores" ou "recursos" mais apropriados em tais contextos.

EdM
fonte
2
Mas a escolha dos níveis da droga depende do que o investigador faz e é por isso que nunca consigo me lembrar qual é qual.
Mdewey 18/07
No aprendizado de máquina, "recursos" são frequentemente variáveis ​​latentes e não observadas. "Recursos observados" é mais comum.
21418 Neil G
18

De várias maneiras, "variável independente" é uma escolha infeliz. Estas variáveis não precisam ser independentes uns dos outros, e, claro, não precisa de ser independente da variável dependente . No ensino e no meu livro Regression Modeling Strategies , uso a palavra preditor . Em algumas situações, essa palavra não é forte o suficiente, mas funciona bem em média. Uma descrição completa do papel das variáveis (lado direito) em um modelo estatístico pode ser muito longa para ser usada a cada vez: o conjunto de variáveis ​​ou medidas sobre as quais a distribuição de é condicionada. Essa é outra maneira de dizer o conjunto de variáveis ​​cujas distribuições não estamos interessadas atualmente, mas cujos valores tratamos como constantes.X YYXY

Frank Harrell
fonte
Então, tudo o que você está dizendo é que chamar variáveis ​​de entrada como "independentes" é uma prática errada? @Frank
Amarpreet Singh
11
Definitivamente, eles não são considerados independentes de QUALQUER COISA, por isso é uma prática errada, usada apenas por causa do hábito.
18718 Frank Harrell
1
"o conjunto de variáveis ​​ou medidas sobre as quais a distribuição de Y é condicionada" ... na verdade, penso nelas como (e às vezes as chama) as "variáveis ​​condicionantes" ou "variáveis ​​condicionadas", o que não é muito longo. Descrição e funciona naturalmente com a notaçãoE(Y|X)
Silverfish
11

Concordo com as outras respostas aqui de que "independente" e "dependente" são uma terminologia ruim. Como EdM explica, essa terminologia surgiu no contexto de experimentos controlados, nos quais o pesquisador poderia definir os regressores independentemente um do outro. Existem muitos termos preferíveis que não têm essa conotação causal carregada e, na minha experiência, os estatísticos tendem a preferir os termos mais neutros. Existem muitos outros termos usados ​​aqui, incluindo os seguintes:

Yixi,1,...,xi,mResponsePredictorsRegressandRegressorsOutput variableInput variablesPredicted variableExplanatory variables

Pessoalmente, uso os termos variáveis ​​explicativas e variável de resposta, pois esses termos não têm conotação de independência ou controle estatístico etc. (Alguém pode argumentar que 'resposta' tem uma conotação causal, mas essa é uma conotação bastante fraca, então eu não o consideraram problemático.)

Restabelecer Monica
fonte
1
(+1) Suponho que regressor / regressão são os termos mais neutros, mas também prefiro explicar usando explicação / resposta.
19418 Frans Rodenburg
2
Eu concordo com a tendência de preferir termos neutros, mas "explicativo" me parece bastante causal como em: "As variáveis ​​X explicam por que a variável Y age da maneira que age".
timwiz
1
Entendo que isso significa explicativo em um sentido probabilístico - isto é, explica mudanças na distribuição da variável resposta. Você pode estar certo, mas em todos esses casos a conotação para qualquer causalidade é fraca.
Restabeleça Monica
2
Explicativo implica causal, então é inadequado.
31818 Frank Harrell
1
@Frank: Eu não necessariamente concordo com essa visão. Explicativo é derivado da palavra "explicar", então suponho que apenas as variáveis ​​explicam a variável resposta de alguma forma. Essa explicação pode ser causal ou meramente estatística, e considero que é a última. No entanto, parece que as pessoas estão interpretando as conotações dessas palavras de maneira diferente, então vou admitir que alguns as lerão como tendo conotações causais.
Reinstale Monica
9

Para adicionar às respostas de Frank Harrell e Peter Flom:

Concordo que chamar uma variável de "independente" ou "dependente" é muitas vezes enganosa. Mas algumas pessoas ainda fazem isso. Uma vez ouvi uma resposta do porquê:

Na análise de regressão temos uma variável "especial" (geralmente denotado por ) e muitas variáveis "não tão especiais" ( 's) e que queremos ver como as mudanças em ' s afetam . Em outras palavras, queremos ver como depende de 's.X X Y Y XYXXYY X

É por isso que é chamado de "dependente". E se um é chamado de "dependente", como você chamaria outro?Y

Łukasz Deryło
fonte
Você está dizendo que Y depende de X (então Y é chamado de variável dependente) e com isso quer dizer que X não depende de Y. Mas pode haver casos em que X pode depender de Y ou se correlacionar com Y (para que possa não será mais chamado de "independente"). Alguma opinião sobre isso?
Amarpreet Singh
Não, não quero dizer que X não dependa de Y. Apenas quero dizer que a explicação mais básica do que a análise de regressão faz é que ela descreve como Y depende de X. Portanto, o nome mais básico de Y seria "dependente "
Łukasz Deryło
6
Não estou tentando responder à pergunta "devemos chamar o X de independente?" mas sim "por que a chamamos de independente?", assim como no título da sua postagem
Łukasz Deryło
5

"Dependente" e "independente" podem ser termos confusos. Um sentido é pseudo-causal ou mesmo causal e é esse o que se entende quando se diz "variável independente" e "variável dependente". Queremos dizer que o DV, em certo sentido, depende do IV. Assim, por exemplo, ao modelar a relação entre altura e peso em humanos adultos, dizemos que o peso é o VD e a altura é o IV.

Isso captura algo que o "preditor" não - a direção do relacionamento. A altura prevê peso, mas o peso também prevê altura. Ou seja, se lhe dissessem para adivinhar a altura das pessoas e seus pesos, isso seria útil.

Mas não diríamos que a altura depende do peso.

Peter Flom - Restabelece Monica
fonte
Você está sendo específico sobre o modelo SEM?
Amarpreet Singh
Não. Eu estava pensando em regressão.
Peter Flom - Restabelece Monica
Ok, então é apenas uma questão de nome. Fiquei confuso que chamar variáveis ​​de entrada como "independentes" significa alguma coisa.
Amarpreet Singh
12
DV e IV são abreviações comuns (que pessoalmente não gosto), mas atente para muitos economistas e alguns outros cientistas sociais para os quais IV só pode significar variável instrumental. É menos comum encontrar pessoas para quem DV só pode significar Deo volente (se Deus quiser).
Nick Cox
0

Com base nas respostas acima, sim, concordo que essa variável dependente e independente é uma terminologia fraca. Mas posso explicar o contexto em que está sendo usado por muitos de nós. Você diz que, para um problema de regressão geral, temos uma variável Output, digamos Y, cujo valor depende de outras variáveis ​​de entrada, digamos x1, x2, x3. É por isso que é chamado de "variável dependente". Da mesma forma, dependendo apenas desse contexto , e apenas para diferenciar entre as variáveis ​​de saída e entrada, x1, x2, x3 são denominados como variáveis ​​independentes. Porque, diferentemente de Y, não depende de nenhuma outra variável (mas sim, aqui não estamos falando de dependência entre si).

Pooja Sonkar
fonte
Você respondeu semelhante ao de @Ramya R.
Amarpreet Singh
-2

Variáveis ​​independentes são chamadas independentes porque não dependem de outras variáveis. Por exemplo, considere o problema de previsão de preço da habitação. Suponha que tenhamos dados sobre o tamanho da casa, a localização e o preço da casa. Aqui, house_price é determinado com base no tamanho da casa e localização, mas a localização e o tamanho da casa podem variar para diferentes casas.

Ramya R
fonte
4
Às vezes, as chamadas variáveis ​​"independentes" na regressão são correlacionadas. Portanto, eles não são necessariamente independentes estatisticamente. Seria melhor chamá-los de variáveis ​​preditoras.
Michael R. Chernick 19/07/19
Micheal, Obrigado por apontar isso. Eu tenho uma questão de acompanhamento. Nos casos em que temos duas variáveis ​​preditoras que são colineares, não descartamos uma delas para eliminar o problema da multicolinearidade, de modo que nossas variáveis ​​preditoras sejam independentes uma da outra?
Ramay R
1
Não necessariamente. Depende se isso afeta ou não a estabilidade das estimativas e quão forte é a previsão quando as duas variáveis ​​são incluídas. Se duas variáveis ​​têm correlação 0,1, elas não são independentes, mas a relação entre elas é fraca.
Michael R. Chernick