Nomenclatura do lado esquerdo e do lado direito em modelos de regressão

9

y=β0+β1x1+ε0

A linguagem para descrever modelos de regressão, como a regressão linear muito simples especificada acima, costuma variar e essas variações geralmente carregam mudanças sutis nos significados. Por exemplo, a parte do modelo no lado esquerdo da equação pode ser denominada (entre outras que desconheço) com conotações e denotações entre parênteses:

  • Variável dependente (dicas de dependência causal)
  • Variável prevista (implica o modelo de previsões / faz previsões)
  • Variável de resposta (implica causalidade, ou pelo menos seqüenciamento temporal)
  • Variável de resultado (implica causalidade)

A variação na nomenclatura também é verdadeira no lado direito da equação (mesmo aviso de que eu sou um ignorante sobre outros termos):

  • Variável independente (implica prioridade causal, dicas para desenho experimental)
  • Variável preditora (implica previsões, implica que a variável tem uma estimativa de parâmetro diferente de zero associada a ela)

No curso de propor a verificação ou a comunicação de pesquisas, tive a oportunidade de não apenas ser chamado ao uso de um termo ou de outro, mas posteriormente ser chamado ao termo que escolhi substituí-lo. Enquanto as pessoas que ligavam eram, obviamente, pedantes (NB: eu sou um pedante profissional, por isso simpatizo), porque é claro que todos nós entendemos o que estava sendo comunicado , ainda me pergunto:

Existem termos comumente usados ​​para as variáveis ​​da mão esquerda e da mão direita em modelos de regressão que são agnósticos em relação a (a) usos externos do modelo, (b) relações causais entre as variáveis ​​e (c) aspectos do estudo projetos usados ​​para produzir as próprias variáveis?

NB: Estou não perguntando sobre as questões importantes de modelagem adequada e interpretação adequada (ou seja, eu me importo muito sobre a causalidade, desenho do estudo, etc.), mas estou mais interessado em uma linguagem para falar de tais modelos em geral.

(Percebo que "variáveis ​​da mão esquerda" e "variáveis ​​da mão direita" podem, suponho, ser interpretadas como uma resposta credível, mas esses termos parecem desajeitados ... talvez seja uma pergunta desajeitada. :)

Alexis
fonte
Não deve haver confusão sobre isso.
Carl
11
Eu acho que a resposta curta é não. Isto é por uma boa razão na minha opinião. Em casos formais, a linguagem usada para identificar variáveis ​​deve ser diferenciada o suficiente para implicar uma interpretação distinta em um modelo de aplicação / domínio (isto é, é muito importante saber se a causalidade está ou não implícita em um modelo de regressão e o uso adequado da nomenclatura ajudará com isso).
Zachary Blumenfeld
2
@ZacharyBlumenfeld (a) Não responda nos comentários. :) (b) E, no entanto, falamos sobre "regressão" em termos gerais, sem recorrer ao design de estudos, domínios de conhecimento disciplinar etc. (por exemplo, muitas pessoas falam e escrevem sobre o estimador de mínimos quadrados sem invocar o design de estudo, a causalidade etc.). Se temos uma linguagem independente de aplicação para descrever uma ampla classe de empreendimentos estatísticos, por que não existe uma linguagem igualmente agnóstica para os componentes desses empreendimentos?
Alexis18:
11
Não tenho certeza se isso vale a pena ser considerado uma resposta, por isso estou postando como comentário: Talvez exista alguma terminologia proveniente de projeções (como é uma projeção de no espaço )? Como projetores e projectand (estou inventando isso agora, pois não me lembro dos termos relevantes). Essa terminologia deve estar livre de suas (a), (b) e (c). X(XX)1XyyX
Richard Hardy
11
@ Kenji Eu concordo plenamente com a maior parte de sua perspectiva. No entanto, não concordo que se possa falar apenas sobre equações de regressão em um caso aplicado: devemos ter uma linguagem que possa falar sobre variáveis ​​esquerda e direita de todos os modelos de regressão, por exemplo, ao examinar a aplicação de tais métodos. em um nível meta em todas as disciplinas.
Alexis

Respostas:

6

Esta é uma excelente pergunta. Na verdade, é tão bom que não há resposta para isso. Que eu saiba, não há um termo "agnóstico" verdadeiro para descrever Y.

Na minha experiência e leituras, descobri que a semântica é específica do domínio e também específica do modelo.

Econometristas usarão os termos da variável Dependente ao construir um modelo que seja explicativo. Eles podem usar os termos Variável prevista, ajustada ou estimada ao criar um modelo de previsão mais focado na estimativa / previsão precisa do que no poder explicativo teórico.

A multidão de Big Data / Deep Learning usa um idioma completamente diferente. E eles geralmente usam os termos variável de resposta ou variável de destino. Seus modelos são caixas negras que normalmente não tentam explicar um fenômeno, mas sim prevê-lo e estimar com precisão. Mas, de alguma forma, eles não seriam pegos usando o termo Previsto. Eles preferem os termos Resposta ou Destino.

Estou menos familiarizado com o termo variável Resultado. Pode ser predominante em outras áreas às quais estou menos exposto, como ciências sociais, incluindo psicologia, medicina, ensaios clínicos, epidemiologia.

Em vista do exposto, não pude fornecer nenhuma semântica "agnóstica" para descrever Y. Em vez disso, forneço um pouco de informação sobre qual semântica usar ao atender a diferentes públicos e também refletir o objetivo do seu modelo. Em resumo, não acho que alguém se machuque se você falar sobre a variável dependente com econométricos e a variável resposta ou alvo nos tipos de aprendizado profundo Felizmente, você pode separar essas multidões, caso contrário, poderá ter uma briga verbal por comida na mão.

Sympa
fonte
Eu gostaria de poder lhe dar um voto extra para a "luta verbal por comida": D
Alexis