Se é uma das várias variáveis ​​que somam , o entre e um valor útil?

8

Uma suposição para a análise de regressão é que e não estão entrelaçados. No entanto, quando penso nisso, parece-me que faz sentido.YXY

Aqui está um exemplo. Se tivermos um teste com 3 seções (AB e C). A pontuação geral do teste é igual à soma das pontuações individuais para as 3 seções. Agora faz sentido dizer que pode ser pontuado nas seções A e a pontuação geral do teste. Então a regressão linear pode responder a essa pergunta: qual é a variabilidade na pontuação geral do teste atribuível à seção A? Aqui, vários cenários são possíveis:YXY

  1. A seção A é a mais difícil das 3 seções e os alunos sempre obtêm a nota mais baixa. Nesse caso, intuitivamente seria baixo. Como a maior parte da pontuação geral do teste seria determinada por B e C.R2
  2. A seção A foi muito fácil para os alunos. Também neste caso a correlação não seria alta. Como os alunos sempre pontuam 100% desta seção e, portanto, esta seção não diz nada sobre a pontuação geral do teste.
  3. Seção A tem dificuldade intermediária. Nesse caso, a correlação seria mais forte (mas isso também depende das outras pontuações (B e C).

Outro exemplo é o seguinte: analisamos o conteúdo total de um oligoelemento na urina. E analisamos independentemente as espécies individuais (formas químicas) desse oligoelemento na urina. Pode haver muitas formas químicas. E se nossas análises estiverem corretas, a soma das formas químicas deve nos dar o mesmo que o conteúdo total de um elemento (analisado por uma técnica diferente). No entanto, faz sentido perguntar se uma forma química está correlacionada com o conteúdo total de elementos na urina, pois esse conteúdo total é um indicador da ingestão total de alimentos desse elemento. Então, se dissermos que é o elemento total na urina eYXY é a forma química A na urina, estudando a correlação, podemos explorar se essa forma química é a principal que contribui para a variabilidade geral ou não.

parece-me que às vezes faz sentido mesmo quando e não são independentes e que, em alguns casos, isso pode ajudar a responder perguntas científicas.YXY

Você acha que pode ser útil ou significativo nos exemplos acima? Se considerarmos o exemplo da pontuação do teste acima, eu já diria que haveria cerca de 33% de contribuição de cada seção se a dificuldade fosse exatamente a mesma para os alunos. Mas, na prática, isso não é necessariamente verdade. Então, eu estava pensando que talvez o uso da análise de regressão possa nos ajudar a conhecer a verdadeira variabilidade atribuída a cada seção de um exame. Parece-me, portanto, que seria significativo, mesmo sabendo que a hipótese nula não é verdadeira.R 2R2R2

Existem métodos alternativos de regressão modificados para explicar essas situações e fornecer parâmetros significativos?

Bassam
fonte
Não concordo com esta afirmação: "1 - a seção A é a mais difícil das 3 seções e os alunos sempre obtêm a nota mais baixa. Nesse caso, intuitivamente R ao quadrado seria baixo". Se a seção A é a mais difícil, haverá mais inconsistências de respostas que resultam em maior variabilidade como resultado, R ao quadrado, que mede a proporção de variabilidade explicada pela seção A seria maior.
StatsStudent
Obrigado por seu comentário. Meu pensamento era que a seção A é difícil na medida em que todos os alunos estão com uma pontuação muito baixa (e quase zero em uma escala de 0 a 100) nesta seção. Portanto, a variabilidade na pontuação desta seção não contribui significativamente para a pontuação geral do teste (por exemplo, não importa se é 15, 20 ou 10%). A pontuação geral do teste (e sua variabilidade) será determinada pelas outras pontuações mais variáveis ​​que desempenham a maior parte da pontuação geral.
Bassam
Por que você espera que e sejam independentes em uma análise de regressão? Um é o valor médio do outro (pelo menos se omitimos outros preditores). Além disso, não entendo sua primeira frase, que suposição é essa? Uma regressão deve envolver algum tipo de entrelaçamento. XYX
swmo

Respostas:

5

Você pode considerar uma abordagem fora da abordagem de regressão tradicional. Isso é comparável aos tipos de problemas que a psicometria é projetada para resolver (bem, na verdade, seu primeiro exemplo é precisamente isso, já que é um teste).

Na Teoria Clássica dos Testes , uma das métricas mais comuns é a correlação da pontuação total do item, que é essencialmente a correlação entre a pontuação do item e a pontuação total. Ele indica a discriminação do item - é a capacidade de discriminar entre os respondentes com pontuação alta e baixa. Isso é comparável a explicar a variação, como o que você está perguntando acima com . Há duas maneiras de calcular essa pontuação, usando a pontuação total do teste, incluindo o item de interesse, ou excluindo-o. Quando você tem muitos itens, esses dois métodos são quase os mesmos, mas quando você tem poucos itens, eles podem fazer uma grande diferença.R2

Outra abordagem da Teoria da resposta ao item (TRI) é estimar, através de um modelo de resposta ao item com 2 parâmetros ou através de uma análise fatorial confirmatória (que estatisticamente são os mesmos, mas na interpretação são diferentes). Um modelo de 2 parâmetros inclui um parâmetro para a dificuldade do item (a dificuldade relativa do item) e um para a discriminação do item, que é interpretado de maneira muito semelhante à correlação da pontuação total do item. Alta discriminação = o item diferencia bem entre pontuadores altos e baixos. Se você usa a análise fatorial confirmatória (CFA), possui carregamentos de itens, que são essencialmente seus parâmetros de discriminação. Eles informam quanto da pontuação total é determinada por um item específico.

O uso do IRT ou CFA pressupõe que você tenha uma pontuação latente, não observada, que você está tentando estimar. Nos exemplos apresentados acima, você se preocupa com uma pontuação observada, que não é latente. Portanto, esses modelos não seriam o que você procura, pois são probabilísticos e você meio que tem um relacionamento tautológico (seu total é, por definição, composto pelas partes, sem erro). Mas aponto-os como exemplos de maneiras pelas quais as estatísticas obtêm respostas semelhantes.

A última coisa que quero salientar, e provavelmente isso é algo que os outros argumentariam, mas embora suponha que os regressores sejam independentes, quando temos uma variável categórica e inserimos manequins no modelo, essas variáveis ​​fictícias são, por definição , correlacionado. Portanto, isso aparentemente violaria suposições de independência e traria multicolinearidade. Se você pensar desta maneira, faria sentido executar sua regressão dos elementos na urina, e excluir um, os coeficientes seriam válidos como se fosse uma única variável categórica. Nesse sentido, você está obtendo um número comparável à correlação total de itens da Teoria Clássica dos Testes que apontei acima.

robin.datadrivers
fonte
4

Uma maneira matemática rápida de olhar para ela é expandir as fórmulas. Vamos .Z=X+Y+W

R2=(Cov(X,Z)σXσZ)2=(Var(X)+Cov(X,Y)+Cov(X,W)σXσZ)2

Então, em poucas palavras, você obterá a variação de mais a relação com as outras duas variáveis, divididas por um fator de escala. O próprio fator de escala pode ser expandido, mas o numerador está contando a história. Em geral, as coisas que afetarão esse número são: a) a escala relativa de X em comparação com Y e W; b) a variação relativa de X; c) a "contribuição" de X para a variação de Y e W.X

Quanto a ser útil ou não, esse tipo de coisa depende do que você procura. Provavelmente é melhor pensar nisso como uma "porcentagem da variação total" ou algo parecido, mesmo que o mesmo para Y e W possa não somar 1 (ou talvez sim ... não tenho certeza).

Mike Nute
fonte
2

Se X é uma das várias variáveis ​​que somam para definir Y, então claramente as suposições da regressão linear são quebradas. Os valores de P não serão úteis. As inclinações e seus intervalos de confiança não podem ser interpretados da maneira usual. Mas ainda é útil? Suponho que seja como uma estatística descritiva. Se você tiver três valores de quantificando a correlação entre Y e cada um de seus três componentes, suponho que você aprenderia algo interessante ao ver os valores relativos de .R 2 R 2R2R2R2

Harvey Motulsky
fonte
Obrigado pelo seu comentário. Esse foi exatamente o meu sentimento. Que os valores de R2 e uma comparação entre eles podem nos fornecer informações úteis.
Bassam
0

Uma suposição para a análise de regressão é que e não estão entrelaçados.YXY

Isto está incorreto. Uma suposição para a análise de regressão é que os ERROS não são correlacionados. Veja a entrada da Wikipedia para o teorema de Gauss-Markov.

Se é uma das várias variáveis ​​que somam , o entre e um valor útil?Y R 2 X YXYR2XY

O único uso que posso pensar para o entre e é mostrar o desempenho do seu modelo quando você inclui outros preditores. Existem outros valores que seriam muito informativos. Os valores dos coeficientes estimados e seus erros padrão, em particular. X YR2XY

jimmylovestea
fonte