Por que definir pesos para 1 na análise fatorial confirmatória?

8

Escrevo esta pergunta com referência a um exemplo na p138-142 do seguinte documento: ftp://ftp.software.ibm.com/software/analytics/spss/documentation/amos/20.0/en/Manuals/IBM_SPSS_Amos_User_Guide.pdf .

Aqui estão figuras ilustrativas e uma tabela: Exemplo CFA

Entendo que a variável latente não possui métrica natural e que a definição de um fator de carregamento para 1 é feita para corrigir esse problema. No entanto, existem várias coisas que eu não entendo completamente:

Como a fixação de um fator de carga para 1 corrige esse problema de indeterminação de escala?
Por que corrigir para 1, em vez de algum outro número?
Entendo que, ao fixar um dos pesos de regressão de fator-> indicador como 1, fazemos todos os outros pesos de regressão para esse fator em relação a ele. Mas o que acontece se definirmos um carregamento de fator específico como 1, mas então as pontuações mais altas no fator preveem pontuações mais baixas na variável observada em questão? Depois de definir inicialmente o carregamento do fator como 1, podemos obter um peso de regressão não compreendido padronizado ou um peso de regressão padronizado negativo?
Nesse contexto, vi cargas fatoriais referidas como coeficientes de regressão e covariâncias. Ambas as definições estão totalmente corretas?
Por que precisamos fixar paragrap espacial e visperc e verbal tanto em 1? O que teria acontecido se apenas consertássemos um desses caminhos para 1?
Observando o coeficiente padronizado, como pode ser o coeficiente não padronizado para wordmean> frase> paragrap, mas observando os coeficientes padronizados paragrap> wordmean> sentença. Eu pensei que, ao fixar o paragrap como 1, inicialmente todas as outras variáveis carregadas no fator eram relativas a paragrap.

Também adicionarei uma pergunta que eu imagino ter uma resposta relacionada: por que fixar o coeficiente de regressão para os termos únicos (por exemplo, err_v-> visperc) como 1? O que significaria para err_v ter um coeficiente de 1 na previsão de visperc?

Eu gostaria muito de receber respostas, mesmo que elas não abordem todas as perguntas.

factor-analysis confirmatory-factor user1205901 - Restabelecer Monica
fonte

1

Aqui estão dois artigos interessantes sobre o ajuste de escala de variáveis latentes: Gonzalez & Griffin (2001): Testando parâmetros no SEM: Todo "um" importa ( www-personal.umich.edu/~gonzo/papers/sem.pdf ), Little, Slegers, & Card (2006): forma a não-arbitrária de identificação e dimensionamento de variáveis latentes em modelos sEM e MACS ( agencylab.ku.edu/~agencylab/manuscripts/... )

Patrick Coulombe

E se você definir mais de um peso para um? Os resultados são os mesmos?

Behacad

10

Porque permite que você use o relacionamento entre a variável latente e a variável observada para determinar a variação da variável latente. Por exemplo, considere a regressão de Y em X. Se tenho permissão para alterar a variação de X, digamos, multiplicando-a por uma constante, posso alterar arbitrariamente o coeficiente de regressão. Se, em vez disso, fixar o valor do coeficiente de regressão, isso determinará a variação de X.
Por convenção e para facilitar a comparação dos coeficientes entre si.
Nesse caso, a variável latente simplesmente se inverte. Por exemplo, suponha que nossa variável latente seja a habilidade matemática, nossa variável observada seja o número de erros em um teste e fixemos o coeficiente de regressão em 1. Então, a nossa variável latente se tornará "dificuldade com a matemática" em vez da habilidade com a matemática, e o os coeficientes para quaisquer outras variáveis observadas mudarão de acordo.
Se a variável observada e a variável latente forem padronizadas (ou seja, desvio padrão igual a 1), o coeficiente de regressão será igual à covariância.
É fixar espacial -> visperc como 1 que permite estimar a variação espacial (ver resposta a (1) acima). Da mesma forma, a fixação verbal -> paragrap permite estimar a variação do verbal. Um modelo com apenas uma dessas restrições não seria identificável.
Porque as diferenças entre os coeficientes não padronizados e padronizados dependem não apenas da variação do verbal, mas também da variação do parágrafo, da frase e da palavra. Por exemplo, o coeficiente padronizado para wordmean é igual ao coeficiente não padronizado multiplicado por ou . $\frac{SD_{verbal}}{SD_{wordmean}}$ $2.234 \times \frac{\sqrt{9.682}}{\sqrt{(2.234^2 \times 9.682) + 19.925}} = 0.841$

Por fim, observe que err_v é análogo ao termo de erro em um modelo de regressão, por exemplo, Fixamos o coeficiente em err_v (ou seja, no termo de erro) como 1 para que possamos estimar a variação do erro (ou seja, a variação de err_v).

v i s p e r c = β_{0} + β_{1} s p a t i a l + e r r_v

$visperc = \beta_0 + \beta_1 spatial + err\_v$

Phil Schumm
fonte

7

Posso estar entendendo mal a frase "indeterminação de escala", mas acredito que ela esteja definida como uma para identificação. (Ou seja, o número de incógnitas nesse sistema de equações não deve exceder o número de equações.) Sem definir um dos links para um, há muitas incógnitas. Isso é o mesmo que indeterminação de escala?
Na maioria dos aplicativos SEM, você está trabalhando com matrizes de covariância, não com os dados brutos. Existe um algoritmo alternativo que usa os dados originais, chamado PLS (Partial Least Squares), que pode lançar alguma luz adicional sobre as coisas para você.

Wayne
fonte

1. A maioria dos artigos costuma tratar a indeterminação de escala e identificabilidade como se fossem questões separadas. Um argumento a favor da distinção é que, se adicionarmos mais variáveis observadas, a proporção de conhecidos para desconhecidos aumenta, mas isso não evita a necessidade de um carregamento ser definido como 1. 2. Obrigado pela dica sobre PLS .

user1205901 - Restabelece Monica

4

Pense na interpretação como se fosse apenas uma regressão simples. O coeficiente reflete a diferença de unidade na variável dependente associada a uma diferença de 1 unidade na variável independente. Assim, se uma mudança de 1 unidade no IV estiver associada a uma mudança de 1 unidade no DV, as unidades serão funcionalmente equivalentes. Você precisa de uma unidade para a variável latente porque deseja estimar sua variação, que não é sem unidade. O problema de identificação está relacionado, pois para um CFA simples com 1 variável latente e 3 indicadores, o modelo não é identificado, a menos que a restrição seja feita.
Você pode configurá-lo para qualquer número e a natureza geral dos resultados será a mesma (facilmente verificável, observando o ajuste do modelo, que será idêntico). É mais fácil interpretar o modelo se você o definir como 1.
Independentemente de como você corrige alguma das cargas fatoriais, é possível obter itens carregados positiva e negativamente para a mesma variável latente. Você pode testar isso multiplicando um de seus indicadores por -1 e estimando seu modelo novamente.
Eles são funcionalmente a mesma coisa se o coeficiente de regressão não for ajustado (ou seja, a variável dependente possui apenas 1 seta apontando para ele). Se for esse o caso, um pode ser calculado a partir do outro.
Tente! Cada variável latente precisa de uma escala, pelos motivos já mencionados.
Esse é um problema de escala e exatamente o motivo do uso de coeficientes padronizados. Eu posso fazer qualquer coeficiente de regressão arbitrariamente grande dividindo o DV por números cada vez maiores. Assim, uma alteração de 1 unidade no IV produzirá mudanças cada vez maiores nas unidades do DV. Ao normalizar e comparar igual para igual, evitamos esse problema.
Fixar o fator de erro ao carregar para 1 apenas facilita a interpretação. Faz com que a equação de regressão respectiva no SEM tome a forma familiar de Y = BX + e (ou Y = BX + 1 * e).

DL Dahly
fonte

Estou confuso sobre o que você diz no item 5 sobre como fixar a covariância em 1. Certamente você quis dizer correlação e não covariância (a menos que ambas as variáveis tenham uma variação de 1), correto? Além disso, se você quis dizer definir a correlação como 1, parece que as duas variáveis teriam sido efetivamente reduzidas a uma única variável (e não apenas colocadas na mesma escala), uma vez que sempre teriam o mesmo valor

Patrick Coulombe

2

O Stata possui uma documentação muito boa sobre SEM aqui , consulte a seção "Identificação 2", tem respostas para todas as suas perguntas.

a ausência de escala ocorre porque sua variável latente não é observável. você pode encontrar respostas numéricas na pesquisa da felicidade, mas a felicidade em si não é medida diretamente. agora você precisa vincular as respostas de 1 a 10 à felicidade. para que você designe uma das perguntas como âncora e defina seu carregamento como 1.

não precisa ser 1, pode ter qualquer valor, mas 1 é conveniente.

espaciais e verbais não são observáveis; portanto, você precisa definir a escala para os dois, para ter âncoras para cada um.

Aksakal
fonte

Por que definir pesos para 1 na análise fatorial confirmatória?

Respostas: