Escrevo esta pergunta com referência a um exemplo na p138-142 do seguinte documento: ftp://ftp.software.ibm.com/software/analytics/spss/documentation/amos/20.0/en/Manuals/IBM_SPSS_Amos_User_Guide.pdf .
Aqui estão figuras ilustrativas e uma tabela:
Entendo que a variável latente não possui métrica natural e que a definição de um fator de carregamento para 1 é feita para corrigir esse problema. No entanto, existem várias coisas que eu não entendo completamente:
Como a fixação de um fator de carga para 1 corrige esse problema de indeterminação de escala?
Por que corrigir para 1, em vez de algum outro número?
Entendo que, ao fixar um dos pesos de regressão de fator-> indicador como 1, fazemos todos os outros pesos de regressão para esse fator em relação a ele. Mas o que acontece se definirmos um carregamento de fator específico como 1, mas então as pontuações mais altas no fator preveem pontuações mais baixas na variável observada em questão? Depois de definir inicialmente o carregamento do fator como 1, podemos obter um peso de regressão não compreendido padronizado ou um peso de regressão padronizado negativo?
Nesse contexto, vi cargas fatoriais referidas como coeficientes de regressão e covariâncias. Ambas as definições estão totalmente corretas?
Por que precisamos fixar paragrap espacial e visperc e verbal tanto em 1? O que teria acontecido se apenas consertássemos um desses caminhos para 1?
Observando o coeficiente padronizado, como pode ser o coeficiente não padronizado para wordmean> frase> paragrap, mas observando os coeficientes padronizados paragrap> wordmean> sentença. Eu pensei que, ao fixar o paragrap como 1, inicialmente todas as outras variáveis carregadas no fator eram relativas a paragrap.
Também adicionarei uma pergunta que eu imagino ter uma resposta relacionada: por que fixar o coeficiente de regressão para os termos únicos (por exemplo, err_v-> visperc) como 1? O que significaria para err_v ter um coeficiente de 1 na previsão de visperc?
Eu gostaria muito de receber respostas, mesmo que elas não abordem todas as perguntas.
fonte
Respostas:
Por fim, observe que err_v é análogo ao termo de erro em um modelo de regressão, por exemplo, Fixamos o coeficiente em err_v (ou seja, no termo de erro) como 1 para que possamos estimar a variação do erro (ou seja, a variação de err_v).
fonte
Posso estar entendendo mal a frase "indeterminação de escala", mas acredito que ela esteja definida como uma para identificação. (Ou seja, o número de incógnitas nesse sistema de equações não deve exceder o número de equações.) Sem definir um dos links para um, há muitas incógnitas. Isso é o mesmo que indeterminação de escala?
Na maioria dos aplicativos SEM, você está trabalhando com matrizes de covariância, não com os dados brutos. Existe um algoritmo alternativo que usa os dados originais, chamado PLS (Partial Least Squares), que pode lançar alguma luz adicional sobre as coisas para você.
fonte
Pense na interpretação como se fosse apenas uma regressão simples. O coeficiente reflete a diferença de unidade na variável dependente associada a uma diferença de 1 unidade na variável independente. Assim, se uma mudança de 1 unidade no IV estiver associada a uma mudança de 1 unidade no DV, as unidades serão funcionalmente equivalentes. Você precisa de uma unidade para a variável latente porque deseja estimar sua variação, que não é sem unidade. O problema de identificação está relacionado, pois para um CFA simples com 1 variável latente e 3 indicadores, o modelo não é identificado, a menos que a restrição seja feita.
Você pode configurá-lo para qualquer número e a natureza geral dos resultados será a mesma (facilmente verificável, observando o ajuste do modelo, que será idêntico). É mais fácil interpretar o modelo se você o definir como 1.
Independentemente de como você corrige alguma das cargas fatoriais, é possível obter itens carregados positiva e negativamente para a mesma variável latente. Você pode testar isso multiplicando um de seus indicadores por -1 e estimando seu modelo novamente.
Eles são funcionalmente a mesma coisa se o coeficiente de regressão não for ajustado (ou seja, a variável dependente possui apenas 1 seta apontando para ele). Se for esse o caso, um pode ser calculado a partir do outro.
Tente! Cada variável latente precisa de uma escala, pelos motivos já mencionados.
Esse é um problema de escala e exatamente o motivo do uso de coeficientes padronizados. Eu posso fazer qualquer coeficiente de regressão arbitrariamente grande dividindo o DV por números cada vez maiores. Assim, uma alteração de 1 unidade no IV produzirá mudanças cada vez maiores nas unidades do DV. Ao normalizar e comparar igual para igual, evitamos esse problema.
Fixar o fator de erro ao carregar para 1 apenas facilita a interpretação. Faz com que a equação de regressão respectiva no SEM tome a forma familiar de Y = BX + e (ou Y = BX + 1 * e).
fonte
O Stata possui uma documentação muito boa sobre SEM aqui , consulte a seção "Identificação 2", tem respostas para todas as suas perguntas.
a ausência de escala ocorre porque sua variável latente não é observável. você pode encontrar respostas numéricas na pesquisa da felicidade, mas a felicidade em si não é medida diretamente. agora você precisa vincular as respostas de 1 a 10 à felicidade. para que você designe uma das perguntas como âncora e defina seu carregamento como 1.
não precisa ser 1, pode ter qualquer valor, mas 1 é conveniente.
espaciais e verbais não são observáveis; portanto, você precisa definir a escala para os dois, para ter âncoras para cada um.
fonte