Eu estaria interessado em receber sugestões sobre quando usar " pontuações fatoriais " sobre a soma simples de pontuações ao construir escalas. Ou seja, métodos "refinados" sobre "não refinados" de pontuação de um fator. De DiStefano et al. (2009; pdf ), ênfase adicionada:
Existem duas classes principais de métodos de cálculo de pontuação fatorial: refinada e não refinada. Métodos não refinados são procedimentos cumulativos relativamente simples para fornecer informações sobre a colocação de indivíduos na distribuição de fatores. A simplicidade se presta a alguns recursos atraentes, ou seja, métodos não refinados são fáceis de calcular e fáceis de interpretar. Métodos de computação refinados criam pontuações fatoriais usando abordagens mais sofisticadas e técnicas. Eles são mais exatos e complexos que os métodos não refinados e fornecem estimativas que são pontuações padronizadas.
Na minha opinião, se o objetivo é criar uma escala que possa ser usada em estudos e configurações, uma soma simples ou pontuação média de todos os itens da escala faz sentido. Mas digamos que o objetivo seja avaliar os efeitos do tratamento de um programa e o importante contraste esteja na amostra - tratamento versus grupo controle. Existe alguma razão pela qual podemos preferir pontuações fatoriais a escalar somas ou médias?
Para ser concreto sobre as alternativas, tome este exemplo simples:
library(lavaan)
library(devtools)
# read in data from gist ======================================================
# gist is at https://gist.github.com/ericpgreen/7091485
# this creates data frame mydata
gist <- "https://gist.github.com/ericpgreen/7091485/raw/f4daec526bd69557874035b3c175b39cf6395408/simord.R"
source_url(gist, sha1="da165a61f147592e6a25cf2f0dcaa85027605290")
head(mydata)
# v1 v2 v3 v4 v5 v6 v7 v8 v9
# 1 3 4 3 4 3 3 4 4 3
# 2 2 1 2 2 4 3 2 1 3
# 3 1 3 4 4 4 2 1 2 2
# 4 1 2 1 2 1 2 1 3 2
# 5 3 3 4 4 1 1 2 4 1
# 6 2 2 2 2 2 2 1 1 1
# refined and non-refined factor scores =======================================
# http://pareonline.net/pdf/v14n20.pdf
# non-refined -----------------------------------------------------------------
mydata$sumScore <- rowSums(mydata[, 1:9])
mydata$avgScore <- rowSums(mydata[, 1:9])/9
hist(mydata$avgScore)
# refined ---------------------------------------------------------------------
model <- '
tot =~ v1 + v2 + v3 + v4 + v5 + v6 + v7 + v8 + v9
'
fit <- sem(model, data = mydata, meanstructure = TRUE,
missing = "pairwise", estimator = "WLSMV")
factorScore <- predict(fit)
hist(factorScore[,1])
fonte
They are more exact
Essa ênfase adicional não deve nos distrair do fato de que mesmo as pontuações dos fatores são inevitavelmente inexatas ("indeterminadas")."more exact"
. Entre as pontuações de fatores calculadas linearmente, o método de regressão é mais "exato" no sentido "mais correlacionado com os valores reais de fatores desconhecidos". Então, sim, mais exato (dentro da abordagem algébrica linear), mas não totalmente exato.Respostas:
Eu mesmo tenho lutado com essa ideia em alguns projetos atuais. Eu acho que você precisa se perguntar o que está sendo estimado aqui. Se um modelo de um fator se encaixar, as pontuações do fator estimam o fator latente. A soma direta ou média de suas variáveis manifestas estima outra coisa, a menos que toda observação carregue igualmente no fator, e as singularidades também sejam as mesmas. E que outra coisa provavelmente não é uma quantidade de grande interesse teórico.
Portanto, se um modelo de um fator se encaixar, provavelmente é recomendável usar as pontuações dos fatores. Entendo sua comparabilidade entre os estudos, mas em um estudo específico, acho que as pontuações dos fatores têm muito a ver com eles.
O que torna interessante é quando um modelo de um fator não se encaixa, seja porque um modelo de dois fatores se aplica (ou mais), ou porque a estrutura de covariância é mais complicada do que o modelo de fator prevê. Para mim, a questão é se o total direto das variáveis se refere a algo real. Isso é particularmente verdadeiro se os dados tiverem mais de uma dimensão. Na prática, o que geralmente acontece é que você tem um monte de variáveis relacionadas (itens de uma pesquisa, talvez), com uma ou duas delas sendo bem diferentes das outras. Você pode dizer "para o inferno com isso", e calcular a média de tudo, independentemente do que isso signifique. Ou você pode ir com as pontuações dos fatores. Se você ajustar um modelo de um fator, o que normalmente acontecerá é que a análise fatorial reduzirá o peso das variáveis menos úteis (ou, pelo menos, aquelas variáveis que realmente pertencem a uma segunda pontuação de fator). Com efeito, os identifica como pertencentes a uma dimensão diferente e os ignora.
Portanto, acredito que a pontuação do fator pode amontoar os dados para fornecer algo mais unidimensional do que você começou. Mas não tenho uma referência para isso e ainda estou tentando descobrir em meu próprio trabalho se gosto dessa abordagem. Para mim, o grande perigo é o excesso de ajustes quando você coloca as pontuações em outro modelo com os mesmos dados. As pontuações já são a resposta para uma pergunta de otimização. Então, onde isso deixa o restante da análise? Eu odeio pensar.
Mas no final do dia, uma soma ou total de variáveis realmente faz sentido se algo como um modelo de um fator não se aplicar?
Muitas dessas perguntas não surgiriam se as pessoas projetassem escalas melhores para começar.
fonte
one-factor model
. Eu só me pergunto o porquê. Você está dizendo que, em um modelo de dois fatores, as pontuações dos fatores não sãoestimate the latent factor
mais? Por quê então? E também, como você define "modelo de um fator" no contexto de um questionário em desenvolvimento (o contexto provável do Q): é que o questionário é de fator único / escala ou que cada item incluído é contado pertencendo estritamente a um fator /escala? Por favor, você se importaria de deixar isso mais claro?A soma ou a média de itens carregados pelo fator comum é uma maneira tradicional de calcular a pontuação de confiança (a construção que representa esse fator). É uma versão mais simples do "método grosseiro" das pontuações dos fatores de computação ; o ponto principal do método é usar cargas fatoriais como pesos de pontuação. Enquanto métodos refinados para calcular pontuações usam coeficientes de pontuação especialmente estimados (calculados a partir das cargas) como pesos.
Esta resposta não "universalmente sugere sobre quando usar pontuações de fator [refinado] sobre a soma simples de pontuações de itens", que é um domínio vasto, mas se concentra em mostrar algumas implicações óbvias concretas, preferindo uma maneira de calcular a construção em detrimento da outra. caminho.
c. Se eles se correlacionarem fortemente, o item carregado mais fraco é uma duplicata júnior do outro. Qual é a razão para contar esse indicador / sintoma mais fraco na presença de seu substituto mais forte? Não há muita razão. E as pontuações dos fatores se ajustam a isso (enquanto a soma simples não). Observe que, em um questionário multifatorial, o "item carregado mais fraco" geralmente é o item de outro fator, carregado lá mais alto; enquanto no fator presente esse item fica restrito, como vemos agora, no cálculo das pontuações dos fatores - e isso serve corretamente.
b. Mas se os itens, embora carregados como antes de forma desigual, não se correlacionam com tanta força, então são indicadores / sintomas diferentes para nós. E pode ser contado "duas vezes", ou seja, apenas somado. Nesse caso, as pontuações dos fatores tentam respeitar o item mais fraco na medida em que seu carregamento ainda permita, por ser uma modalidade diferente do fator.
uma. Dois itens também podem ser contados duas vezes, ou seja, apenas somados, sempre que tiverem cargas semelhantes, suficientemente altas pelo fator, qualquer que seja a correlação entre esses itens. (As pontuações dos fatores adicionam mais peso aos dois itens quando eles se correlacionam não muito apertados, no entanto, os pesos são iguais.) Não parece razoável que geralmente toleremos ou admitimos itens bastante duplicados, se todos estiverem fortemente carregados. Se você não gosta disso (às vezes pode querer), está sempre livre para eliminar duplicatas do fator manualmente.
Assim, no cálculo das pontuações dos fatores (refinados) (pelo menos pelo método de regressão), existem aparentes intrigas de "conviver / empurrar" entre as variáveis que constituem o construto, em sua influência nas pontuações . Indicadores igualmente fortes se toleram, assim como indicadores igualmente fortes e não fortemente correlacionados. O "desligamento" ocorre de um indicador mais fraco fortemente correlacionado com indicadores mais fortes. A adição / média simples não tem essa intriga "forçar uma duplicata fraca".
Por favor, veja também esta resposta que adverte que o fator teoricamente é mais uma "essência interior" do que uma coleção grosseira ou um monte de "seus" fenômenos indicativos. Portanto, resumir cegamente os itens - levando em consideração suas cargas e correlações - é potencialmente problemático. Por outro lado, o fator, conforme pontuado, pode ser apenas uma espécie de soma de seus itens e, portanto, tudo trata de uma melhor concepção dos pesos na soma.
Vamos também olhar para a deficiência do método grosso ou somatório de maneira mais geral e abstrata .
Mas veja o "método grosseiro" - onde as cargasa b F F^
fonte
Use "validated" scales
não exige somas necessariamente simples: se a validação foi boa (amostra grande representativa, boas correlações, número correto de fatores, ajuste adequado etc.), os escores dos fatores computados (seus coeficientes) podem ser tomados como normativos. pesos a serem usados em novas populações. A esse respeito, não vejo nenhuma vantagem na soma simples.