Eu tenho quatro variáveis numéricas. Todos eles são medidas da qualidade do solo. Quanto maior a variável, maior a qualidade. O intervalo para todos eles é diferente:
Var1 de 1 a 10
Var2 de 1000 a 2000
Var3 de 150 a 300
Var4 de 0 a 5
Preciso combinar quatro variáveis em um único índice de qualidade do solo, que classificará com êxito a ordem.
Minha ideia é muito simples. Padronize todas as quatro variáveis, resuma-as e o que você obtiver é a pontuação que deve ser ordenada. Você vê algum problema com a aplicação dessa abordagem. Existe alguma outra (melhor) abordagem que você recomendaria?
obrigado
Editar:
Obrigado rapazes. Muita discussão foi sobre "domínio especializado" ... Coisas sobre agricultura ... Enquanto eu esperava mais discussões sobre estatísticas. Em termos de técnica que vou usar ... Provavelmente será um somatório do escore z + regressão logística como um experimento. Como a grande maioria das amostras tem 90% de baixa qualidade, vou combinar 3 categorias de qualidade em uma e basicamente ter um problema binário (alguma qualidade versus não qualidade). Eu mato dois coelhos com uma cajadada só. Aumentei minha amostra em termos de taxa de eventos e utilizo especialistas ao classificá-las. Amostras classificadas por especialistas serão usadas para ajustar o modelo log-reg para maximizar o nível de concordância / discordância com os especialistas ... Como isso soa para você?
Alguém olhou para Russell G. Congalton 'Review of Avaliando a Precisão de Classificações de Dados Remotamente Sensíveis' 1990? Ele descreve uma técnica conhecida como matriz de erro para matrizes de variação, também um termo que ele usa chamado 'Normalização de dados', em que se obtém todos os vetores diferentes e 'normaliza' ou os define como iguais a 0 a 1. Você basicamente altera todos os vetores para intervalos iguais de 0 a 1.
fonte
Outra coisa que você não discutiu é a escala das medidas. V1 e V5 parecem ter ordem de classificação e os outros não. Portanto, a padronização pode estar distorcendo a pontuação. Portanto, você pode transformar melhor todas as variáveis em classificações e determinar um peso para cada variável, pois é altamente improvável que eles tenham o mesmo peso. A ponderação igual é mais um padrão "sem nada". Você pode fazer algumas análises de correlação ou regressão para obter alguns pesos a priori.
fonte
Seguindo a resposta de Ralph Winters, você pode usar o PCA (análise de componentes principais) na matriz de pontuações adequadamente padronizadas. Isso fornecerá um vetor de peso "natural" que você pode usar para combinar pontuações futuras.
Faça isso também depois que todas as pontuações tiverem sido transformadas em fileiras. Se os resultados forem muito semelhantes, você tem bons motivos para continuar com qualquer um dos métodos. Se houver discrepâncias, isso levará a perguntas interessantes e a um melhor entendimento.
fonte