Criando um índice de qualidade a partir de várias variáveis ​​para ativar a classificação

22

Eu tenho quatro variáveis ​​numéricas. Todos eles são medidas da qualidade do solo. Quanto maior a variável, maior a qualidade. O intervalo para todos eles é diferente:

Var1 de 1 a 10

Var2 de 1000 a 2000

Var3 de 150 a 300

Var4 de 0 a 5

Preciso combinar quatro variáveis ​​em um único índice de qualidade do solo, que classificará com êxito a ordem.

Minha ideia é muito simples. Padronize todas as quatro variáveis, resuma-as e o que você obtiver é a pontuação que deve ser ordenada. Você vê algum problema com a aplicação dessa abordagem. Existe alguma outra (melhor) abordagem que você recomendaria?

obrigado

Editar:

Obrigado rapazes. Muita discussão foi sobre "domínio especializado" ... Coisas sobre agricultura ... Enquanto eu esperava mais discussões sobre estatísticas. Em termos de técnica que vou usar ... Provavelmente será um somatório do escore z + regressão logística como um experimento. Como a grande maioria das amostras tem 90% de baixa qualidade, vou combinar 3 categorias de qualidade em uma e basicamente ter um problema binário (alguma qualidade versus não qualidade). Eu mato dois coelhos com uma cajadada só. Aumentei minha amostra em termos de taxa de eventos e utilizo especialistas ao classificá-las. Amostras classificadas por especialistas serão usadas para ajustar o modelo log-reg para maximizar o nível de concordância / discordância com os especialistas ... Como isso soa para você?

user333
fonte

Respostas:

19

A abordagem proposta pode dar um resultado razoável, mas apenas por acidente. A essa distância - ou seja, considerando a questão pelo valor de face, com os significados das variáveis ​​disfarçadas - alguns problemas são aparentes:

  1. Nem sequer é evidente que cada variável esteja positivamente relacionada à "qualidade". Por exemplo, e se um 10 para 'Var1' significa que a "qualidade" é pior que a qualidade quando Var1 é 1? Então adicioná-lo à soma é a coisa mais errada que se pode fazer; precisa ser subtraído.

  2. A padronização implica que "qualidade" depende do próprio conjunto de dados. Assim, a definição mudará com diferentes conjuntos de dados ou com adições e exclusões a esses dados. Isso pode transformar a "qualidade" em uma construção arbitrária, transitória, não objetiva e impedir comparações entre conjuntos de dados.

  3. Não há definição de "qualidade". O que isso quer dizer? Capacidade de bloquear a migração de água contaminada? Capacidade de suportar processos orgânicos? Capacidade de promover certas reações químicas? Solos bons para um desses propósitos podem ser especialmente ruins para outros.

  4. O problema, como afirmado, não tem propósito: por que a "qualidade" precisa ser classificada? Para que o ranking será usado - insira mais análises, selecione o "melhor" solo, decida uma hipótese científica, desenvolva uma teoria, promova um produto?

  5. As consequências do ranking não são aparentes. Se a classificação estiver incorreta ou inferior, o que acontecerá? O mundo ficará mais faminto, o ambiente mais contaminado, os cientistas mais enganados, os jardineiros mais decepcionados?

  6. Por que uma combinação linear de variáveis ​​deve ser apropriada? Por que eles não deveriam ser multiplicados ou exponenciados ou combinados como um posinômio ou algo ainda mais esotérico?

  7. As medidas de qualidade do solo bruto são comumente reexpressas. Por exemplo, a permeabilidade do log é geralmente mais útil do que a própria permeabilidade e a atividade do íon hidrogênio (pH) é muito mais útil que a atividade. Quais são as reexpressões apropriadas das variáveis ​​para determinar a "qualidade"?

Seria de esperar que a ciência do solo respondesse à maioria dessas perguntas e indicasse qual seria a combinação apropriada das variáveis ​​para qualquer senso objetivo de "qualidade". Caso contrário, você enfrenta um problema de avaliação de vários atributos . O artigo da Wikipedia lista dezenas de métodos para resolver isso. IMHO, a maioria deles é inadequada para abordar uma questão científica. Um dos poucos com uma teoria sólida e potencial aplicabilidade a questões empíricas é a teoria da avaliação de múltiplos atributos de Keeney & Raiffa(MAVT). Requer que você seja capaz de determinar, para quaisquer duas combinações específicas de variáveis, qual das duas deve ter uma classificação mais alta. Uma sequência estruturada de tais comparações revela (a) maneiras apropriadas de reexprimir os valores; (b) se uma combinação linear dos valores reexpressos produzirá a classificação correta; e (c) se uma combinação linear for possível, permitirá calcular os coeficientes. Em resumo, o MAVT fornece algoritmos para resolver seu problema, desde que você já saiba como comparar casos específicos.

whuber
fonte
RE: 1. Eu tenho certeza que "quanto maior o número, maior a qualidade" para todas as quatro variáveis. RE: 2. Bom ponto. O que posso fazer para fazer dois conjuntos de dados comparáveis
user333
2
@user Minhas recomendações estão no último parágrafo: de preferência, encontre uma expressão quantitativa de "qualidade" na literatura científica. Salvo isso, aplique o MAVT. Ambos produzem uma fórmula fixa independente do conjunto de dados. Isso garante comparabilidade.
whuber
1
@whuber, não é possível ver isso como um problema de fazer uma medida formativa com base nas informações disponíveis; nesse caso, somar os Z-scores não é tão ruim quanto você soa?
21711 Andy
3
@ Andy Você poderia explicar o que você quer dizer com "medida formativa" e "informação disponível"? // Devo salientar que muitas medidas de adequação do solo para a agricultura nem são monotônicas, muito menos lineares: por exemplo, uma planta pode florescer dentro de uma faixa de pH, mas sofre com pHs além dessa faixa em qualquer direção . Seria realmente uma circunstância especial - talvez envolvendo uma faixa estreita de valores - se uma simples combinação linear de características do solo tivesse alguma relação objetiva com as qualidades agrícolas.
whuber
2
@Andy Assumindo que "qualidade" é um valor numérico a ser usado para classificar amostras de solo, então definitivamente o problema é uma das decisões discretas: dado um par de atributos e , que tem melhor qualidade? Você está certo de que precisa saber algo sobre qual é a qualidade para criar a combinação desejada dos atributos. A abordagem adotada supõe que você não tem uma avaliação independente da qualidade (que nos colocaria em uma situação de modelagem de superfície de regressão ou resposta), mas você pode fazer essas comparações com razoável precisão. ( x 1 , , x k )(y1,,yk)(x1,,xk)
whuber
3

Alguém olhou para Russell G. Congalton 'Review of Avaliando a Precisão de Classificações de Dados Remotamente Sensíveis' 1990? Ele descreve uma técnica conhecida como matriz de erro para matrizes de variação, também um termo que ele usa chamado 'Normalização de dados', em que se obtém todos os vetores diferentes e 'normaliza' ou os define como iguais a 0 a 1. Você basicamente altera todos os vetores para intervalos iguais de 0 a 1.

Ragus Paganini
fonte
0

Outra coisa que você não discutiu é a escala das medidas. V1 e V5 parecem ter ordem de classificação e os outros não. Portanto, a padronização pode estar distorcendo a pontuação. Portanto, você pode transformar melhor todas as variáveis ​​em classificações e determinar um peso para cada variável, pois é altamente improvável que eles tenham o mesmo peso. A ponderação igual é mais um padrão "sem nada". Você pode fazer algumas análises de correlação ou regressão para obter alguns pesos a priori.

Ralph Winters
fonte
Como posso usar a análise de correlação para determinar a pesagem?
precisa saber é o seguinte
Se você já possui uma medida geral de qualidade preexistente, por exemplo, opiniões de especialistas (ou está disposto a aceitar outras variáveis ​​como um proxy para isso), você pode escolher as variáveis ​​correlacionadas mais altas e atribuir a maior ponderação.
Ralph Winters
-3

Seguindo a resposta de Ralph Winters, você pode usar o PCA (análise de componentes principais) na matriz de pontuações adequadamente padronizadas. Isso fornecerá um vetor de peso "natural" que você pode usar para combinar pontuações futuras.

Faça isso também depois que todas as pontuações tiverem sido transformadas em fileiras. Se os resultados forem muito semelhantes, você tem bons motivos para continuar com qualquer um dos métodos. Se houver discrepâncias, isso levará a perguntas interessantes e a um melhor entendimento.

Hans Engler
fonte
4
Discordo. Embora alguém possa estar interessado nas correlações entre itens por curiosidade, todas as variáveis ​​podem ser ortogonais e ainda assim contribuir para a qualidade. Para um exemplo bobo, o solo na Antártida pode ter um ótimo teor de nitrogênio, mas duvido que seja suficiente como um clima adequado.
21711 Andy
@ Andy W: Nesse caso, todas as variáveis ​​devem ter o mesmo peso, e o PCA dirá isso. Também lhe diria que o componente principal representa apenas uma fração relativamente pequena da variabilidade geral na matriz de pontuações.
9789 Hans-Scherer
3
Eu ainda discordo. Não informa se as pontuações devem ser ponderadas igualmente. Dois itens podem ter uma correlação positiva, mas cada um tem relações opostas à "qualidade". As correlações entre itens não dizem necessariamente nada sobre a medida não observada no contexto fornecido. Se a qualidade fosse uma variável latente e as variáveis ​​fossem "reflexivas" desse construto latente, isso pode ser verdade, mas esse não é o caso neste exemplo.
21711 Andy
Am×nσ1uvTAnvjvj
Hans Engler
3
Eu ainda discordo. Mesmo que se espere que a associação esteja na mesma direção, isso não significa que os indicadores devam receber inerentemente qualquer peso com base em sua correlação entre itens. A variação compartilhada só pode dizer algo sobre a relação entre os indicadores. Pense em um modelo de regressão em que previmos uma medida conhecida de qualidade desses indicadores. As correlações entre itens entre os indicadores não informam quais serão as inclinações esperadas.
21711 Andy