Eu tenho um banco de dados contendo um grande número de especialistas em um campo. Para cada um desses especialistas, tenho uma variedade de atributos / pontos de dados, como:
- número de anos de experiência.
- licenças
- num de comentários
- conteúdo textual dessas revisões
- A classificação de 5 estrelas em cada uma dessas avaliações, para vários fatores como velocidade, qualidade etc.
- prêmios, associações, conferências etc.
Eu quero fornecer uma classificação a esses especialistas, digamos em 10, com base em sua importância. Alguns dos pontos de dados podem estar faltando para alguns especialistas. Agora, minha pergunta é como faço para criar esse algoritmo? Alguém pode me apontar alguma literatura relevante?
Também estou preocupado que, como em todas as classificações / resenhas, os números possam acumular-se perto de alguns valores. Por exemplo, a maioria deles pode acabar com um 8 ou um 5. Existe uma maneira de destacar pequenas diferenças em uma diferença maior na pontuação de apenas alguns dos atributos.
Algumas outras discussões que imaginei podem ser relevantes:
Respostas:
As pessoas inventaram vários sistemas para classificar coisas (como especialistas) em vários critérios: visite a página da Wikipedia em Análise de decisão com vários critérios para obter uma lista. Porém, não está bem representado lá, é um dos métodos mais defensáveis: a teoria da avaliação de atributos múltiplos. Isso inclui um conjunto de métodos para avaliar trade-offs entre conjuntos de critérios, a fim de (a) determinar uma maneira apropriada de re-expressar valores das variáveis individuais e (b) ponderar os valores re-expressos para obter uma pontuação para classificação . Os princípios são simples e defensáveis, a matemática é irrepreensível e não há nada extravagante na teoria. Mais pessoas devem conhecer e praticar esses métodos, em vez de inventar sistemas de pontuação arbitrários.
fonte
Em última análise, isso pode não ser apenas um exercício estatístico. O PCA é um método quantitativo muito poderoso que permitirá gerar uma pontuação ou pesos nos primeiros componentes principais que você pode usar para classificação. No entanto, explicar quais são os principais componentes é muito desafiador. São construções quantitativas. Eles não são dialéticos. Assim, explicar o que eles realmente querem dizer às vezes não é possível. Isto é especialmente verdade se você tiver um público que não seja quantitativo. Eles não têm idéia do que você está falando. E pensará no seu PCA como uma caixa preta enigmática.
Em vez disso, eu simplesmente alinharia todas as variáveis relevantes e usava um sistema de ponderação com base no que se pensa que deveria ser a ponderação.
Eu acho que se você desenvolver isso para pessoas de fora, clientes, usuários, seria ótimo se você pudesse incorporar a flexibilidade de decidir a ponderação para os usuários.
Alguns usuários podem valorizar anos de experiência muito mais do que certificação e vice-versa. Se você pode deixar essa decisão para eles. Dessa forma, seu algoritmo não é uma caixa preta que eles não entendem e não se sentem à vontade. Você o mantém totalmente transparente e depende deles com base em sua própria avaliação relativa do que importa.
fonte
Você acha que pode quantificar todos esses atributos?
Se sim, sugiro realizar uma análise de componentes principais. No caso geral em que todas as correlações são positivas (e se não forem, você pode facilmente chegar lá usando alguma transformação), o primeiro componente principal pode ser considerado como uma medida da importância total do especialista, já que é uma ponderada média de todos os atributos (e os pesos seriam as contribuições correspondentes das variáveis - Sob essa perspectiva, o próprio método revelará a importância de cada atributo). A pontuação que cada especialista alcança no primeiro componente principal é o que você precisa para classificá-los.
fonte