Como faço para solicitar ou classificar um conjunto de especialistas?

11

Eu tenho um banco de dados contendo um grande número de especialistas em um campo. Para cada um desses especialistas, tenho uma variedade de atributos / pontos de dados, como:

  • número de anos de experiência.
  • licenças
  • num de comentários
  • conteúdo textual dessas revisões
  • A classificação de 5 estrelas em cada uma dessas avaliações, para vários fatores como velocidade, qualidade etc.
  • prêmios, associações, conferências etc.

Eu quero fornecer uma classificação a esses especialistas, digamos em 10, com base em sua importância. Alguns dos pontos de dados podem estar faltando para alguns especialistas. Agora, minha pergunta é como faço para criar esse algoritmo? Alguém pode me apontar alguma literatura relevante?

Também estou preocupado que, como em todas as classificações / resenhas, os números possam acumular-se perto de alguns valores. Por exemplo, a maioria deles pode acabar com um 8 ou um 5. Existe uma maneira de destacar pequenas diferenças em uma diferença maior na pontuação de apenas alguns dos atributos.

Algumas outras discussões que imaginei podem ser relevantes:

Sidmitra
fonte
Isso não pode ser feito a menos que você chegue a algum critério objetivo; provavelmente a maioria das classificações possíveis pode ser construída com alguma combinação de seus parâmetros.

Respostas:

12

As pessoas inventaram vários sistemas para classificar coisas (como especialistas) em vários critérios: visite a página da Wikipedia em Análise de decisão com vários critérios para obter uma lista. Porém, não está bem representado lá, é um dos métodos mais defensáveis: a teoria da avaliação de atributos múltiplos. Isso inclui um conjunto de métodos para avaliar trade-offs entre conjuntos de critérios, a fim de (a) determinar uma maneira apropriada de re-expressar valores das variáveis ​​individuais e (b) ponderar os valores re-expressos para obter uma pontuação para classificação . Os princípios são simples e defensáveis, a matemática é irrepreensível e não há nada extravagante na teoria. Mais pessoas devem conhecer e praticar esses métodos, em vez de inventar sistemas de pontuação arbitrários.

whuber
fonte
Você conhece o pacote R para fazer isso?
user333
3
@user Não, e duvido que exista um. A propósito, não há nenhuma bala mágica de software aqui: quase todo o trabalho envolve refletir sobre os problemas e explorar trade-offs específicos de maneira controlada.
whuber
3

Em última análise, isso pode não ser apenas um exercício estatístico. O PCA é um método quantitativo muito poderoso que permitirá gerar uma pontuação ou pesos nos primeiros componentes principais que você pode usar para classificação. No entanto, explicar quais são os principais componentes é muito desafiador. São construções quantitativas. Eles não são dialéticos. Assim, explicar o que eles realmente querem dizer às vezes não é possível. Isto é especialmente verdade se você tiver um público que não seja quantitativo. Eles não têm idéia do que você está falando. E pensará no seu PCA como uma caixa preta enigmática.

Em vez disso, eu simplesmente alinharia todas as variáveis ​​relevantes e usava um sistema de ponderação com base no que se pensa que deveria ser a ponderação.

Eu acho que se você desenvolver isso para pessoas de fora, clientes, usuários, seria ótimo se você pudesse incorporar a flexibilidade de decidir a ponderação para os usuários.
Alguns usuários podem valorizar anos de experiência muito mais do que certificação e vice-versa. Se você pode deixar essa decisão para eles. Dessa forma, seu algoritmo não é uma caixa preta que eles não entendem e não se sentem à vontade. Você o mantém totalmente transparente e depende deles com base em sua própria avaliação relativa do que importa.

Sympa
fonte
@Gaetan Bem, para PCA você tem que encontrar um que codifica para a variável como "conteúdo textual" numérica adequada ...
chl
Não é esse o problema que estou levantando. O PCA pode manipular variáveis ​​fictícias, como você sugere. O PCA é incrivelmente poderoso e flexível dessa maneira. Mas, é a interpretação dos principais componentes que se torna realmente desafiadora. Digamos que o primeiro componente principal comece assim: 0,02 anos de experiência - 0,4 conteúdo textual de críticas + 0,01 associações ... Talvez você possa explicar. Um desempenho de um especialista é proporcional a anos de experiência, mas inversamente proporcional ao conteúdo textual das revisões? Parece absurdo. Porém, o PCA geralmente gera resultados contra-intuitivos.
Sympa
@ Gaetan Ainda assim, reitero minha opinião de que o problema está em como você escolhe representar suas variáveis ​​(ou em como encontra uma métrica útil). Concordo com você sobre a dificuldade de interpretar uma combinação linear de variáveis ​​ao lidar com medições não contínuas ou uma mistura de tipos de dados. É por isso que sugeri em outro comentário procurar métodos fatoriais alternativos. De qualquer forma, o desenvolvimento de regras de pontuação com base nas preferências do usuário ou na revisão de especialistas (como é feito na avaliação clínica) também exige algum tipo de validação estatística (pelo menos para garantir a confiabilidade das pontuações).
chl
@ Gaetan, sim, alguns de seus comentários fazem muito sentido, e você está certo ao dizer que não é apenas um exercício estatístico, mas envolve elementos que são mais subjetivos. O motivo é que a intenção do ponto de vista do usuário / cliente pode ser diferente. Supondo que ele esteja pesquisando um especialista, basta adicionar filtros para permitir que ele selecione especialistas> número X de anos de experiência e assim por diante. Mas digamos que ele tenha se reduzido a 2 especialistas e deseja uma comparação independente. Então, eu estou apenas procurando um método genérico para comparar dois especialistas.
Sidmitra 30/09/10
2
+1 para apontar que este não é um exercício estatístico. Na melhor das hipóteses, o PCA pode descrever relacionamentos dentro de um conjunto de dados específico e, concebivelmente, simplificar os dados, identificando quase colinearidades. Não é aparente como ele pode nos informar sobre como classificar os especialistas.
whuber
0

Você acha que pode quantificar todos esses atributos?

Se sim, sugiro realizar uma análise de componentes principais. No caso geral em que todas as correlações são positivas (e se não forem, você pode facilmente chegar lá usando alguma transformação), o primeiro componente principal pode ser considerado como uma medida da importância total do especialista, já que é uma ponderada média de todos os atributos (e os pesos seriam as contribuições correspondentes das variáveis ​​- Sob essa perspectiva, o próprio método revelará a importância de cada atributo). A pontuação que cada especialista alcança no primeiro componente principal é o que você precisa para classificá-los.

George Dontas
fonte
1
Parece bom, mas ele não escolhe apenas os atributos de maior variação e os maiores grupos de correlações cruzadas?
1
Como alternativa, é possível executar análise de correspondência múltipla ou análise fatorial múltipla para dados misturados (se a recodificação numérica não for realista para algumas variáveis), e o restante da sua ideia (calcular pontuações de fatores e examinar cargas variáveis ​​na 1ª dimensão) se aplica também.
chl
3
Parece-me que o primeiro componente apenas indicará uma forte direção de comunalidade entre os especialistas. Como poderia nos dizer quem é melhor e quem é pior? Isso requer informações adicionais sobre as relações entre essas variáveis ​​e a qualidade de ser um especialista "bom" ou "ruim". Se acreditamos que todas as variáveis ​​estão associadas monotonicamente à bondade ou à maldade, talvez o PCA possa nos ajudar a explorar a fronteira de especialistas extremos (ou talvez apenas periféricos!). Cuidado, porém - mesmo a suposição de monotonicidade é suspeita.
whuber
1
@ whuber vejo o ponto, obrigado. Talvez você possa adicionar isso em sua própria resposta (o que é muito bem-vindo)?
chl