Como medir a dispersão nos dados de frequência de palavras?
Como quantificar a quantidade de dispersão em um vetor de contagem de palavras? Estou procurando uma estatística que seja alta para o documento A, porque contém muitas palavras diferentes que ocorrem com pouca frequência e baixa para o documento B, porque contém uma palavra (ou algumas palavras)...