Eu li vários artigos e trechos de livros que explicam como escolher um bom número de intervalos (posições) para o histograma de um conjunto de dados, mas estou me perguntando se existe um número máximo difícil de intervalos com base no número de pontos em um conjunto de dados ou algum outro critério.
Antecedentes: A razão pela qual estou perguntando é que estou tentando escrever um software com base em um procedimento de um trabalho de pesquisa. Uma etapa do procedimento é criar vários histogramas a partir de um conjunto de dados e escolher a resolução ideal com base em uma função característica (definida pelos autores do artigo). Meu problema é que os autores não mencionam um limite superior para o número de intervalos a serem testados. (Eu tenho centenas de conjuntos de dados para analisar, e cada um pode ter um número diferente "ótimo" de caixas. Além disso, é importante que o ideal número de caixas é selecionado, parecendo tão manualmente com os resultados e escolher um bom um não trabalhos.)
Simplesmente definir o número máximo de intervalos para ser o número de pontos no conjunto de dados seria uma boa diretriz ou existe algum outro critério normalmente usado em estatística?
fonte
Respostas:
Realmente não existe um limite superior rígido, mas, por outro lado, na maioria das situações, depois de obter todas as observações exclusivas em sua própria lixeira, as lixeiras mais finas servem apenas para identificar suas posições com mais precisão, sem transmitir muito mais. por exemplo, compare estes:
Exceto em algumas circunstâncias muito particulares, é provável que não haja benefícios práticos no segundo enredo, e nem tanto no primeiro. Se seus dados são contínuos, isso provavelmente está muito além de um número útil de posições.
Portanto, na maioria das situações, isso parece ser pelo menos um limite superior prático - toda observação única em seu próprio compartimento.
(Se não é benefício em mais bandejas do que um por observação única, você provavelmente deve estar fazendo um rugplot ou um stripchart jittered para obter esse tipo de informação) - algo como o que é feito nas margens desses histogramas:
(Esses histogramas são retirados desta resposta , perto do final)
fonte
É bom ter um grande número de compartimentos, por exemplo, compartimentos para todos os valores possíveis, sempre que houver suspeita de que os detalhes de um histograma não sejam ruído, mas estrutura fina interessante ou importante.
Isso não está diretamente conectado à motivação precisa para esta pergunta, desejando uma regra automatizada para um número ideal de posições, mas é relevante para a questão como um todo.
Vamos pular imediatamente para exemplos. Na demografia, o arredondamento das idades relatadas é comum, principalmente, mas não apenas em países com alfabetização limitada. O que pode acontecer é que muitas pessoas não sabem sua data exata de nascimento ou existem razões sociais ou pessoais para subestimar ou exagerar sua idade. A história militar está cheia de exemplos de pessoas contando mentiras sobre sua idade, para evitar ou procurar serviço nas forças armadas. De fato, muitos leitores conhecerão alguém que é muito tímido ou de outra forma pouco sincero sobre sua idade, mesmo que não mentam sobre isso em um censo. O resultado líquido varia, mas como já está implícito, geralmente é arredondado, por exemplo, idades que terminam em 0 e 5 são muito mais comuns do que idades de um ano a menos ou mais.
Aliás, observar os últimos dígitos dos dados relatados é um método simples e bom de verificar dados fabricados, muito mais fácil de entender e menos problemático do que o exame atual dos primeiros dígitos com um apelo à Lei de Benford.
O resultado para os histogramas agora deve estar claro. Uma apresentação tipo espigão pode servir para mostrar, ou mais geralmente para verificar, esse tipo de estrutura fina. Naturalmente, se nada de interessante for discernível, o gráfico pode ser de pouca utilidade.
Um exemplo mostra o acúmulo de idades no censo de Gana em 1960. Consulte http://www.stata.com/manuals13/rspikeplot.pdf
Houve uma boa revisão das distribuições dos dígitos finais em
Preece, DA 1981. Distribuições dos dígitos finais nos dados. The Statistician 30: 31-60.
Uma observação sobre terminologia: algumas pessoas escrevem sobre os valores exclusivos de uma variável quando falam melhor sobre os valores distintos de uma variável. Os dicionários e guias de uso ainda aconselham que "único" significa que ocorre apenas uma vez. Assim, as distintas idades relatadas de uma população podem ser, em anos, 0, 1, 2 etc. etc., mas a grande maioria dessas idades não será exclusiva de uma pessoa.
fonte
Não há um máximo rígido para o número de posições em um histograma. Se a variável que está sendo plotada é contínua, pode-se argumentar para um número infinito de categorias (e o histograma basicamente se torna uma plotagem simples).
O número de pontos no conjunto de dados não é um limite superior apropriado. Considere um conjunto de dados contendo dois valores: 1 e 1000. Ter dois compartimentos não seria apropriado.
Dois métodos práticos para determinar um limite superior são: a) Determinar o arredondamento subjacente dos dados. Por exemplo, se os dados são números inteiros, faz sentido ter posições com largura inteira. b) Observando a resolução máxima visível (por exemplo, número de pixels na dimensão horizontal que pode ser usada para plotagem).
fonte