Abaixo está um histograma de alguns dados, os compartimentos são inteiros e os outros parâmetros são irrelevantes.
Como você pode ver, parece haver duas distribuições normais separadas, mas sobrepostas, para números ímpares e pares.
A probabilidade de ser um número par é 1/3, da mesma forma 2/3 para um número ímpar.
Não tenho idéia do real significado estatístico disso para ser honesto, então estou tentando descobrir o que é aprender mais, mas não consigo encontrar nada, tentei tantos termos de pesquisa para encontrar isso e até buscas reversas de imagens, mas tudo o que recebo são informações sobre distribuições multimodais, etc. e não consigo encontrar nada sobre quando as distribuições multimodais realmente se sobrepõem dessa maneira
Existe um nome para isso?
Para os interessados, os dados são de 1.000.000 de jogos aleatórios de goofspiel (N = 13) usando o script matlab
N = 1000000;
random = zeros(1,N);
for i = 1 : N
pc = randperm(13);
p1 = randperm(13);
p2 = randperm(13);
random(i) = sum(pc.*sign(p1-p2));
end
histogram(random,'BinMethod','integer')
Um exemplo mais geral (embora artificial) seria o seguinte
a = [1:50 50:-1:1];
b = normpdf(linspace(-2,2),0,0.5).*50;
c = a;
rng('default') %For reproducibility
d = logical(randi([0,1],1,length(a)));
for i = 1:length(c) %There's gotta be a way to do this without an explicit loop
if(d(i))
c(i) = b(i);
end
end
bar(c)
Como no primeiro exemplo, há duas distribuições sobrepostas (triangular e normal), mas neste caso, em vez de alternar em cada ponto, é aleatório.
Eu sei que este é um exemplo exagerado (e nem mesmo um histograma), mas deve haver exemplos desse tipo de coisa realmente acontecendo com dados estatísticos, certo? Então, novamente, talvez não, ou é completamente irrelevante?
A questão real é dupla:
A questão geral - Como é chamado esse tipo de "coisa"? - para que eu (ou qualquer outra pessoa que possa se deparar com isso) possa aprender mais sobre isso e se precisar fazer algum ajuste.
A questão, especificamente relacionada ao meu primeiro conjunto de dados - devo separar os valores ímpares e pares ou ajustar uma distribuição normal a todo o conjunto?
fonte
Respostas:
Esta resposta não é uma resposta direta à sua pergunta, porque está relacionada a uma causa diferente do padrão.
Mas está relacionado à mesma aparência gráfica e, portanto, eu a publico como resposta e não como comentário (antes de ler o script do Matlab, pensei que o padrão no histograma era devido a essa causa diferente).
Sua pergunta me fez revisitar um histograma que plotei em resposta a uma pergunta recente.
Usei o tamanho bins 1, enquanto a distância entre os resultados (discretos) era de 0,538. Tornar as barras do histograma plotadas ocasionalmente com as contagens de um único valor em vez das contagens de dois valores.
Depois de ajustar os tamanhos dos compartimentos, o histograma parecia mais típico
Nesse caso, poderíamos chamar o padrão de Moiré , que é o aparecimento de faixas artificiais claras e escuras devido a um desalinhamento de duas escalas discretas.
No seu caso, no entanto, o padrão periódico não é um efeito artificial no histograma, mas um comportamento verdadeiramente periódico na função de massa de probabilidade. Enfim, achei útil mencionar esse padrão moiré relacionado.
fonte
Desculpe, não conheço um nome estabelecido, mas resolva sua segunda pergunta:
Eu acho que você deveria separá-los. Sua análise descobriu que o fator / preditor mais importante é se a entrada é ímpar ou par; portanto, para mesclá-las, seria desfocar as duas distribuições e torná-las menos úteis (*).
*: Obviamente, isso realmente depende da sua definição de útil. Estou abordando isso do ponto de vista de que você tem algumas entradas e deseja criar um modelo para prever alguma saída. Quando soubermos que é significativo, gostaria de dar ao modelo a dica de que a paridade de uma / algumas das entradas é importante.
A propósito, como na resposta de Martijn Weterings, quando eu já tinha histogramas irregulares como esse antes, isso estava relacionado à escolha do tamanho da lixeira. Isso me fez perceber que a experimentação com o tamanho da lixeira é mais uma ferramenta na caixa de ferramentas Lying With Stats :-)
fonte