Eu tenho principalmente experiência em ciência da computação, mas agora estou tentando me ensinar estatísticas básicas. Eu tenho alguns dados que eu acho que tem uma distribuição Poisson
Eu tenho duas perguntas:
- Esta é uma distribuição de Poisson?
- Em segundo lugar, é possível converter isso em uma distribuição normal?
Qualquer ajuda seria apreciada. Muito obrigado
Respostas:
1) O que é mostrado parece ser (agrupado) dados contínuos desenhados como um gráfico de barras.
Você pode concluir com bastante segurança que é não uma distribuição de Poisson.
Uma variável aleatória Poisson assume os valores 0, 1, 2, ... e tem o pico mais alto em 0 somente quando a média é menor que 1. É usada para dados de contagem; se você desenhou um gráfico semelhante dos dados de Poisson, pode parecer com os gráficos abaixo:
O primeiro é um Poisson que mostra assimetria semelhante à sua. Você pode ver que sua média é bem pequena (cerca de 0,6).
O segundo é um Poisson que tem um significado semelhante (em um palpite bastante grosseiro) ao seu. Como você vê, parece bastante simétrico.
Você pode ter a assimetria ou a média grande, mas não as duas ao mesmo tempo.
2) (i) Você não pode normalizar dados discretos -
Com os dados agrupados, usando qualquer transformação de aumento monotônico, você moverá todos os valores de um grupo para o mesmo local, para que o grupo mais baixo ainda tenha o pico mais alto - veja o gráfico abaixo. No primeiro gráfico, movemos as posições dos valores x para coincidir com um cdf normal:
No segundo gráfico, vemos a função de probabilidade após a transformação. Não podemos realmente alcançar algo como normalidade, porque é ao mesmo tempo discreto e inclinado; o grande salto do primeiro grupo continuará sendo um grande salto, independentemente de você empurrá-lo para a esquerda ou direita.
(ii) Os dados inclinados contínuos podem ser transformados para parecer razoavelmente normais. Se você tem valores brutos (não agrupados) e eles não são muito discretos, é possível fazer alguma coisa, mas mesmo assim quando as pessoas procuram transformar seus dados, isso é desnecessário ou o problema subjacente pode ser resolvido de uma maneira diferente (geralmente melhor) . Às vezes, a transformação é uma boa escolha, mas geralmente é feita por razões não muito boas.
Então ... por que você quer transformá-lo?
fonte
Publicando informações mais divertidas para a posteridade.
Há uma publicação mais antiga que discute um problema semelhante em relação ao uso de dados de contagem como uma variável independente para regressões logísticas.
Aqui está:
O uso de dados de contagem como variável independente viola algumas das suposições do GLM?
Como Glen mencionou, se você está simplesmente tentando prever um resultado dicotômico, é possível que você possa usar os dados de contagem não transformados como um componente direto do seu modelo de regressão logística. No entanto, uma nota de cautela: quando uma variável independente (IV) é distribuída por poisson E varia em várias ordens de magnitude usando os valores brutos, pode resultar em pontos altamente influentes, que por sua vez podem influenciar seu modelo. Se for esse o caso, pode ser útil realizar uma transformação nos IVs para obter um modelo mais robusto.
Transformações como a raiz quadrada ou o log podem aumentar a relação entre o IV e o odds ratio. Por exemplo, se alterações em X em três ordens inteiras de magnitude (longe do valor mediano X) corresponderem a uma mera alteração de 0,1 na probabilidade de ocorrência de Y (longe de 0,5), é bastante seguro supor que qualquer discrepância de modelo ocorrerá levar a um viés significativo devido à extrema alavancagem dos valores extremos de X.
Para ilustrar melhor, imagine que desejássemos usar a classificação Scoville de vários chili peppers (domínio [X] = {0, 3,2 milhões}) para prever a probabilidade de uma pessoa classificar a pimenta como "desconfortavelmente picante" (intervalo [Y] = {1 = sim, 0 = não}) depois de comer uma pimenta da classificação correspondente X.
https://en.wikipedia.org/wiki/Scoville_scale
Se você observar o gráfico das classificações de scoville, poderá ver que uma transformação de log das classificações brutas de Scoville ofereceria uma aproximação mais próxima das classificações subjetivas (1-10) de cada chili.
Portanto, nesse caso, se quiséssemos criar um modelo mais robusto que captasse a verdadeira relação entre as classificações brutas de Scoville e a classificação subjetiva de calor, poderíamos realizar uma transformação logarítmica nos valores X. Ao fazer isso, reduzimos o impacto do domínio X excessivamente grande, "efetivamente" diminuindo "a distância entre valores que diferem em ordens de magnitude e, consequentemente, reduzindo o peso de quaisquer outliers X (por exemplo, aqueles que são intolerantes à capsaicina e / ou loucos por especiarias! !!) têm em nossas previsões.
Espero que isso adicione algum contexto divertido!
fonte