Estou fazendo uma transformação de log de dados corretamente?

8

Estou fazendo uma análise de dados exploratória em alguns dados e recebo estes histogramas:

insira a descrição da imagem aqui

Isso parece um candidato para uma transformação de log nos dados, então eu executo o seguinte código Python para transformar os dados:

df["abv"].apply(np.log).hist()
df["ibu"].apply(np.log).hist()
plt.show()

E eu recebo este novo gráfico dos histogramas transformados:

insira a descrição da imagem aqui

Estou certo de que uma transformação de log foi correta nesse caso e, se sim, qual é a melhor maneira de interpretar os resultados?

Jon
fonte
6
Tente ligar hist(logx=True).
Emre

Respostas:

5

Sim, a transformação de log parece ser uma boa solução para uma melhor interpretação. A sobreposição entre esses dois conjuntos de dados é realmente pequena; portanto, apenas olhando para o gráfico, você pode dizer com alta certeza, que eles são significativamente diferentes um do outro.

Kamil Kaczmarek
fonte
11
Entre isso e o que a @Emre mencionou, ela me colocou no caminho certo!
Jon