Eu queria saber como deduzir a variação de uma variável usando um boxplot. É pelo menos possível deduzir se duas variáveis têm a mesma variação observando seu boxplot?
Recentemente, deparei com este artigo sobre um tópico semelhante. Espero que isso lhe dê algumas dicas.
Penguin_Knight
Respostas:
16
Não sem muitas suposições estritas, não. Se você assumir que a resposta foi afirmativa (em vez de perguntar, pela qual eu o aplaudo), aposto que poderia enganá-lo com este (contra) exemplo:set.seed(1);boxplot(rnorm(10000),c(-3,-2.65,rep((-2:2)*.674,5),2.65,3))
Parece bem parecido, certo? No entanto, !σ21= 1 ,σ22= 1,96
E não, você não pode deduzir que essa população é normal apenas porque é exatamente simétrica. Aqui está um gráfico de QQ da população 2:
Claro que não parece normal para mim.
Editar - resposta ao seu comentário:
A variação é uma estatística numérica. Se as variações de duas distribuições são literalmente iguais, isso é tudo o que você tem a dizer sobre isso. Se duas distribuições são exatamente normais , novamente, há uma definição matemática em que ambas se encaixam. Se duas distribuições não são exatamente normais ou iguais em variação, você não deve dizer o contrário. Se você quiser dizer que eles são aproximadamente iguais ou normais, provavelmente defina "aproximado o suficiente" de uma maneira adaptada aos seus objetivos, que você não especificou aqui. A sensibilidade às diferenças distributivas varia muito entre as análises que geralmente motivam perguntas como a sua. Por exemplo,té bastante robusto às violações deste último, com tamanhos iguais de amostra ), então eu não recomendaria esse teste para comparar minha população com 2a população 1(a distribuição normal).
Bom exemplo. Nick está usando R. (até que todos usa R, é uma boa prática de mencionar isso.)
Nick Cox
Não pode deixar de pensar que seria um bom dia para a ciência em todo o :)
Nick Stauner
Eu tenho um longo ensaio sobre isso, mas de alguma forma ele não se encaixa no espaço disponível.
Nick Cox
Boa resposta. Você pode escrever quais informações devemos reportar para dizer: "Elas são normais e a variação é a mesma"
Donbeo 27/03/14
Editado para responder.
Nick Stauner 27/03
10
Isso foi bem respondido. Esses comentários extras são um pouco longos demais (UPDATE: agora muito longo) para serem usados como comentários.
Estritamente, tudo o que você pode ler em um boxplot sobre a variabilidade de uma distribuição é seu intervalo interquartil (o comprimento ou a altura da caixa) e o alcance (o comprimento ou a altura entre os extremos da tela).
Como aproximação, os gráficos de caixas que parecem idênticos provavelmente apresentam variações muito semelhantes, mas cuidado. Gráficos de caixa com posições ou caudas de caixa muito diferentes (ou ambos) provavelmente não têm variações semelhantes, mas não é impossível. Mas, mesmo que os gráficos de caixa pareçam idênticos, você não obtém informações em um gráfico de caixa simples ou de baunilha sobre a variabilidade dentro da caixa ou mesmo a variabilidade dentro dos bigodes (as linhas geralmente mostradas entre a caixa e os pontos de dados a 1,5 IQR do quartil mais próximo) . NB existem várias variantes de gráficos de caixas; Os autores geralmente são pobres em documentar as regras precisas usadas pelo software.
A popularidade do enredo da caixa tem seu preço. Os gráficos de caixa podem ser muito úteis para mostrar as características gerais de muitos grupos ou variáveis (digamos 20 ou 30, às vezes até mais). Como comumente usado para comparar, digamos, 2 ou 3 grupos, eles são vendidos em excesso, na minha opinião, pois outros gráficos podem mostrar muito mais detalhes de maneira inteligível no mesmo espaço. Naturalmente, isso é amplamente apreciado, se não universalmente, e várias melhorias no gráfico da caixa mostram mais detalhes.
Um trabalho sério com variações requer acesso aos dados originais.
Esse é um pincel amplo e mais detalhes podem ser adicionados. Por exemplo, a posição da mediana dentro da caixa às vezes fornece um pouco mais de informação.
ATUALIZAR
Eu acho que muito mais pessoas estão interessadas nos usos (e limitações) dos gráficos de caixa em geral do que na questão específica de inferir variação de um gráfico de caixa (para o qual a resposta curta é "Você não pode, exceto indiretamente, aproximadamente, e às vezes "), então adicionarei mais comentários sobre alternativas, conforme solicitado por @Christian Sauer.
Os histogramas usados sensatamente ainda são competitivos. O texto introdutório clássico moderno de Freedman, Pisani e Purves os utiliza por toda parte.
É fácil entender o que são conhecidos como gráficos de pontos ou faixas (gráficos) (e por muitos outros nomes). Os pontos idênticos podem ser empilhados, após o armazenamento, se desejado. Você pode adicionar mediana e quartis, ou intervalos de média e confiança, ao conteúdo do seu coração.
Parcelas quantílicas são, ao que parece, um gosto adquirido, mas de várias maneiras a mais versátil de todas. Incluo aqui gráficos de valores ordenados novamente como probabilidade cumulativa (posição de plotagem), bem como gráficos quantílicos que seriam retos se os dados fossem considerados como distribuição de "marca" (normal, exponencial, gama, qualquer que seja). (Agradecimentos a @Scortchi pela referência a "nome da marca", conforme usado por CJ Geyer.)
Mas uma lista abrangente não é possível. (Acrescentarei, por exemplo, que muito ocasionalmente, uma representação de tronco e folha é exatamente correta para ver detalhes importantes nos dados, como quando a preferência por dígitos é excessiva.) O princípio principal é que os melhores tipos de gráfico de distribuição permitem a aparentemente impossível percepção da estrutura fina nos dados que poderia ser interessante ou importante (modalidade, granularidade, outliers etc.), bem como a estrutura grossa (nível, propagação, assimetria etc.).
Os gráficos de caixa não são igualmente bons em mostrar todos os tipos de estrutura. Eles não podem ser e não pretendiam ser. Vale ressaltar que JW Tukey na análise de dados exploratória Reading, MA: Addison-Wesley (1977) deu um exemplo de dados bimodais de Rayleigh, que um gráfico de caixa oculta completamente a estrutura principal. Como um grande estatístico, ele sabia muito bem que nem sempre as respostas eram as parcelas.
Uma prática bizarra, difundida em textos introdutórios, está discutindo a ANOVA enquanto convida os leitores a olhar para gráficos de caixas, que mostram medianas e quartis, não meios e variações (sim DS). Naturalmente, olhar para os dados é muito melhor do que não olhar, mas, mesmo assim, uma representação gráfica mais apropriada é indiscutivelmente um gráfico dos dados brutos com meios ajustados +/- algum múltiplo apropriado de SE.
Nick, você poderia descrever as alternativas aos gráficos de caixa para um pequeno número de variáveis?
Christian Sauer
@ChristianSauer Obrigado pelo aviso: consulte a atualização.
Nick Cox
Obrigado pela atualização muito agradável. Gosto especialmente do seu último parágrafo, acho as caixas acopladas à ANOVA e / ou regressão bastante confusas - é como comparar maçãs e laranjas.
Christian Sauer
2
A estatística, como qualquer outra ciência, é cheia de terminologia bizarra, notação e hábitos de análise copiados de outras.
Nick Cox
1
Eu concordo totalmente - em minha tese de mestrado que verifiquei Variáveis independed para a sua distribuição normal ... essa é a melhor forma de estatísticas culto à carga :(
Christian Sauer
6
Uma abordagem ingênua:
0,67 ⋅ σ1,35 ⋅ σ
EuQ R = 1,35 ⋅ σσ= 0,74 ⋅ IQ R
E sobre a comparação de variações por boxplot: caixas maiores significam variações maiores, mas isso oferece uma compreensão exploratória e você deve levar em conta também bigodes e valores extremos. Para confirmação, você deve usar o contraste de hipóteses.
Para comparar a variância, ainda precisamos supor que a distribuição seja normal? Podemos deduzir que a variável é normal se a caixa for simétrica em relação ao centro?
Donbeo 27/03
1
Eu assino tudo o que o Nick_Stauner diz. O que eu expus foi supor que suas populações são normais, o que exige, entre outras, mas não apenas simetria e curtose = 0. Essa suposição é violada com frequência.
Rufo
2
A curtose é definida de várias maneiras. Em outra definição (mais simples), um normal (gaussiano) possui curtose 3. Você precisa verificar qual definição seu software usa se estiver computando-o na prática.
Nick Cox
1
Para uma distribuição normal, isso seria curtose 3, excesso de curtose 0 , se não me engano. Estou curioso para saber se algum pacote de software popular produz curtose não excessiva por padrão. Isso provavelmente produzir uma grande quantidade de confusão (não é negar que as pessoas em geral são um pouco confuso com a omissão de "excesso" na prática oposta) ...
Nick Stauner
1
Stata produz curtose por padrão. "Excesso de curtose" é um termo horrível, a meu ver, mas além da erradicação. A curtose, como mais simplesmente definida em termos de segundo e quarto momentos, tem propriedades muito mais agradáveis do que (curtose-3); o uso da última definição pode ser atribuído à veneração excessiva da distribuição normal como sendo de alguma forma o "normal" (todos os trocadilhos pretendidos) do qual outras distribuições se desviam. Deveríamos ter uma visão mais ampla de quais distribuições são possíveis e naturais.
Respostas:
Não sem muitas suposições estritas, não. Se você assumir que a resposta foi afirmativa (em vez de perguntar, pela qual eu o aplaudo), aposto que poderia enganá-lo com este (contra) exemplo:
set.seed(1);boxplot(rnorm(10000),c(-3,-2.65,rep((-2:2)*.674,5),2.65,3))
Parece bem parecido, certo? No entanto, !σ21= 1 ,σ22= 1,96
Caso não esteja claro no código, a população
2
é:E não, você não pode deduzir que essa população é normal apenas porque é exatamente simétrica. Aqui está um gráfico de QQ da população
2
:Claro que não parece normal para mim.
Editar - resposta ao seu comentário:
A variação é uma estatística numérica. Se as variações de duas distribuições são literalmente iguais, isso é tudo o que você tem a dizer sobre isso. Se duas distribuições são exatamente normais , novamente, há uma definição matemática em que ambas se encaixam. Se duas distribuições não são exatamente normais ou iguais em variação, você não deve dizer o contrário. Se você quiser dizer que eles são aproximadamente iguais ou normais, provavelmente defina "aproximado o suficiente" de uma maneira adaptada aos seus objetivos, que você não especificou aqui. A sensibilidade às diferenças distributivas varia muito entre as análises que geralmente motivam perguntas como a sua. Por exemplo,t é bastante robusto às violações deste último, com tamanhos iguais de amostra ), então eu não recomendaria esse teste para comparar minha população com
2
a população1
(a distribuição normal).fonte
Isso foi bem respondido. Esses comentários extras são um pouco longos demais (UPDATE: agora muito longo) para serem usados como comentários.
Estritamente, tudo o que você pode ler em um boxplot sobre a variabilidade de uma distribuição é seu intervalo interquartil (o comprimento ou a altura da caixa) e o alcance (o comprimento ou a altura entre os extremos da tela).
Como aproximação, os gráficos de caixas que parecem idênticos provavelmente apresentam variações muito semelhantes, mas cuidado. Gráficos de caixa com posições ou caudas de caixa muito diferentes (ou ambos) provavelmente não têm variações semelhantes, mas não é impossível. Mas, mesmo que os gráficos de caixa pareçam idênticos, você não obtém informações em um gráfico de caixa simples ou de baunilha sobre a variabilidade dentro da caixa ou mesmo a variabilidade dentro dos bigodes (as linhas geralmente mostradas entre a caixa e os pontos de dados a 1,5 IQR do quartil mais próximo) . NB existem várias variantes de gráficos de caixas; Os autores geralmente são pobres em documentar as regras precisas usadas pelo software.
A popularidade do enredo da caixa tem seu preço. Os gráficos de caixa podem ser muito úteis para mostrar as características gerais de muitos grupos ou variáveis (digamos 20 ou 30, às vezes até mais). Como comumente usado para comparar, digamos, 2 ou 3 grupos, eles são vendidos em excesso, na minha opinião, pois outros gráficos podem mostrar muito mais detalhes de maneira inteligível no mesmo espaço. Naturalmente, isso é amplamente apreciado, se não universalmente, e várias melhorias no gráfico da caixa mostram mais detalhes.
Um trabalho sério com variações requer acesso aos dados originais.
Esse é um pincel amplo e mais detalhes podem ser adicionados. Por exemplo, a posição da mediana dentro da caixa às vezes fornece um pouco mais de informação.
ATUALIZAR
Eu acho que muito mais pessoas estão interessadas nos usos (e limitações) dos gráficos de caixa em geral do que na questão específica de inferir variação de um gráfico de caixa (para o qual a resposta curta é "Você não pode, exceto indiretamente, aproximadamente, e às vezes "), então adicionarei mais comentários sobre alternativas, conforme solicitado por @Christian Sauer.
Os histogramas usados sensatamente ainda são competitivos. O texto introdutório clássico moderno de Freedman, Pisani e Purves os utiliza por toda parte.
É fácil entender o que são conhecidos como gráficos de pontos ou faixas (gráficos) (e por muitos outros nomes). Os pontos idênticos podem ser empilhados, após o armazenamento, se desejado. Você pode adicionar mediana e quartis, ou intervalos de média e confiança, ao conteúdo do seu coração.
Parcelas quantílicas são, ao que parece, um gosto adquirido, mas de várias maneiras a mais versátil de todas. Incluo aqui gráficos de valores ordenados novamente como probabilidade cumulativa (posição de plotagem), bem como gráficos quantílicos que seriam retos se os dados fossem considerados como distribuição de "marca" (normal, exponencial, gama, qualquer que seja). (Agradecimentos a @Scortchi pela referência a "nome da marca", conforme usado por CJ Geyer.)
Mas uma lista abrangente não é possível. (Acrescentarei, por exemplo, que muito ocasionalmente, uma representação de tronco e folha é exatamente correta para ver detalhes importantes nos dados, como quando a preferência por dígitos é excessiva.) O princípio principal é que os melhores tipos de gráfico de distribuição permitem a aparentemente impossível percepção da estrutura fina nos dados que poderia ser interessante ou importante (modalidade, granularidade, outliers etc.), bem como a estrutura grossa (nível, propagação, assimetria etc.).
Os gráficos de caixa não são igualmente bons em mostrar todos os tipos de estrutura. Eles não podem ser e não pretendiam ser. Vale ressaltar que JW Tukey na análise de dados exploratória Reading, MA: Addison-Wesley (1977) deu um exemplo de dados bimodais de Rayleigh, que um gráfico de caixa oculta completamente a estrutura principal. Como um grande estatístico, ele sabia muito bem que nem sempre as respostas eram as parcelas.
Uma prática bizarra, difundida em textos introdutórios, está discutindo a ANOVA enquanto convida os leitores a olhar para gráficos de caixas, que mostram medianas e quartis, não meios e variações (sim DS). Naturalmente, olhar para os dados é muito melhor do que não olhar, mas, mesmo assim, uma representação gráfica mais apropriada é indiscutivelmente um gráfico dos dados brutos com meios ajustados +/- algum múltiplo apropriado de SE.
fonte
Uma abordagem ingênua:
E sobre a comparação de variações por boxplot: caixas maiores significam variações maiores, mas isso oferece uma compreensão exploratória e você deve levar em conta também bigodes e valores extremos. Para confirmação, você deve usar o contraste de hipóteses.
fonte