Qual é a interpretação do intervalo interquartil?

9

Eu tenho medições diárias de dióxido de nitrogênio por um ano (365 dias) e o interquartil (IQR) é de 24 microgramas por metro cúbico. O que "24" significa nesse contexto, além da definição de IQR, que é a diferença entre os percentis 25 e 75 ? Como você explicaria essa figura a um jornalista, por exemplo?

obrigado

user2742
fonte
qual é a média ou mediana?
Mcktas

Respostas:

18

Por definição, isso define o intervalo que mantém 75-25 = 50% de todos os valores medidos.

: (mediana-24/2, mediana + 24/2). A mediana deve ser escrita em algum lugar próximo a este IQR.
O exposto acima era falso, é claro, parece que eu ainda estava dormindo ao escrever isso; Desculpe pela confusão. É verdade que o IQR é a largura de um intervalo que contém 50% dos dados, mas não está centrado na mediana - é necessário conhecer o Q1 e o Q3 para localizar esse intervalo.

Em geral, o IQR pode ser visto como um parâmetro não paramétrico (= quando não assumimos que a distribuição seja gaussiana) equivalente ao desvio padrão - ambos medem a dispersão dos dados. (Equivalente não igual, para SD, (média- , média + ) detém 68,2% dos dados perfeitamente distribuídos normalmente).σσσ

EDIT: como por exemplo, é assim que parece em dados normais; as linhas vermelhas mostram , o intervalo mostrado pela caixa no gráfico da caixa mostra IQR, o histograma mostra os dados em si: você pode ver os dois se espalharem muito bem; range detém 68,3% dos dados (conforme o esperado). Agora, para dados não normais, o spread SD é ampliado devido à cauda longa e assimétrica e detém 90,5% dos dados! (IQR detém 50% em ambos os casos, por definição)± 1 σ ± 1 σ±1σtexto alternativo
±1σ
texto alternativo
±1σ

Utsav T
fonte
13

Esta é uma pergunta simples, pedindo uma resposta simples. Aqui está uma lista de declarações, começando pelas mais básicas e prosseguindo com qualificações mais precisas.

O IQR é a propagação da metade do meio dos dados.

Sem fazer suposições sobre como os dados são distribuídos , o IQR quantifica a quantidade pela qual os valores individuais normalmente variam.

O IQR está relacionado ao conhecido "desvio padrão" (SD): quando os dados seguem uma "curva de sino", o IQR é cerca de 35% maior que o SD. (Equivalentemente, o SD é de cerca de três quartos do IQR.)

Como regra geral, os valores de dados que divergem do valor médio em mais de duas vezes o IQR merecem atenção individual. Eles são chamados de "outliers". Os valores dos dados que divergem do valor médio em mais de 3,5 vezes o IQR geralmente são analisados ​​de perto. Eles são chamados às vezes de "outliers distantes".

whuber
fonte
6

O intervalo interquartil é um intervalo , não um escalar. Você deve sempre relatar os dois números, não apenas a diferença entre eles. Você pode então explicar dizendo que metade das leituras da amostra estava entre esses dois valores, um quarto era menor que o quartil inferior e um quarto mais alto que o quartil superior.

uma parada
fonte
4
@ onestop Isso me leva a pensar se o IQR deve ser um intervalo ou um escalar. Na Wikipedia, ele é definido como escalar e é consistente com o que aprendi.
usar o seguinte comando
2
Eu sempre soube que o IQR é a diferença entre o terceiro e o primeiro quartil, portanto, um escalar.
Nico
2
Embora o IQR possa ser definido como escalar, se for relatado como um intervalo, ele carrega muito mais informações. Por exemplo [-1,1] e [499.501] terão o mesmo intervalo, mas as implicações são diferentes.
Mcktas
1
(IMHO) O IQR é um escalar: é o comprimento de um intervalo. Obviamente, como sempre é possível passar do segundo (situado em um subconjunto de R ^ 2) para o primeiro (localizado em R +), mas não vice-versa, o último é mais informativo que o anterior.
vítreo
1
Eu esperava que isso fosse controverso e percebi que não é a definição usual , mas acho que é mais útil. Na minha experiência na literatura médica, é muito mais comum relatar ambos os quartis como o IQR do que a diferença entre eles, e estou feliz que seja esse o caso.
onestop
1

Grosso modo, eu diria a um jornalista que eu poderia declarar o nível diário de dióxido de nitrogênio tendo certeza, depois de descartar os valores mais altos e os mais baixos, que em cada metade dos dias daquele ano o valor observado é a uma distância de IQR / 2 do nível declarado.

Por exemplo, se seu primeiro quartil e terceiro quartil são 100 e 124, você poderia dizer que o nível diário é 112 (média de 100 e 124) e garantir ao seu interlocutor que, na metade dos dias, o erro que você comete não é maior que 12 .

vítreo
fonte
Você poderia explicar a distinção que está fazendo entre o nível "observado" e o "declarado"? (Eu também suspeito que um bom jornalista se incomodaria com a implicação de que você está "descartando" valores e continuaria com algumas perguntas difíceis :-).)
whuber
@ whuber: adiciono um exemplo à minha resposta. Sobre as perguntas difíceis, suponho que elas surjam mesmo se você responder se referir à distribuição normal (como outras respostas a essa pergunta) ou algum outro conceito. Poderia ser mais simples explicar uma média de 50% aparada? Se assim for, diga que o IQR é o comprimento do intervalo de suas observações
vítreo