Quando usaríamos tantiles e medial, em vez de quantis e mediana?

14

Não consigo encontrar definições para tátil ou medial na Wikipedia ou Wolfram Mathworld, mas a seguinte explicação é dada em Bílková, D. e Mala, I. (2012), " Aplicação do método do momento L ao modelar a distribuição de renda na República Tcheca ", Austrian Journal of Statistics , 41 (2), 125–132.

A medial é o valor de (amostra) tátil, assim como a mediana da amostra é igual ao valor de um quantil de amostra de . Os tantiles da amostra e os quantis da amostra são baseados em uma amostra ordenada. Antes de mais nada, são avaliadas somas cumulativas de observações na amostra ordenada. Então, para uma dada porcentagem , , um tátil é definido como o valor da variável analisada que divide todas as observações na amostra ordenada em duas partes: a soma de observações menores ou iguais é da soma total de observações e a soma de observações maiores representa o residual dessa soma.50 % p 0 < p < 100 p % p % ( 100 - p ) %50.%50.%p0 0<p<100p%p%(100-p)%

Quando faz sentido usá-las como medidas de localização, e não como a mediana mais convencional ou outros quantis? Uma situação possível, a renda familiar, é apresentada nesse documento:

Pode-se derivar dessa definição que a medial possa ser usada como uma característica razoável do nível de renda, uma vez que os domicílios com renda menor ou igual à medial recebem metade da renda total da amostra, aqueles com renda maior do que a medial que recebe a outra metade.

Nesse caso, a renda média das famílias foi de CZK 117.497 (ou seja, metade das famílias ganhou mais do que isso e a metade ganhou acima), em comparação com uma renda média das famílias de CZK 133.930 (famílias com renda acima desse valor recebem metade renda total). Observe que essa comparação não reflete necessariamente a assimetria da renda familiar, ou mesmo sua não uniformidade: mesmo que a renda familiar fosse distribuída uniformemente, a mediana ainda estaria acima da mediana. Tanto quanto eu entendo a definição, a mediana só seria igual à mediana se todas as famílias recebessem a mesma renda.

Então, existe alguma razão específica para preferir a medial neste caso, ou pelo menos usá-la como uma medida suplementar? O que exatamente a comparação entre mediana e medial nos diz? Não parece que a medial seja diretamente comparável a outras medidas de tendência central pelas razões que acabei de mencionar. Existem outras situações em que medial / tantiles são amplamente utilizados ou vistos como particularmente informativos? Exemplos práticos de onde eles são usados, com exemplos de trabalhos de pesquisa, seriam muito bem-vindos, e uma idéia intuitiva do contexto mais amplo no qual eles poderiam ser úteis seria ainda melhor.

Deve exigir que totais e subtotais sejam significativos - algo que pareça relevante com dinheiro e como "a torta" é distribuída - mas mesmo o ato de adição é significativo apenas para determinadas quantidades. Para propriedades intensivas e não extensas , como densidade ou temperatura, qualquer tipo de soma não seria fisicamente significativa. Parece-me que uma propriedade extensa é necessária, mas não suficiente, para que os tantiles sejam úteis, pois posso imaginar um analista de expedição interessado em qual peso de carga transportada é o ponto de corte, de modo que 50% de toda carga (em peso) transportado em cargas com esse peso ou mais, mas não consigo imaginar um ecologista interessado em qual comprimento de tritão é tal que 50% do comprimento total de todos os tritões sejam contribuídos por tritões desse tamanho ou mais.

Silverfish
fonte
3
@NickCox Até onde eu entendo, a mediana fornece um valor de corte onde, grosso modo (estou ignorando completamente a questão dos laços), metade das famílias recebe mais do que o corte e metade das famílias recebe menos do que isso. A mediana fornece um limite diferente, de modo que a renda total das famílias que recebem mais do que o limite constitui 50% de toda a renda, enquanto a renda total das famílias que recebem menos do que o limite constitui 50% de toda a renda.
Silverfish
2
Uma dica: fiquei curioso com isso depois de um comentário de @ttnphns sobre uma pergunta anterior minha ; meios (aritmético, geométrico, harmônico, acionado, exponencial, combinatório etc.) são "médias analíticas". Mediana, quantis, tantiles são "médias posicionais".
Silverfish
4
Obrigado; Eu interpretei isso errado e aprecio a correção. Eu reformularia de "soma de observações" para "soma de valores", pois "soma de observações" está muito perto de "número de observações" para mim. Ou talvez esteja procurando uma desculpa ... Deve haver uma conexão com as curvas de Lorenz. A medida parece útil apenas se a variável em questão for nocionalmente aditiva ou extensa. Sir David Cox enfatiza frequentemente a importância de as variáveis ​​serem extensas. Portanto, faz sentido considerar substancialmente a renda total, a precipitação total, mas não a renda total de toras ou a temperatura total.
Nick Cox
2
@NickCox Eu acho que a extensividade é um ponto excelente (e sua reformulação sugerida também teria sido uma melhoria na minha opinião), embora me pareça que uma propriedade extensa seja necessária, mas não suficiente para que os tantiles sejam úteis. Parece plausível que possamos estar interessados, por exemplo, em qual peso de carga transportada é o ponto de corte, de modo que 50% de toda a carga (em peso) seja transportada em cargas com esse peso ou mais; mas não consigo imaginar estar interessado em que tamanho de tritão é tal que 50% do comprimento total de todos os tritões são contribuídos por tritões desse tamanho ou mais.
Silverfish
1
Concordo na prática, mas não acho que o princípio seja afetado. A resposta para "Mas isso não seria interessante ou útil" nem sempre precisa ser uma demonstração de princípio matemático ou estatístico; também há escopo para "Não faça isso então!".
Nick Cox

Respostas:

3

Este é realmente um comentário, mas muito longo para um comentário. Ele está tentando esclarecer a definição de "tátil" (no caso p=0,5 , que é análogo à mediana). Seja X uma variável aleatória absolutamente contínua (por simplicidade) com função de densidade f(x) . Assumimos que a expectativa μ=EX existe, que é a integral μ=-xf(x)dx converge. Defina, analogamente à função de distribuição cumulativa, uma "função de expectativa cumulativa" (nunca vi esse conceito, ele tem um nome oficial?) Por

G(t)=-txf(x)dx
Então o "tátil" é a soluçãot da equaçãoG(t)=μ/2 .

Esta interpretação está correta? É isso que foi planejado?

Para retornar à pergunta original, no contexto de uma distribuição de renda, o valor tátil é a renda, de modo que metade da renda total é para pessoas com renda acima dessa renda e metade da renda total é para pessoas com renda abaixo dessa renda.

EDIT

G(t)

G(t)t

Outro termo usado para essa idéia é "expectativa parcial". Veja, por exemplo, /math/1080530/the-partial-expectation-mathbbex-xk-for-an-alpha-stable-distributed-r e use o google!

X>0 0

Fk(x)=1EXk0 0xtkf(t)dt
kG(t)=μF1(t)F1FF0 0
{(u,L(u))}={(u,v):u=F(x),v=F1(x);x0}

kjetil b halvorsen
fonte
1
Obrigado pela adição - vou ter que ler um pouco pela aparência!
Silverfish