O que é uma distribuição de log-odds?

11

Estou lendo um livro sobre aprendizado de máquina (Data Mining por Witten, et al., 2011) e me deparei com esta passagem:

... Além disso, diferentes distribuições podem ser usadas. Embora a distribuição normal seja geralmente uma boa opção para atributos numéricos, ela não é adequada para atributos com um mínimo predeterminado, mas sem limite superior; nesse caso, uma distribuição "log-normal" é mais apropriada. Atributos numéricos que são delimitados acima e abaixo podem ser modelados por uma distribuição "log-odds" .

Eu nunca ouvi falar dessa distribuição. Pesquisei no Google "distribuição de probabilidades de log", mas não consegui encontrar nenhuma correspondência exata relevante. Alguém pode me ajudar? O que é essa distribuição e por que ajuda com números delimitados acima e abaixo?

PS: Eu sou engenheiro de software, não estatístico.

stackoverflowuser2010
fonte

Respostas:

14

por que ajuda com números delimitados acima e abaixo?

Uma distribuição definida em é o que a torna adequada como modelo para dados em . Eu não acho que o texto implique algo além de "é um modelo para dados em " (ou mais geralmente, em ).( 0 , 1 ) ( 0 , 1 ) ( a , b )(0,1)(0,1)(0,1)(a,b)

o que é essa distribuição ...?

Infelizmente, o termo "distribuição de log-odds" não é completamente padrão (e ainda não é um termo muito comum).

Vou discutir algumas possibilidades para o que isso pode significar. Vamos começar considerando uma maneira de construir distribuições para valores no intervalo de unidades.

Uma maneira comum de modelar uma variável aleatória contínua, in é a distribuição beta , e uma maneira comum de modelar proporções discretas em é um binômio em escala ( , pelo menos quando é uma contagem).( 0 , 1 ) [ 0 , 1 ] P = X / n XP(0,1)[0,1]P=X/nX

Uma alternativa ao uso de uma distribuição beta seria pegar um CDF inverso contínuo ( ) e usá-lo para transformar os valores em na linha real (ou raramente na meia-linha real) e use qualquer distribuição relevante ( ) para modelar os valores no intervalo transformado. Isso abre muitas possibilidades, pois qualquer par de distribuições contínuas na linha real ( ) está disponível para a transformação e o modelo. ( 0 , 1 ) G F , GF1(0,1)GF,G

Assim, por exemplo, a transformação log-odds (também chamada logit ) seria uma transformação inversa em cdf (sendo o CDF inverso de uma logística padrão ) e, em seguida, há muitas distribuições podemos considerar como modelos para .YY=log(P1P)Y

Podemos então usar (por exemplo) um modelo logístico para , uma família simples de dois parâmetros na linha real. A transformação de volta para por meio da transformação inversa de chances de log (ou seja, ) gera uma distribuição de dois parâmetros para , uma que pode ser unimodal, em forma de U, ou em J, simétrico ou inclinado, de várias maneiras um pouco como uma distribuição beta (pessoalmente, eu chamaria isso de logit-logistic, já que o logit é logístico). Aqui estão alguns exemplos para diferentes valores de :(μ,τ)Y(0,1)P=exp(Y)1+exp(Y)Pμ,τ

insira a descrição da imagem aqui

Olhando para a breve menção no texto de Witten et al, isso pode ser o que se pretende com "distribuição de chances de log" - mas elas podem facilmente significar outra coisa.

Outra possibilidade é que o logit-normal foi planejado.

Contudo, o termo parece ter sido usado por van Erp e van Gelder (2008) , por exemplo, para se referir a uma transformação de log-odds em uma distribuição beta (portanto, usando como logístico e como a distribuição do logaritmo de uma variável aleatória beta-prime ou equivalentemente a distribuição da diferença dos logaritmos de duas variáveis ​​aleatórias qui-quadrado). No entanto, eles estão usando isso para fazer proporções de contagem de modelo , que são discretas. Obviamente, isso leva a alguns problemas (causados ​​pela tentativa de modelar uma distribuição com probabilidade finita de 0 e 1 com uma ligada[1]FG(0,1)), nos quais eles parecem gastar muito esforço. (Parece mais fácil evitar o modelo inadequado, mas talvez seja apenas eu.)

Vários outros documentos (encontrei pelo menos três) referem-se à distribuição amostral de log-odds (ou seja, na escala de acima) como "a distribuição log-odds" (em alguns casos em que é uma proporção discreta * e em alguns casos em que é uma proporção contínua) - nesse caso, não é um modelo de probabilidade como tal, mas é algo ao qual você pode aplicar algum modelo distributivo na linha real.YP

* novamente, isso tem o problema de que, se for exatamente 0 ou 1, o valor de será ou respectivamente ... o que sugere que devemos limitar a distribuição de 0 e 1 para usá-la para essa finalidade. .PY

A dissertação de Yan Guo (2009) usa o termo para se referir a uma distribuição log-logística , uma distribuição de inclinação direita na meia-linha real.[2]

Então, como você vê, não é um termo com um único significado. Sem uma indicação mais clara de Witten ou de um dos outros autores desse livro, resta adivinhar o que se pretende.

[1]: Noel van Erp e Pieter van Gelder, (2008),
"Como interpretar a distribuição beta em caso de avaria",
Anais do 6º Seminário Internacional Probabilístico , Darmstadt
pdf link

[2]: Yan Guo, (2009),
The New Methods on NDE Systems Pod Capability Assessment and Robustness,
Dissertação submetida à Escola de Pós-Graduação da Wayne State University, Detroit, Michigan

Glen_b -Reinstate Monica
fonte
11
(+1) Uma pesquisa em todo o livro indica que não há esclarecimentos. O contexto sugere que a "distribuição log-odds" se refere a algum modelo específico, assim como o "lognormal" é proposto na sentença anterior como uma distribuição universal para todos os valores não negativos (!).
whuber
11
@whuber Concordo com a sua caracterização do que está no livro - não pretendia que meus comentários relacionados ao uso do termo em outros contextos para se referir à distribuição da amostra impliquem que essa foi a intenção do livro, mas apenas como uma indicação de que é um termo com vários significados. Nas passagens em questão, meu conselho para as pessoas que aprendem esse material (como em muitas coisas) seria ler mais de um livro.
Glen_b -Reinstala Monica
2

Sou engenheiro de software (não estatístico) e li recentemente um livro chamado Uma introdução ao aprendizado estatístico. Com aplicações em R.

Acho que você está lendo sobre probabilidades de log ou logit. página 132

http://www-bcf.usc.edu/~gareth/ISL/ISLR%20Fourth%20Printing.pdf

Livro brilhante - eu li de capa a capa. Espero que isto ajude

JasonEdinburgh
fonte
Obrigado pelo ponteiro. Supondo que a distribuição log-odds é a mesma que "distribuição logística", procurei a última na Wikipedia. Parece que seu PDF não tem limite inferior ou superior. Então, ainda estou me perguntando por que o livro que citei originalmente disse que "atributos numéricos que são delimitados acima e abaixo podem ser modelados" com essa distribuição.
stackoverflowuser2010
Eu acho que talvez esteja falando sobre a saída da função em que os limites são de 0,0 (impossível) a 1,0 (definitivo). (Eu poderia estar completamente errado aqui)
JasonEdinburgh
É possível que seu modelo possa produzir resultados positivos ou negativos arbitrariamente grandes. Eles podem não ser interpretáveis ​​em termos de um intervalo limitado, como uma probabilidade, mas podem ser interpretados como probabilidades de log usando a função logit e sua função logística inversa.
Henry