por que ajuda com números delimitados acima e abaixo?
Uma distribuição definida em é o que a torna adequada como modelo para dados em . Eu não acho que o texto implique algo além de "é um modelo para dados em " (ou mais geralmente, em ).( 0 , 1 ) ( 0 , 1 ) ( a , b )( 0 , 1 )( 0 , 1 )( 0 , 1 )( a , b )
o que é essa distribuição ...?
Infelizmente, o termo "distribuição de log-odds" não é completamente padrão (e ainda não é um termo muito comum).
Vou discutir algumas possibilidades para o que isso pode significar. Vamos começar considerando uma maneira de construir distribuições para valores no intervalo de unidades.
Uma maneira comum de modelar uma variável aleatória contínua, in é a distribuição beta , e uma maneira comum de modelar proporções discretas em é um binômio em escala ( , pelo menos quando é uma contagem).( 0 , 1 ) [ 0 , 1 ] P = X / n XP( 0 , 1 )[ 0 , 1 ]P= X/ nX
Uma alternativa ao uso de uma distribuição beta seria pegar um CDF inverso contínuo ( ) e usá-lo para transformar os valores em na linha real (ou raramente na meia-linha real) e use qualquer distribuição relevante ( ) para modelar os valores no intervalo transformado. Isso abre muitas possibilidades, pois qualquer par de distribuições contínuas na linha real ( ) está disponível para a transformação e o modelo. ( 0 , 1 ) G F , GF- 1( 0 , 1 )GF, G
Assim, por exemplo, a transformação log-odds (também chamada logit ) seria uma transformação inversa em cdf (sendo o CDF inverso de uma logística padrão ) e, em seguida, há muitas distribuições podemos considerar como modelos para .YY= log( P1 - P)Y
Podemos então usar (por exemplo) um modelo logístico para , uma família simples de dois parâmetros na linha real. A transformação de volta para por meio da transformação inversa de chances de log (ou seja, ) gera uma distribuição de dois parâmetros para , uma que pode ser unimodal, em forma de U, ou em J, simétrico ou inclinado, de várias maneiras um pouco como uma distribuição beta (pessoalmente, eu chamaria isso de logit-logistic, já que o logit é logístico). Aqui estão alguns exemplos para diferentes valores de :( μ , τ)Y( 0 , 1 )P= exp( Y)1 + exp( Y)Pμ , τ
Olhando para a breve menção no texto de Witten et al, isso pode ser o que se pretende com "distribuição de chances de log" - mas elas podem facilmente significar outra coisa.
Outra possibilidade é que o logit-normal foi planejado.
Contudo, o termo parece ter sido usado por van Erp e van Gelder (2008) , por exemplo, para se referir a uma transformação de log-odds em uma distribuição beta (portanto, usando como logístico e como a distribuição do logaritmo de uma variável aleatória beta-prime ou equivalentemente a distribuição da diferença dos logaritmos de duas variáveis aleatórias qui-quadrado). No entanto, eles estão usando isso para fazer proporções de contagem de modelo , que são discretas. Obviamente, isso leva a alguns problemas (causados pela tentativa de modelar uma distribuição com probabilidade finita de 0 e 1 com uma ligada[ 1 ]FG( 0 , 1 )), nos quais eles parecem gastar muito esforço. (Parece mais fácil evitar o modelo inadequado, mas talvez seja apenas eu.)
Vários outros documentos (encontrei pelo menos três) referem-se à distribuição amostral de log-odds (ou seja, na escala de acima) como "a distribuição log-odds" (em alguns casos em que é uma proporção discreta * e em alguns casos em que é uma proporção contínua) - nesse caso, não é um modelo de probabilidade como tal, mas é algo ao qual você pode aplicar algum modelo distributivo na linha real.YP
* novamente, isso tem o problema de que, se for exatamente 0 ou 1, o valor de será ou respectivamente ... o que sugere que devemos limitar a distribuição de 0 e 1 para usá-la para essa finalidade. .PY- ∞∞
A dissertação de Yan Guo (2009) usa o termo para se referir a uma distribuição log-logística , uma distribuição de inclinação direita na meia-linha real.[ 2 ]
Então, como você vê, não é um termo com um único significado. Sem uma indicação mais clara de Witten ou de um dos outros autores desse livro, resta adivinhar o que se pretende.
[1]: Noel van Erp e Pieter van Gelder, (2008),
"Como interpretar a distribuição beta em caso de avaria",
Anais do 6º Seminário Internacional Probabilístico , Darmstadt
pdf link
[2]: Yan Guo, (2009),
The New Methods on NDE Systems Pod Capability Assessment and Robustness,
Dissertação submetida à Escola de Pós-Graduação da Wayne State University, Detroit, Michigan
Sou engenheiro de software (não estatístico) e li recentemente um livro chamado Uma introdução ao aprendizado estatístico. Com aplicações em R.
Acho que você está lendo sobre probabilidades de log ou logit. página 132
http://www-bcf.usc.edu/~gareth/ISL/ISLR%20Fourth%20Printing.pdf
Livro brilhante - eu li de capa a capa. Espero que isto ajude
fonte