A regressão logística é um teste não paramétrico?

15

Recentemente, recebi a seguinte pergunta por e-mail. Postarei uma resposta abaixo, mas estava interessado em ouvir o que os outros pensavam.

Você chamaria a regressão logística de teste não paramétrico? Meu entendimento é que simplesmente rotular um teste como não paramétrico, porque seus dados normalmente não são distribuídos, é insuficiente. É mais a ver com a falta de suposições. a regressão logística tem suposições.

Jeromy Anglim
fonte
7
(+1) Para constar - e como contraponto às afirmações da pergunta - não conheço nenhuma referência confiável que defina (ou até caracterize) métodos não paramétricos como "falta de premissas". Todos os procedimentos estatísticos fazem suposições. A maioria dos procedimentos não paramétricos realmente faz suposições quantitativas restritivas sobre distribuições de probabilidade subjacentes, mas essas suposições não restringem os possíveis estados de coisas a um conjunto que possui a estrutura de uma variedade real dimensional finita.
whuber
Se estamos falando de regressão logística linear (que parece estar implícita, com base na resposta que você escreveu), é claro que este é um modelo paramétrico, mas vale a pena notar que, se você ajustar o efeito covariável usando uma função suave não paramétrica, por exemplo então não há restrições paramétricas na probabilidade estimada em função dex. Isso não é verdade apenas sobre o link logístico; a mesma lógica se aplica a qualquer função de link invertível.
log(P(Yi=1|Xi=x)P(Yi=0|Xi=x))=f(x)
x
Macro
Eu faço uma pergunta relacionada aqui . Estou começando a entender que alguns casos do GLM (por exemplo, um modelo logístico) fornecem um teste não paramétrico. Vou examinar o livro de Wasserman, embora (a menos que eu esteja me lembrando), há alguma discordância sobre alguns dos princípios e descobertas de seu trabalho.
Adamo

Respostas:

19

Larry Wasserman define um modelo paramétrico como um conjunto de distribuições "que podem ser parametrizadas por um número finito de parâmetros". (p.87) Em contraste, um modelo não paramétrico é um conjunto de distribuições que não podem ser parametrizadas por um número finito de parâmetros.

Assim, por essa definição , a regressão logística padrão é um modelo paramétrico. O modelo de regressão logística é paramétrico porque possui um conjunto finito de parâmetros. Especificamente, os parâmetros são os coeficientes de regressão. Eles geralmente correspondem a um para cada preditor mais uma constante. A regressão logística é uma forma particular do modelo linear generalizado. Especificamente, envolve o uso de uma função de link de logit para modelar dados distribuídos binomialmente.

Curiosamente, é possível realizar uma regressão logística não paramétrica (por exemplo, Hastie, 1983). Isso pode envolver o uso de splines ou alguma forma de suavização não paramétrica para modelar o efeito dos preditores.

Referências

  • Wasserman, L. (2004). Todas as estatísticas: um curso conciso de inferência estatística. Springer Verlag.
  • Hastie, T. (1983). Regressão logística não paramétrica. SLAC PUB-3160, junho. PDF
Jeromy Anglim
fonte
Um modelo é um conjunto de distribuições? Algo essencial está faltando lá.
Rolando2
É comum fazer uma pergunta e responder você mesmo?
1
@fcop é incentivado. blog.stackoverflow.com/2011/07/…
Jeromy Anglim
Ok, desculpe, eu não sabia
Não se preocupe. Para mim, o ponto principal do site é criar recursos que outras pessoas descubram quando procurarem respostas no futuro. Contribuir com suas próprias respostas ajuda com tudo isso.
precisa saber é o seguinte
16

Eu diria que a regressão logística não é um teste; no entanto, uma regressão logística pode levar a nenhum teste ou vários testes.

Você está certo de que rotular algo não paramétrico porque não é normal é insuficiente. Eu chamaria a família exponencial explicitamente de paramétrica, de modo que consideraria a regressão logística (e regressão de Poisson e Gamma e ...) como paramétrica, embora possa haver circunstâncias nas quais eu possa aceitar um argumento de que determinadas regressões logísticas poderiam ser considerado não paramétrico (ou pelo menos em um sentido vagamente ondulado à mão, apenas quase "paramétrico").

Cuidado com qualquer confusão sobre os dois sentidos, nos quais uma regressão pode ser chamada de não paramétrica.

xyx parametrizado pelos coeficientes de intersecção e declive.

yx

Ambos os sentidos são usados, mas quando se trata de regressão, o segundo tipo é realmente usado com mais frequência.

É também possível ser não paramétrico em ambos os sentidos, mas mais difícil (com dados suficientes, eu poderia, por exemplo, ajustar uma Theil regressão linear local ponderada).

No caso de GLMs, a segunda forma de regressão múltipla não paramétrica inclui GAMs; essa segunda forma é o sentido em que Hastie geralmente está operando (e sob o qual ele está operando nessa citação).

Glen_b -Reinstate Monica
fonte
3

Uma distinção útil que pode acrescentar um pouco às respostas acima: Andrew Ng fornece uma heurística para o que significa ser um modelo não paramétrico na Aula 1 a partir dos materiais do curso para o curso CS-229 de Stanford sobre aprendizado de máquina.

Ng diz (pp. 14-15):

θiθih

Eu acho que essa é uma maneira contrastante útil de pensar sobre isso, porque infunde diretamente a noção de complexidade. Os modelos não paramétricos não são inerentemente menos complexos, porque podem exigir a manutenção de muito mais dados de treinamento. Isso significa apenas que você não está reduzindo o uso dos dados de treinamento, compactando-os em um cálculo finitamente parametrizado. Para eficiência, imparcialidade ou várias outras propriedades, convém parametrizar. Mas pode haver ganhos de desempenho se você puder renunciar à parametrização e manter muitos dados por perto.

ely
fonte
0

Eu acho que a regressão logística é uma técnica paramétrica.

Isso pode ser útil, de Wolfowitz (1942) [Funções de partição aditiva e uma classe de hipóteses estatísticas Os anais de estatística matemática, 1942, 13, 247-279]:

"As funções de distribuição [nota: plural !!!] das várias variáveis ​​estocásticas que entram em seus problemas são assumidas como de forma funcional conhecida, e as teorias de estimativa e de hipóteses de teste são teorias de estimativa de e de hipóteses de teste sobre , um ou mais parâmetros, em número finito, cujo conhecimento determinaria completamente as várias funções de distribuição envolvidas. Vamos nos referir a esta situação, por questões de brevidade, como o caso paramétrico, e denotar a situação oposta, onde as formas funcionais das distribuições são desconhecidas ', como o caso não paramétrico.

Além disso, tendo ouvido falar bastante sobre isso, achei isso divertido por Noether (1984) [Não paramétricos: os primeiros anos - impressões e lembranças The American Statistician, 1984, 38, 173, 173-178]:

"O termo não paramétrico pode ter algum significado e significado histórico para estatísticos teóricos, mas serve apenas para confundir estatísticos aplicados."

AndyF
fonte
0

Hastie e Tibshirani definem que a regressão linear é uma abordagem paramétrica, uma vez que assume uma forma funcional linear de f (X). Métodos não paramétricos não assumem explicitamente o formulário para f (X). Isso significa que um método não paramétrico ajustará o modelo com base em uma estimativa de f, calculada a partir do modelo. A regressão logística estabelece que p (x) = Pr (Y = 1 | X = x) onde a probabilidade é calculada pela função logística, mas o limite logístico que separa essas classes não é assumido, o que confirma que a RL também não é paramétrica

Juan Zamora
fonte