Recentemente, recebi a seguinte pergunta por e-mail. Postarei uma resposta abaixo, mas estava interessado em ouvir o que os outros pensavam.
Você chamaria a regressão logística de teste não paramétrico? Meu entendimento é que simplesmente rotular um teste como não paramétrico, porque seus dados normalmente não são distribuídos, é insuficiente. É mais a ver com a falta de suposições. a regressão logística tem suposições.
hypothesis-testing
logistic
nonparametric
Jeromy Anglim
fonte
fonte
Respostas:
Larry Wasserman define um modelo paramétrico como um conjunto de distribuições "que podem ser parametrizadas por um número finito de parâmetros". (p.87) Em contraste, um modelo não paramétrico é um conjunto de distribuições que não podem ser parametrizadas por um número finito de parâmetros.
Assim, por essa definição , a regressão logística padrão é um modelo paramétrico. O modelo de regressão logística é paramétrico porque possui um conjunto finito de parâmetros. Especificamente, os parâmetros são os coeficientes de regressão. Eles geralmente correspondem a um para cada preditor mais uma constante. A regressão logística é uma forma particular do modelo linear generalizado. Especificamente, envolve o uso de uma função de link de logit para modelar dados distribuídos binomialmente.
Curiosamente, é possível realizar uma regressão logística não paramétrica (por exemplo, Hastie, 1983). Isso pode envolver o uso de splines ou alguma forma de suavização não paramétrica para modelar o efeito dos preditores.
Referências
fonte
Eu diria que a regressão logística não é um teste; no entanto, uma regressão logística pode levar a nenhum teste ou vários testes.
Você está certo de que rotular algo não paramétrico porque não é normal é insuficiente. Eu chamaria a família exponencial explicitamente de paramétrica, de modo que consideraria a regressão logística (e regressão de Poisson e Gamma e ...) como paramétrica, embora possa haver circunstâncias nas quais eu possa aceitar um argumento de que determinadas regressões logísticas poderiam ser considerado não paramétrico (ou pelo menos em um sentido vagamente ondulado à mão, apenas quase "paramétrico").
Cuidado com qualquer confusão sobre os dois sentidos, nos quais uma regressão pode ser chamada de não paramétrica.
Ambos os sentidos são usados, mas quando se trata de regressão, o segundo tipo é realmente usado com mais frequência.
É também possível ser não paramétrico em ambos os sentidos, mas mais difícil (com dados suficientes, eu poderia, por exemplo, ajustar uma Theil regressão linear local ponderada).
No caso de GLMs, a segunda forma de regressão múltipla não paramétrica inclui GAMs; essa segunda forma é o sentido em que Hastie geralmente está operando (e sob o qual ele está operando nessa citação).
fonte
Uma distinção útil que pode acrescentar um pouco às respostas acima: Andrew Ng fornece uma heurística para o que significa ser um modelo não paramétrico na Aula 1 a partir dos materiais do curso para o curso CS-229 de Stanford sobre aprendizado de máquina.
Ng diz (pp. 14-15):
Eu acho que essa é uma maneira contrastante útil de pensar sobre isso, porque infunde diretamente a noção de complexidade. Os modelos não paramétricos não são inerentemente menos complexos, porque podem exigir a manutenção de muito mais dados de treinamento. Isso significa apenas que você não está reduzindo o uso dos dados de treinamento, compactando-os em um cálculo finitamente parametrizado. Para eficiência, imparcialidade ou várias outras propriedades, convém parametrizar. Mas pode haver ganhos de desempenho se você puder renunciar à parametrização e manter muitos dados por perto.
fonte
Eu acho que a regressão logística é uma técnica paramétrica.
Isso pode ser útil, de Wolfowitz (1942) [Funções de partição aditiva e uma classe de hipóteses estatísticas Os anais de estatística matemática, 1942, 13, 247-279]:
Além disso, tendo ouvido falar bastante sobre isso, achei isso divertido por Noether (1984) [Não paramétricos: os primeiros anos - impressões e lembranças The American Statistician, 1984, 38, 173, 173-178]:
fonte
Hastie e Tibshirani definem que a regressão linear é uma abordagem paramétrica, uma vez que assume uma forma funcional linear de f (X). Métodos não paramétricos não assumem explicitamente o formulário para f (X). Isso significa que um método não paramétrico ajustará o modelo com base em uma estimativa de f, calculada a partir do modelo. A regressão logística estabelece que p (x) = Pr (Y = 1 | X = x) onde a probabilidade é calculada pela função logística, mas o limite logístico que separa essas classes não é assumido, o que confirma que a RL também não é paramétrica
fonte