Valor ajustado versus probabilidade de regressão logística

Variável dependente

Eu tenho um valor dependente no intervalo de [0,1]. Significado 0 e 1, e todos os valores intermediários estão incluídos. Portanto, esse é um valor proporcional, como, por exemplo, a porcentagem de terra que um agricultor fertiliza.

Modelo

O modelo no qual estou focando atualmente é um modelo logístico.

No entanto, como saída, gostaria de ver como minha variável dependente é prevista pelo modelo (para comparar os valores reais com os valores estimados).

No entanto, uma regressão logística normalmente fornece como saída "a probabilidade". Como resultado, agora estou um pouco confuso.

Meu modelo =

out <- glm(cbind(fertilized, total_land-fertilized) ~ X-variables,
       family=binomial(cloglog), data=Alldata)

Para prever a porcentagem estimada de terra fertilizada, uso

Alldata$estimated_fertilized<-predict(out,data=newdata,type="response"))

Isso está correto? Ou essa linha me dá a probabilidade em vez da porcentagem prevista? Se não estiver correto, o que devo fazer para obter o que quero?

ATUALIZAR

Dado o fato de haver perguntas sobre a exatidão do modelo escolhido, forneço algumas informações adicionais:

Distribuição das variáveis dependentes (que é uma proporção para 0-1, 0 e 1 incluída).

r logistic generalized-linear-model proportion logit user33125
fonte

Você não está realmente modelando uma probabilidade, portanto vale a pena considerar um modelo alternativo como a regressão beta.

Mdwey

Você também pode estar interessado nesta seção de perguntas e respostas stats.stackexchange.com/questions/239422/…, que diferencia entre proporções contadas e proporções contínuas.

Mdewey 22/12

Você tem o numerador e o denominador da proporção?

b Kjetil HALVORSEN

Eu acho que estou seguindo todo o seu raciocínio e, com base nisso, eu diria que a regressão logística não se aplica em nada ao seu caso. A probabilidade não é algo a ser modelado. Você deseja modelar um resultado granular, não um sim / não e não a probabilidade de sim ou não. Quanto ao tipo de regressão melhor, eu diria que OLS, beta e censurado são candidatos, e você obterá as melhores respostas sobre essa opção se postar uma imagem da distribuição de sua variável dependente.

Rolando2

Portanto, a maioria dos agricultores não usa fertilizantes, alguns o utilizam em todos os lugares e alguns têm práticas intermediárias. Parece que você pode precisar modelar isso em dois estágios: primeiro uso do modelo versus não uso com regressão logística; segundo, condicional ao uso da quantidade em qualquer modelo de fertilizante.

Mdwey

Respostas:

De fato, é bom usar a regressão logística para resumir as proporções observadas na faixa de [0-1] inclusive.

No passado, essas abordagens eram desacreditadas quando os dados eram de fato hierárquicos e o objetivo da análise era resumir as exposições em nível individual que foram agregadas em um nível de cluster. Nesse caso em particular, é incorreto aplicar a regressão logística devido à falácia ecológica e à não colapsibilidade do odds ratio como uma medida de associação.

As equações de estimativa de regressão logística são apropriadas para aplicar a qualquer análise em que o modelo linear para o log da média menos o log de um menos a média seja apropriado (o link logit) e quando a variação da proporção for igual aos tempos de proporção um menos a proporção (suposição de variação binomial). Acontece que o último é um requisito bastante rigoroso; portanto, normalmente os analistas usam um estimador de variância mais flexível, como uma equação de probabilidade quase -ibinomial ou equações de estimativa generalizada.

Um problema com a regressão logística (e suas variantes) é que não está claro como você validará o modelo. Se você resumir a precisão preditiva com erro quadrático médio - uma abordagem válida por vários motivos -, um estimador não linear de mínimos quadrados (NLS) para a curva logit deve ser usado. O NLS encontrará as curvas em forma de S ideais que resumem a (s) associação (ões) com preditores de modelo, minimizando a soma das diferenças ao quadrado da superfície de resposta prevista. Como alternativa, se o desejo é aplicar algum limiar com base em uma combinação linear de covariáveis para classificar subconjuntos de campos que foram super ou sub fertilizados, a análise discriminante linear fornecerá classificações superiores. Um modelo logístico pode ser abaixo do ideal, de acordo com um grande número de métricas preditivas.

Portanto, em última análise, não é a estrutura dos dados que deve determinar a análise, mas a questão que o analista está tentando avaliar.

AdamO
fonte