Variável dependente
Eu tenho um valor dependente no intervalo de [0,1]. Significado 0 e 1, e todos os valores intermediários estão incluídos. Portanto, esse é um valor proporcional, como, por exemplo, a porcentagem de terra que um agricultor fertiliza.
Modelo
O modelo no qual estou focando atualmente é um modelo logístico.
- No entanto, como saída, gostaria de ver como minha variável dependente é prevista pelo modelo (para comparar os valores reais com os valores estimados).
No entanto, uma regressão logística normalmente fornece como saída "a probabilidade". Como resultado, agora estou um pouco confuso.
Meu modelo =
out <- glm(cbind(fertilized, total_land-fertilized) ~ X-variables,
family=binomial(cloglog), data=Alldata)
Para prever a porcentagem estimada de terra fertilizada, uso
Alldata$estimated_fertilized<-predict(out,data=newdata,type="response"))
Isso está correto? Ou essa linha me dá a probabilidade em vez da porcentagem prevista? Se não estiver correto, o que devo fazer para obter o que quero?
ATUALIZAR
Dado o fato de haver perguntas sobre a exatidão do modelo escolhido, forneço algumas informações adicionais:
Distribuição das variáveis dependentes (que é uma proporção para 0-1, 0 e 1 incluída).
fonte
Respostas:
De fato, é bom usar a regressão logística para resumir as proporções observadas na faixa de [0-1] inclusive.
No passado, essas abordagens eram desacreditadas quando os dados eram de fato hierárquicos e o objetivo da análise era resumir as exposições em nível individual que foram agregadas em um nível de cluster. Nesse caso em particular, é incorreto aplicar a regressão logística devido à falácia ecológica e à não colapsibilidade do odds ratio como uma medida de associação.
As equações de estimativa de regressão logística são apropriadas para aplicar a qualquer análise em que o modelo linear para o log da média menos o log de um menos a média seja apropriado (o link logit) e quando a variação da proporção for igual aos tempos de proporção um menos a proporção (suposição de variação binomial). Acontece que o último é um requisito bastante rigoroso; portanto, normalmente os analistas usam um estimador de variância mais flexível, como uma equação de probabilidade quase -ibinomial ou equações de estimativa generalizada.
Um problema com a regressão logística (e suas variantes) é que não está claro como você validará o modelo. Se você resumir a precisão preditiva com erro quadrático médio - uma abordagem válida por vários motivos -, um estimador não linear de mínimos quadrados (NLS) para a curva logit deve ser usado. O NLS encontrará as curvas em forma de S ideais que resumem a (s) associação (ões) com preditores de modelo, minimizando a soma das diferenças ao quadrado da superfície de resposta prevista. Como alternativa, se o desejo é aplicar algum limiar com base em uma combinação linear de covariáveis para classificar subconjuntos de campos que foram super ou sub fertilizados, a análise discriminante linear fornecerá classificações superiores. Um modelo logístico pode ser abaixo do ideal, de acordo com um grande número de métricas preditivas.
Portanto, em última análise, não é a estrutura dos dados que deve determinar a análise, mas a questão que o analista está tentando avaliar.
fonte