Estou pensando em construir um modelo de previsão de uma relação , onde e e . Portanto, a proporção estaria entre e .a ≤ b a > 0 b > 0 0 1
Eu poderia usar regressão linear, embora isso não se limite naturalmente a 0..1. Não tenho motivos para acreditar que o relacionamento seja linear, mas é claro que geralmente é usado de qualquer maneira, como um primeiro modelo simples.
Eu poderia usar uma regressão logística, embora normalmente seja usada para prever a probabilidade de um resultado de dois estados, não para prever um valor contínuo do intervalo 0..1.
Sabendo nada mais, você usaria regressão linear, regressão logística ou opção oculta c ?
Respostas:
Você deve escolher "opção oculta c", onde c é regressão beta. Este é um tipo de modelo de regressão apropriado quando a variável de resposta é distribuída como Beta . Você pode pensar nisso como análogo a um modelo linear generalizado . É exatamente o que você está procurando. Existe um pacote
R
chamado betareg que lida com isso. Não sei se você usaR
, mas mesmo se não conseguir ler as 'vinhetas', elas fornecerão informações gerais sobre o tópico, além de como implementá-loR
(das quais você não precisaria). Aquele caso).Editar (muito mais tarde): deixe-me fazer um esclarecimento rápido. Interpreto a pergunta como sendo sobre a razão de dois valores positivos e reais. Nesse caso, (e eles são distribuídos como Gammas), essa é uma distribuição Beta. No entanto, se é uma contagem de 'sucessos' de um total conhecido, , de 'tentativas', essa seria uma proporção de contagem , não uma proporção contínua, e você deve usar GLM binomial (por exemplo, logística regressão). Para saber como fazê-lo em R, consulte, por exemplo, Como fazer regressão logística em R quando o resultado é fracionário (uma razão de duas contagens)?b a / ba b a/b
Outra possibilidade é usar a regressão linear se as relações puderem ser transformadas de modo a atender às premissas de um modelo linear padrão, embora eu não seja otimista quanto ao fato de realmente funcionar.
fonte
São amostras emparelhadas ou duas populações independentes?
Se populações independentes, você pode considerar log (M) = log (B) + * log (razão)Xi . M é sua medida (um vetor contendo todos os valores de A e B) e X é um vetor = 1 se for um valor de A, = 0 se for um valor de B.M i X i M iXi Mi Xi Mi
Sua interceptação dessa regressão será log (B) e sua inclinação será log (razão).
Veja mais aqui:
Beyene J, Moineddin R. Métodos para estimativa do intervalo de confiança de um parâmetro de razão com aplicação aos quocientes de localização. Metodologia de pesquisa médica da BMC. 2005; 5 (1): 32.
Edição: Eu escrevi um addon SPSS para fazer exatamente isso. Eu posso compartilhar se você estiver interessado.
fonte
REGRESSION
após a transformação dos dados no log. Desde então, eu escrevi uma versão mais sofisticada que usaGLM
. Lido com medições de emissão de luz e meus testes sugeriram que a regressão gama com um link de log era a menos propensa a incertezas nos parâmetros. Para a maioria dos meus dados reais, as respostas usando normal, negativo-binomial e gama com log-link eram todos muito semelhantes (pelo menos com a precisão que eu precisava)Não é verdade. Os dados para a regressão logística são binários 0 ou 1, mas o modelo prevê p dizer a probabilidade de sucesso, dados os preditores , onde é o número de variáveis preditivas no modelo. Na verdade, devido à função logit, o modelo linear prediz o valor do log ( ). Portanto, para obter a previsão para p, basta fazer a transformação inversa que é o logit previsto. i = 1 , 2 , . . , k k pXi i=1,2,..,k k p=exp(x)p1−p xp=exp(x)[1+exp(x)] x
fonte