Estou revendo um artigo que tem o seguinte experimento biológico. Um dispositivo é usado para expor as células a quantidades variáveis de estresse de cisalhamento de fluidos. À medida que uma maior tensão de cisalhamento é aplicada às células, muitas delas começam a se destacar do substrato. Em cada nível de tensão de cisalhamento, eles contam as células que permanecem conectadas e, como sabem o número total de células que foram conectadas no início, podem calcular uma conexão fracionária (ou desapego).
Se você plotar a fração aderente versus a tensão de cisalhamento, o resultado é uma curva logística. Em teoria, cada célula individual é uma única observação, mas obviamente existem milhares ou dezenas de milhares de células; portanto, o conjunto de dados seria gigantesco, se fosse configurado da maneira usual (com cada linha sendo uma observação).
Então, naturalmente, minha pergunta (como declarada no título) deve fazer sentido agora. Como fazemos uma regressão logística usando o resultado fracionário como o DV? Existe alguma transformação automática que pode ser feita no glm?
Na mesma linha, se houvesse potencialmente 3 ou mais medições (fracionárias), como fazer isso para uma regressão logística multinomial?
fonte
http://www.ats.ucla.edu/stat/r/dae/mlogit.htm
Respostas:
A
glm
funçãoR
permite três maneiras de especificar a fórmula para um modelo de regressão logística.O mais comum é que cada linha do quadro de dados represente uma única observação e a variável de resposta seja 0 ou 1 (ou um fator com 2 níveis ou outra variável com apenas 2 valores exclusivos).
Outra opção é usar uma matriz de 2 colunas como variável de resposta, com a primeira coluna sendo a contagem de 'sucessos' e a segunda coluna sendo a contagem de 'falhas'.
Você também pode especificar a resposta como uma proporção entre 0 e 1 e especificar outra coluna como o 'peso' que fornece o número total de onde a proporção é (portanto, uma resposta de 0,3 e um peso de 10 é igual a 3 ' sucessos 'e 7' falhas ').
Qualquer uma das duas últimas maneiras se ajustaria ao que você está tentando fazer, a última parece ser a mais direta na maneira como você descreve seus dados.
fonte
Para começar, se você tiver uma variável dependente proporcional, poderá usar a Regressão Beta. Isso não se estende (com meu conhecimento limitado) a múltiplas proporções.
Para uma visão geral da regressão beta e uma implementação de R, confira betareg .
fonte
Eu
nnet::multinom
tenho usado (o pacote nnet faz parte do MASS) para uma finalidade semelhante, ele aceita entrada contínua em [0, 1].Se você precisar de uma referência: C. Beleites et.al .: Classificação espectroscópica Raman de tecidos de astrocitoma: usando informações de referência suaves. Anal Bioanal Chem, 2011, vol. 400 (9), pp. 2801-2816
fonte