Como combinar modelos de regressão?

Digamos que eu tenho três conjuntos de dados de tamanho cada: $n$

= alturas de pessoas apenas dos EUA $y_1$

= alturas de homens de todo o mundo $y_2$

= alturas das mulheres de todo o mundo $y_3$

E eu construir um modelo linear para cada com fatores , : $x_i$ $i = 1,..., k$

$\hat{y}_{j} = \beta_{0} + \beta_{1}x_{1} + \beta_{2}x_{2} + \epsilon_{j}$

com com as propriedades usuais do OLS. E eu posso usar um fator em mais de uma regressão. $\epsilon$ $x_i$

Minha pergunta é: como eu poderia combinar as regressões para obter estimativas para:

= altura dos homens apenas dos EUA $y_{12}$

= altura das mulheres apenas nos EUA $y_{13}$

para os quais não tenho dados

Pensei em talvez algum tipo de ponderação:

$\hat{y}_{12} = w_{1} \hat{y}_{1} + (1 - w_{1}) \hat{y}_{2}$

$w_1$

regression multiple-regression ensemble aggregation J4y
fonte

Não tenho nada sólido o suficiente para ser uma resposta, mas como um comentário: a primeira coisa que vem à mente é usar uma única regressão hierárquica (mista). Mas eu realmente não consigo descobrir quais seriam os efeitos aleatórios, então talvez não funcionasse. Mas pensei em lançar a idéia lá fora.

Wayne Wayne

y_{12}

$y_{12}$

Meu pensamento inicial era de y com uma interceptação por sexo - algo como height ~ f1 + f2 + f3 + (1 | sex)no pacote Rlmer

Wayne

Não está claro se você deseja estimativas de altura para cada homem e mulher (mais um problema de classificação) ou para caracterizar a distribuição das alturas de cada sexo. Eu assumirei o último. Você também não especifica quais informações adicionais estão usando em seu modelo, por isso me limitarei a abordar o caso em que você só possui dados de altura (e dados de sexo, no caso de cidadãos não americanos).

Eu recomendo simplesmente ajustar uma mistura de distribuições apenas aos dados de altura dos EUA , porque as distribuições de altura em homens e mulheres são razoavelmente diferentes. Isso estimaria os parâmetros de duas distribuições que, quando somadas, melhor descrevem a variação nos dados. Os parâmetros dessas distribuições (média e variância, uma vez que uma distribuição gaussiana deve funcionar bem) fornecem as informações que você procura. Os pacotes R mixtoolse mixdistpermitem fazer isso; Tenho certeza de que existem muitos mais também.

Essa solução pode parecer estranha, porque deixa de fora todas as informações que você tem de fora dos EUA, onde você conhece o sexo e a altura de cada indivíduo. Mas acho que se justifica porque:

1) Temos uma forte expectativa prévia de que os homens são, em média, mais altos que as mulheres. A Lista da Wikipedia de altura média humana em todo o mundo não mostra nem mesmo um país ou região em que as mulheres são mais altas que os homens. Portanto, a identidade da distribuição com maior altura média não está realmente em dúvida.

2) A integração de informações mais específicas a partir de dados fora dos EUA provavelmente envolverá a suposição de que a covariância entre sexo e altura é a mesma fora e fora dos EUA. Mas isso não é inteiramente verdade - a mesma lista da Wikipedia indica que a proporção entre as alturas masculina e feminina varia entre aproximadamente 1,04 e 1,13.

3) Seus dados internacionais podem ser muito mais complicados de analisar, porque pessoas de diferentes países também apresentam uma grande variação nas distribuições de altura. Você pode, portanto, considerar modelar misturas de misturas de distribuições. Isso também pode ser verdade nos EUA, mas é provável que seja menos problemático do que um conjunto de dados que inclui holandeses (altura média: 184 cms) e indonésios (altura média: 158 cms). E essas são médias ao nível do país; subpopulações diferem em um grau par.

mkt - Restabelecer Monica
fonte

Como combinar modelos de regressão?

Respostas: