Usando ANOVA em porcentagens?

13

Eu tenho uma tabela com quatro grupos (4 grupos de IMC) como a variável independente (fator). Eu tenho uma variável dependente que é "porcentagem de mães fumando na gravidez".

É permitido usar ANOVA para isso ou tenho que usar qui-quadrado ou algum outro teste?

Desenhou
fonte

Respostas:

21

Há uma diferença entre ter uma variável binária como sua variável dependente e ter uma proporção como sua variável dependente.

  • Variável dependente binária :

    • Isso soa como o que você tem. (ou seja, cada mãe fumava ou não fumava)
    • Nesse caso, eu não usaria ANOVA. A regressão logística com alguma forma de codificação (talvez codificação simulada) para a variável preditora categórica é a escolha óbvia se você estiver conceituando a variável binária como variável dependente (caso contrário, você poderia fazer o qui-quadrado).
  • Proporção como variável dependente :

    • Isso não soa como o que você tem. (ou seja, você não possui dados sobre a proporção do tempo de vigília total que uma mãe fumava durante a gravidez em uma amostra de mulheres grávidas fumantes).
    • Nesse caso, a ANOVA e as abordagens de modelo linear padrão em geral podem ou não ser razoáveis ​​para seus propósitos. Veja a resposta de @Ben Bolker para uma discussão sobre os problemas.
Jeromy Anglim
fonte
Para uma variável dependente binária, no caso de eu ter apenas dados resumidos para as proporções binárias (ou seja, # nos grupos A, B e C e o número de sucessos nos grupos A, B e C), e não os dados brutos reais, como podemos usar a regressão logística? Só estou familiarizado com o uso com os dados brutos.
Bryan
15

Depende de quão próximas as respostas dentro dos diferentes grupos estão de 0 ou 100%. Se houver muitos valores extremos (ou seja, muitos valores empilhados em 0 ou 100%), isso será difícil. (Se você não conhece os "denominadores", ou seja, o número de assuntos a partir dos quais as porcentagens são calculadas, não é possível usar as abordagens da tabela de contingência de qualquer maneira.) Se os valores dentro dos grupos forem mais razoáveis, você poderá transformar o variável de resposta (por exemplo, conversão arcsine-square-root clássica ou talvez logit). Existem várias abordagens gráficas (preferenciais) e de teste de hipótese nula (menos preferenciais) para decidir se os dados transformados atendem adequadamente às suposições da ANOVA (homogeneidade de variância e normalidade, a primeira mais importante que a segunda). Testes gráficos: boxplots (homogeneidade de variância) e QQ (normalidade) [estes últimos devem ser feitos dentro de grupos ou em resíduos]. Testes de hipótese nula: por exemplo, teste de Bartlett ou Fligner (homogeneidade de variância), Shapiro-Wilk, Jarque-Bera, etc.

Ben Bolker
fonte
11

Você precisa ter os dados brutos, para que a variável de resposta seja 0/1 (não fumaça, fumaça). Então você pode usar a regressão logística binária. Não é correto agrupar o IMC em intervalos. Os pontos de corte não estão corretos, provavelmente não existem e você não está testando oficialmente se o IMC está associado ao tabagismo. No momento, você está testando se o IMC com muitas das informações descartadas está associado ao tabagismo. Você verá que especialmente os intervalos externos do IMC são bastante heterogêneos.

Frank Harrell
fonte
2
@Frank - por que "não é correto" agrupar o IMC? isso parece perfeitamente razoável, desde que os resultados sejam adequadamente interpretados. Você poderia estar testando, por exemplo, se "baixo peso" "peso saudável" "excesso de peso" e "obeso" estão associados ao tabagismo, onde esses termos são definidos pelas faixas de IMC. Não vejo "errado" aqui.
probabilityislogic
Acredito que o OP esteja trabalhando com um conjunto de dados instrucionais comuns e pode não ter o IMC bruto. Embora geralmente não seja ideal discretizar regressores contínuos, isso não é "incorreto". Pode até ser útil recorrer a isso quando suspeitamos que as medições são barulhentas e não há outro recurso. De fato, a hipótese real que queremos testar é se a obesidade está relacionada ao fumo; O IMC é apenas uma maneira de medir a obesidade (e tem seus problemas pelo que entendi).
JMS 29/05
4
Mesmo quando as medições são ruidosas, a análise de variáveis ​​como contínuas é superior. Categorizar o IMC cria mais problemas do que diferentes opções de análise podem corrigir. De fato, as estimativas sobre categorização não têm mais uma interpretação científica. Uma quantidade científica é aquela que tem significado fora do experimento atual. Você verá que as estimativas de grupo (por exemplo, as probabilidades de log de Y = 1 para intervalos altos e baixos de X) são funções de todo o conjunto de IMCs observados. Por exemplo, se você adicionar IMCs mais altos ou extremamente baixos à amostra, os "efeitos" ficarão mais fortes.
Frank Harrell
Para aqueles que instalaram o R e o RStudio, uma demonstração interativa pode ser encontrada em biostat.mc.vanderbilt.edu/BioMod - veja a nova marcação verde. Você precisa carregar o script no RStudio e também instalar o pacote Hmisc.
27511 Frank Frank Harrell
"Mesmo quando as medições são barulhentas, a análise de variáveis ​​como contínua é superior" Isso é incorreto (a generalidade disso, ou seja - geralmente é verdade). Imagine que você tenha uma covariável contínua em que o erro em sua medição aumenta com sua magnitude, por exemplo. É claro que a melhor coisa a fazer é modelar o erro ou obter melhores medições etc. Mas dizer que está incorreto é simplesmente uma afirmação muito forte para se fazer.
JMS
3

Se você optar por fazer uma ANOVA comum em dados proporcionais, é crucial verificar a suposição de variações de erro homogêneas. Se (como é comum nos dados de porcentagem), as variações de erro não são constantes, uma alternativa mais realista é tentar a regressão beta, o que pode explicar essa heterocedasticidade no modelo. Aqui está um artigo discutindo várias formas alternativas de lidar com uma variável de resposta em porcentagem ou proporção: http://www.ime.usp.br/~sferrari/beta.pdf

Se você usa R, o pacote betareg pode ser útil.

Will Townes
fonte