Eu tenho uma tabela com quatro grupos (4 grupos de IMC) como a variável independente (fator). Eu tenho uma variável dependente que é "porcentagem de mães fumando na gravidez".
É permitido usar ANOVA para isso ou tenho que usar qui-quadrado ou algum outro teste?
Depende de quão próximas as respostas dentro dos diferentes grupos estão de 0 ou 100%. Se houver muitos valores extremos (ou seja, muitos valores empilhados em 0 ou 100%), isso será difícil. (Se você não conhece os "denominadores", ou seja, o número de assuntos a partir dos quais as porcentagens são calculadas, não é possível usar as abordagens da tabela de contingência de qualquer maneira.) Se os valores dentro dos grupos forem mais razoáveis, você poderá transformar o variável de resposta (por exemplo, conversão arcsine-square-root clássica ou talvez logit). Existem várias abordagens gráficas (preferenciais) e de teste de hipótese nula (menos preferenciais) para decidir se os dados transformados atendem adequadamente às suposições da ANOVA (homogeneidade de variância e normalidade, a primeira mais importante que a segunda). Testes gráficos: boxplots (homogeneidade de variância) e QQ (normalidade) [estes últimos devem ser feitos dentro de grupos ou em resíduos]. Testes de hipótese nula: por exemplo, teste de Bartlett ou Fligner (homogeneidade de variância), Shapiro-Wilk, Jarque-Bera, etc.
fonte
Você precisa ter os dados brutos, para que a variável de resposta seja 0/1 (não fumaça, fumaça). Então você pode usar a regressão logística binária. Não é correto agrupar o IMC em intervalos. Os pontos de corte não estão corretos, provavelmente não existem e você não está testando oficialmente se o IMC está associado ao tabagismo. No momento, você está testando se o IMC com muitas das informações descartadas está associado ao tabagismo. Você verá que especialmente os intervalos externos do IMC são bastante heterogêneos.
fonte
Se você optar por fazer uma ANOVA comum em dados proporcionais, é crucial verificar a suposição de variações de erro homogêneas. Se (como é comum nos dados de porcentagem), as variações de erro não são constantes, uma alternativa mais realista é tentar a regressão beta, o que pode explicar essa heterocedasticidade no modelo. Aqui está um artigo discutindo várias formas alternativas de lidar com uma variável de resposta em porcentagem ou proporção: http://www.ime.usp.br/~sferrari/beta.pdf
Se você usa R, o pacote betareg pode ser útil.
fonte