Quando comparamos grupos em variáveis ​​de controle, deveríamos estar usando testes de equivalência?

13

Em muitos trabalhos que consideram tratamentos e resultados, vejo tabelas (geralmente "tabela 1") do que poderia ser chamado de variáveis ​​incômodas (geralmente demográficas, às vezes condições médicas) com testes de significância e texto como "os grupos eram amplamente semelhantes, não houve diferenças significativas em XXXXX, consulte a Tabela ". Portanto, o objetivo claro é mostrar que os grupos designados para diferentes tratamentos são semelhantes.

No entanto, isso me parece como "aceitar o nulo" e que o que devemos fazer (ou exigir que seja feito) são testes de equivalência.

Isso pode se aplicar a estudos randomizados ou a estudos observacionais. Estou faltando alguma coisa aqui?

Peter Flom - Restabelece Monica
fonte
1
Acho que você está se referindo à 'tabela 1'. Você está perguntando sobre ECRs em si, ou também estudos observacionais?
gung - Reintegrar Monica
@gung sim, geralmente é a Tabela 1. Pode ser estudos observacionais ou ensaios clínicos randomizados. Editei minha pergunta para refletir seu comentário.
Peter Flom - Restabelece Monica
1
Mesmo que eu corra o risco de afirmar o óbvio: existem alguns documentos que abordam essa questão (por exemplo, de Boer et al. (2015) ). Penso que o consesus é que o teste de hipóteses deve ser abandonado nas tabelas de linha de base. A Declaração CONSORT para estudos clínicos, bem como a Declaração STROBE para estudos observacionais recomendam evitar o teste de hipóteses nas tabelas de linha de base. Se os testes de equivalência são melhores, não sei.
COOLSerdash
O teste contra nulo ou a equivalência depende da motivação e afeta a discussão que pode ser extraída da tabela. Afirmar equivalência é uma condição muito forte e suspeito que não seja necessário na maioria dos casos, a menos que o autor queira tirar fortes conclusões sobre a demografia, etc. Seria melhor e mais apropriado ter um procedimento formalizado para quantificar o risco de viés de desequilíbrios nos demografia. Eu não examinei isso, mas estaria interessado em opiniões de outras pessoas sobre como isso pode ser.
ReneBt

Respostas:

10

Essa é uma questão complicada que apresenta muitas questões relacionadas a: 1) especificar claramente uma hipótese, 2) entender quais mecanismos causais (podem) estão subjacentes a um efeito hipotético e 3) escolha / estilo de apresentação.

Você está certo que, se aplicarmos boas práticas estatísticas, afirmar que "grupos são semelhantes", seria necessário realizar um teste de equivalência. No entanto, testes de equivalência sofrem os mesmos problemas que os do NHST: o poder é apenas um reflexo do tamanho da amostra e do número de comparações: esperamos diferenças, mas sua extensão e efeito em uma análise principal são muito mais importantes.

Quando confrontadas por essas situações, as comparações de linha de base são quase sempre uma loucura. Melhores métodos (de ciência e estatística) podem ser aplicados. Tenho alguns conceitos / respostas de ações que considero ao responder a perguntas como esta.

Uma coluna "total" é mais importante que as colunas divididas por tratamento; uma discussão é justificada sobre esses valores.

Em ensaios clínicos, a amostra de segurança é geralmente analisada. Esse é o subconjunto daqueles que foram abordados primeiro, depois consentiram, randomizaram e finalmente expostos a pelo menos uma iteração de controle ou tratamento. Nesse processo, enfrentamos vários graus de viés de participação.

Provavelmente, o aspecto mais importante e omitido desses estudos é apresentar os resultados da Tabela 1 de forma agregada . Isso alcança o objetivo mais importante de uma tabela 1: demonstrar a outros pesquisadores como a amostra do estudo é generalizável para a população em geral na qual os resultados se aplicam.

Acho surpreendente como investigadores, leitores e revisores fixos estão sobre as tendências tangenciais nas características dos pacientes quando há uma total desconsideração dos critérios de inclusão / exclusão e da generalização da amostra.

Tenho vergonha de dizer que fui analista de um estudo que ignorou isso como um problema. Recrutamos pacientes e, em decorrência de problemas logísticos, esperamos quase um ano antes de implementar a intervenção. Não apenas o diagrama do consorte mostrou uma enorme queda entre esses períodos, mas a amostra mudou. O resultado foi em grande parte sub / subempregado, mais velho e mais saudável do que as pessoas que pretendíamos alcançar. Eu tinha profundas preocupações com a generalização do estudo, mas era difícil fazer lobby para que essas preocupações fossem divulgadas.

A potência e o erro tipo I dos testes para detectar desequilíbrio nas características da linha de base dependem do número real de características

O objetivo de apresentar uma lista tão detalhada das variáveis ​​de linha de base, como mencionado anteriormente, é fornecer um instantâneo completo da amostra; histórico de pacientes, laboratórios, medicamentos e dados demográficos. Esses são todos os aspectos que os médicos usam para recomendar tratamento aos pacientes. Todos eles são acreditados para prever o resultado. Mas o número de tais fatores é impressionante. Até 30 variáveis ​​diferentes podem ser comparadas. O risco bruto de erro do tipo I é 1- (1-0,05) ^ 30 = 0,79. Bonferroni ou correções de permutação são recomendáveis ​​se o teste deve ser realizado.

O teste estatístico em sua forma mais pura deve ser imparcial e deve ser pré-especificado. No entanto, a escolha e a apresentação das características da linha de base geralmente são relativas. Eu acho que a última abordagem é apropriada: se descobrimos, como no meu julgamento, características interessantes que descrevem a amostra efetivamente, devemos ter a liberdade de optar por apresentar esses valores ad hoc . O teste pode ser realizado se tiver algum valor, mas as advertências usuais se aplicam: elas não são hipóteses de interesse, há um alto risco de confusão quanto ao significado de resultados significativos e não significativos, e os resultados refletem mais tamanho da amostra e considerações de apresentação do que qualquer verdade.

A rerandomização pode ser feita, mas somente antes dos pacientes serem expostos ao tratamento

Como mencionei, a amostra analisada é tipicamente a amostra de segurança. No entanto, a rerandomização é uma abordagem fortemente defendida e teoricamente consistente para pacientes que não foram expostos ao tratamento do estudo. Isso se aplica apenas às configurações nas quais a inscrição em lote é realizada. Aqui, 100 participantes são recrutados e randomizados. Se, por exemplo, a probabilidade atribuir uma alta proporção de pessoas idosas a um grupo, a amostra poderá ser re-aleatória para equilibrar a idade. Isso não pode ser feito com a inscrição sequencial ou escalonada, que é o cenário em que a maioria dos ensaios é realizada. Isso ocorre porque o momento da inscrição tende a prever o status do paciente por "viés" prevalente nos casos (incidente confuso e critérios prevalecentes de elegibilidade).

Projeto balanceado não é um requisito para inferência válida

O pressuposto de randomização diz que, teoricamente, todos os participantes terão distribuições médias iguais de covariáveis. No entanto, como mencionado anteriormente, ao comparar 30 ou mais níveis, a probabilidade cumulativa de desequilíbrio não é desprezível. De fato, o desequilíbrio das covariáveis pode ser irrelevante quando se considera o todo.

Se a randomização for justa, podemos ver que a idade é elevada no grupo de tratamento, mas o tabagismo é elevado no grupo de controle: ambos contribuem individualmente para o risco do resultado. O que é necessário para uma inferência eficiente e válida é que o escore de propensão seja equilibrado entre os grupos. Esta é uma condição muito mais fraca. Infelizmente, a propensão não pode ser inspecionada quanto ao equilíbrio sem um modelo de risco. No entanto, é fácil ver que essa propensão depende de uma combinação de covariáveis, e a probabilidade de um desequilíbrio nas propensões em uma amostra aleatória é muito menos provável, apesar de ser impossível mostrar exatamente.

Se um modelo de risco for conhecido ou se houver fortes preditores do resultado, ECRs mais eficientes e válidos serão feitos simplesmente ajustando-se a esses fatores, independentemente de serem equilibrados entre os grupos de tratamento.

Um dos meus artigos favoritos, 7 mitos de ensaios clínicos randomizados , discute isso. O ajuste melhora a eficiência quando a variável de ajuste é fortemente preditiva do resultado. Acontece que, mesmo com um equilíbrio perfeito de 50/50, usando a randomização bloqueada, ou mesmo como uma coincidência de como a randomização foi realizada, o ajuste reduzirá os ICs, exigindo que menos participantes tenham um estudo com igual poder; isso reduz custos e riscos. É chocante que isso não seja feito com mais frequência.

Estudos observacionais requerem controle para confusão, independentemente do que a Tabela 1 mostra

A suposição de randomização elimina a confusão. Com o tratamento não randomizado, há confusão. Um fator de confusão é uma variável que é causal do resultado e prevê o recebimento do tratamento quase experimental. Não há teste para determinar quais variáveis ​​são / são fatores de confusão. O risco de espreitar os dados para responder a essas perguntas é que os fatores de confusão são praticamente indistinguíveis dos mediadores ou colisadores sem uma medição totalmente perfeita dos valores longitudinais (e mesmo assim ...). O ajuste para mediadores atenua qualquer efeito, o ajuste do colisor pode causar qualquer tipo de viés. Além disso, não é necessário ajustar um conjunto total de fatores de confusão, mas sim remover o critério de backdoor.

Por exemplo, em um estudo da função pulmonar e do tabagismo em adolescentes: crianças mais velhas têm maior probabilidade de fumar, mas, como são mais altas, sua função pulmonar é maior. Acontece que o ajuste somente da altura é suficiente para remover confusões, uma vez que satisfaz o critério da porta traseira. Novos ajustes para a idade simplesmente perdem a eficiência. No entanto, apenas inspecionar o "equilíbrio" de uma tabela 1 em fumantes e não fumantes sugere que a idade e a altura estão "desequilibradas" e, portanto, devem ser controladas. Isso está incorreto.

AdamO
fonte
1
Eu concordo com isso e estou bem ciente dos problemas com os valores de p. (Você encontrará poucas pessoas neste site ou tem mais valor anti-p do que eu). E eu sou a favor de métodos melhores, alguns dos quais você cria. Obviamente, algumas variáveis ​​podem ser supressoras (de modo que incluí-las aumente o tamanho do efeito principal). No entanto, se eu estiver, digamos, revisando um artigo para uma revista, você acha que recomendar testes de equivalência para a tabela 1 é bom ou você gostaria de obter sua resposta completa aqui?
Peter Flom - Restabelece Monica
1
@ PeterFlom Vejo o contexto um pouco melhor agora. Como revisor estatístico, consideraria se o comentário é relevante para as análises subsequentes. Se não for relevante, eu os incentivaria a comentar esse comentário, pois não é útil. Se for relevante, eu os encorajaria a) considerar uma abordagem de análise mais robusta ou b) usar análises de sensibilidade para determinar se existe uma possível influência. O equilíbrio das covariáveis ​​só importa na medida em que influencia as análises, então é aí que eu preferiria que a atenção fosse dada. Talvez não seja um design compatível com a propensão, é?
Adamo
1
@PeterFlom Como revisor, não faria sentido recomendar se livrar dos valores-p na "Tabela 1"?
Ameba diz Reinstate Monica
1
AdamO, ótima resposta (+1), mas estou um pouco preocupado com a recomendação de que vários ajustes de teste sejam "aconselháveis" no contexto da "Tabela 1". O erro Tipo I é de alguma preocupação aqui? Eu sinto que, neste caso, o erro Tipo II é realmente muito mais importante (não se deve perder o fato de que alguma variável da linha de base difere entre o tratamento e os grupos de controle). Usando Bonferroni, o erro tipo II aumentará bastante. Isso está relacionado ao argumento de Peter sobre testes de equivalência: em certo sentido, o Tipo I e o Tipo II trocam de lugar se você alternar para o ponto de vista "equivalência".
Ameba diz Reinstate Monica
1
@amoeba Absolutamente. Se insistirmos nessa abordagem (não é minha recomendação), os NHSTs exigirão que controlemos o erro do tipo I. Penso que meu argumento é que devemos controlar o FWER porque não nos importamos com qual variável está desequilibrada. Pode ser definido como um valor generoso como 0,2. Não conheço nenhum teste de equivalência para o qual a potência aumenta à medida que o tamanho da amostra aumenta; portanto, as justificativas para esses testes são prolixo, subjetivo e impreciso.
Adamo