Recentemente, um cliente me procurou para fazer uma análise de autoinicialização porque um revisor da FDA disse que a regressão de erros nas variáveis era inválida porque, ao agrupar dados de sites, a análise incluía dados de três sites em que dois sites incluíam algumas amostras. o mesmo.
FUNDO
O cliente tinha um novo método de teste que eles queriam mostrar como "equivalente" a um método aprovado existente. Sua abordagem foi comparar os resultados de ambos os métodos aplicados às mesmas amostras. Três locais foram usados para fazer o teste. Erros nas variáveis (regressão de Deming) foram aplicados aos dados em cada local. A idéia é que, se a regressão mostrar que o parâmetro de inclinação está próximo de 1 e a interceptação próxima de 0, isso mostraria que as duas técnicas de ensaio deram quase os mesmos resultados e, portanto, o novo método deve ser aprovado. No site 1, eles tinham 45 amostras, dando 45 observações emparelhadas. O local 2 tinha 40 amostras e o local 3, 43 amostras. Eles fizeram três regressões separadas de Deming (assumindo uma proporção de 1 para os erros de medição dos dois métodos). Portanto, o algoritmo minimizou a soma das distâncias perpendiculares ao quadrado.
Em sua submissão, o cliente apontou que algumas das amostras utilizadas nos sites 1 e 2 eram as mesmas. Na revisão, o revisor da FDA disse que a regressão de Deming era inválida porque amostras comuns foram usadas, o que causa "interferência" que invalida as suposições do modelo. Eles solicitaram que um ajuste de autoinicialização fosse aplicado aos resultados do Deming para levar em conta essa interferência.
Nesse ponto, como o cliente não sabia como executar o bootstrap em que fui chamado. O termo interferência era estranho e eu não sabia exatamente o que o revisor estava recebendo. Eu assumi que o ponto realmente era que, porque os dados agrupados tinham amostras comuns, haveria correlação para as amostras comuns e, portanto, os termos de erro do modelo nem todos seriam independentes.
ANÁLISE DO CLIENTE
As três regressões separadas foram muito semelhantes. Cada um tinha parâmetros de inclinação próximos de 1 e interceptações próximas a 0. O intervalo de confiança de 95% continha 1 e 0 para a inclinação e interceptação, respectivamente, em cada caso. A principal diferença foi uma variação residual ligeiramente maior no local 3. Além disso, eles compararam isso com os resultados do OLS e os consideraram muito semelhantes (em apenas um caso o intervalo de confiança para o declive baseado no OLS não continha 1). No caso em que o OLS CI para a inclinação não continha 1, o limite superior do intervalo era algo como 0,99.
Com os resultados sendo tão semelhantes nos três sites, os dados do site pareciam razoáveis. O cliente fez uma regressão de Deming combinada, que também levou a resultados semelhantes. Diante desses resultados, escrevi um relatório para o cliente contestando a alegação de que as regressões eram inválidas. Meu argumento é que, como existem erros de medição semelhantes em ambas as variáveis, o cliente estava certo ao usar a regressão de Deming como uma maneira de mostrar concordância / discordância. As regressões individuais do site não apresentaram problemas de erros correlatos porque nenhuma amostra foi repetida em um determinado site. Agrupando dados para obter intervalos de confiança mais apertados.
Para resolver esta dificuldade, basta reunir os dados com as amostras comuns do site 1, excluídas. Além disso, os três modelos de site individuais não têm o problema e são válidos. Isso me parece fornecer fortes evidências de concordância, mesmo sem a associação. Além disso, as medições foram realizadas independentemente nos locais 1 e 2 para os locais comuns. Então, acho que mesmo a análise agrupada usando todos os dados é válida porque os erros de medição para uma amostra no local 1 não estão correlacionados com os erros de medição na amostra correspondente no local 2. Isso realmente significa apenas repetir um ponto no projeto espaço que não deve ser um problema. Não cria correlação / "interferência".
No meu relatório, escrevi que uma análise de autoinicialização era desnecessária porque não há correlação a ser ajustada. Os três modelos de site eram válidos (não há "interferência" possível nos sites) e uma análise em pool poderia ser feita removendo as amostras comuns no site 1 ao fazer o pool. Essa análise combinada não poderia ter um problema de interferência. Um ajuste de autoinicialização não seria necessário porque não há viés para o qual ajustar.
CONCLUSÃO
O cliente concordou com a minha análise, mas teve medo de levá-la ao FDA. Eles querem que eu faça o ajuste de inicialização de qualquer maneira.
MINHAS PERGUNTAS
A) Você concorda com (1) minha análise dos resultados do cliente e (2) meu argumento de que o bootstrap é desnecessário.
B) Dado que eu tenho que inicializar a regressão de Deming, existem procedimentos SAS ou R disponíveis para eu fazer a regressão de Deming nas amostras de inicialização?
EDIT: Dada a sugestão de Bill Huber, pretendo examinar os limites da regressão de erros nas variáveis por regressão y em x e x em y. Já sabemos que, para uma versão do OLS, a resposta é essencialmente a mesma que erros nas variáveis quando se supõe que as duas variações de erro sejam iguais. Se isso é verdade para a outra regressão, acho que isso mostrará que a regressão de Deming fornece uma solução apropriada. Você concorda?
Para atender à solicitação do cliente, preciso fazer a análise de bootstrap solicitada que foi vagamente definida. Éticamente, acho que seria errado fornecer apenas o bootstrap porque ele realmente não resolve o problema real do cliente, que é justificar o procedimento de medição do ensaio. Então, darei a elas duas análises e solicitarei, pelo menos, que digam ao FDA que, além de fazer o bootstrap, fiz regressão inversa e limitei as regressões de Deming, que acho mais apropriadas. Também acho que a análise mostrará que o método deles é equivalente à referência e, portanto, a regressão de Deming também é adequada.
Planejo usar o programa R que o @whuber sugeriu em sua resposta para permitir que eu inicie a regressão de Deming. Eu não estou muito familiarizado com R, mas acho que posso fazê-lo. Eu tenho o R instalado junto com o R Studio. Isso tornará fácil o suficiente para um novato como eu?
Também tenho SAS e estou mais confortável em programar em SAS. Portanto, se alguém souber uma maneira de fazer isso no SAS, eu gostaria de saber sobre isso.
fonte
Respostas:
Este é um problema de calibração mútua: isto é, a comparação quantitativa de dois dispositivos de medição independentes.
Parece haver duas questões principais. O primeiro (que está implícito apenas na pergunta) está na estruturação do problema: como determinar se um novo método é "equivalente" a um método aprovado? O segundo diz respeito a como analisar dados nos quais algumas amostras podem ter sido medidas mais de uma vez.
Enquadrando a pergunta
A melhor solução (e talvez óbvia) para o problema declarado é avaliar o novo método usando amostras com valores precisamente conhecidos, obtidos de meios comparáveis (como plasma humano). (Isso geralmente é feito adicionando amostras reais com materiais padrão de concentração conhecida.) Como isso não foi feito, vamos supor que não seja possível ou não seja aceitável pelos reguladores (por qualquer motivo). Assim, somos reduzidos a comparar dois métodos de medição, um dos quais está sendo usado como referência, porque acredita-se que seja preciso e reproduzível (mas sem precisão perfeita).
Com efeito, o cliente solicitará que o FDA permita o novo método como proxy ou substituto para o método aprovado. Como tal, seu ônus é demonstrar que os resultados do novo método preverão, com precisão suficiente, o que o método aprovado teria determinado se tivesse sido aplicado. O aspecto sutil disso é que estamos não tentar prever os verdadeiros a si mesmos valores - que nem sequer conhecê-los. Portanto, a regressão de erros nas variáveis pode não ser a maneira mais apropriada de analisar esses dados.
A solução usual nesses casos é "regressão inversa" (como descrito, por exemplo, em Draper & Smith,Y X X Y Y X Y X . (Na minha experiência, essa abordagem tende a ser rigorosamente conservadora: esses intervalos podem ser surpreendentemente grandes, a menos que ambas as medidas sejam altamente precisas, precisas e relacionadas linearmente.)
Endereçando amostras duplicadas
Os conceitos relevantes aqui são de amostra de suporte e componentes de variação. "Suporte de amostra" refere-se à parte física de um sujeito (um ser humano aqui) que é realmente medido. Depois que uma parte do objeto é capturada, ela geralmente precisa ser dividida em subamostras adequadas ao processo de medição. Podemos estar preocupados com a possibilidade de variação entre subamostras. Em uma amostra líquida bem misturada, basicamente não há variação na quantidade subjacente (como uma concentração de um produto químico) em toda a amostra, mas em amostras de sólidos ou semi-sólidos (que podem incluir sangue), essa variação pode ser substancial. Considerando que os laboratórios geralmente precisam apenas de microlitros de uma solução para realizar uma medição, precisamos nos preocupar com a variação quase em escala microscópica. Isso pode ser importante.
A possibilidade de tal variação dentrouma amostra física indica que a variação nos resultados da medição deve ser particionada em "componentes de variação" separados. Um componente é a variação da variação dentro da amostra e outros são contribuições para a variação de cada etapa independente do processo de medição subsequente. (Essas etapas podem incluir o ato físico de subamostragem, processamento químico e físico adicional da amostra - como adição de estabilizadores ou centrifugação--, injeção da amostra no instrumento de medição, variações dentro do instrumento, variações entre os instrumentos e outros variações devido a mudanças em quem opera o instrumento, possível contaminação ambiental nos laboratórios e muito mais.Espero que isso esclareça que, para fazer um trabalho realmente bom de responder a essa pergunta, o estatístico precisa de um entendimento completo de todo o processo analítico e de amostragem. Tudo o que posso fazer é fornecer algumas orientações gerais.)
Essas considerações se aplicam à questão em questão, porque uma "amostra" que é medida em dois "locais" diferentes é realmente duas amostras físicas obtidas da mesma pessoa e depois divididas entre laboratórios. A medição pelo método aprovado utilizará uma parte da amostra dividida e a medição simultânea pelo novo método utilizará outra parte da amostra dividida. Considerando os componentes de variação que essas divisões implicam, podemos resolver a questão principal da questão. Agora deve ficar claro que as diferenças entre essas medidas emparelhadas devem ser atribuídas a duas coisas: primeiro, diferenças reais entre os procedimentos de medição - é isso que estamos tentando avaliar - e, segundo, diferenças devido a qualquer variação dentroa amostra, bem como a variação causada pelos processos físicos de extração das duas subamostras a serem medidas. Se o raciocínio físico sobre a homogeneidade da amostra e o processo de subamostragem puder estabelecer que a segunda forma de variação é insignificante, então, de fato, não há "interferência", conforme reivindicado pelo revisor. Caso contrário, esses componentes de variação podem precisar explicitamente ser modelados e estimados na análise de regressão inversa.
fonte