Loop de sondagem mais rápido - como posso cortar 1 ciclo da CPU?

Em um aplicativo em tempo real¹ em um ARM Cortex M3 (semelhante ao STM32F101), preciso pesquisar um pouco do registro de um periférico interno até que seja zero, o mais estreito possível. Eu uso a banda de bits para acessar o bit apropriado. O código C (de trabalho) é while (*(volatile...