Na camada de saída de uma rede neural, é típico usar a função softmax para aproximar uma distribuição de probabilidade: Isso é caro para calcular por causa dos expoentes. Por que não simplesmente executar uma transformação Z para que todas as saídas sejam positivas e normalizar apenas dividindo...