Desafio de desempenho do C ++: conversão de inteiro para std :: string


Alguém pode bater o desempenho do meu número inteiro para o código std :: string, vinculado abaixo?

Já existem várias perguntas que explicam como converter um número inteiro em um std::stringem C ++, como este , mas nenhuma das soluções fornecidas é eficiente.

Aqui está o código pronto para compilação para alguns métodos comuns para competir:

Ao contrário do que se pensa , boost::lexical_casttem sua própria implementação ( white paper ) e não usa stringstreamoperadores de inserção numérica. Eu realmente gostaria de ver seu desempenho comparado, porque essa outra pergunta sugere que é infeliz .

E minha própria contribuição, que é competitiva em computadores desktop, e demonstra uma abordagem que é executada a toda velocidade também em sistemas embarcados, diferentemente dos algoritmos dependentes do módulo inteiro:

Se você deseja usar esse código, eu o disponibilizo sob uma licença BSD simplificada (uso comercial permitido, atribuição necessária). Basta perguntar.

Finalmente, a função ltoanão é padrão, mas está amplamente disponível.

Postarei minhas medidas de desempenho como resposta em breve.

Regras para algoritmos

  • Forneça código para uma conversão de pelo menos números inteiros assinados e não assinados de 32 bits em decimal.
  • Produzir saída como a std::string.
  • Não há truques incompatíveis com encadeamento e sinais (por exemplo, buffers estáticos).
  • Você pode assumir um conjunto de caracteres ASCII.
  • Teste seu código em INT_MINuma máquina de complemento de dois onde o valor absoluto não seja representável.
  • Idealmente, a saída deve ser caractere por caractere idêntico à versão canônica C ++ usando stringstream, , mas qualquer coisa que é claramente compreensível que o número correto é ok também.
  • NOVO : Embora você possa usar as opções de compilador e otimizador (exceto completamente desativadas) que deseja para a comparação, o código também precisa compilar e fornecer resultados corretos em pelo menos VC ++ 2010 e g ++.

Discussão esperada

Além de algoritmos melhores, eu também gostaria de obter alguns benchmarks em várias plataformas e compiladores diferentes (vamos usar a taxa de transferência de MB / s como nossa unidade de medida padrão). Acredito que o código do meu algoritmo (eu sei que o sprintfbenchmark usa alguns atalhos - agora corrigidos) é um comportamento bem definido pelo padrão, pelo menos sob a premissa do ASCII, mas se você vir algum comportamento ou entradas indefinidos para os quais a saída é inválido, indique-o.


Diferentes algoritmos são executados para g ++ e VC2010, provavelmente devido às diferentes implementações de std::stringcada um. O VC2010 claramente faz um trabalho melhor com o NRVO, livrar-se do retorno por valor ajudou apenas no gcc.

Foi encontrado um código que supera sprintfpor uma ordem de magnitude. ostringstreamfica para trás por um fator de 50 e mais.

O vencedor do desafio é o usuário434507, que produz código que executa 350% da velocidade da minha própria no gcc.

Os atuais campeões de velocidade (final?) São:

Seu problema é subespecificado, pois não explica como deve ser a sequência de resultados. Provavelmente, sempre retornando a cadeia vazia não seria considerado aceitável, mas está em conformidade com a especificação.
Nesta questão, os links ideônicos estão quase mortos. Você poderia incluir o código em algum lugar mais confiável?
@BenVoigt gostaria de perguntar o mesmo. Os links estão todos mortos. Eu adoraria dar uma olhada nestes mais de perto


#include <string>

const char digit_pairs[201] = {

std::string& itostr(int n, std::string& s)
        return s;

    int sign = -(n<0);
    unsigned int val = (n^sign)-sign;

    int size;
            else if(val>=100000000)
            else if(val>=100000)
    size -= sign;
    char* c = &s[0];

    c += size-1;
       int pos = val % 100;
       val /= 100;
        *c--='0' + (val % 10);
        val /= 10;
    return s;

std::string& itostr(unsigned val, std::string& s)
        return s;

    int size;
            else if(val>=100000000)
            else if(val>=100000)

    char* c = &s[size-1];
       int pos = val % 100;
       val /= 100;
        *c--='0' + (val % 10);
        val /= 10;
    return s;

Isso explodirá em sistemas que não permitem acessos desalinhados à memória (nesse caso, a primeira atribuição desalinhada via *(short*)causaria um segfault), mas deve funcionar muito bem.

Uma coisa importante a fazer é minimizar o uso de std::string. (Irônico, eu sei.) No Visual Studio, por exemplo, a maioria das chamadas para métodos de std :: string não está embutida, mesmo se você especificar / Ob2 nas opções do compilador. Assim, mesmo algo tão trivial quanto uma chamada std::string::clear(), que você pode esperar ser muito rápido, pode levar 100 clockticks ao vincular o CRT como uma biblioteca estática e até 300 clockticks ao vincular como uma DLL.

Pelo mesmo motivo, retornar por referência é melhor porque evita uma atribuição, um construtor e um destruidor.

Obrigado pela sua tentativa. No ideone ( ), obtém uma pontuação de 18,5 MB / s, cerca da metade da velocidade de sprintf. E com o VC ++ 2010, ele recebe cerca de 50 MB / s, aproximadamente o dobro da velocidade do sprintf.
Ben Voigt
MB / s é uma métrica estranha, especialmente vendo como você não remove os espaços em branco à direita da string em suas implementações. Meu código atualizado é executado mais rapidamente que a sua implementação com o x64 VC ++ 2005 no Core i7 920 (16,2M ops / s vs. 14,8M ops / s), _ltoa faz 8,5M ops / se sprintf () 3,85M ops / s.
Eugene Smith
Seu código não redimensiona corretamente a string, o meu (ver linhas 81, 198 e 290). Peguei alguns atalhos na sprintfimplementação, já mencionei isso na minha pergunta, mas acredito que o code-to-beat fornece exatamente o mesmo resultado que o stringstream.
Ben Voigt
Corrigi o sprintfinvólucro também, para evitar confusão.
Ben Voigt
BTW, sua versão aprimorada ( ) recebe 41,7 MB / s em ideone e cerca de 120 MB / s em VC ++ 2010 de 32 bits.
Ben Voigt

Ah, desafio incrível por sinal ... Eu me diverti muito com isso.

Eu tenho dois algoritmos para enviar (o código está na parte inferior, se você quiser pular para ele). Nas minhas comparações, exijo que a função retorne uma string e que ela possa manipular int e unsigned int. Comparar coisas que não constroem uma string com aquelas que não fazem realmente sentido.

A primeira é uma implementação divertida que não usa nenhuma tabela de pesquisa pré-computada ou divisão / módulo explícito. Este é competitivo com os outros com gcc e com todos, exceto o Timo no msvc (por um bom motivo que explico abaixo). O segundo algoritmo é minha submissão real para obter o melhor desempenho. Nos meus testes, ele vence todos os outros no gcc e no msvc.

Acho que sei por que alguns dos resultados no MSVC são muito bons. std :: string possui dois construtores relevantes std::string(char* str, size_t n)
e o
std::string(ForwardIterator b, ForwardIterator e)
gcc faz a mesma coisa para os dois ... ou seja, usa o segundo para implementar o primeiro. O primeiro construtor pode ser implementado significativamente mais eficientemente que isso e o MSVC o faz. O benefício disso é que, em alguns casos (como meu código rápido e o código do Timo), o construtor de strings pode ser incorporado. De fato, apenas alternar entre esses construtores no MSVC é quase uma diferença de 2x para o meu código.

Meus resultados dos testes de desempenho:

Fontes de código:

gcc 4.4.5 -O2 no Ubuntu 10.10 de 64 bits, Core i5

hopman_fun: 124.688 MB / seg --- 8.020 s
hopman_fast: 137.552 MB / s --- 7.270 s
Tamanho do arquivo: 120.192 MB / seg --- 8.320 s
user_voigt_timo: 97.9432 MB / s --- 10.210 s
timo: 120,482 MB / s - 8.300 s
usuário: 97,7517 MB / s - 10.230 s
ergosys: 101,42 MB / s - 9.860 s

MSVC 2010 de 64 bits / Ox no Windows 7 de 64 bits, Core i5

hopman_fun: 127 MB / seg --- 7.874 s
hopman_fast: 259 MB / s --- 3.861 s
Tamanho do arquivo: 221.435 MB / seg --- 4.516 s
user_voigt_timo: 195.695 MB / s --- 5.110 s
timo: 253,165 MB / s --- 3.950 s
usuário: 212,63 MB / s --- 4.703 s
ergosys: 78,0518 MB / s --- 12,812 s

Aqui estão alguns resultados e uma estrutura de teste / tempo na ideone
Observe que a ideone é um ambiente de 32 bits. Ambos os meus algoritmos sofrem com isso, mas hopman_fast ainda é pelo menos competitivo.

Observe que, para aqueles que não constroem uma string, adicionei o seguinte modelo de função:

template <typename T>
std::string itostr(T t) {
    std::string ret;
    itostr(t, ret);
    return ret;

Agora, meu código ... primeiro o mais divertido:

    // hopman_fun

template <typename T> 
T reduce2(T v) {
    T k = ((v * 410) >> 12) & 0x000F000F000F000Full;
    return (((v - k * 10) << 8) + k);

template <typename T>
T reduce4(T v) {
    T k = ((v * 10486) >> 20) & 0xFF000000FFull;
    return reduce2(((v - k * 100) << 16) + (k));

typedef unsigned long long ull;
inline ull reduce8(ull v) {
    ull k = ((v * 3518437209u) >> 45);
    return reduce4(((v - k * 10000) << 32) + (k));

template <typename T>
std::string itostr(T o) {
    union {
        char str[16];
        unsigned short u2[8];
        unsigned u4[4];
        unsigned long long u8[2];

    unsigned v = o < 0 ? ~o + 1 : o;

    u8[0] = (ull(v) * 3518437209u) >> 45;
    u8[0] = (u8[0] * 28147497672ull);
    u8[1] = v - u2[3] * 100000000;

    u8[1] = reduce8(u8[1]);
    char* f;
    if (u2[3]) {
        u2[3] = reduce2(u2[3]);
        f = str + 6;
    } else {
        unsigned short* k = u4[2] ? u2 + 4 : u2 + 6;
        f = *k ? (char*)k : (char*)(k + 1);
    if (!*f) f++;

    u4[1] |= 0x30303030;
    u4[2] |= 0x30303030;
    u4[3] |= 0x30303030;
    if (o < 0) *--f = '-';
    return std::string(f, (str + 16) - f);

E então o mais rápido:

    // hopman_fast

struct itostr_helper {
    static unsigned out[10000];

    itostr_helper() {
        for (int i = 0; i < 10000; i++) {
            unsigned v = i;
            char * o = (char*)(out + i);
            o[3] = v % 10 + '0';
            o[2] = (v % 100) / 10 + '0';
            o[1] = (v % 1000) / 100 + '0';
            o[0] = (v % 10000) / 1000;
            if (o[0]) o[0] |= 0x30;
            else if (o[1] != '0') o[0] |= 0x20;
            else if (o[2] != '0') o[0] |= 0x10;
            else o[0] |= 0x00;
unsigned itostr_helper::out[10000];

itostr_helper hlp_init;

template <typename T>
std::string itostr(T o) {
    typedef itostr_helper hlp;

    unsigned blocks[3], *b = blocks + 2;
    blocks[0] = o < 0 ? ~o + 1 : o;
    blocks[2] = blocks[0] % 10000; blocks[0] /= 10000;
    blocks[2] = hlp::out[blocks[2]];

    if (blocks[0]) {
        blocks[1] = blocks[0] % 10000; blocks[0] /= 10000;
        blocks[1] = hlp::out[blocks[1]];
        blocks[2] |= 0x30303030;

    if (blocks[0]) {
        blocks[0] = hlp::out[blocks[0] % 10000];
        blocks[1] |= 0x30303030;

    char* f = ((char*)b);
    f += 3 - (*f >> 4);

    char* str = (char*)blocks;
    if (o < 0) *--f = '-';
    return std::string(f, (str + 12) - f);
Chris Hopman
Para aqueles que estão interessados em como funciona a Hopman-divertidas, mas não sinto como confundindo-lo, eu criei uma versão comentou em
Chris Hopman
Não entendo como o primeiro funciona, mesmo com os comentários. : D O rápido é muito bom, embora tenha seu preço em uso de memória. Mas acho que 40kB ainda é aceitável. Na verdade, modifiquei meu próprio código para usar também 4 grupos de caracteres e obtive velocidade semelhante.
Seria difícil modificá-lo para funcionar com uint64_t? Mudei esse código para C e substitui 'T' pelo tipo int e ele funciona, mas não funciona para uint64_t e não tenho idéia de como personalizá-lo.
pbn 25/01

Dados de referência para o código fornecido na pergunta:

No ideone (gcc 4.3.4):

Core i7, Windows 7 de 64 bits, 8 GB de RAM, Visual C ++ 2010 de 32 bits:

cl /Ox /EHsc

  • strings: 3,39 MB / s, 3,67 MB / s
  • sprintf: 16,8 MB / s, 16,2 MB / s
  • mina: 194 MB / s, 207 MB / s (com PGO ativado: 250 MB / s)

Core i7, Windows 7 de 64 bits, 8 GB de RAM, Visual C ++ 2010 de 64 bits:

cl /Ox /EHsc

  • strings: 4,42 MB / s, 4,92 MB / s
  • sprintf: 21,0 MB / s, 20,8 MB / s
  • mina: 238 MB / s, 228 MB / s

Core i7, Windows 7 de 64 bits, 8 GB de RAM, cygwin gcc 4.3.4:

g++ -O3

  • strings: 2,19 MB / s, 2,17 MB / s
  • sprintf: 13,1 MB / s, 13,4 MB / s
  • mina: 30,0 MB / s, 30,2 MB / s

edit : eu adicionaria minha própria resposta, mas a pergunta foi encerrada, por isso estou adicionando aqui. :) Escrevi meu próprio algoritmo e consegui uma melhoria decente em relação ao código de Ben, embora só o tenha testado no MSVC 2010. Também fiz uma referência de todas as implementações apresentadas até agora, usando a mesma configuração de teste que estava no original de Ben código. - Timo

Intel Q9450, Windows XP de 32 bits, MSVC 2010

cl /O2 /EHsc

  • sequência: 2,87 MB / s
  • sprintf: 16,1 MB / s
  • Ben: 202 MB / s
  • Ben (buffer não assinado): 82,0 MB / s
  • ergosys (versão atualizada): 64.2 MB / s
  • user434507: 172 MB / s
  • Timo: 241 MB / s


const char digit_pairs[201] = {

static const int BUFFER_SIZE = 11;

std::string itostr(int val)
  char buf[BUFFER_SIZE];
  char *it = &buf[BUFFER_SIZE-2];

  if(val>=0) {
    int div = val/100;
    while(div) {
      val = div;
      div = val/100;
  } else {
    int div = val/100;
    while(div) {
      val = div;
      div = val/100;
    *it = '-';

  return std::string(it,&buf[BUFFER_SIZE]-it);

std::string itostr(unsigned int val)
  char buf[BUFFER_SIZE];
  char *it = (char*)&buf[BUFFER_SIZE-2];

  int div = val/100;
  while(div) {
    val = div;
    div = val/100;

  return std::string((char*)it,(char*)&buf[BUFFER_SIZE]-(char*)it);
obrigado por essas informações, explique sobre a velocidade do gcc! é muito baixo :(
@Behrouz: De fato. Não sei exatamente por que o gcc é tão lento, seja a versão do gcc std::stringou a otimização ruim do código aritmético. Vou fazer outra versão que não seja convertida std::stringno final e ver se o gcc se sai melhor.
Ben Voigt
@Timo: Isso é muito legal. Eu realmente não esperava que a alteração em um buffer não assinado ajudasse o VC ++, que já era bastante rápido, portanto era aplicável apenas ao gcc e agora o user434507 forneceu uma versão muito melhor por lá.
Ben Voigt
Eu acho que você deve adicionar uma versão que não converte em std :: string. Ao alterar apenas uma linha de código, a função é executada na metade do tempo na minha máquina, usando o GCC. E removendo o std :: string, as pessoas seriam capazes de usar essa função nos programas C.

Enquanto as informações que chegamos aqui para os algoritmos são bastante boas, acho que a pergunta está "quebrada" e vou explicar por que penso isso:

A pergunta solicita o desempenho de int-> std::stringconversion, e isso pode ser interessante ao comparar um método comumente disponível, como diferentes implementações de strings ou boost :: lexical_cast. Entretanto, não faz sentido pedir um novo código , um algoritmo especializado, para fazer isso. O motivo é que o int2string sempre envolverá a alocação de heap de std :: string e se estamos tentando extrair o último do nosso algoritmo de conversão, não acho que faça sentido misturar essas medidas com as alocações de heap feitas pelo std: :corda. Se eu quiser conversão de desempenho, eu irei sempre usarei um buffer de tamanho fixo e certamente nunca alocarei nada no heap!

Para resumir, acho que os horários devem ser divididos:

  • Primeiro, a conversão mais rápida (int -> buffer fixo).
  • Segundo, o tempo da cópia (buffer fixo -> std :: string).
  • Terceiro, verificando como a alocação std :: string pode ser usada diretamente como buffer, para salvar a cópia.

Esses aspectos não devem ser confundidos em um momento, IMHO.

Martin Ba
<quote> int2string sempre envolverá alocação de heap de std :: string </quote> Não com a otimização de cadeia pequena, que está presente nas implementações mais atuais da Biblioteca Padrão.
Ben Voigt
No final, porém, o std::stringrequisito "output as " foi colocado lá apenas para tornar as coisas justas e consistentes para todos os envios. Os algoritmos mais rápidos para obter std::stringresultados também serão mais rápidos para preencher um buffer pré-alocado.
@ Ben - bons comentários. Esp. o sm.str.opt. é algo que terei que lembrar no futuro ao julgar o desempenho do std.string.
Martin Ba

Não posso testar no VS, mas isso parece ser mais rápido que o seu código para g ++, cerca de 10%. Provavelmente poderia ser ajustado, os valores de decisão escolhidos são suposições. int apenas, desculpe.

typedef unsigned buf_t; 

static buf_t * reduce(unsigned val, buf_t * stp) {
   unsigned above = val / 10000; 
   if (above != 0) {
      stp = reduce(above, stp); 
      val -= above * 10000; 

   buf_t digit  = val / 1000; 
   *stp++ = digit + '0'; 
   val -= digit * 1000; 

   digit  = val / 100; 
   *stp++ = digit + '0'; 
   val -= digit * 100; 

   digit  = val / 10; 
   *stp++ = digit + '0'; 
   val -= digit * 10; 
   *stp++ = val + '0'; 
   return stp; 

std::string itostr(int input) {

   buf_t buf[16]; 

   if(input == INT_MIN) {  
      char buf2[16]; 
      std::sprintf(buf2, "%d", input); 
      return std::string(buf2); 

   // handle negative
   unsigned val = input;
   if(input < 0) 
      val = -input;

   buf[0] = '0'; 
   buf_t* endp = reduce(val, buf+1); 
   *endp = 127; 

   buf_t * stp = buf+1; 
   while (*stp == '0') 
   if (stp == endp)

   if (input < 0) { 
      *stp = '-'; 
   return std::string(stp, endp); 
Com variante não assinada: . Parece que alterar o tipo de buffer de charpara unsignedproduz uma melhoria de velocidade semelhante no meu código, pelo menos em gcc / ideone . Vou testar no VS amanhã.
Ben Voigt

Resposta atualizada do usuário2985907 ... modp_ufast ...

Integer To String Test (Type 1)
[modp_ufast]Numbers: 240000000  Total:   657777786      Time:  1.1633sec        Rate:206308473.0686nums/sec
[sprintf] Numbers: 240000000    Total:   657777786      Time: 24.3629sec        Rate:  9851045.8556nums/sec
[karma]   Numbers: 240000000    Total:   657777786      Time:  5.2389sec        Rate: 45810870.7171nums/sec
[strtk]   Numbers: 240000000    Total:   657777786      Time:  3.3126sec        Rate: 72450283.7492nums/sec
[so   ]   Numbers: 240000000    Total:   657777786      Time:  3.0828sec        Rate: 77852152.8820nums/sec
[timo ]   Numbers: 240000000    Total:   657777786      Time:  4.7349sec        Rate: 50687912.9889nums/sec
[voigt]   Numbers: 240000000    Total:   657777786      Time:  5.1689sec        Rate: 46431985.1142nums/sec
[hopman]  Numbers: 240000000    Total:   657777786      Time:  4.6169sec        Rate: 51982554.6497nums/sec
Press any key to continue . . .

Integer To String Test(Type 2)
[modp_ufast]Numbers: 240000000  Total:   660000000      Time:  0.5072sec        Rate:473162716.4618nums/sec
[sprintf] Numbers: 240000000    Total:   660000000      Time: 22.3483sec        Rate: 10739062.9383nums/sec
[karma]   Numbers: 240000000    Total:   660000000      Time:  4.2471sec        Rate: 56509024.3035nums/sec
[strtk]   Numbers: 240000000    Total:   660000000      Time:  2.1683sec        Rate:110683636.7123nums/sec
[so   ]   Numbers: 240000000    Total:   660000000      Time:  2.7133sec        Rate: 88454602.1423nums/sec
[timo ]   Numbers: 240000000    Total:   660000000      Time:  2.8030sec        Rate: 85623453.3872nums/sec
[voigt]   Numbers: 240000000    Total:   660000000      Time:  3.4019sec        Rate: 70549286.7776nums/sec
[hopman]  Numbers: 240000000    Total:   660000000      Time:  2.7849sec        Rate: 86178023.8743nums/sec
Press any key to continue . . .

Integer To String Test (type 3)
[modp_ufast]Numbers: 240000000  Total:   505625000      Time:  1.6482sec        Rate:145610315.7819nums/sec
[sprintf] Numbers: 240000000    Total:   505625000      Time: 20.7064sec        Rate: 11590618.6109nums/sec
[karma]   Numbers: 240000000    Total:   505625000      Time:  4.3036sec        Rate: 55767734.3570nums/sec
[strtk]   Numbers: 240000000    Total:   505625000      Time:  2.9297sec        Rate: 81919227.9275nums/sec
[so   ]   Numbers: 240000000    Total:   505625000      Time:  3.0278sec        Rate: 79266003.8158nums/sec
[timo ]   Numbers: 240000000    Total:   505625000      Time:  4.0631sec        Rate: 59068204.3266nums/sec
[voigt]   Numbers: 240000000    Total:   505625000      Time:  4.5616sec        Rate: 52613393.0285nums/sec
[hopman]  Numbers: 240000000    Total:   505625000      Time:  4.1248sec        Rate: 58184194.4569nums/sec
Press any key to continue . . .

int ufast_utoa10(unsigned int value, char* str)
#define JOIN(N) N "0", N "1", N "2", N "3", N "4", N "5", N "6", N "7", N "8", N "9"
#define JOIN2(N) JOIN(N "0"), JOIN(N "1"), JOIN(N "2"), JOIN(N "3"), JOIN(N "4"), \
                 JOIN(N "5"), JOIN(N "6"), JOIN(N "7"), JOIN(N "8"), JOIN(N "9")
#define JOIN3(N) JOIN2(N "0"), JOIN2(N "1"), JOIN2(N "2"), JOIN2(N "3"), JOIN2(N "4"), \
                 JOIN2(N "5"), JOIN2(N "6"), JOIN2(N "7"), JOIN2(N "8"), JOIN2(N "9")
#define JOIN4    JOIN3("0"), JOIN3("1"), JOIN3("2"), JOIN3("3"), JOIN3("4"), \
                 JOIN3("5"), JOIN3("6"), JOIN3("7"), JOIN3("8"), JOIN3("9")
#define JOIN5(N) JOIN(N), JOIN(N "1"), JOIN(N "2"), JOIN(N "3"), JOIN(N "4"), \
                 JOIN(N "5"), JOIN(N "6"), JOIN(N "7"), JOIN(N "8"), JOIN(N "9")
#define JOIN6    JOIN5(), JOIN5("1"), JOIN5("2"), JOIN5("3"), JOIN5("4"), \
                 JOIN5("5"), JOIN5("6"), JOIN5("7"), JOIN5("8"), JOIN5("9")
#define F(N)     ((N) >= 100 ? 3 : (N) >= 10 ? 2 : 1)
#define F10(N)   F(N),F(N+1),F(N+2),F(N+3),F(N+4),F(N+5),F(N+6),F(N+7),F(N+8),F(N+9)
#define F100(N)  F10(N),F10(N+10),F10(N+20),F10(N+30),F10(N+40),\
  static const short offsets[] = { F100(0), F100(100), F100(200), F100(300), F100(400),
                                  F100(500), F100(600), F100(700), F100(800), F100(900)};
  static const char table1[][4] = { JOIN("") }; 
  static const char table2[][4] = { JOIN2("") }; 
  static const char table3[][4] = { JOIN3("") };
  static const char table4[][5] = { JOIN4 }; 
  static const char table5[][4] = { JOIN6 };
#undef JOIN
#undef JOIN2
#undef JOIN3
#undef JOIN4
  char *wstr;
  int remains[2];
  unsigned int v2;
  if (value >= 100000000) {
    v2 = value / 10000;
    remains[0] = value - v2 * 10000;
    value = v2;
    v2 = value / 10000;
    remains[1] = value - v2 * 10000;
    value = v2;
    wstr = str;
    if (value >= 1000) {
      *(__int32 *) wstr = *(__int32 *) table4[value];
      wstr += 4;
    } else {
      *(__int32 *) wstr = *(__int32 *) table5[value];
      wstr += offsets[value];
    *(__int32 *) wstr = *(__int32 *) table4[remains[1]];
    wstr += 4;
    *(__int32 *) wstr = *(__int32 *) table4[remains[0]];
    wstr += 4;
    *wstr = 0;
    return (wstr - str);
  else if (value >= 10000) {
    v2 = value / 10000;
    remains[0] = value - v2 * 10000;
    value = v2;
    wstr = str;
    if (value >= 1000) {
      *(__int32 *) wstr = *(__int32 *) table4[value];
      wstr += 4;
      *(__int32 *) wstr = *(__int32 *) table4[remains[0]];
      wstr += 4;
      *wstr = 0;
      return 8;
    } else {
      *(__int32 *) wstr = *(__int32 *) table5[value];
      wstr += offsets[value];
      *(__int32 *) wstr = *(__int32 *) table4[remains[0]];
      wstr += 4;
      *wstr = 0;
      return (wstr - str);
  else {
    if (value >= 1000) {
      *(__int32 *) str = *(__int32 *) table4[value];
      str += 4;
      *str = 0;
      return 4;
    } else if (value >= 100) {
      *(__int32 *) str = *(__int32 *) table3[value];
      return 3;
    } else if (value >= 10) {
      *(__int16 *) str = *(__int16 *) table2[value];
      str += 2;
      *str = 0;
      return 2;
    } else {
      *(__int16 *) str = *(__int16 *) table1[value];
      return 1;

int ufast_itoa10(int value, char* str) {
  if (value < 0) { *(str++) = '-'; 
    return ufast_utoa10(-value, str) + 1; 
  else return ufast_utoa10(value, str);

    void ufast_test() {


   std::string s;
   std::size_t total_length = 0;
   strtk::util::timer t;

   char buf[128];
   int len;
   for (int i = (-max_i2s / 2); i < (max_i2s / 2); ++i)
      #ifdef enable_test_type01
      s.resize(ufast_itoa10(((i & 1) ? i : -i), const_cast<char*>(s.c_str())));
      total_length += s.size();

      #ifdef enable_test_type02
      s.resize(ufast_itoa10(max_i2s + i, const_cast<char*>(s.c_str())));
      total_length += s.size();

      #ifdef enable_test_type03
      s.resize(ufast_itoa10(randval[(max_i2s + i) & 1023], const_cast<char*>(s.c_str())));
      total_length += s.size();
          static_cast<unsigned long>(3 * max_i2s),
          static_cast<unsigned long>(total_length),
          (3.0 * max_i2s) / t.time());
Você nunca coloca na corda. Também não sei por que seus resultados para o código de todos os outros são tão baixos, sua CPU não é lenta.
Ben Voigt
modp_ufast tem um erro, ele retorna 10 em vez de 1000000, 19 em vez de 1,09 milhões e etc, até 11000000.
Denis Zaikin
O ufast modificado retorna valores inválidos (interrompidos após alguns erros). Mismatch found: Generated: -99 Reference: -9099999 Mismatch found: Generated: -99 Reference: -9099998 Mismatch found: Generated: -99 Reference: -9099997
Há uma versão mais portátil com benchmarks disponíveis aqui:

Aqui está minha pequena tentativa deste divertido quebra-cabeça.

Em vez de usar tabelas de pesquisa, eu queria que o compilador descobrisse tudo. Nesse caso em particular - se você ler o Hackers 'Delight, verá como a divisão e o módulo funcionam - o que torna muito possível otimizar isso usando as instruções SSE / AVX.

Referência de desempenho

Quanto à velocidade, minha referência aqui me diz que é 1,5 vezes mais rápido que o trabalho do Timo (no meu Intel Haswell ele roda em aproximadamente 1 GB / s).

Coisas que você poderia considerar uma trapaça

Quanto ao truque de não fazer uma string padrão que eu uso - é claro que levei isso em consideração também para a minha referência do método de Timo.

Eu uso um intrínseco: BSR. Se você preferir, também pode usar as tabelas DeBruijn - que é uma das coisas sobre as quais escrevi bastante no meu post 'fastlog 2log'. Claro, isso tem uma penalidade de desempenho (* bem ... se você estiver realizando muitas operações itoa, poderá fazer um BSR mais rápido, mas acho que isso não é justo ...).

Como funciona

A primeira coisa a fazer é descobrir quanta memória precisamos. Este é basicamente um 10log, que pode ser implementado de várias maneiras inteligentes. Veja os " Bit Twiddling Hacks " frequentemente citados para obter detalhes.

A próxima coisa a fazer é executar a saída numérica. Eu uso recursão de modelo para isso, para que o compilador descubra.

Eu uso 'modulo' e 'div' um ao lado do outro. Se você ler o Hacker's Delight, notará que os dois estão intimamente relacionados; portanto, se você tiver uma resposta, provavelmente também a outra. Eu achei que o compilador pode descobrir os detalhes ... :-)

O código

Obtendo o número de dígitos usando um log (modificado) 10:

struct logarithm
    static inline int log2(unsigned int value)
        unsigned long index;
        if (!_BitScanReverse(&index, value))
            return 0;

        // add 1 if x is NOT a power of 2 (to do the ceil)
        return index + (value&(value - 1) ? 1 : 0);

    static inline int numberDigits(unsigned int v)
        static unsigned int const PowersOf10[] =
        { 0, 10, 100, 1000, 10000, 100000, 1000000, 10000000, 100000000, 1000000000 };

        int t = (logarithm::log2(v) + 1) * 1233 >> 12; // (use a lg2 method from above)
        return 1 + t - (v < PowersOf10[t]);

Preparando a string:

template <int count>
struct WriteHelper
    inline static void WriteChar(char* buf, unsigned int value)
        unsigned int div = value / 10;
        unsigned int rem = value % 10;
        buf[count - 1] = rem + '0';

        WriteHelper<count - 1>::WriteChar(buf, div);

template <>
struct WriteHelper<1>
    inline static void WriteChar(char* buf, unsigned int value) 
        buf[0] = '0' + value;

// Boring code that converts a length into a switch.
// TODO: Test if recursion with an 'if' is faster.
static inline void WriteNumber(char* data, int len, unsigned int val) 
    switch (len) {
    case 1:
        WriteHelper<1>::WriteChar(data, static_cast<unsigned int>(val));
    case 2:
        WriteHelper<2>::WriteChar(data, static_cast<unsigned int>(val));
    case 3:
        WriteHelper<3>::WriteChar(data, static_cast<unsigned int>(val));
    case 4:
        WriteHelper<4>::WriteChar(data, static_cast<unsigned int>(val));
    case 5:
        WriteHelper<5>::WriteChar(data, static_cast<unsigned int>(val));
    case 6:
        WriteHelper<6>::WriteChar(data, static_cast<unsigned int>(val));
    case 7:
        WriteHelper<7>::WriteChar(data, static_cast<unsigned int>(val));
    case 8:
        WriteHelper<8>::WriteChar(data, static_cast<unsigned int>(val));
    case 9:
        WriteHelper<9>::WriteChar(data, static_cast<unsigned int>(val));
    case 10:
        WriteHelper<10>::WriteChar(data, static_cast<unsigned int>(val));

// The main method you want to call...
static int Write(char* data, int val) 
    int len;
    if (val >= 0) 
        len = logarithm::numberDigits(val);
        WriteNumber(data, len, unsigned int(val));
        return len;
        unsigned int v(-val);
        len = logarithm::numberDigits(v);
        WriteNumber(data+1, len, v);
        data[0] = '-';
        return len + 1;
Curiosamente, recentemente, dei uma cópia do Hacker's Delight a um colega de trabalho. Alguma seção em particular? Obviamente, observe que módulo e div, embora ambos retornem de uma única instrução de divisão, não serão obtidos dessa maneira, porque a divisão por uma constante é implementada muito mais rapidamente usando o hardware multiplicar do que o dividir.
Ben Voigt
@BenVoigt, na verdade, se você executar 'desmontar' no VS2013, obterá exatamente o código que você esperaria depois de ler o deleite de H. O capítulo que você está procurando é o capítulo 10.
Sim, essa é a implementação usando a multiplicação de hardware a que me referi.
Ben Voigt
@ BenVoigt Sim, claro, foi isso que eu quis dizer. Tanto o módulo quanto a multiplicação (por constante) usam o mesmo número mágico, shift (arith e normal). Minha suposição aqui foi que o compilador é capaz de descobrir que está emitindo as mesmas instruções várias vezes e otimizar isso - e como todas as operações podem ser vetorizadas, isso também pode ser percebido (vamos chamar isso de um bônus :-). Meu argumento com o deleite de H foi que, se você souber como essas operações são compiladas (número inteiro multiplicar, deslocamento), poderá fazer essas suposições.
Atlaste 15/03

Eu tive isso por um tempo e finalmente cheguei a publicá-lo.

Mais alguns métodos em comparação com a palavra dupla por vez hopman_fast . Os resultados são para o std :: string otimizado por cadeia de caracteres curta do GCC, pois, caso contrário, as diferenças de desempenho ficam obscurecidas pela sobrecarga do código de gerenciamento de cadeia de cópia na gravação. A taxa de transferência é medida da mesma maneira que em outras partes deste tópico, as contagens de ciclo são para as partes brutas de serialização do código antes de copiar o buffer de saída em uma sequência.

HOPMAN_FAST - performance reference  
TM_CPP, TM_VEC - scalar and vector versions of Terje Mathisen algorithm  
WM_VEC - intrinsics implementation of Wojciech Mula's vector algorithm  
AK_BW - word-at-a-time routine with a jump table that fills a buffer in reverse  
AK_FW - forward-stepping word-at-a-time routine with a jump table in assembly  
AK_UNROLLED - generic word-at-a-time routine that uses an unrolled loop  

Taxa de transferência

Custo bruto

Opções de tempo de compilação:

-DVSTRING - habilita sequências de SSO para configurações mais antigas do GCC
-DBSR1 - habilita o log
rápido10 -DRDTSC - habilita contadores de ciclo

#include <cstdio>
#include <iostream>
#include <climits>
#include <sstream>
#include <algorithm>
#include <cstring>
#include <limits>
#include <ctime>
#include <stdint.h>
#include <x86intrin.h>

/* Uncomment to run */
// #define HOPMAN_FAST
// #define TM_CPP
// #define TM_VEC
// #define WM_VEC
// #define AK_UNROLLED
// #define AK_BW
// #define AK_FW

using namespace std;
#ifdef VSTRING
#include <ext/vstring.h>
typedef __gnu_cxx::__vstring string_type;
typedef string string_type;

namespace detail {

#ifdef __GNUC__
#define ALIGN(N) __attribute__ ((aligned(N)))
#define PACK __attribute__ ((packed))
  inline size_t num_digits(unsigned u) {
    struct {
      uint32_t count;
      uint32_t max;
    } static digits[32] ALIGN(64) = {
    { 1, 9 }, { 1, 9 }, { 1, 9 }, { 1, 9 },
    { 2, 99 }, { 2, 99 }, { 2, 99 },
    { 3, 999 }, { 3, 999 }, { 3, 999 },
    { 4, 9999 }, { 4, 9999 }, { 4, 9999 }, { 4, 9999 },
    { 5, 99999 }, { 5, 99999 }, { 5, 99999 },
    { 6, 999999 }, { 6, 999999 }, { 6, 999999 },
    { 7, 9999999 }, { 7, 9999999 }, { 7, 9999999 }, { 7, 9999999 },
    { 8, 99999999 }, { 8, 99999999 }, { 8, 99999999 },
    { 9, 999999999 }, { 9, 999999999 }, { 9, 999999999 },
    { 10, UINT_MAX }, { 10, UINT_MAX }
#if (defined(i386) || defined(__x86_64__)) && (defined(BSR1) || defined(BSR2))
    size_t l = u;
#if defined(BSR1)
    __asm__ __volatile__ (
      "bsrl %k0, %k0    \n\t"
      "shlq $32, %q1    \n\t" 
      "movq %c2(,%0,8), %0\n\t" 
      "cmpq %0, %q1     \n\t"
      "seta %b1         \n\t"
      "addl %1, %k0     \n\t"
      : "+r" (l), "+r"(u)
      : "i"(digits)
      : "cc"
    return l;
    __asm__ __volatile__ ( "bsr %0, %0;"  : "+r" (l) );
    return digits[l].count + ( u > digits[l].max );
    size_t l = (u != 0) ? 31 - __builtin_clz(u) : 0;
    return digits[l].count + ( u > digits[l].max );
  inline unsigned msb_u32(unsigned x) {
    static const unsigned bval[] = { 0,1,2,2,3,3,3,3,4,4,4,4,4,4,4,4 };
    unsigned base = 0;
    if (x & (unsigned) 0xFFFF0000) { base += 32/2; x >>= 32/2; }
    if (x & (unsigned) 0x0000FF00) { base += 32/4; x >>= 32/4; }
    if (x & (unsigned) 0x000000F0) { base += 32/8; x >>= 32/8; }
    return base + bval[x];

  inline size_t num_digits(unsigned x) {
    static const unsigned powertable[] = {
  0,10,100,1000,10000,100000,1000000,10000000,100000000, 1000000000 };
    size_t lg_ten = msb_u32(x) * 1233 >> 12;
    size_t adjust = (x >= powertable[lg_ten]);
    return lg_ten + adjust;
#endif /* __GNUC__ */

  struct CharBuffer {
    class reverse_iterator : public iterator<random_access_iterator_tag, char> {
        char* m_p;
        reverse_iterator(char* p) : m_p(p - 1) {}
        reverse_iterator operator++() { return --m_p; }
        reverse_iterator operator++(int) { return m_p--; }
        char operator*() const { return *m_p; }
        bool operator==( reverse_iterator it) const { return m_p == it.m_p; }
        bool operator!=( reverse_iterator it) const { return m_p != it.m_p; }
        difference_type operator-( reverse_iterator it) const { return it.m_p - m_p; }

  union PairTable {
    char c[2];
    unsigned short u;
  } PACK table[100] ALIGN(1024) = {
} // namespace detail

struct progress_timer {
    clock_t c;
    progress_timer() : c(clock()) {}
    int elapsed() { return clock() - c; }
    ~progress_timer() {
        clock_t d = clock() - c;
        cout << d / CLOCKS_PER_SEC << "."
            << (((d * 1000) / CLOCKS_PER_SEC) % 1000 / 100)
            << (((d * 1000) / CLOCKS_PER_SEC) % 100 / 10)
            << (((d * 1000) / CLOCKS_PER_SEC) % 10)
            << " s" << endl;

namespace hopman_fast {

    static unsigned long cpu_cycles = 0;

    struct itostr_helper {
        static ALIGN(1024) unsigned out[10000];

        itostr_helper() {
            for (int i = 0; i < 10000; i++) {
                unsigned v = i;
                char * o = (char*)(out + i);
                o[3] = v % 10 + '0';
                o[2] = (v % 100) / 10 + '0';
                o[1] = (v % 1000) / 100 + '0';
                o[0] = (v % 10000) / 1000;
                if (o[0]) o[0] |= 0x30;
                else if (o[1] != '0') o[0] |= 0x20;
                else if (o[2] != '0') o[0] |= 0x10;
                else o[0] |= 0x00;
    unsigned itostr_helper::out[10000];

    itostr_helper hlp_init;

    template <typename T>
    string_type itostr(T o) {
        typedef itostr_helper hlp;
#ifdef RDTSC
        long first_clock = __rdtsc();
        unsigned blocks[3], *b = blocks + 2;
        blocks[0] = o < 0 ? ~o + 1 : o;
        blocks[2] = blocks[0] % 10000; blocks[0] /= 10000;
        blocks[2] = hlp::out[blocks[2]];

        if (blocks[0]) {
            blocks[1] = blocks[0] % 10000; blocks[0] /= 10000;
            blocks[1] = hlp::out[blocks[1]];
            blocks[2] |= 0x30303030;

        if (blocks[0]) {
            blocks[0] = hlp::out[blocks[0] % 10000];
            blocks[1] |= 0x30303030;

        char* f = ((char*)b);
        f += 3 - (*f >> 4);

        char* str = (char*)blocks;
        if (o < 0) *--f = '-';

        str += 12;
#ifdef RDTSC
        cpu_cycles += __rdtsc() - first_clock;
        return string_type(f, str);
      unsigned long cycles() { return cpu_cycles; }
      void reset() { cpu_cycles = 0; }

namespace ak {
  namespace unrolled {
    static unsigned long cpu_cycles = 0;

    template <typename value_type> class Proxy {
      static const size_t MaxValueSize = 16;

      static inline char* generate(int value, char* buffer) {
        union { char* pc; unsigned short* pu; } b = { buffer + MaxValueSize };
        unsigned u, v = value < 0 ? unsigned(~value) + 1 : value;
        *--b.pu = detail::table[v % 100].u; u = v;
        if ((v /= 100)) {
          *--b.pu = detail::table[v % 100].u; u = v;
          if ((v /= 100)) {
            *--b.pu = detail::table[v % 100].u; u = v;
            if ((v /= 100)) {
              *--b.pu = detail::table[v % 100].u; u = v;
              if ((v /= 100)) {
                *--b.pu = detail::table[v % 100].u; u = v;
        } } } }
        *(b.pc -= (u >= 10)) = '-';
        return b.pc + (value >= 0);
      static inline char* generate(unsigned value, char* buffer) {
        union { char* pc; unsigned short* pu; } b = { buffer + MaxValueSize };
        unsigned u, v = value;
        *--b.pu = detail::table[v % 100].u; u = v;
        if ((v /= 100)) {
          *--b.pu = detail::table[v % 100].u; u = v;
          if ((v /= 100)) {
            *--b.pu = detail::table[v % 100].u; u = v;
            if ((v /= 100)) {
              *--b.pu = detail::table[v % 100].u; u = v;
              if ((v /= 100)) {
                *--b.pu = detail::table[v % 100].u; u = v;
        } } } }
        return b.pc + (u < 10);
      static inline string_type convert(value_type v) {
        char buf[MaxValueSize];
#ifdef RDTSC
        long first_clock = __rdtsc();
        char* p = generate(v, buf);
        char* e = buf + MaxValueSize;
#ifdef RDTSC
        cpu_cycles += __rdtsc() - first_clock;
        return string_type(p, e);
    string_type itostr(int i) { return Proxy<int>::convert(i); }
    string_type itostr(unsigned i) { return Proxy<unsigned>::convert(i); }
    unsigned long cycles() { return cpu_cycles; }
    void reset() { cpu_cycles = 0; }

#if defined(AK_BW)
  namespace bw {
    static unsigned long cpu_cycles = 0;
    typedef uint64_t u_type;

    template <typename value_type> class Proxy {

      static inline void generate(unsigned v, size_t len, char* buffer) {
        u_type u = v;
        switch(len) {
        default: u = (v * 1374389535ULL) >> 37; *(uint16_t*)(buffer + 8) = detail::table[v -= 100 * u].u; 
        case  8: v = (u * 1374389535ULL) >> 37; *(uint16_t*)(buffer + 6) = detail::table[u -= 100 * v].u; 
        case  6: u = (v * 1374389535ULL) >> 37; *(uint16_t*)(buffer + 4) = detail::table[v -= 100 * u].u;
        case  4: v = (u * 167773) >> 24; *(uint16_t*)(buffer + 2) = detail::table[u -= 100 * v].u;
        case  2: *(uint16_t*)buffer = detail::table[v].u;
        case  0: return;
        case  9: u = (v * 1374389535ULL) >> 37; *(uint16_t*)(buffer + 7) = detail::table[v -= 100 * u].u;
        case  7: v = (u * 1374389535ULL) >> 37; *(uint16_t*)(buffer + 5) = detail::table[u -= 100 * v].u;
        case  5: u = (v * 1374389535ULL) >> 37; *(uint16_t*)(buffer + 3) = detail::table[v -= 100 * u].u;
        case  3: v = (u * 167773) >> 24; *(uint16_t*)(buffer + 1) = detail::table[u -= 100 * v].u;
        case  1: *buffer = v + 0x30;
      static inline string_type convert(bool neg, unsigned val) {
        char buf[16];
#ifdef RDTSC
        long first_clock = __rdtsc();
        size_t len = detail::num_digits(val);
        buf[0] = '-';

        char* e = buf + neg;
        generate(val, len, e);
        e += len;
#ifdef RDTSC
        cpu_cycles += __rdtsc() - first_clock;
        return string_type(buf, e);
    string_type itostr(int i) { return Proxy<int>::convert(i < 0, i < 0 ? unsigned(~i) + 1 : i); }
    string_type itostr(unsigned i) { return Proxy<unsigned>::convert(false, i); }
    unsigned long cycles() { return cpu_cycles; }
    void reset() { cpu_cycles = 0; }

#if defined(AK_FW)
  namespace fw {
        static unsigned long cpu_cycles = 0;
        typedef uint32_t u_type;
        template <typename value_type> class Proxy {

        static inline void generate(unsigned v, size_t len, char* buffer) {
#if defined(__GNUC__) && defined(__x86_64__)
          uint16_t w;
          uint32_t u;
          __asm__ __volatile__ (
        "jmp %*T%=(,%3,8)       \n\t"
        "T%=: .quad L0%=        \n\t"
        "     .quad L1%=        \n\t"
        "     .quad L2%=        \n\t"
        "     .quad L3%=        \n\t"
        "     .quad L4%=        \n\t"
        "     .quad L5%=        \n\t"
        "     .quad L6%=        \n\t"
        "     .quad L7%=        \n\t"
        "     .quad L8%=        \n\t"
        "     .quad L9%=        \n\t"
        "     .quad L10%=       \n\t"
        "L10%=:         \n\t"
        " imulq $1441151881, %q0, %q1\n\t"
        " shrq $57, %q1     \n\t"
        " movw %c5(,%q1,2), %w2 \n\t"
        " imull $100000000, %1, %1  \n\t"
        " subl %1, %0       \n\t"
        " movw %w2, (%4)        \n\t"
        "L8%=:          \n\t"
        " imulq $1125899907, %q0, %q1\n\t"
        " shrq $50, %q1     \n\t"
        " movw %c5(,%q1,2), %w2 \n\t"
        " imull $1000000, %1, %1    \n\t"
        " subl %1, %0       \n\t"
        " movw %w2, -8(%4,%3)   \n\t"
        "L6%=:          \n\t"
        " imulq $429497, %q0, %q1   \n\t"
        " shrq $32, %q1     \n\t"
        " movw %c5(,%q1,2), %w2 \n\t"
        " imull $10000, %1, %1  \n\t"
        " subl %1, %0       \n\t"
        " movw %w2, -6(%4,%3)   \n\t"
        "L4%=:          \n\t"
        " imull $167773, %0, %1 \n\t"
        " shrl $24, %1      \n\t"
        " movw %c5(,%q1,2), %w2 \n\t"
        " imull $100, %1, %1    \n\t"
        " subl %1, %0       \n\t"
        " movw %w2, -4(%4,%3)   \n\t"
        "L2%=:          \n\t"
        " movw %c5(,%q0,2), %w2 \n\t"
        " movw %w2, -2(%4,%3)   \n\t"
        "L0%=: jmp 1f       \n\t"
        "L9%=:          \n\t"
        " imulq $1801439851, %q0, %q1\n\t"
        " shrq $54, %q1     \n\t"
        " movw %c5(,%q1,2), %w2 \n\t"
        " imull $10000000, %1, %1   \n\t"
        " subl %1, %0       \n\t"
        " movw %w2, (%4)        \n\t"
        "L7%=:          \n\t"
        " imulq $43980466, %q0, %q1 \n\t"
        " shrq $42, %q1     \n\t"
        " movw %c5(,%q1,2), %w2 \n\t"
        " imull $100000, %1, %1 \n\t"
        " subl %1, %0       \n\t"
        " movw %w2, -7(%4,%3)   \n\t"
        "L5%=:          \n\t"
        " imulq $268436, %q0, %q1   \n\t"
        " shrq $28, %q1     \n\t"
        " movw %c5(,%q1,2), %w2 \n\t"
        " imull $1000, %1, %1   \n\t"
        " subl %1, %0       \n\t"
        " movw %w2, -5(%4,%3)   \n\t"
        "L3%=:          \n\t"
        " imull $6554, %0, %1   \n\t"
        " shrl $15, %1      \n\t"
        " andb $254, %b1        \n\t"
        " movw %c5(,%q1), %w2   \n\t"
        " leal (%1,%1,4), %1    \n\t"
        " subl %1, %0       \n\t"
        " movw %w2, -3(%4,%3)   \n\t"
        "L1%=:          \n\t"
        " addl $48, %0      \n\t"
        " movb %b0, -1(%4,%3)   \n\t"
        "1:             \n\t"
        : "+r"(v), "=&q"(u), "=&r"(w)
        : "r"(len), "r"(buffer), "i"(detail::table)
        : "memory", "cc"
          u_type u;
          switch(len) {
        default: u = (v * 1441151881ULL) >> 57; *(uint16_t*)(buffer) = detail::table[u].u; v -= u * 100000000;
        case  8: u = (v * 1125899907ULL) >> 50; *(uint16_t*)(buffer + len - 8) = detail::table[u].u; v -= u * 1000000;
        case  6: u = (v * 429497ULL) >> 32; *(uint16_t*)(buffer + len - 6) = detail::table[u].u; v -= u * 10000;
        case  4: u = (v * 167773) >> 24; *(uint16_t*)(buffer + len - 4) = detail::table[u].u; v -= u * 100;
        case  2: *(uint16_t*)(buffer + len - 2) = detail::table[v].u;
        case  0: return;
        case  9: u = (v * 1801439851ULL) >> 54; *(uint16_t*)(buffer) = detail::table[u].u; v -= u * 10000000; 
        case  7: u = (v * 43980466ULL) >> 42; *(uint16_t*)(buffer + len - 7) = detail::table[u].u; v -= u * 100000; 
        case  5: u = (v * 268436ULL) >> 28;  *(uint16_t*)(buffer + len - 5) = detail::table[u].u; v -= u * 1000;
        case  3: u = (v * 6554) >> 16; *(uint16_t*)(buffer + len - 3) = detail::table[u].u; v -= u * 10;
        case  1: *(buffer + len - 1) = v + 0x30;
        static inline string_type convert(bool neg, unsigned val) {
        char buf[16];
#ifdef RDTSC
        long first_clock = __rdtsc();
        size_t len = detail::num_digits(val);
        if (neg) buf[0] = '-';
        char* e = buf + len + neg;
        generate(val, len, buf + neg);
#ifdef RDTSC
        cpu_cycles += __rdtsc() - first_clock;
        return string_type(buf, e);
      string_type itostr(int i) { return Proxy<int>::convert(i < 0, i < 0 ? unsigned(~i) + 1 : i); }
      string_type itostr(unsigned i) { return Proxy<unsigned>::convert(false, i); }
      unsigned long cycles() { return cpu_cycles; }
      void reset() { cpu_cycles = 0; }
} // ak

namespace wm {
#ifdef WM_VEC
#if defined(__GNUC__) && defined(__x86_64__)
  namespace vec {
      static unsigned long cpu_cycles = 0;

      template <typename value_type> class Proxy {

      static inline unsigned generate(unsigned v, char* buf) {
        static struct {
          unsigned short mul_10[8];
          unsigned short div_const[8];
          unsigned short shl_const[8];
          unsigned char  to_ascii[16];
        } ALIGN(64) bits = 
          { // mul_10
           10, 10, 10, 10, 10, 10, 10, 10
          { // div_const
            8389, 5243, 13108, 0x8000, 8389, 5243, 13108, 0x8000
          { // shl_const
            1 << (16 - (23 + 2 - 16)),
            1 << (16 - (19 + 2 - 16)),
            1 << (16 - 1 - 2),
            1 << (15),
            1 << (16 - (23 + 2 - 16)),
            1 << (16 - (19 + 2 - 16)),
            1 << (16 - 1 - 2),
            1 << (15)
          { // to_ascii 
            '0', '0', '0', '0', '0', '0', '0', '0',
            '0', '0', '0', '0', '0', '0', '0', '0'
        unsigned x, y, l;
        x = (v * 1374389535ULL) >> 37;
        y = v;
        l = 0;
        if (x) {
          unsigned div = 0xd1b71759;
          unsigned mul = 55536;
          __m128i z, m, a, o;
          y -= 100 * x;
          z = _mm_cvtsi32_si128(x);
          m = _mm_load_si128((__m128i*)bits.mul_10);
          o = _mm_mul_epu32( z, _mm_cvtsi32_si128(div));
          z = _mm_add_epi32( z, _mm_mul_epu32( _mm_cvtsi32_si128(mul), _mm_srli_epi64( o, 45) ) );
          z = _mm_slli_epi64( _mm_shuffle_epi32( _mm_unpacklo_epi16(z, z), 5 ), 2 );
          a = _mm_load_si128((__m128i*)bits.to_ascii);
          z = _mm_mulhi_epu16( _mm_mulhi_epu16( z, *(__m128i*)bits.div_const ), *(__m128i*)bits.shl_const );
          z = _mm_sub_epi16( z, _mm_slli_epi64( _mm_mullo_epi16( m, z ), 16 ) );
          z = _mm_add_epi8( _mm_packus_epi16( z, _mm_xor_si128(o, o) ), a );
          x = __builtin_ctz( ~_mm_movemask_epi8( _mm_cmpeq_epi8( a, z ) ) );
          l = 8 - x;
          uint64_t q = _mm_cvtsi128_si64(z) >> (x * 8);
          *(uint64_t*)buf = q;
          buf += l;
          x = 1;
        v = (y * 6554) >> 16;
        l += 1 + (x | (v != 0));
            *(unsigned short*)buf = 0x30 + ((l > 1) ? ((0x30 + y - v * 10) << 8) + v : y);
            return l;
        static inline string_type convert(bool neg, unsigned val) {
        char buf[16];
#ifdef RDTSC
        long first_clock = __rdtsc();
        buf[0] = '-';
        unsigned len = generate(val, buf + neg);
        char* e = buf + len + neg;
#ifdef RDTSC
        cpu_cycles += __rdtsc() - first_clock;
        return string_type(buf, e);
      inline string_type itostr(int i) { return Proxy<int>::convert(i < 0, i < 0 ? unsigned(~i) + 1 : i); }
      inline string_type itostr(unsigned i) { return Proxy<unsigned>::convert(false, i); }
      unsigned long cycles() { return cpu_cycles; }
      void reset() { cpu_cycles = 0; }
} // wm

namespace tmn {

#ifdef TM_CPP
  namespace cpp {
      static unsigned long cpu_cycles = 0;

      template <typename value_type> class Proxy {

        static inline void generate(unsigned v, char* buffer) {
          unsigned const f1_10000 = (1 << 28) / 10000;
          unsigned tmplo, tmphi;

          unsigned lo = v % 100000;
          unsigned hi = v / 100000;

          tmplo = lo * (f1_10000 + 1) - (lo >> 2);
          tmphi = hi * (f1_10000 + 1) - (hi >> 2);

          unsigned mask = 0x0fffffff;
          unsigned shift = 28;

          for(size_t i = 0; i < 5; i++)
            buffer[i + 0] = '0' + (char)(tmphi >> shift);
            buffer[i + 5] = '0' + (char)(tmplo >> shift);
            tmphi = (tmphi & mask) * 5;
            tmplo = (tmplo & mask) * 5;
            mask >>= 1;
        static inline string_type convert(bool neg, unsigned val) {
#ifdef RDTSC
        long first_clock = __rdtsc();
        char buf[16];
        size_t len = detail::num_digits(val);
        char* e = buf + 11;
        generate(val, buf + 1);
        buf[10 - len] = '-';
        len += neg;
        char* b = e - len;
#ifdef RDTSC
        cpu_cycles += __rdtsc() - first_clock;
        return string_type(b, e);
      string_type itostr(int i) { return Proxy<int>::convert(i < 0, i < 0 ? unsigned(~i) + 1 : i); }
      string_type itostr(unsigned i) { return Proxy<unsigned>::convert(false, i); }
      unsigned long cycles() { return cpu_cycles; }
      void reset() { cpu_cycles = 0; }

#ifdef TM_VEC
  namespace vec {
      static unsigned long cpu_cycles = 0;

      template <typename value_type> class Proxy {

        static inline unsigned generate(unsigned val, char* buffer) {
        static struct {
            unsigned char mul_10[16];
            unsigned char to_ascii[16];
            unsigned char gather[16];
            unsigned char shift[16];
        } ALIGN(64) bits = {
            { 10,0,0,0,10,0,0,0,10,0,0,0,10,0,0,0 },
            { '0','0','0','0','0','0','0','0','0','0','0','0','0','0','0','0' },
            { 3,5,6,7,9,10,11,13,14,15,0,0,0,0,0,0 },
            { 0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15 }

        unsigned u = val / 1000000;
        unsigned l = val - u * 1000000;

        __m128i x, h, f, m, n;

        n = _mm_load_si128((__m128i*)bits.mul_10);
        x = _mm_set_epi64x( l, u );
        h = _mm_mul_epu32( x, _mm_set1_epi32(4294968) );
        x = _mm_sub_epi64( x, _mm_srli_epi64( _mm_mullo_epi32( h, _mm_set1_epi32(1000) ), 32 ) );
        f = _mm_set1_epi32((1 << 28) / 1000 + 1);
        m = _mm_srli_epi32( _mm_cmpeq_epi32(m, m), 4 );
        x = _mm_shuffle_epi32( _mm_blend_epi16( x, h, 204 ), 177 );
        f = _mm_sub_epi32( _mm_mullo_epi32(f, x), _mm_srli_epi32(x, 2) );

        h = _mm_load_si128((__m128i*)bits.to_ascii);

        x = _mm_srli_epi32(f, 28);
        f = _mm_mullo_epi32( _mm_and_si128( f, m ), n );

        x = _mm_or_si128( x, _mm_slli_epi32(_mm_srli_epi32(f, 28), 8) );
        f = _mm_mullo_epi32( _mm_and_si128( f, m ), n );

        x = _mm_or_si128( x, _mm_slli_epi32(_mm_srli_epi32(f, 28), 16) );
        f = _mm_mullo_epi32( _mm_and_si128( f, m ), n );

        x = _mm_or_si128( x, _mm_slli_epi32(_mm_srli_epi32(f, 28), 24) );

        x = _mm_add_epi8( _mm_shuffle_epi8(x, *(__m128i*)bits.gather), h );
        l = __builtin_ctz( ~_mm_movemask_epi8( _mm_cmpeq_epi8( h, x ) ) | (1 << 9) );

        x = _mm_shuffle_epi8( x, _mm_add_epi8(*(__m128i*)bits.shift, _mm_set1_epi8(l) ) );

        _mm_store_si128( (__m128i*)buffer, x );
        return 10 - l;

        static inline string_type convert(bool neg, unsigned val) {
#ifdef RDTSC
        long first_clock = __rdtsc();
        char arena[32];
        char* buf = (char*)((uintptr_t)(arena + 16) & ~(uintptr_t)0xf);
        *(buf - 1)= '-';
        unsigned len = generate(val, buf) + neg;
        buf -= neg;
        char* end = buf + len;
#ifdef RDTSC
        cpu_cycles += __rdtsc() - first_clock;
        return string_type(buf, end);
      string_type itostr(int i) { return Proxy<int>::convert(i < 0, i < 0 ? unsigned(~i) + 1 : i); }
      string_type itostr(unsigned i) { return Proxy<unsigned>::convert(false, i); }
      unsigned long cycles() { return cpu_cycles; }
      void reset() { cpu_cycles = 0; }

bool fail(string in, string_type out) {
    cout << "failure: " << in << " => " << out << endl;
    return false;

#define TEST(x, n) \
    stringstream ss; \
    string_type s = n::itostr(x); \
    ss << (long long)x; \
    if (::strcmp(ss.str().c_str(), s.c_str())) { \
        passed = fail(ss.str(), s); \
        break; \

#define test(x) { \
    passed = true; \
    if (0 && passed) { \
        char c = CHAR_MIN; \
        do { \
            TEST(c, x); \
        } while (c++ != CHAR_MAX); \
        if (!passed) cout << #x << " failed char!!!" << endl; \
    } \
    if (0 && passed) { \
        short c = numeric_limits<short>::min(); \
        do { \
            TEST(c, x); \
        } while (c++ != numeric_limits<short>::max()); \
        if (!passed) cout << #x << " failed short!!!" << endl; \
    } \
    if (passed) { \
        int c = numeric_limits<int>::min(); \
        do { \
            TEST(c, x); \
        } while ((c += 100000) < numeric_limits<int>::max() - 100000); \
        if (!passed) cout << #x << " failed int!!!" << endl; \
    } \
    if (passed) { \
        unsigned c = numeric_limits<unsigned>::max(); \
        do { \
            TEST(c, x); \
        } while ((c -= 100000) > 100000); \
        if (!passed) cout << #x << " failed unsigned int!!!" << endl; \
    } \

#define time(x, N) \
if (passed) { \
    static const int64_t limits[] = \
        {0, 10, 100, 1000, 10000, 100000, \
         1000000, 10000000, 100000000, 1000000000, 10000000000ULL }; \
    long passes = 0; \
    cout << #x << ": "; \
    progress_timer t; \
    uint64_t s = 0; \
    if (do_time) { \
        for (int n = 0; n < N1; n++) { \
            int i = 0; \
            while (i < N2) { \
                int v = ((NM - i) % limits[N]) | (limits[N] / 10); \
                int w = x::itostr(v).size() + \
                    x::itostr(-v).size(); \
                i += w * mult; \
                                passes++; \
            } \
            s += i / mult; \
        } \
    } \
    k += s; \
    cout << N << " digits: " \
          << s / double(t.elapsed()) * CLOCKS_PER_SEC/1000000 << " MB/sec, " << (x::cycles() / passes >> 1) << " clocks per pass "; \
    x::reset(); \

#define series(n) \
    { if (do_test) test(n);    if (do_time) time(n, 1); if (do_time) time(n, 2); \
      if (do_time) time(n, 3); if (do_time) time(n, 4); if (do_time) time(n, 5); \
      if (do_time) time(n, 6); if (do_time) time(n, 7); if (do_time) time(n, 8); \
      if (do_time) time(n, 9); if (do_time) time(n, 10); }

int N1 = 1, N2 = 500000000, NM = INT_MAX;
int mult = 1; //  used to stay under timelimit on ideone
unsigned long long k = 0;

int main(int argc, char** argv) {
    bool do_time = 1, do_test = 1;
    bool passed = true;
#ifdef WM_VEC
#ifdef TM_CPP
#ifdef TM_VEC
#if defined(AK_BW)
#if defined(AK_FW)
    return k;
Acredito que criei o algoritmo inteiro para string mais rápido. É uma variação do algoritmo do Módulo 100 que é cerca de 33% mais rápida e, o mais importante, é mais rápida para números menores e maiores. É chamado de algoritmo Script ItoS. Para ler o artigo que explica como desenvolvi o algoritmo, consulte . Você pode usar o algoritmo, mas pense em contribuir com a VM Kabuki e confira o Script ; especialmente se você estiver interessado em protocolos de rede AMIL-NLP e / ou definidos por software.

insira a descrição da imagem aqui

/** Kabuki Toolkit
    @version 0.x
    @file    ~/source/crabs/
    @author  Cale McCollough <[email protected]>
    @license Copyright (C) 2017-2018 Cale McCollough <[email protected]>;
             All right reserved (R). Licensed under the Apache License, Version 
             2.0 (the "License"); you may not use this file except in 
             compliance with the License. You may obtain a copy of the License 
             [here]( Unless 
             required by applicable law or agreed to in writing, software 
             distributed under the License is distributed on an "AS IS" BASIS, 
             WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or 
             implied. See the License for the specific language governing 
             permissions and limitations under the License.

#include <stdafx.h>
#include "print_itos.h"

#if MAJOR_SEAM >= 1 && MINOR_SEAM >= 1

#if MAJOR_SEAM == 1 && MINOR_SEAM == 1
#define DEBUG 1

#define PRINTF(format, ...) printf(format, __VA_ARGS__);
#define PUTCHAR(c) putchar(c);
    sprintf_s (buffer, 24, "%u", value); *text_end = 0;\
    printf ("\n    Printed \"%s\" leaving value:\"%s\":%u",\
            begin, buffer, (uint)strlen (buffer));
#define PRINT_BINARY PrintBinary (value);
#define PRINT_BINARY_TABLE PrintBinaryTable (value);
#define PRINTF(x, ...)
#define PUTCHAR(c)

namespace _ {

void PrintLine (char c) {
    std::cout << '\n';
    for (int i = 80; i > 0; --i) 
        std::cout << c;

char* Print (uint32_t value, char* text, char* text_end) {

    // Lookup table for powers of 10.
    static const uint32_t k10ToThe[]{
        1, 10, 100, 1000, 10000, 100000, 1000000, 10000000, 100000000,
        1000000000, ~(uint32_t)0 };

    /** Lookup table of ASCII char pairs for 00, 01, ..., 99.
        To convert this algorithm to big-endian, flip the digit pair bytes. */
    static const uint16_t kDigits00To99[100] = {
        0x3030, 0x3130, 0x3230, 0x3330, 0x3430, 0x3530, 0x3630, 0x3730, 0x3830,
        0x3930, 0x3031, 0x3131, 0x3231, 0x3331, 0x3431, 0x3531, 0x3631, 0x3731,
        0x3831, 0x3931, 0x3032, 0x3132, 0x3232, 0x3332, 0x3432, 0x3532, 0x3632,
        0x3732, 0x3832, 0x3932, 0x3033, 0x3133, 0x3233, 0x3333, 0x3433, 0x3533,
        0x3633, 0x3733, 0x3833, 0x3933, 0x3034, 0x3134, 0x3234, 0x3334, 0x3434,
        0x3534, 0x3634, 0x3734, 0x3834, 0x3934, 0x3035, 0x3135, 0x3235, 0x3335,
        0x3435, 0x3535, 0x3635, 0x3735, 0x3835, 0x3935, 0x3036, 0x3136, 0x3236,
        0x3336, 0x3436, 0x3536, 0x3636, 0x3736, 0x3836, 0x3936, 0x3037, 0x3137,
        0x3237, 0x3337, 0x3437, 0x3537, 0x3637, 0x3737, 0x3837, 0x3937, 0x3038,
        0x3138, 0x3238, 0x3338, 0x3438, 0x3538, 0x3638, 0x3738, 0x3838, 0x3938,
        0x3039, 0x3139, 0x3239, 0x3339, 0x3439, 0x3539, 0x3639, 0x3739, 0x3839,
        0x3939, };

    static const char kMsbShift[] = { 4, 7, 11, 14, 17, 21, 24, 27, 30, };

    if (!text) {
        return nullptr;
    if (text >= text_end) {
        return nullptr;

    uint16_t* text16;
    char      digit;
    uint32_t  scalar;
    uint16_t  digits1and2,
    uint32_t  comparator;

    #if MAJOR_SEAM == 1 && MINOR_SEAM == 1
    // Write a bunches of xxxxxx to the buffer for debug purposes.
    for (int i = 0; i <= 21; ++i) {
        *(text + i) = 'x';
    *(text + 21) = 0;
    char* begin = text;
    char buffer[256];

    if (value < 10) {
        PRINTF ("\n    Range:[0, 9] length:1 ")
        if (text + 1 >= text_end) {
            return nullptr;
        *text++ = '0' + (char)value;
        return text;
    if (value < 100) {
        PRINTF ("\n    Range:[10, 99] length:2 ")
        if (text + 2 >= text_end) {
            return nullptr;
        *reinterpret_cast<uint16_t*> (text) = kDigits00To99[value];
        return text + 2;
    if (value >> 14) {
        if (value >> 27) {
            if (value >> 30) {
                PRINTF ("\n    Range:[1073741824, 4294967295] length:10")
                if (text + 10 >= text_end) {
                    return nullptr;
                comparator = 100000000;
                digits1and2 = (uint16_t)(value / comparator);
                PRINTF ("\n    digits1and2:%u", digits1and2)
                value -= digits1and2 * comparator;
                *reinterpret_cast<uint16_t*> (text) = kDigits00To99[digits1and2];
                text += 2;
                goto Print8;
            else {
                comparator = 1000000000;
                if (value >= comparator) {
                    PRINTF ("\n    Range:[100000000, 1073741823] length:10")
                    goto Print10;
                PRINTF ("\n    Range:[134217727, 999999999] length:9")
                if (text + 9 >= text_end) {
                    return nullptr;
                comparator = 100000000;
                digit = (char)(value / comparator);
                *text++ = digit + '0';
                value -= comparator * digit;
                goto Print8;
        else if (value >> 24) {
            comparator = k10ToThe[8];
            if (value >= comparator) {
                PRINTF ("\n    Range:[100000000, 134217728] length:9")
                if (text + 9 >= text_end) {
                    return nullptr;
                *text++ = '1';
                value -= comparator;
            PRINTF ("\n    Range:[16777216, 9999999] length:8")
            if (text + 8 >= text_end) {
                return nullptr;
            PRINTF ("\n    Print8:")
            scalar = 10000;
            digits5and6 = (uint16_t)(value / scalar);
            digits1and2 = value - scalar * digits5and6;
            digits7and8 = digits5and6 / 100;
            digits3and4 = digits1and2 / 100;
            digits5and6 -= 100 * digits7and8;
            digits1and2 -= 100 * digits3and4;
            *reinterpret_cast<uint16_t*> (text + 6) = 
            *reinterpret_cast<uint16_t*> (text + 4) = 
            *reinterpret_cast<uint16_t*> (text + 2) = 
            *reinterpret_cast<uint16_t*> (text) = 
            return text + 8;
        else if (value >> 20) {
            comparator = 10000000;
            if (value >= comparator) {
                PRINTF ("\n    Range:[10000000, 16777215] length:8")
                if (text + 8 >= text_end) {
                    return nullptr;
                *text++ = '1';
                value -= comparator;
            else {
                PRINTF ("\n    Range:[1048576, 9999999] length:7")
                if (text + 7 >= text_end) {
                    return nullptr;
            scalar = 10000;
            digits5and6 = (uint16_t)(value / scalar);
            digits1and2 = value - scalar * digits5and6;
            digits7and8 = digits5and6 / 100;
            digits3and4 = digits1and2 / 100;
            digits5and6 -= 100 * digits7and8;
            digits1and2 -= 100 * digits3and4;;
            *reinterpret_cast<uint16_t*> (text + 5) = 
            *reinterpret_cast<uint16_t*> (text + 3) = 
            *reinterpret_cast<uint16_t*> (text + 1) = 
            *text = (char)digits7and8 + '0';
            return text + 7;
        else if (value >> 17) {
            comparator = 1000000;
            if (value >= comparator) {
                PRINTF ("\n    Range:[100000, 1048575] length:7")
                if (text + 7 >= text_end) {
                    return nullptr;
                *text++ = '1';
                value -= comparator;
            else {
                PRINTF ("\n    Range:[131072, 999999] length:6")
                if (text + 6 >= text_end) {
                    return nullptr;
            scalar = 10000;
            digits5and6 = (uint16_t)(value / scalar);
            digits1and2 = value - scalar * digits5and6;
            digits7and8 = digits5and6 / 100;
            digits3and4 = digits1and2 / 100;
            digits5and6 -= 100 * digits7and8;
            digits1and2 -= 100 * digits3and4;
            text16 = reinterpret_cast<uint16_t*> (text + 6);
            *reinterpret_cast<uint16_t*> (text + 4) = kDigits00To99[digits1and2];
            *reinterpret_cast<uint16_t*> (text + 2) = kDigits00To99[digits3and4];
            *reinterpret_cast<uint16_t*> (text    ) = kDigits00To99[digits5and6];
            return text + 6;
        else { // (value >> 14)
            if (value >= 100000) {
                PRINTF ("\n    Range:[65536, 131071] length:6")
                goto Print6;
            PRINTF ("\n    Range:[10000, 65535] length:5")
            if (text + 5 >= text_end) {
                return nullptr;
            digits5and6 = 10000;
            digit = (uint8_t)(value / digits5and6);
            value -= digits5and6 * digit;
            *text = digit + '0';
            digits1and2 = (uint16_t)value;
            digits5and6 = 100;
            digits3and4 = digits1and2 / digits5and6;
            digits1and2 -= digits3and4 * digits5and6;
            *reinterpret_cast<uint16_t*> (text + 1) = 
                PRINTF ("\n    digits1and2:%u", digits1and2)
            *reinterpret_cast<uint16_t*> (text + 3) = 
            return text + 5;
    digits1and2 = (uint16_t)value;
    if (value >> 10) {
        digits5and6 = 10000;
        if (digits1and2 >= digits5and6) {
            if (text + 5 >= text_end) {
                return nullptr;
            PRINTF ("\n    Range:[10000, 16383] length:5")
            *text++ = '1';
            digits1and2 -= digits5and6;

        else {
            PRINTF ("\n    Range:[1024, 9999] length:4")
            if (text + 4 >= text_end) {
                return nullptr;
        digits5and6 = 100;
        digits3and4 = digits1and2 / digits5and6;
        digits1and2 -= digits3and4 * digits5and6;
        *reinterpret_cast<uint16_t*> (text    ) = kDigits00To99[digits3and4];
        *reinterpret_cast<uint16_t*> (text + 2) = kDigits00To99[digits1and2];
        return text + 4;
    else {
        if (text + 4 >= text_end) {
            return nullptr;
        digits3and4 = 1000;
        if (digits1and2 >= digits3and4) {
            PRINTF ("\n    Range:[1000, 1023] length:4")
            digits1and2 -= digits3and4;
            text16 = reinterpret_cast<uint16_t*> (text + 2);
            *text16-- = kDigits00To99[digits1and2];
            *text16 = (((uint16_t)'1') | (((uint16_t)'0') << 8));
            return text + 4;
        PRINTF ("\n    Range:[100, 999] length:3")
        digits1and2 = (uint16_t)value;
        digits3and4 = 100;
        digit = (char)(digits1and2 / digits3and4);
        digits1and2 -= digit * digits3and4;
        *text = digit + '0';
        *reinterpret_cast<uint16_t*> (text + 1) = kDigits00To99[digits1and2];
        return text + 3;

}       //< namespace _
#undef  PRINTF
#endif  //< MAJOR_SEAM >= 1 && MINOR_SEAM >= 1


FYI: Ao publicá-lo no Stack Overflow, você o publicou irrevogavelmente no CC BY-SA 3.0 (de acordo com os termos de uso do Stack Exchange). Sua declaração de que é publicada sob a GPL 3 constitui uma licença adicional que um usuário pode opcionalmente usar como uma alternativa para CC BY-SA 3.0. Qual licença usar fica a critério do usuário que copia o código. Se este é um problema para você, sugiro que obtenha aconselhamento jurídico competente. (IANAL) Observe que não há nada de errado com isso, mas achei que deveria ser trazido à sua atenção.
Muito agradável. No entanto, ele precisa retornar um std::stringpara que a comparação com outros métodos listados aqui seja válida. No começo, não conseguia descobrir o uso do operador shift na árvore de pesquisa binária, porque uma comparação já é excepcionalmente rápida, mas agora percebo que seria útil pré-computar esse valor alterado, se necessário. Você não usa, no entanto. Por outro lado, você não acaba com literais grandes codificados em instruções, então talvez isso seja motivo suficiente por si só.
Ben Voigt
Eu esqueci de fazer isso. É apenas outra função de invólucro. Todas as minhas coisas são licenciadas pelo Apache, mas pensei em experimentar o GNU, mas sim ... não faz sentido.
Ok, troquei a licença novamente e adicionei as funções de string. Script é uma família de idiomas baseada em soquete para computação distribuída para executar meu IGEEK em supercomputadores na Sala Chinesa. Minha classe de string é um buffer de anel. {: -) - + = <Eu também tenho algumas estruturas de dados contíguas muito rápidas que são muito mais rápidas que o JSON. Eu tenho um dicionário, mapa não-ordenado, lista de tuplas, mapa, pilha, uma matriz que permite o empacotamento de dados e scripts codificados por bytes, texto compilado pelo JIT e todos os tipos de vantagens da VM. Ainda não está pronto.
Acabei de atualizar o algoritmo e melhorou significativamente o desempenho de números maiores.

Modificação na solução do user434507. Modificado para usar a matriz de caracteres em vez da string C ++. Corre um pouco mais rápido. Também movi a verificação para 0 inferior no código ... pois isso nunca acontece no meu caso particular. Mova-o para trás se for mais comum para o seu caso.

// Int2Str.cpp : Defines the entry point for the console application.
#include <stdio.h>
#include <iostream>
#include "StopWatch.h"

using namespace std;

const char digit_pairs[201] = {

void itostr(int n, char* c) {
    int sign = -(n<0);
    unsigned int val = (n^sign)-sign;

    int size;
    if(val>=10000) {
        if(val>=10000000) {
            if(val>=1000000000) {
            else if(val>=100000000) {
            else size=8;
        else {
            if(val>=1000000) {
            else if(val>=100000) {
            else size=5;
    else {
        if(val>=100) {
            if(val>=1000) {
            else size=3;
        else {
            if(val>=10) {
            else if(n==0) {
                c[1] = '\0';
            else size=1;
    size -= sign;

    c += size-1;
    while(val>=100) {
        int pos = val % 100;
        val /= 100;
    while(val>0) {
        *c--='0' + (val % 10);
        val /= 10;
    c[size+1] = '\0';

void itostr(unsigned val, char* c)
    int size;
            else if(val>=100000000)
            else if(val>=100000)
            else if (val==0) {
                c[1] = '\0';

    c += size-1;
       int pos = val % 100;
       val /= 100;
        *c--='0' + (val % 10);
        val /= 10;
    c[size+1] = '\0';

void test() {
    bool foundmismatch = false;
    char str[16];
    char compare[16];
    for(int i = -1000000; i < 1000000; i++) {
        int random = rand();
        itostr(random, str);
        itoa(random, compare, 10);
        if(strcmp(str, compare) != 0) {
            cout << "Mismatch found: " << endl;
            cout << "Generated: " << str << endl;
            cout << "Reference: " << compare << endl;
            foundmismatch = true;
    if(!foundmismatch) {
        cout << "No mismatch found!" << endl;

void benchmark() {
    StopWatch stopwatch;
    char str[16];
    for(unsigned int i = 0; i < 2000000; i++) {
        itostr(i, str);

int main( int argc, const char* argv[]) {
Eu testei de 0x80000000 a 0x7FFFFFFF e já em -999999999 você obtém valores inválidos (parei após algumas incompatibilidades). Mismatch found: Generated: -9999999990 Reference: -999999999 Mismatch found: Generated: -9999999980 Reference: -999999998 Mismatch found: Generated: -9999999970 Reference: -999999997

Usamos o seguinte código (para MSVC):

Modelo tBitScanReverse:

#include <intrin.h>

namespace intrin {

#pragma intrinsic(_BitScanReverse)
#pragma intrinsic(_BitScanReverse64)

template<typename TIntegerValue>
__forceinline auto tBitScanReverse(DWORD * out_index, TIntegerValue mask)
    -> std::enable_if_t<(std::is_integral<TIntegerValue>::value && sizeof(TIntegerValue) == 4), unsigned char>
    return _BitScanReverse(out_index, mask);
template<typename TIntegerValue>
__forceinline auto tBitScanReverse(DWORD * out_index, TIntegerValue mask)
    -> std::enable_if_t<(std::is_integral<TIntegerValue>::value && sizeof(TIntegerValue) == 8), unsigned char>
#if !(_M_IA64 || _M_AMD64)
    auto res = _BitScanReverse(out_index, (unsigned long)(mask >> 32));
    if (res) {
        out_index += 32;
        return res;
    return _BitScanReverse(out_index, (unsigned long)mask);
    return _BitScanReverse64(out_index, mask);


auxiliares char / wchar_t:

template<typename TChar> inline constexpr TChar   ascii_0();
template<>               inline constexpr char    ascii_0() { return  '0'; }
template<>               inline constexpr wchar_t ascii_0() { return L'0'; }

template<typename TChar, typename TInt> inline constexpr TChar ascii_DEC(TInt d) { return (TChar)(ascii_0<TChar>() + d); }

Poderes de 10 mesas:

static uint32 uint32_powers10[] = {
//   123456789
static uint64 uint64_powers10[] = {
//   1234567890123456789

template<typename TUint> inline constexpr const TUint  * powers10();
template<>               inline constexpr const uint32 * powers10() { return uint32_powers10; }
template<>               inline constexpr const uint64 * powers10() { return uint64_powers10; }

Impressão real:

template<typename TChar, typename TUInt>
__forceinline auto
    TUInt u,
    TChar * & buffer) -> typename std::enable_if_t<std::is_unsigned<TUInt>::value>
    if (u < 10) {                                                   // 1-digit, including 0  
        *buffer++ = ascii_DEC<TChar>(u);
    else {
        DWORD log2u;
        intrin::tBitScanReverse(&log2u, u);                         //  log2u [3,31]  (u >= 10)
        DWORD log10u = ((log2u + 1) * 77) >> 8;                     //  log10u [1,9]   77/256 = ln(2) / ln(10)
        DWORD digits = log10u + (u >= powers10<TUInt>()[log10u]);   //  digits [2,10]

        buffer += digits;
        auto p = buffer;

        for (--digits; digits; --digits) {
            auto x = u / 10, d = u - x * 10;
            *--p = ascii_DEC<TChar>(d);
            u = x;
        *--p = ascii_DEC<TChar>(u);

O último loop pode ser desenrolado:

switch (digits) {
case 10: { auto x = u / 10, d = u - x * 10; *--p = ascii_DEC<TChar>(d); u = x; }
case  9: { auto x = u / 10, d = u - x * 10; *--p = ascii_DEC<TChar>(d); u = x; }
case  8: { auto x = u / 10, d = u - x * 10; *--p = ascii_DEC<TChar>(d); u = x; }
case  7: { auto x = u / 10, d = u - x * 10; *--p = ascii_DEC<TChar>(d); u = x; }
case  6: { auto x = u / 10, d = u - x * 10; *--p = ascii_DEC<TChar>(d); u = x; }
case  5: { auto x = u / 10, d = u - x * 10; *--p = ascii_DEC<TChar>(d); u = x; }
case  4: { auto x = u / 10, d = u - x * 10; *--p = ascii_DEC<TChar>(d); u = x; }
case  3: { auto x = u / 10, d = u - x * 10; *--p = ascii_DEC<TChar>(d); u = x; }
case  2: { auto x = u / 10, d = u - x * 10; *--p = ascii_DEC<TChar>(d); u = x; *--p = ascii_DEC<TChar>(u); break; }
default: __assume(0);

A ideia principal é a mesma que a @atlaste sugerida anteriormente:


Acabei de descobrir isso por causa de atividades recentes; Eu realmente não tenho tempo para adicionar benchmarks, mas queria adicionar o que escrevi no passado para quando eu precisar de uma conversão rápida de número inteiro para string ...

O truque usado aqui é que o usuário deve fornecer um std :: array grande o suficiente (em sua pilha) e que esse código grave a string para trás, iniciando nas unidades e retornando um ponteiro para o array com um deslocamento para onde o resultado realmente começa.

Portanto, isso não aloca ou move a memória, mas ainda exige uma divisão e um módulo por dígito de resultado (que eu acredito que seja rápido o suficiente, pois isso é apenas o código executado internamente na CPU; o acesso à memória geralmente é o problema).

Carlo Wood

Por que ninguém está usando a função div do stdlib quando ambos, quociente e restante são necessários?
Usando o código fonte do Timo, acabei com algo assim:

if(val >= 0)
    div_t   d2 = div(val,100);
        COPYPAIR(it,2 * d2.rem);
        d2 = div(d2.quot,100);
    div_t   d2 = div(val,100);
        COPYPAIR(it,-2 * d2.rem);
        d2 = div(d2.quot,100);
    *it = '-';

Ok, para int sem sinal, a função div não pode ser usada, mas os sem sinal podem ser manipulados separadamente.
Eu defini a macro COPYPAIR da seguinte maneira para testar variações como copiar os 2 caracteres do digit_pairs (não encontrei nenhuma vantagem óbvia de nenhum desses métodos):

#define COPYPAIR0(_p,_i) { memcpy((_p), &digit_pairs[(_i)], 2); }
#define COPYPAIR1(_p,_i) { (_p)[0] = digit_pairs[(_i)]; (_p)[1] = digit_pairs[(_i)+1]; }
#define COPYPAIR2(_p,_i) { unsigned short * d = (unsigned short *)(_p); unsigned short * s = (unsigned short *)&digit_pairs[(_i)]; *d = *s; }

É porque esse desafio é sobre velocidade, não o menor número de linhas de código.
PS: E para as pessoas que querem usar isso na minha solução: (1) é muito mais lento e (2) porque div trabalha em números inteiros assinados - o que quebra o abs (INT32_MIN).
Atlaste 13/03/2015