fundo
Neste site, ocasionalmente temos perguntas que exigem que os programas sejam "reforçados por radiação"; isso significa que o programa precisa sobreviver à exclusão de um ou mais bytes, independentemente de quais bytes sejam excluídos.
Como é comum em tarefas que frequentemente são definidas em desafios de programação, é natural querer criar uma linguagem que seja particularmente boa nesses desafios. Dado que a maneira natural de fazer isso é adicionar alguns metadados que possibilitam reverter a corrupção, na verdade não é realmente uma linguagem que precise ser projetada, mas uma codificação; a idéia é transformar cada entrada em uma sequência de bytes, de maneira que, mesmo que a sequência seja ligeiramente irradiada, é possível extrair a entrada original.
A tarefa
Escreva dois programas ou funções, E (um codificador) e D (um decodificador), de modo que:
- E pega dois argumentos, uma sequência de octetos (que chamaremos de " entrada " nesta especificação) e um número inteiro não negativo " radiação " e gera uma sequência de octetos " codificando ";
- D pega um argumento, uma sequência de octetos (" encdng ") e gera uma reconstrução de uma sequência de octetos " ";
- Se você executar E e D (com encdng , a entrada para D, escolhida pela exclusão de não mais do que elementos de radiação da codificação (não necessariamente contíguo)), a reconstrução será igual à entrada, independentemente de quais caracteres foram excluídos para formar a encdng .
Esclarecimentos
- Se você enviar funções, não precisará chamá-las
E
eD
; você pode escolher o nome mais adequado ao seu idioma. - Um "octeto" é basicamente um número inteiro de 0 a 255, inclusive, que você pode codificar como um número inteiro, um caractere ou o que for apropriado para o seu idioma.
- E e D devem ser inteiramente determinísticos (ou seja, fornecer as mesmas entradas sempre produzirá a mesma saída, onde "entradas" é definida como entrada e radiação para E, ou codificação para D). Em particular, E pode não comunicar informações a D através de um canal lateral.
- As exclusões são realizadas excluindo um elemento da sequência; pense em abrir a sua sequência em um editor, colocando o cursor em um ponto arbitrário e pressionando Backspace. Se um elemento aparecer várias vezes, é possível que apenas uma cópia do elemento seja excluída (ou seja, outras instâncias do mesmo octeto não serão afetadas).
- Embora a pontuação é calculada apenas com base em relativamente curto de entrada , seu programa deve funcionar na teoria para qualquer entrada e radiação . Em particular, ele deve funcionar, independentemente de quais octetos apareçam na entrada . (Desculpe, as pessoas que gostariam de usar caracteres não imprimíveis que eles conhecem não aparecerão na entrada, mas preciso garantir que a entrada seja incompressível para que o desafio seja o fortalecimento da radiação e não a compactação.)
- Você pode enviar um arquivo que define duas funções; dois arquivos que definem uma função ou que são programas completos; ou três arquivos, dois dos quais implementam D e E, respectivamente (por serem programas completos ou pela definição de uma função) e o terceiro é um arquivo de cabeçalho ou biblioteca comum a D e E. Independentemente de qual forma de envio você usar , sua implementação da linguagem de programação deve ser capaz de entender os dois programas sem argumentos adicionais, como localizações de arquivo (ou você deve pagar uma multa de bytes por invocar sua implementação de maneira incomum, conforme nossas regras padrão).
Condição de vitória
Para cada comprimento e radiação , seja f ( comprimento , radiação ) os comprimentos totais das s de codificação que correspondem a todas as entradas com comprimento de comprimento e a radiação fornecida . (Ou seja, f ( comprimento , radiação ) = soma entrada tem comprimento comprimento comprimento (E ( entrada , radiação )).) Então deixe g ( comprimento , radiação ) igual f ( radiação comprimento , ) ÷ 256 comprimento . Em outras palavras, g é o comprimento médio da saída codificada, para um determinado comprimento de entrada e um determinado requisito de proteção contra radiação. (Em teoria, você pode calcular isso por força bruta, mas provavelmente levaria um tempo implausível para calcular sua pontuação dessa maneira. Espero que a maioria dos envios seja capaz de fazer um argumento matemático sobre qual é a pontuação deles. não tenha certeza, publique uma pontuação aproximada e você ou outra pessoa poderá calculá-la com mais profundidade se outra entrada postar uma pontuação semelhante.)
Sua pontuação é igual à soma de g ( comprimento , radiação ) para toda a radiação no intervalo de 0 a 9 inclusive, e todo o comprimento no intervalo de 0 a 99 inclusive, mais (principalmente para evitar codificação incorreta ou para manter a concorrência se alguém descobre uma codificação matematicamente perfeita; isso provavelmente será um fator mínimo, caso contrário) o número total de bytes em sua submissão ao desafio (além das penalidades padrão para coisas como exigir sinalizadores de intérpretes incomuns ou nomes de arquivos específicos). O vencedor é a entrada com a menor pontuação (empatada pela primeira entrada a enviar).
Respostas:
CJam, escore ≤ 286.516 + 54 + 36 = 286.606
Codificador
Experimente online!
Decodificador
Experimente online!
Ambos pegam e retornam números inteiros de uma lista. Os links TIO incluem a conversão de / para seqüências de caracteres por conveniência. Observe que eles são incrivelmente ineficientes para cadeias mais longas. Se você quiser tentar mais alguns caracteres, recomendo usar caracteres com códigos de caracteres pequenos.
A idéia básica para criar uma codificação reforçada por radiação envolve duas etapas:
Dessa forma, a radiação não pode excluir completamente uma execução de caracteres idênticos, para que possamos decodificar a sequência, pegando um caractere de cada execução e decodificando a etapa 1.
Portanto, a única parte interessante é encontrar uma codificação que nunca produz octetos repetidos. A idéia básica é usar algo como A043096 como um sistema numérico. Ou seja, para codificar um número N , simplesmente contamos em alguma base b , pulando todos os números com octetos repetidos. Acredito que a quantidade de números que podem ser representados dessa maneira com até d dígitos é igual à quantidade de números que podem ser representados na base bijetiva b-1 (já que, quando você deseja escrever esse número, pode escolha entre b-1 dígito para cada posição sem violar a restrição).
Obviamente, para obter a compressão máxima, usaremos b = 256 . Para transformar a entrada em um número inteiro, também podemos usar a conversão de base. Se eu não fosse preguiçoso, usaria uma base bijetiva para a entrada, mas por enquanto estou apenas acrescentando a
1
(para garantir que não haja zeros à esquerda) e, em seguida, use a menor base possível, de modo que todos os octetos no entrada é menor que a base.Essa base é então anexada à codificação (para que o decodificador saiba qual base usar) e separada do número restante por um octeto 0 (isso funciona porque o número restante nunca começará com zero). Como uma otimização menor, a cadeia vazia permanece uma cadeia vazia.
A razão pela qual não calculei uma pontuação exata acima é que estou computando apenas um limite superior por quanto tempo cada entrada será baseada em seu comprimento e seu octeto máximo. No entanto, para esses dois parâmetros, geralmente haverá dois comprimentos de saída diferentes, e ainda não me incomodei em descobrir onde ocorre o ponto de inflexão entre eles. Eu também usei o comprimento da base usual 255 em vez da base bijetiva 255 para estimar esse comprimento, que é novamente um pouco maior do que precisa. O código exato do Mathematica que usei para o cálculo é o seguinte:
num[l, b]
deve fornecer o número de cadeias de comprimentol
com octeto máximob-1
(excetob == 1
onde eu o codifiquei0
porque estou sempre usando pelo menos a base2
).fonte
utilitários bash + GNU, pontuação
294506283468Edit 1: Corrige um problema que o @Leo notou - obrigado!
Edit 2: Melhorado o método de codificação para o parâmetro de radiação, para uma melhor pontuação.
Codificador (97 bytes):
Decodificador (121 bytes):
Para o codificador: sequência de octetos passada como caracteres em stdin, o parâmetro de radiação r passou como argumento.
Para o decodificador: Entrada passada como caracteres em stdin.
Para ambos: Saída em stdout.
O codificador anexa aos dados de entrada os dígitos de r, com um caractere 'a' inserido entre cada par de dígitos idênticos consecutivos, seguido por uma única nova linha. Em seguida, copia toda a entrada (começando pelos caracteres anexados), substituindo cada caractere por r + 1 cópias desse caractere.
O decodificador desfaz isso, passando por cada um dos caracteres restantes x em sua entrada, pulando até r cópias idênticas consecutivas de x após x e imprimindo o que resta. Os dados anexados não possuem caracteres repetidos, portanto, podem ser decodificados antes que r seja conhecido. Nesse ponto, r é conhecido e esse valor é necessário para decodificar o restante dos dados corretamente.
Você pode verificar se isso funciona mesmo que a entrada original tenha repetido caracteres idênticos.
Cálculo da pontuação:
Suponha que a entrada tenha comprimento L e o parâmetro de radiação seja r (que é no máximo 9 para o cálculo da pontuação, portanto cabe em um dígito e, portanto, não possui caracteres repetidos consecutivos). Os dados anexados são 2 bytes (dígito, nova linha); portanto, a saída é (r + 1) (L + 2) bytes para o fluxo codificado.
Então g (L, r) = (r + 1) (L + 2).
Daqui resulta que a pontuação total pode ser calculada como
fonte
r
ler222
), mas felizmente a pontuação é calculada apenas nas radiações de 0 a 9, para que não seja afetada muito. PS Eu estava pensando em implementar esta mesma codificação, é por isso que eu vi o erro de imediato;)Perl + Math :: {ModInt, Polinomial, Prime :: Util}, pontuação ≤ 92819
As imagens de controle são usadas para representar o caractere de controle correspondente (por exemplo,
␀
é um caractere NUL literal). Não se preocupe muito em tentar ler o código; há uma versão mais legível abaixo.Corra com
-Mbigint -MMath::ModInt=mod -MMath::Polynomial -MNtheory=:all
.-MMath::Bigint=lib,GMP
não é necessário (e, portanto, não está incluído na pontuação), mas se você o adicionar antes das outras bibliotecas, o programa será executado um pouco mais rápido.Cálculo de pontuação
O algoritmo aqui é um pouco improvável, mas seria mais difícil de escrever (devido ao Perl não possuir as bibliotecas apropriadas). Por isso, fiz algumas trocas de tamanho / eficiência no código, com base no fato de que, como os bytes podem ser salvos na codificação, não há sentido em tentar eliminar todos os pontos do golfe.
O programa consiste em 600 bytes de código, mais 78 bytes de penalidades para opções de linha de comando, dando uma penalidade de 678 pontos. O restante da pontuação foi calculado executando o programa na sequência de melhor e pior caso (em termos de comprimento de saída) para todos os comprimentos de 0 a 99 e todos os níveis de radiação de 0 a 9; o caso médio está em algum lugar no meio, e isso dá limites à pontuação. (Não vale a pena tentar calcular o valor exato, a menos que outra entrada apareça com uma pontuação semelhante.)
Portanto, isso significa que a pontuação da eficiência da codificação está no intervalo de 91100 a 92141, inclusive, portanto, a pontuação final é:
91100 + 600 + 78 = 91778 ≤ pontuação ≤ 92819 = 92141 + 600 + 78
Versão menos golfe, com comentários e código de teste
Este é o programa original + novas linhas, recuo e comentários. (Na verdade, a versão em golfe foi produzida removendo novas linhas / indentação / comentários desta versão.)
Algoritmo
Simplificando o problema
A idéia básica é reduzir esse problema de "codificação por exclusão" (que não é amplamente explorado) em um problema de codificação por apagamento (uma área matemática amplamente explorada). A idéia por trás da codificação de apagamento é que você está preparando dados para serem enviados por um "canal de apagamento", um canal que às vezes substitui os caracteres que ele envia por um caractere "indecente" que indica uma posição conhecida de erro. (Em outras palavras, é sempre claro onde a corrupção ocorreu, embora o personagem original ainda seja desconhecido.) A idéia por trás disso é bem simples: dividimos a entrada em blocos de comprimento ( radiação+ 1) e use sete dos oito bits em cada bloco para dados, enquanto o bit restante (nesta construção, o MSB) alterna entre ser definido para um bloco inteiro, limpo para o próximo bloco inteiro, definido para o bloco depois disso e assim por diante. Como os blocos são mais longos que o parâmetro de radiação, pelo menos um caractere de cada bloco sobrevive na saída; portanto, executando séries de caracteres com o mesmo MSB, podemos descobrir em qual bloco cada caractere pertence. O número de blocos também é sempre maior que o parâmetro de radiação; portanto, sempre temos pelo menos um bloco não danificado na encdng; sabemos, portanto, que todos os blocos mais longos ou atados por mais tempo não estão danificados, o que nos permite tratar todos os blocos mais curtos como danificados (portanto, um gargarejo). Também podemos deduzir o parâmetro de radiação como este (é '
Codificação de apagamento
Quanto à parte de codificação do problema do apagamento, isso usa um caso especial simples da construção de Reed-Solomon. Esta é uma construção sistemática: a saída (do algoritmo de codificação de apagamento) é igual à entrada mais um número de blocos extras, igual ao parâmetro de radiação. Podemos calcular os valores necessários para esses blocos de uma maneira simples (e fácil!), Tratando-os como garbles e executando o algoritmo de decodificação neles para "reconstruir" seu valor.
A idéia real por trás da construção também é muito simples: ajustamos um polinômio, no mínimo possível, a todos os blocos da codificação (com gargarejos interpolados dos outros elementos); se o polinômio é f , o primeiro bloco é f (0), o segundo é f (1) e assim por diante. Está claro que o grau do polinômio será igual ao número de blocos de entrada menos 1 (porque ajustamos um polinômio aos primeiros, depois o usamos para construir os blocos "de verificação" extras); e porque d +1 pontos definem exclusivamente um polinômio de grau d, obstruir qualquer número de blocos (até o parâmetro radiação) deixará um número de blocos não danificados igual à entrada original, o que é informação suficiente para reconstruir o mesmo polinômio. (Nós apenas temos que avaliar o polinômio para desmembrar um bloco.)
Conversão base
A consideração final deixada aqui refere-se aos valores reais obtidos pelos blocos; se fizermos interpolação polinomial nos números inteiros, os resultados podem ser números racionais (em vez de números inteiros), muito maiores que os valores de entrada ou indesejáveis. Como tal, em vez de usar números inteiros, usamos um campo finito; Neste programa, o campo finito usado é o campo de números inteiros módulo p , em que p é o maior número primo menor que 128 radiação +1(ou seja, o maior número primo para o qual podemos ajustar um número de valores distintos iguais a esse número primo na parte de dados de um bloco). A grande vantagem dos campos finitos é que a divisão (exceto por 0) é definida exclusivamente e sempre produzirá um valor nesse campo; portanto, os valores interpolados dos polinômios se encaixam em um bloco da mesma maneira que os valores de entrada.
Para converter a entrada em uma série de dados de bloco, precisamos converter a base: converter a entrada da base 256 em um número e depois converter na base p (por exemplo, para um parâmetro de radiação 1, temos p= 16381). Isso foi sustentado principalmente pela falta de rotinas de conversão de base do Perl (Math :: Prime :: Util possui algumas, mas elas não funcionam para bases de bignum, e algumas das primas com as quais trabalhamos aqui são incrivelmente grandes). Como já usamos o Math :: Polynomial para interpolação polinomial, pude reutilizá-lo como uma função "converter da sequência de dígitos" (visualizando os dígitos como coeficientes de um polinômio e avaliá-lo), e isso funciona para bignums bem. Indo para o outro lado, porém, tive que escrever a função pessoalmente. Felizmente, não é muito difícil (ou detalhado) de escrever. Infelizmente, essa conversão básica significa que a entrada geralmente fica ilegível. Há também um problema com zeros à esquerda;
Deve-se notar que não podemos ter mais do que p blocos na saída (caso contrário, os índices de dois blocos se tornariam iguais e, ainda assim, possivelmente precisaremos produzir saídas diferentes do polinômio). Isso só acontece quando a entrada é extremamente grande. Este programa resolve o problema de uma maneira muito simples: aumentar a radiação (o que torna os blocos maiores ep muito maiores, o que significa que podemos incluir muito mais dados e que claramente leva a um resultado correto).
Um outro ponto que vale a pena destacar é que codificamos a cadeia nula para si mesma, porque o programa, como foi escrito, trava nela de outra forma. Também é claramente a melhor codificação possível e funciona independentemente do parâmetro de radiação.
Potenciais melhorias
A principal ineficiência assintótica neste programa está relacionada ao uso do modulo-prime como campos finitos em questão. Existem campos finitos de tamanho 2 n (o que é exatamente o que queremos aqui, porque os tamanhos de carga útil dos blocos são naturalmente uma potência de 128). Infelizmente, eles são bem mais complexos do que uma simples construção de módulo, o que significa que o Math :: ModInt não o cortaria (e não consegui encontrar nenhuma biblioteca no CPAN para lidar com campos finitos de tamanhos não primos); Eu precisaria escrever uma classe inteira com aritmética sobrecarregada para Math :: Polynomial para poder lidar com isso, e nesse ponto o custo de bytes poderia potencialmente superar a (muito pequena) perda do uso, por exemplo, 16381 em vez de 16384.
Outra vantagem do uso de tamanhos de potência 2 é que a conversão básica se tornaria muito mais fácil. No entanto, em ambos os casos, seria útil um método melhor para representar o comprimento da entrada; o método "prefixar um 1 em casos ambíguos" é simples, mas desperdício. A conversão de base bijetiva é uma abordagem plausível aqui (a idéia é que você tenha a base como um dígito e 0 como não um dígito, de modo que cada número corresponda a uma única string).
Embora o desempenho assintótico dessa codificação seja muito bom (por exemplo, para uma entrada de comprimento 99 e um parâmetro de radiação de 3, a codificação sempre tem 128 bytes de comprimento, em vez dos ~ 400 bytes que as abordagens baseadas em repetição obteriam), seu desempenho é menos bom em entradas curtas; o comprimento da codificação é sempre pelo menos o quadrado do (parâmetro de radiação + 1). Portanto, para entradas muito curtas (comprimento 1 a 8) na radiação 9, o comprimento da saída é, no entanto, 100. (No comprimento 9, o comprimento da saída é às vezes 100 e às vezes 110.) As abordagens baseadas em repetição superam claramente esse apagamento abordagem baseada em codificação em entradas muito pequenas; pode valer a pena mudar entre vários algoritmos com base no tamanho da entrada.
Finalmente, ele não aparece na pontuação, mas com parâmetros de radiação muito altos, usar um pouco de cada byte (⅛ do tamanho da saída) para delimitar blocos é um desperdício; seria mais barato usar delimitadores entre os blocos. Reconstruir os blocos dos delimitadores é um pouco mais difícil do que com a abordagem de MSB alternado, mas acredito que seja possível, pelo menos se os dados forem suficientemente longos (com dados curtos, pode ser difícil deduzir o parâmetro de radiação da saída) . Isso seria algo a considerar se visássemos uma abordagem assintoticamente ideal, independentemente dos parâmetros.
(E, claro, poderia haver um algoritmo totalmente diferente que produza melhores resultados que este!)
fonte