Bata expressões regulares puras na validação de datas ISO 8601

12

No ValiDate ISO 8601 da RX , o desafio era usar apenas expressões regulares padrão para validar formatos e valores de data padrão (o primeiro é um trabalho comum para o RX, o segundo é incomum). A resposta vencedora usou 778 bytes. Esse desafio é superar isso usando qualquer idioma de sua escolha, mas sem funções ou classes especiais de data .

Desafio

Encontre o código mais curto que

  1. valida todas as datas possíveis no calendário gregoriano proléptico (que também se aplica a todas as datas anteriores à sua primeira adoção em 1582),
  2. não corresponde a nenhuma data inválida e
  3. não usa funções, métodos, classes, módulos ou similares predefinidos para lidar com datas (e horários), ou seja, depende de operações numéricas e de sequência.

Resultado

A saída é verdadeira ou falsey. Não é necessário gerar ou converter a data.

Entrada

A entrada é uma sequência única em qualquer um dos três formatos de data ISO 8601 expandidos - sem hora.

Os dois primeiros são ±YYYY-MM-DD(ano, mês, dia) e ±YYYY-DDD(ano, dia). Ambos precisam de revestimento especial para o dia do salto. Eles são ingenuamente correspondidos separadamente por esses RXs estendidos:

(?<year>[+-]?\d{4,})-(?<month>\d\d)-(?<day>\d\d)
(?<year>[+-]?\d{4,})-(?<doy>\d{3})

O terceiro formato de entrada é ±YYYY-wWW-D(ano, semana, dia). É o complicado por causa do padrão complexo da semana dos saltos.

(?<year>[+-]?\d{4,})-W(?<week>\d\d)-(?<dow>\d)

Condições

Um ano bissexto no calendário gregoriano proléptico contém o dia bissexto …-02-29 e, portanto, tem 366 dias, portanto, …-366existe. Isso acontece em qualquer ano cujo número ordinal (possivelmente negativo) é divisível por 4, mas não por 100, a menos que também seja divisível por 400. O ano zero existe neste calendário e é um ano bissexto.

Um longo ano no calendário semanal da ISO contém uma 53ª semana …-W53-…, que pode ser denominada " semana bissexta ". Isso acontece em todos os anos em que 1º de janeiro é quinta-feira e, adicionalmente, em todos os anos bissextos em que é quarta-feira. 0001-01-01e 2001-01-01são segundas-feiras. Ocorre geralmente a cada 5 ou 6 anos, em um padrão aparentemente irregular.

Um ano tem pelo menos 4 dígitos. Anos com mais de 10 dígitos não precisam ser suportados, porque isso é próximo o suficiente da idade do universo (cerca de 14 bilhões de anos). O sinal de adição inicial é opcional, embora o padrão real sugira que seja necessário por anos com mais de 4 dígitos.

Datas parciais ou truncadas, ou seja, com precisão menor que o dia, não devem ser aceitas. Hífens separados -são necessários em todos os casos. (Essas pré-condições possibilitam que o lead +seja sempre opcional.)

Regras

Isso é código-golfe. O código mais curto em bytes vitórias. A resposta anterior vence um empate.

Casos de teste

Testes válidos

2015-08-10
2015-10-08
12015-08-10
-2015-08-10
+2015-08-10
0015-08-10
1582-10-10
2015-02-28
2016-02-29
2000-02-29
0000-02-29
-2000-02-29
-2016-02-29
+2016-02-29
200000-02-29
-200000-02-29
+200000-02-29
2016-366
2000-366
0000-366
-2000-366
-2016-366
+2016-366
2015-081
2015-W33-1
2015-W53-7
+2015-W53-7
+2015-W33-1
-2015-W33-1
 2015-08-10 

O último é opcionalmente válido, ou seja, os espaços à esquerda e à direita nas sequências de entrada podem ser cortados.

Formatos inválidos

-0000-08-10     # that's an arbitrary decision
15-08-10        # year is at least 4 digits long
2015-8-10       # month (and day) is exactly two digits long, i.e. leading zero is required
015-08-10       # year is at least 4 digits long
20150810        # though a valid ISO format, we require separators; could also be interpreted as a 8-digit year
2015 08 10      # separator must be hyphen-minus
2015.08.10      # separator must be hyphen-minus
2015–08–10      # separator must be hyphen-minus
2015-0810
201508-10       # could be October in the year 201508
2015 - 08 - 10  # no internal spaces allowed
2015-w33-1      # letter ‘W’ must be uppercase
2015W33-1       # it would be unambiguous to omit the separator in front of a letter, but not in the standard
2015W331        # though a valid ISO format we require separators
2015-W331
2015-W33        # a valid ISO date, but we require day-precision
2015W33         # though a valid ISO format we require separators and day-precision
2015-08         # a valid ISO format, but we require day-precision
201508          # a valid but ambiguous ISO format
2015            # a valid ISO format, but we require day-precision

Datas inválidas

2015-00-10  # month range is 1–12
2015-13-10  # month range is 1–12
2015-08-00  # day range is 1–28 through 31
2015-08-32  # max. day range is 1–31
2015-04-31  # day range for April is 1–30
2015-02-30  # day range for February is 1–28 or 29
2015-02-29  # day range for common February is 1–28
2100-02-29  # most century years are non-leap
-2100-02-29 # most century years are non-leap
2015-000    # day range is 1–365 or 366
2015-366    # day range is 1–365 in common years
2016-367    # day range is 1–366 in leap years
2100-366    # most century years are non-leap
-2100-366   # most century years are non-leap
2015-W00-1  # week range is 1–52 or 53
2015-W54-1  # week range is 1–53 in long years
2016-W53-1  # week range is 1–52 in short years
2015-W33-0  # day range is 1–7
2015-W33-8  # day range is 1–7
Crissov
fonte
2
off topic, mas talvez útil - Stack Overflow: stackoverflow.com/questions/28020805/... (se eu não deveria postar isso, me diga)
Daniele D
E se o programador for um YEC (Young-Earth Creationist)?
Freira vazada
Sobre o -0000-08-10que é exatamente a decisão arbitrária? Não permitindo o ano como 0 negativo?
Edc65 13/04
@ edc65 Sim, +0000-08-10e 0000-08-10deve ser usado em seu lugar. Observe, no entanto, que a resposta aceita na variante de expressão regular desse desafio falha neste caso de teste específico, portanto, não é realmente uma condição com falha (isto é , deve , não deve ).
Crissov
@KennyLau Então o programador está errado .
Arcturus

Respostas:

2

JavaScript (ES6), 236

236 bytes, permitindo 0 ano negativo ( -0000). Retorna verdadeiro ou falso

s=>!!([,y,w,d]=s.match(/^([+-]?\d{4,})(-W?\d\d)?(-\d{1,3})$/)||[],n=y%100==0&y%400!=0|y%4!=0,l=((l=y-1)+8-~(l/4)+~(l/100)-~(l/400))%7,l=l==5|l==4&!n,+d&&(-w?d>`0${2+n}0101001010`[~w]-32:w?(w=w.slice(2),w>0&w<(53+l)&d>-8):d[3]&&d>n-367))

Adicionar a verificação de 0 negativo corta 2 bytes, mas adiciona 13. Observe que em javascript o valor numérico -0existe e é especial para ser igual a 0, mas 1/-0é -Infinity. Esta versão retorna 0 ou 1

s=>([,y,w,d]=s.match(/^([+-]?\d{4,})(-W?\d\d)?(-\d{1,3})$/)||[],n=y%100==0&y%400!=0|y%4!=0,l=((l=y-1)+8-~(l/4)+~(l/100)-~(l/400))%7,l=l==5|l==4&!n,+d&&(-w?d>`0${2+n}0101001010`[~w]-32:w?(w=w.slice(2),w>0&w<(53+l)&d>-8):d[3]&&d>n-367))&!(!+y&1/y<0)

Teste

Check=
  s=>!! // to obtain a true/false 
  (
    // parse year in y, middle part in w, day in d
    // day will be negative with 1 or 3 numeric digits and could be 0
    // week will be '-W' + 2 digits
    // month will be negative with2 digits and could be 0
    // if the date is in format yyyy-ddd, then w is empty
    [,y,w,d] = s.match(/^([+-]?\d{4,})(-W?\d\d)?(-\d{1,3})$/) || [],
    n = y%100==0 & y%400!=0 | y%4!=0, // n: not leap year
    l = ((l=y-1) + 8 -~(l/4) +~(l/100) -~(l/400)) % 7, 
    l = l==5| l==4 & !n, // l: long year (see http://mathforum.org/library/drmath/view/55837.html)
    +d && ( // if d is not empty and not 0
     -w // if w is numeric and not 0, then it's the month (negative)
     ? d > `0${2+n}0101001010`[~w] - 32 // check month length (for leap year too)
      : w // if w is not empty, then it's the week ('-Wnn')
        ? ( w = w.slice(2), w > 0 & w < (53+l) & d >- 8) // check long year too
        : d[3] && d > n-367 // else d is the prog day, has to be 3 digits and < 367 o 366
    )
  )

console.log=x=>O.textContent += x +'\n'

OK=['1900-01-01','2015-08-10','2015-10-08','12015-08-10','-2015-08-10','+2015-08-10'
,'0015-08-10','1582-10-10','2015-02-28','2016-02-29','2000-02-29'
,'0000-02-29','-2000-02-29','-2016-02-29','+2016-02-29','200000-02-29'
,'-200000-02-29','+200000-02-29','2016-366','2000-366','0000-366'
,'-2000-366','-2016-366','+2016-366','2015-081','2015-W33-1'
,'2015-W53-7','+2015-W53-7','+2015-W33-1','-2015-W33-1','2015-08-10']

KO=['-0000-08-10','15-08-10','2015-8-10','015-08-10','20150810','2015 08 10'
,'2015.08.10','2015–08–10','2015-0810','201508-10','2015 - 08 - 10','2015-w33-1'
,'2015W33-1','2015W331','2015-W331','2015-W33','2015W33','2015-08','201508'
,'2015','2015-00-10','2015-13-10','2015-08-00','2015-08-32','2015-04-31'
,'2015-02-30','2015-02-29','2100-02-29','-2100-02-29','2015-000'
,'2015-366','2016-367','2100-366','-2100-366','2015-W00-1'
,'2015-W54-1','2016-W53-1','2015-W33-0','2015-W33-8']

console.log('Valid')
OK.forEach(x=>console.log(Check(x)+' '+x))
console.log('Not valid')
KO.forEach(x=>console.log(Check(x)+' '+x))
<pre id=O></pre>

edc65
fonte