Написать валидатор JSON

12

Напишите программу, которая определяет, является ли ее ввод действительным JSON .

  • Вход: текст ASCII:[\x00-\x7F]*

    Примечание: если ASCII проблематичен, не стесняйтесь использовать другую кодировку, но укажите это в своем посте.

  • Выход: Valid или Invalid. Трейлинг новой строки может быть опущен.

  • Пример:

    $ echo '{"key": "value"}' | ./json-validate
    Valid
    $ echo '{key: "value"}' | ./json-validate
    Invalid
    
  • Правила:

    • Не используйте библиотеку анализа JSON.
    • Частично правильные решения допускаются, но осуждаются.
    • Опубликуйте результаты тестов (см. Ниже).

Самое короткое правильное решение побеждает.

Пожалуйста, запустите json-validate-test-suite.sh в своей программе и опубликуйте свой результат. Пример:

$ ./json-validate-test-suite.sh ./buggy-prog
fail: should be invalid:  [ 0.1e ] 
fail: should be invalid:  [ 0.1e+-1 ] 
fail: should be invalid:  [ 0.1e-+1 ] 
score: 297/300

Ресурсы:

  • json.org - краткое определение грамматики JSON с простыми в использовании рисунками.
  • RFC 4627 - спецификация JSON
  • json-validate.c - реализация из 200 строк, которая проходит тестовый набор.

Грамматика JSON выглядит следующим образом:

json: object | array

object: '{' members? '}'
    members: pair (',' pair)*
    pair:    string ':' value

array: '[' elements? ']'
    elements: value (',' value)*

value: string
     | number
     | object
     | array
     | 'true'
     | 'false'
     | 'null'

string: '"' char* '"'
    char: [^"\\\x00-\x1F]
        | '\' escape
    escape: ["\\/bfnrt]
          | u [0-9A-Fa-f]{4}

number: '-'? (0 | [1-9][0-9]*) ('.' [0-9]+)? ([Ee] [+-]? [0-9]+)?

Кроме того, пробел может появляться до или после любого из шести структурных символов {}[]:,

ws = [\t\n\r ]*

Имейте в виду следующее:

  • Будьте осторожны с такими функциями, как isspace(). Пробел в JSON есть [\t\n\r ], но он isspace()также обрабатывает \v(вертикальная табуляция) и \f(подача формы) как пробел. Хотя слово имеет слово, которое isdigit()может принимать больше, чем просто[0-9] , его можно использовать здесь, так как мы предполагаем, что вход находится в ASCII.
  • \x7Fтехнически это управляющий символ, но JSON RFC не упоминает об этом (он только упоминает [\x00-\x1F]), и большинство анализаторов JSON обычно принимают \x7Fсимволы в строках. Из-за этой неоднозначности решения могут либо принять их, либо нет.
Джои Адамс
источник
7
Ваше замечание о "частично правильных решениях" заставляет меня мечтать извлечь регулярное выражение из генетического алгоритма. Я должен быть безумным.
JB
@JB: Это было бы здорово.
Джои Адамс
Просто любопытно, почему {key: "value"}считается недействительным JSON? Это действительный javascript.
HoLyVieR
@HoLyVieR: Я думаю, что JSON будет проще анализировать и он будет менее неоднозначным для разработчиков. Я не уверен, что мне нравится это ограничение.
Джои Адамс
Кто-нибудь получил копию сценария валидатора?
Арманд

Ответы:

7

PHP: 297 285 264 253 символа

<?=preg_match(<<<'R'
~([\h
]*)({(?1)((("([^"\\\0- ]| |\\(["\\/bfnrt]|u[\dA-Fa-f]{4}))*")(?1):(?1)((?5)|-?(0|[1-9]\d*)(\.\d+)?([Ee][+-]?\d+)?|(?2)|true|false|null))(((?1),(?1))(?4))*)?}|\[(?1)((?8)((?13)(?8))*)?(?1)])(?1)\z~A
R
,`cat`)?'Valid':'Invalid';

оценка: 300/300

Это полная рекурсивная реализация грамматики JSON.

Он работает только на PHP ≥ 5.3 из-за синтаксиса nowdoc (heredoc должен был бы удвоить все \).

Читаемая версия:

(это то же самое регулярное выражение с именованными группами захвата и расширенным синтаксисом):

#!/usr/bin/env php
<?php

$re = <<< 'RE'
~\A (?P<ws>[\t\n\r ])* (
    (?P<object>\{ (?P>ws)*
        (?P<members>
            (?P<pair>
                (?P<string>
                    "(?P<char>
                        [^"\\\x00-\x1F]
                        |\\(?P<escape>
                            ["\\/bfnrt]
                            |u [0-9A-Fa-f]{4}
                        )
                    )*"
                ) (?P>ws)* : (?P>ws)* (?P<value>
                    (?P>string)
                    | (?P<number>-? (0 | [1-9][0-9]*) (\. [0-9]+)? ([Ee] [+-]? [0-9]+)? )
                    | (?P>object)
                    | (?P>array)
                    | true
                    | false
                    | null
                )
            ) ( (?P>ws)* , (?P>ws)* (?P>pair) )*
        )?
    \})
    |(?P<array>\[ (?P>ws)*
        (?P<elements>
            (?P>value) ( (?P>ws)* , (?P>ws)* (?P>value) )*
        )?
    (?P>ws)* \])
) (?P>ws)* \z~x
RE;

if (preg_match($re, stream_get_contents(STDIN))) {
    echo 'Valid';
} else {
    echo 'Invalid';
}
Арно Ле Блан
источник
Вау. `` `` ``
Натан Осман
Вам необходимо включить <?phpИМО.
анонимный трус
Добавлен. 264 символа сейчас :-)
Арно Ле Бланк
5

Питон - 340 314 299 292 символов

import re,os
r=x=re.sub
z=r('0\.0+','0',r('e[+-]?0+|[\t\n\r]',' ',r(r'"(\\["nrtb\\/]|[^\\"\0-\37])*"','1',r(r'true|false|null|\\u\w{4}|[1-9]\d*','0',os.read(0,99)))))
while z!=x:z,x=r('\{(1:\d)?(,\\1)*\}|\[(-?\d(,-?\d)*)?\]','0',r(' *([][{}:,]) *','\\1',z)),z
print['Inv','V'][z=='0']+'alid'

Гол

$ ./json-validate-test-suite.sh ./codegolf-474.py
score: 300/300
ВЫ
источник
3

Скала - 390 символов

import scala.util.parsing.combinator.JavaTokenParsers
object J extends JavaTokenParsers{def j=o|a
def o:Parser[Any]="{"~repsep(p,",")~"}"
def p=s~":"~v
def a:Parser[Any]="["~repsep(v,",")~"]"
def v=s|o|a|"true"|"false"|"null"
def s=stringLiteral
def n=floatingPointNumber}
object Main{def main(a:Array[String]){print(if(J.parseAll(J.j,readLine()).successful)"Valid"else"Invalid")}}

Это не просто, с помощью комбинаторов синтаксического анализа. Написано буквально за 1 или 2 минуты. Невозможно получить скрипт валидатора, браузер сказал, что сервер не найден.

Показать имя
источник
выглядит как интересное решение; ссылка валидатора была исправлена.
Арманд
Есть ли простой способ сделать это на Windows? (без cygwin или подобной ереси)
Отображаемое имя