Почему Python не может проанализировать эти данные JSON?

1439

У меня есть этот JSON в файле:

{
    "maps": [
        {
            "id": "blabla",
            "iscategorical": "0"
        },
        {
            "id": "blabla",
            "iscategorical": "0"
        }
    ],
    "masks": [
        "id": "valore"
    ],
    "om_points": "value",
    "parameters": [
        "id": "valore"
    ]
}

Я написал этот скрипт для печати всех данных JSON:

import json
from pprint import pprint

with open('data.json') as f:
    data = json.load(f)

pprint(data)

Эта программа вызывает исключение, хотя:

Traceback (most recent call last):
  File "<pyshell#1>", line 5, in <module>
    data = json.load(f)
  File "/usr/lib/python3.5/json/__init__.py", line 319, in loads
    return _default_decoder.decode(s)
  File "/usr/lib/python3.5/json/decoder.py", line 339, in decode
    obj, end = self.raw_decode(s, idx=_w(s, 0).end())
  File "/usr/lib/python3.5/json/decoder.py", line 355, in raw_decode
    obj, end = self.scan_once(s, idx)
json.decoder.JSONDecodeError: Expecting ',' delimiter: line 13 column 13 (char 213)

Как я могу проанализировать JSON и извлечь его значения?

Michele
источник
@kederrac По указанной причине: «Этот вопрос был вызван опечаткой или проблемой, которая больше не может быть воспроизведена». JSON является недействительным.
Роб
@kederrac Проблема вызвана ошибкой в ​​использовании, а не потому, что она может быть воспроизведена.
Роб

Ответы:

2128

Ваши данные не в формате JSON . У вас есть, []когда вы должны иметь {}:

  • []предназначены для массивов JSON, которые называются listв Python
  • {}предназначены для объектов JSON, которые вызываются dictв Python

Вот как должен выглядеть ваш JSON-файл:

{
    "maps": [
        {
            "id": "blabla",
            "iscategorical": "0"
        },
        {
            "id": "blabla",
            "iscategorical": "0"
        }
    ],
    "masks": {
        "id": "valore"
    },
    "om_points": "value",
    "parameters": {
        "id": "valore"
    }
}

Тогда вы можете использовать свой код:

import json
from pprint import pprint

with open('data.json') as f:
    data = json.load(f)

pprint(data)

С данными теперь вы также можете найти такие значения:

data["maps"][0]["id"]
data["masks"]["id"]
data["om_points"]

Попробуйте это и посмотрите, начнет ли это иметь смысл.

Джастин Пил
источник
1
Итак, я должен контролировать свой код, потому что этот файл JSON генерируется из объекта Java. Спасибо.
Мишель
5
Спасибо за решение. я получаю символ Unicode во время печати. (например, у'валье). Как это предотвратить?
дневник
6
Хорошо, но python добавляет u'перед каждым ключом. Есть идеи почему?
CodyBugstein
7
Вот почему ваш текст имеет тип Unicode, а не строку. В большинстве случаев лучше иметь текст в юникоде для немецких умлаутов и для обмена текстовыми результатами с другими модулями / программами и т. Д. Так что ты в порядке!
Майкл П
2
Я хотел бы сделать замечание, которое, надеюсь, будет полезным и определенно ироничным. Я нахожу, что модуль pprint уступает модулю json для красивой печати json. Если вы попробуете их обоих, я думаю, вы согласитесь. Чтобы отобразить и отладить мои структуры данных json, я делал: output = json.dumps (data_structure, indent = 2, sort_keys = True) print (output) Я думаю, вы найдете управление отступами, сортировку и интеллектуальные Обтекание строк в методе dumps () будет вам по душе. Если я ошибаюсь, кто-нибудь, пожалуйста, дайте мне знать.
Larold
307

Вы data.jsonдолжны выглядеть так:

{
 "maps":[
         {"id":"blabla","iscategorical":"0"},
         {"id":"blabla","iscategorical":"0"}
        ],
"masks":
         {"id":"valore"},
"om_points":"value",
"parameters":
         {"id":"valore"}
}

Ваш код должен быть:

import json
from pprint import pprint

with open('data.json') as data_file:    
    data = json.load(data_file)
pprint(data)

Обратите внимание, что это работает только в Python 2.6 и выше, так как это зависит от with-statement . В Python 2.5 используйте from __future__ import with_statement, в Python <= 2.4, см . Ответ Джастина Пила, на котором основан этот ответ.

Теперь вы также можете получить доступ к отдельным значениям, например так:

data["maps"][0]["id"]  # will return 'blabla'
data["masks"]["id"]    # will return 'valore'
data["om_points"]      # will return 'value'
Бенгт
источник
7
Я получил понижение на этом. Может быть, было не ясно, почему я думал, что нужен другой ответ. Добавлено примечание о совместимости оператора with.
Бенгт
Извините за откат, но предлагаемый код будет работать data_file openдольше, чем необходимо.
Бенгт
Ссылаясь на документацию 2.6 ( docs.python.org/2.6/library/io.html ), открытие файла в контексте «с» автоматически закроет файл.
Стив С.
1
@SteveS. Да, но не раньше, чем остался контекст. Вход pprintв with-context дольше сохраняет data_fileоткрытость.
Бенг
1
@GayanPathirage вы получите доступ к нему , как data["om_points"], data["masks"]["id"]. Идея в том, что вы можете достичь любого уровня в словаре, указав «ключевые пути». Если вы получаете KeyErrorисключение, это означает, что ключ не существует в пути. Посмотрите на опечатки или проверьте структуру вашего словаря.
Нухман
71

Ответ Джастина Пила действительно полезен, но если вы используете Python 3, чтение JSON должно быть сделано следующим образом:

with open('data.json', encoding='utf-8') as data_file:
    data = json.loads(data_file.read())

Примечание: используйте json.loadsвместо json.load. В Python 3 json.loadsпринимает строковый параметр. json.loadпринимает файловый параметр объекта. data_file.read()возвращает строковый объект.

Честно говоря, я не думаю, что в большинстве случаев проблема заключается в загрузке всех данных JSON в память.

Geng Jiawen
источник
10
Почему следует json.loadизбегать в пользу .loadsв Python 3?
Зерин
10
На странице, на которую вы ссылаетесь, ничего не сказано о том, как избежать load.
Дан Халм,
28
Этот ответ считывает весь файл в память, когда в этом нет необходимости, и предполагает, что в Python 3 файлы JSON нельзя читать лениво, что неверно. Извините, но это ясно, понижение.
Лукаш Рогальски
10
Этот ответ не точен. Нет причин не использовать json.load с обработчиком открытого файла в python3. Извините за понижение голосов, но, похоже, вы не очень внимательно прочитали приведенные выше комментарии.
dusktreader 30.09.16
5
+1 Этот ответ великолепен! Спасибо вам за это и вытащил меня из-за того, что я далеко ушел за поиском функции, которая может использовать строки, потому что я работаю только со строками и сетевыми запросами, которые не являются файлами!
новички
54
data = []
with codecs.open('d:\output.txt','rU','utf-8') as f:
    for line in f:
       data.append(json.loads(line))
user1743724
источник
8
это правильное решение, если у вас есть несколько объектов json в файле. json.loadsне декодирует несколько объектов JSON. В противном случае вы получите ошибку «Extra Data».
yasin_alm
Это лучший ответ. В противном случае выдает ошибку «Дополнительные данные».
Earthx9
39
Наличие нескольких файлов json в файле означает, что сам файл не является действительным json. Если у вас есть несколько объектов для включения в файл json, они должны содержаться в массиве на верхнем уровне файла.
dusktreader
Наличие нескольких файлов json в файле означает, что файл не является единственным объектом json. Это вроде очевидно. Создание единого массива из объектов - очевидный обходной путь. Но JSON является дизайн явно прекращено, почти на каждом уровне (по }, ]или "). Следовательно, вы действительно можете объединить несколько объектов в одну строку или один файл, без двусмысленности. Проблема здесь в том, что синтаксический анализатор, ожидающий один объект, завершается ошибкой, когда ему передано более одного объекта.
MSalters
Объявление, хранящее несколько объектов JSON в одном файле: для этого есть «стандарт» - jsonlines.org/examples в .jsonl(строки json), объекты разделяются символом новой строки, что делает предварительную обработку для анализа тривиальной и позволяет легко разбивать / пакетировать файлы, не беспокоясь о маркерах начала / конца.
Себи,
13

«Ultra JSON» или просто «ujson» могут обрабатывать []ввод в ваш файл JSON. Если вы читаете входной файл JSON в вашу программу в виде списка элементов JSON; например, [{[{}]}, {}, [], etc...]ujson может обрабатывать произвольный порядок списков словарей, словари списков.

Вы можете найти ujson в индексе пакета Python, и API почти идентичен встроенной jsonбиблиотеке Python .

ujson также намного быстрее, если вы загружаете большие файлы JSON. Вы можете увидеть детали производительности в сравнении с другими библиотеками Python JSON по той же ссылке.

moeabdol
источник
9

Если вы используете Python3, вы можете попробовать изменить ( connection.jsonфайл) JSON на:

{
  "connection1": {
    "DSN": "con1",
    "UID": "abc",
    "PWD": "1234",
    "connection_string_python":"test1"
  }
  ,
  "connection2": {
    "DSN": "con2",
    "UID": "def",
    "PWD": "1234"
  }
}

Затем с помощью следующего кода:

connection_file = open('connection.json', 'r')
conn_string = json.load(connection_file)
conn_string['connection1']['connection_string_python'])
connection_file.close()
>>> test1
sushmit
источник
1
это также работает в 2.7.5
siddardha
17
это оставляет дескриптор файла открытым. withлучше использовать утверждение
Кори Голдберг
6

Здесь вы идете с измененным data.jsonфайлом:

{
    "maps": [
        {
            "id": "blabla",
            "iscategorical": "0"
        },
        {
            "id": "blabla",
            "iscategorical": "0"
        }
    ],
    "masks": [{
        "id": "valore"
    }],
    "om_points": "value",
    "parameters": [{
        "id": "valore"
    }]
}

Вы можете позвонить или распечатать данные на консоли, используя следующие строки:

import json
from pprint import pprint
with open('data.json') as data_file:
    data_item = json.load(data_file)
pprint(data_item)

Ожидаемый результат для print(data_item['parameters'][0]['id']):

{'maps': [{'id': 'blabla', 'iscategorical': '0'},
          {'id': 'blabla', 'iscategorical': '0'}],
 'masks': [{'id': 'valore'}],
 'om_points': 'value',
 'parameters': [{'id': 'valore'}]}

Ожидаемый результат для print(data_item['parameters'][0]['id']):

valore
JoboFive
источник
Если мы хотим добавить столбец, чтобы подсчитать, сколько наблюдений имеет «карта», как мы могли бы написать эту функцию?
Чэньси
5

Есть два типа в этом разборе.

  1. Разбор данных из файла по системному пути
  2. Парсинг JSON с удаленного URL.

Из файла вы можете использовать следующее

import json
json = json.loads(open('/path/to/file.json').read())
value = json['key']
print json['value']

Эта статья объясняет полный анализ и получение значений с использованием двух сценариев. Разбор JSON с использованием Python

Бибин Уилсон
источник
4

Как пользователь Python3 ,

Разница между loadи loadsметодами важна, особенно когда вы читаете данные json из файла.

Как указано в документации:

json.load:

Десериализовать fp (поддерживающий .read () текстовый файл или двоичный файл, содержащий документ JSON) в объект Python, используя эту таблицу преобразования.

json.loads:

json.loads: десериализовать s (экземпляр str, bytes или bytearray, содержащий документ JSON) в объект Python, используя эту таблицу преобразования.

Метод json.load может непосредственно читать открытый документ json, так как он способен читать двоичный файл.

with open('./recipes.json') as data:
  all_recipes = json.load(data)

В результате ваши данные JSON доступны в формате, указанном в соответствии с таблицей преобразования:

https://docs.python.org/3.7/library/json.html#json-to-py-table

muratgozel
источник
Как это ответ на заданный вопрос? Пользователь использовал правильный метод для загрузки файла JSON.
Raj006