Вопросы с тегом «pandas»

16
Предотвращение приведения кадров данных панд при индексации и вставке строк

Я работаю с отдельными строками фреймов данных Pandas, но я спотыкаюсь о проблемах принуждения при индексации и вставке строк. Панды, кажется, всегда хотят привести к смешанному типу int / float к типам с плавающей точкой, и я не вижу каких-либо очевидных элементов управления этим поведением....

16
Как преобразовать pandas dataframe в иерархический словарь

У меня есть следующий пандас dataframe: df1 = pd.DataFrame({'date': [200101,200101,200101,200101,200102,200102,200102,200102],'blockcount': [1,1,2,2,1,1,2,2],'reactiontime': [350,400,200,250,100,300,450,400]}) Я пытаюсь создать иерархический словарь со значениями встроенного словаря в виде списков,...

14
Определите, какие столбцы даты и времени

У меня огромный массив данных со многими столбцами, многие из которых имеют тип datetime.datetime. Проблема в том, что многие из них также имеют смешанные типы, в том числе, например, datetime.datetimeзначения и Noneзначения (и, возможно, другие недопустимые значения): 0 2017-07-06 00:00:00 1...

13
Функция to_excel панд генерирует неожиданную ошибку TypeError

Я создал словарь панд данных: d[k] = pd.DataFrame(data=data[i]) Так что я предполагаю, что d[k]это правильный пандас. затем for k in d.keys(): d[k].to_excel (file_name) Тогда у меня есть ошибка: TypeError: got invalid input value of type <class 'xml.etree.ElementTree.Element'>, expected...

13
Почему назначение с [:] по сравнению с iloc [:] дает разные результаты в пандах?

Я так запутался с различными методами индексации, используемыми ilocв пандах. Допустим, я пытаюсь преобразовать 1-й Dataframe в 2-й Dataframe. Сначала у меня есть следующий 1-й Dataframe a_array = [1,2,3,4,5,6,7,8] a_df = pd.DataFrame(a_array).T И я собираюсь преобразовать это в 2-й Dataframe с...

12
pandasUDF и пиарроу 0.15.0

Недавно я начал получать кучу ошибок на ряде pysparkзаданий, работающих на кластерах EMR. Ошибки java.lang.IllegalArgumentException at java.nio.ByteBuffer.allocate(ByteBuffer.java:334) at org.apache.arrow.vector.ipc.message.MessageSerializer.readMessage(MessageSerializer.java:543) at...

12
Генерация отфильтрованных бинарных декартовых продуктов

Постановка задачи Я ищу эффективный способ генерирования полных двоичных декартовых продуктов (таблиц со всеми комбинациями True и False с определенным числом столбцов), отфильтрованных по определенным исключительным условиям. Например, для трех столбцов / битов n=3мы получили бы полную таблицу...

11
Выявление корневых родителей и всех их детей на деревьях

У меня есть пандас dataframe как таковой: parent child parent_level child_level A B 0 1 B C 1 2 B D 1 2 X Y 0 2 X D 0 2 Y Z 2 3 Это представляет дерево, которое выглядит так A X / / \ B / \ /\ / \ C D Y | Z Я хочу создать что-то похожее на это: root children A [B,C,D] X [D,Y,Z] или root child A B A...

11
Geopandas ImportError: Пакет descartes необходим для построения полигонов в геопандах.

Я пытаюсь запустить простой геопандальный код, используя ANACONDA spyder. Однако я столкнулся с ошибкой. Я включил код и ошибку, как показано ниже: - вот код: import geopandas as gpd world = gpd.read_file(gpd.datasets.get_path('naturalearth_lowres')) world.plot() import matplotlib.pyplot as plt...

11
Считать файл повторяющихся пар «ключ = значение» в DataFrame

У меня есть текстовый файл с данными в этом формате. Первые 3 строки повторяются снова и снова. name=1 grade=A class=B name=2 grade=D class=A Я хотел бы вывести данные в виде таблицы, например: name | grade | class 1 | A | B 2 | D | A Я изо всех сил пытаюсь установить заголовки и просто перебрать...

11
Как я могу разделить столбцы с помощью регулярных выражений, чтобы переместить конечные CAPS в отдельный столбец?

Я пытаюсь разделить столбец с помощью регулярных выражений, но, похоже, не могу правильно получить разделение. Я пытаюсь взять все конечные буквы и перенести их в отдельный столбец. Таким образом, я получаю все CAPS, которые являются 2-4 CAPS подряд. Тем не менее, это только оставив'Name' столбец,...

11
Панды перезаписывают значения в нескольких столбцах одновременно, основываясь на условии значений в одном столбце

У меня есть такой DataFrame: df = pd.DataFrame(data={ 'col0': [11, 22,1, 5] 'col1': ['aa:a:aaa', 'a:a', 'a', 'a:aa:a:aaa'], 'col2': ["foo", "foo", "foobar", "bar"], 'col3': [True, False, True, False], 'col4': ['elo', 'foo', 'bar', 'dupa']}) Я хочу получить длину списка после разделения на ":" в...

11
Как удалить нулевые значения из динамического цикла, сгенерированного из Python?

У меня есть фрейм данных, как это: ORDER_NO 2401 2504 2600 2020020 2019-12-04 2019-12-10 2019-12-12 2020024 2019-12-25 NaN 2019-12-20 2020034 NaN NaN 2019-12-20 2020020 2019-12-12 2019-12-15 2019-12-18 Я создаю XML из вышеупомянутого фрейма данных. Я хочу удалить нулевое значение в XML. Мой код...

11
Добавить идентификатор, найденный в списке, в новый столбец в панде.

Скажем, у меня есть следующий фрейм данных (столбец целых чисел и столбец со списком целых чисел) ... ID Found_IDs 0 12345 [15443, 15533, 3433] 1 15533 [2234, 16608, 12002, 7654] 2 6789 [43322, 876544, 36789] А также отдельный список идентификаторов ... bad_ids = [15533, 876544, 36789, 11111]...

11
создать матрицу NxN из одной колонны панд

у меня есть dataframe с каждой строкой, имеющей значение списка. id list_of_value 0 ['a','b','c'] 1 ['d','b','c'] 2 ['a','b','c'] 3 ['a','b','c'] я должен сделать подсчет очков с одной строкой и против всех других строк Например: Step 1: Take value of id 0: ['a','b','c'], Step 2: find the...