преобразовать значение nan в ноль

95

У меня есть двумерный массив numpy. Некоторые из значений в этом массиве NaN. Я хочу выполнить определенные операции с этим массивом. Например, рассмотрим массив:

[[   0.   43.   67.    0.   38.]
 [ 100.   86.   96.  100.   94.]
 [  76.   79.   83.   89.   56.]
 [  88.   NaN   67.   89.   81.]
 [  94.   79.   67.   89.   69.]
 [  88.   79.   58.   72.   63.]
 [  76.   79.   71.   67.   56.]
 [  71.   71.   NaN   56.  100.]]

Я пытаюсь взять каждую строку по одной, отсортировать ее в обратном порядке, чтобы получить максимум 3 значения из строки и взять их среднее значение. Код, который я пробовал:

# nparr is a 2D numpy array
for entry in nparr:
    sortedentry = sorted(entry, reverse=True)
    highest_3_values = sortedentry[:3]
    avg_highest_3 = float(sum(highest_3_values)) / 3

Это не работает для строк, содержащих NaN. Мой вопрос: есть ли быстрый способ преобразовать все NaNзначения в ноль в массиве 2D numpy, чтобы у меня не было проблем с сортировкой и другими вещами, которые я пытаюсь сделать.

Любопытно
источник
1
each: map: return isNaN(value) ? 0 : value
kirilloid
@kirilloid: звучит хорошо, как насчет использования примера?
serv-inc

Ответы:

124

Это должно работать:

from numpy import *

a = array([[1, 2, 3], [0, 3, NaN]])
where_are_NaNs = isnan(a)
a[where_are_NaNs] = 0

В приведенном выше случае where_are_NaNs:

In [12]: where_are_NaNs
Out[12]: 
array([[False, False, False],
       [False, False,  True]], dtype=bool)
Марчин
источник
139

Где Aваш 2D-массив:

import numpy as np
A[np.isnan(A)] = 0

Функция isnanсоздает массив типа bool, указывающий, где NaNнаходятся значения. Логический массив можно использовать для индексации массива той же формы. Думайте об этом как о маске.

Павел
источник
40

Как насчет nan_to_num () ?

Дрейк Гуань
источник
11
nan_to_num () также изменяет бесконечности - в некоторых случаях это может быть нежелательно.
Агос
11
Это также в 10 раз медленнее, чем другие методы.
user48956
7
Я не был уверен насчет утверждения "> 10x медленно", поэтому проверил. В самом деле, это намного медленнее. Спасибо за указание на это.
Габриэль
16

Вы можете использовать, np.whereчтобы найти, где у вас есть NaN:

import numpy as np

a = np.array([[   0,   43,   67,    0,   38],
              [ 100,   86,   96,  100,   94],
              [  76,   79,   83,   89,   56],
              [  88,   np.nan,   67,   89,   81],
              [  94,   79,   67,   89,   69],
              [  88,   79,   58,   72,   63],
              [  76,   79,   71,   67,   56],
              [  71,   71,   np.nan,   56,  100]])

b = np.where(np.isnan(a), 0, a)

In [20]: b
Out[20]: 
array([[   0.,   43.,   67.,    0.,   38.],
       [ 100.,   86.,   96.,  100.,   94.],
       [  76.,   79.,   83.,   89.,   56.],
       [  88.,    0.,   67.,   89.,   81.],
       [  94.,   79.,   67.,   89.,   69.],
       [  88.,   79.,   58.,   72.,   63.],
       [  76.,   79.,   71.,   67.,   56.],
       [  71.,   71.,    0.,   56.,  100.]])
Антон Протопопов
источник
1
как есть, не работает, нужно менять np.where(np.isnan(a), a, 0)на np.where(~np.isnan(a), a, 0). Хотя это может быть разница в используемых версиях.
TehTris 01
1
@TehTris, ты прав, спасибо. Я изменил его на b = np.where(np.isnan(a), 0, a)более простой, ~чем я думаю.
Антон Протопопов
10

Пример кода для ответа Дрейка nan_to_num:

>>> import numpy as np
>>> A = np.array([[1, 2, 3], [0, 3, np.NaN]])
>>> A = np.nan_to_num(A)
>>> A
array([[ 1.,  2.,  3.],
       [ 0.,  3.,  0.]])
serv-inc
источник
3

Вы можете использовать numpy.nan_to_num :

numpy.nan_to_num (x): заменить nan на ноль и inf на конечные числа .

Пример (см. Документ):

>>> np.set_printoptions(precision=8)
>>> x = np.array([np.inf, -np.inf, np.nan, -128, 128])
>>> np.nan_to_num(x)
array([  1.79769313e+308,  -1.79769313e+308,   0.00000000e+000,
        -1.28000000e+002,   1.28000000e+002])
Билал
источник
1

Нан никогда не равен нану

if z!=z:z=0

поэтому для 2D-массива

for entry in nparr:
    if entry!=entry:entry=0
легкое присутствие
источник
Это не работает: entryэто одномерный массив, поэтому тест entry != entryне дает простое логическое значение, а повышает ValueError.
Эрик О Лебигот 05
-1

Вы можете использовать лямбда-функцию, пример для одномерного массива:

import numpy as np
a = [np.nan, 2, 3]
map(lambda v:0 if np.isnan(v) == True else v, a)

Это даст вам результат:

[0, 2, 3]
Моханад Калея
источник
-8

Для ваших целей, если все элементы хранятся как, strи вы просто используете сортировку, как вы используете, а затем проверьте первый элемент и замените его на '0'

>>> l1 = ['88','NaN','67','89','81']
>>> n = sorted(l1,reverse=True)
['NaN', '89', '88', '81', '67']
>>> import math
>>> if math.isnan(float(n[0])):
...     n[0] = '0'
... 
>>> n
['0', '89', '88', '81', '67']
Сентил Кумаран
источник
6
Разве ваш комментарий не резок? Я знаю, что такое numpy, но знал, что массив не будет строковым представлением чисел. Я специально не обращал внимания на это с точки зрения numpy, но с точки зрения Python, если это было полезно.
Senthil Kumaran
2
Изменение порядка массива звучит как запутанный способ решения этой проблемы.
holografix
Мне нужно сохранить порядок моего массива. Это не сработает, если в вашем массиве несколько NaN.
3nrique0