Преобразовать единицы измерения

10

Глядя, чтобы рассчитать наиболее подходящую единицу измерения для списка веществ, где вещества приведены в разных (но совместимых) единичных объемах.

Таблица перевода единиц

Таблица преобразования единиц хранит различные единицы и их взаимосвязь:

id  unit          coefficient                 parent_id
36  "microlitre"  0.0000000010000000000000000 37
37  "millilitre"  0.0000010000000000000000000 5
 5  "centilitre"  0.0000100000000000000000000 18
18  "decilitre"   0.0001000000000000000000000 34
34  "litre"       0.0010000000000000000000000 19
19  "dekalitre"   0.0100000000000000000000000 29
29  "hectolitre"  0.1000000000000000000000000 33
33  "kilolitre"   1.0000000000000000000000000 35
35  "megalitre"   1000.0000000000000000000000 0

Сортировка по коэффициенту показывает, что parent_idсвязывает дочернюю единицу с ее числовым улучшением.

Эта таблица может быть создана в PostgreSQL с помощью:

CREATE TABLE unit_conversion (
  id serial NOT NULL, -- Primary key.
  unit text NOT NULL, -- Unit of measurement name.
  coefficient numeric(30,25) NOT NULL DEFAULT 0, -- Conversion value.
  parent_id integer NOT NULL DEFAULT 0, -- Relates units in order of increasing measurement volume.
  CONSTRAINT pk_unit_conversion PRIMARY KEY (id)
)

Должен быть внешний ключ от parent_idдо id.

Таблица веществ

В таблице веществ указаны конкретные количества веществ. Например:

 id  unit          label     quantity
 1   "microlitre"  mercury   5
 2   "millilitre"  water     500
 3   "centilitre"  water     2
 4   "microlitre"  mercury   10
 5   "millilitre"  water     600

Таблица может напоминать:

CREATE TABLE substance (
  id bigserial NOT NULL, -- Uniquely identifies this row.
  unit text NOT NULL, -- Foreign key to unit conversion.
  label text NOT NULL, -- Name of the substance.
  quantity numeric( 10, 4 ) NOT NULL, -- Amount of the substance.
  CONSTRAINT pk_substance PRIMARY KEY (id)
)

проблема

Как бы вы создали запрос, который находит измерение для представления суммы веществ, используя наименьшее количество цифр, которые имеют целое число (и, возможно, вещественный компонент)?

Например, как бы вы вернулись:

  quantity  unit        label
        15  microlitre  mercury 
       112  centilitre  water

Но нет:

  quantity  unit        label
        15  microlitre  mercury 
      1.12  litre       water

Потому что 112 имеет меньше реальных цифр, чем 1,12, а 112 меньше 1120. Тем не менее, в определенных ситуациях использование реальных цифр короче - например, 1,1 литра против 110 сантилитров.

В основном у меня проблемы с выбором правильной единицы на основе рекурсивного отношения.

Исходный код

Пока что у меня (очевидно, не работает):

-- Normalize the quantities
select
  sum( coefficient * quantity ) AS kilolitres
from
  unit_conversion uc,
  substance s
where
  uc.unit = s.unit
group by
  s.label

идеи

Требуется ли для этого использование журнала 10 для определения количества цифр?

Ограничения

Единицы не все в полномочиях десяти. Например: http://unitsofmeasure.org/ucum-essence.xml

Дейв Джарвис
источник
3
@mustaccio У меня была точно такая же проблема на моем предыдущем месте, в очень производственной системе. Там мы должны были рассчитать суммы, используемые на кухне доставки еды.
Дезсо
2
Я помню как минимум двухуровневую рекурсивную CTE. Я думаю, что сначала вычислил суммы с наименьшей единицей, которая оказалась в списке для данного вещества, а затем преобразовал ее в самую большую единицу, все еще имеющую ненулевую целую часть.
Дезсо
1
Все единицы конвертируемы с полномочиями 10? Ваш список единиц завершен?
Эрвин Брандштеттер

Ответы:

2

Это выглядит некрасиво:

  with uu(unit, coefficient, u_ord) as (
    select
     unit, 
     coefficient,
     case 
      when log(u.coefficient) < 0 
      then floor (log(u.coefficient)) 
      else ceil(log(u.coefficient)) 
     end u_ord
    from
     unit_conversion u 
  ),
  norm (label, norm_qty) as (
   select
    s.label,
    sum( uc.coefficient * s.quantity ) AS norm_qty
  from
    unit_conversion uc,
    substance s
  where
    uc.unit = s.unit
  group by
    s.label
  ),
  norm_ord (label, norm_qty, log, ord) as (
   select 
    label,
    norm_qty, 
    log(t.norm_qty) as log,
    case 
     when log(t.norm_qty) < 0 
     then floor(log(t.norm_qty)) 
     else ceil(log(t.norm_qty)) 
    end ord
   from norm t
  )
  select
   norm_ord.label,
   norm_ord.norm_qty,
   norm_ord.norm_qty / uu.coefficient val,
   uu.unit
  from 
   norm_ord,
   uu where uu.u_ord = 
     (select max(uu.u_ord) 
      from uu 
      where mod(norm_ord.norm_qty , uu.coefficient) = 0);

но похоже делает свое дело:

|   LABEL | NORM_QTY | VAL |       UNIT |
-----------------------------------------
| mercury |   1.5e-8 |  15 | microlitre |
|   water |  0.00112 | 112 | centilitre |

На самом деле вам не нужны родительско-дочерние отношения в unit_conversionтаблице, потому что единицы в одной семье естественно связаны друг с другом по порядку coefficient, пока вы определили семью.

mustaccio
источник
2

Я думаю, это можно в значительной степени упростить.

1. Изменить unit_conversionтаблицу

Или, если вы не можете изменить таблицу, просто добавьте столбец exp10для «экспоненты 10», который совпадает с количеством цифр для сдвига в десятичной системе:

CREATE TABLE unit_conversion(
   unit text PRIMARY KEY
  ,exp10 int
);

INSERT INTO unit_conversion VALUES
     ('microlitre', 0)
    ,('millilitre', 3)
    ,('centilitre', 4)
    ,('litre',      6)
    ,('hectolitre', 8)
    ,('kilolitre',  9)
    ,('megalitre',  12)
    ,('decilitre',  5);

2. Написать функцию

чтобы рассчитать количество позиций для смещения влево или вправо:

CREATE OR REPLACE FUNCTION f_shift_comma(n numeric)
  RETURNS int LANGUAGE SQL IMMUTABLE AS
$$
SELECT CASE WHEN ($1 % 1) = 0 THEN                    -- no fractional digits
          CASE WHEN ($1 % 10) = 0 THEN 0              -- no trailing 0, don't shift
          ELSE length(rtrim(trunc($1, 0)::text, '0')) -- trunc() because numeric can be 1.0
                   - length(trunc($1, 0)::text)       -- trailing 0, shift right .. negative
          END
       ELSE                                           -- fractional digits
          length(rtrim(($1 % 1)::text, '0')) - 2      -- shift left .. positive
       END
$$;

3. Запрос

SELECT DISTINCT ON (substance_id)
       s.substance_id, s.label, s.quantity, s.unit
      ,COALESCE(s.quantity * 10^(u1.exp10 - u2.exp10)::numeric
              , s.quantity)::float8 AS norm_quantity
      ,COALESCE(u2.unit, s.unit) AS norm_unit
FROM   substance s 
JOIN   unit_conversion u1 USING (unit)
LEFT   JOIN unit_conversion u2 ON f_shift_comma(s.quantity) <> 0
                              AND @(u2.exp10 - (u1.exp10 - f_shift_comma(s.quantity))) < 2
                              -- since maximum gap between exp10 in unit table = 3
                              -- adapt to ceil(to max_gap / 2) if you have bigger gaps
ORDER  BY s.substance_id
     , @(u2.exp10 - (u1.exp10 - f_shift_comma(s.quantity))) -- closest unit first
     , u2.exp10    -- smaller unit first to avoid point for ties.

Объясните:

  • СОВМЕСТНЫЕ таблицы веществ и единиц.
  • Рассчитайте идеальное количество позиций для перемещения с помощью функции f_shift_comma()сверху.
  • Снова присоединитесь к таблице единиц измерения, чтобы найти единицы, близкие к оптимальным.
  • Выберите ближайший блок с помощью DISTINCT ON ()и ORDER BY.
  • Если лучшая единица не найдена, вернитесь к тому, что у нас было COALESCE().
  • Это должно охватывать все угловые случаи и быть довольно быстрым .

-> Демоверсия SQLfiddle .

Эрвин Брандштеттер
источник
1
@DaveJarvis: И там я думал, что охватил все ... эта деталь была бы очень полезна в остальном тщательно продуманном вопросе.
Эрвин Брандштеттер