У меня есть отчет, который показывает количество событий за последние 12 часов, сгруппированных по часам. Звучит довольно легко, но я борюсь с тем, как включить записи, которые закрывают пробелы.
Вот пример таблицы:
Event
(
EventTime datetime,
EventType int
)
Данные выглядят так:
'2012-03-08 08:00:04', 1
'2012-03-08 09:10:00', 2
'2012-03-08 09:11:04', 2
'2012-03-08 09:10:09', 1
'2012-03-08 10:00:17', 4
'2012-03-08 11:00:04', 1
Мне нужно создать набор результатов, который имеет одну запись для каждого часа за последние 12 часов, независимо от того, были ли события в течение этого часа или нет.
Если предположить, что текущее время - «2012-03-08 11:00:00», отчет покажет (примерно):
Hour EventCount
---- ----------
23 0
0 0
1 0
2 0
3 0
4 0
5 0
6 0
7 0
8 1
9 3
10 1
Я придумал решение, которое использует таблицу, в которой есть одна запись на каждый час дня. Мне удалось получить результаты, которые я искал, используя UNION и некоторую запутанную логику кейса в предложении where, но я надеялся, что кто-то найдет более элегантное решение.
источник
Таблицы подсчета могут использоваться для таких вещей. Они могут быть очень эффективными. Создайте таблицу подсчета ниже. Я создал таблицу подсчета только с 24 строками для вашего примера, но вы можете создать ее с любым количеством строк, которое вы хотите использовать в других целях.
Я предположил, что ваша таблица называется dbo.tblEvents, выполните запрос ниже. Я считаю, что это то, что вы ищете:
Я считаю, что заслуга идет по следующим ссылкам, я считаю, что именно здесь я впервые столкнулся с этим:
http://www.sqlservercentral.com/articles/T-SQL/62867/
http://www.sqlservercentral.com/articles/T-SQL/74118/
источник
Во-первых, мои извинения за задержку моего ответа со времени моих последних комментариев.
Эта тема возникла в комментариях о том, что использование рекурсивного CTE (начиная с rCTE) выполняется достаточно быстро из-за малого количества строк. Хотя это может показаться таким образом, ничто не может быть дальше от истины.
СОЗДАЙТЕ TALLY TABLE И TALLY FUNCTION
Прежде чем мы начнем тестирование, нам нужно создать физическую таблицу подсчета с соответствующим кластерным индексом и функцией подсчета в стиле Ицик Бен-Гана. Мы также сделаем все это в TempDB, чтобы случайно не уронить чьи-нибудь вкусности.
Вот код для сборки Tally Table и моя текущая производственная версия замечательного кода Ицик.
Кстати ... обратите внимание, что выстроили Tally Table из миллиона и одной строки и добавили к нему кластерный индекс примерно за секунду или около того. Попробуйте это с rCTE и посмотрите, сколько времени это займет! ;-)
СОЗДАЙТЕ НЕКОТОРЫЕ ИСПЫТАНИЯ
Нам также нужны некоторые тестовые данные. Да, я согласен, что все функции, которые мы собираемся протестировать, включая rCTE, выполняются за миллисекунду или меньше только для 12 строк, но это ловушка, в которую попадают многие люди. Мы поговорим об этой ловушке позже, но сейчас давайте смоделируем вызов каждой функции 40000 раз, то есть примерно столько раз, сколько определенных функций в моем магазине вызывается за 8 часов в день. Представьте себе, сколько раз такие функции могут вызываться в крупном розничном онлайн-бизнесе.
Итак, вот код для построения 40000 строк со случайными датами, каждая из которых имеет номер строки только для целей отслеживания. Я не тратил время на то, чтобы проводить время целыми часами, потому что здесь это не имеет значения.
СОЗДАЙТЕ НЕКОТОРЫЕ ФУНКЦИИ, ЧТОБЫ СДЕЛАТЬ 12-ЧАСОВОЙ ЧАС
Далее я преобразовал код rCTE в функцию и создал 3 другие функции. Все они были созданы как высокопроизводительные iTVF (встроенные функции с табличными значениями). Вы всегда можете сказать, потому что у iTVF никогда нет BEGIN в них, как у Scalar или mTVF (многозначных табличных функций).
Вот код для построения этих 4 функций ... Я назвал их в честь метода, который они используют, а не того, что они делают, чтобы было легче их идентифицировать.
СОЗДАЙТЕ ЖГУТ ПРОВОДОВ ДЛЯ ИСПЫТАНИЯ ФУНКЦИЙ
И последнее, но не менее важное: нам нужен испытательный комплект. Я делаю базовую проверку, а затем проверяю каждую функцию одинаковым образом.
Вот код для тестового жгута ...
Одна вещь, на которую следует обратить внимание в тестовом жгуте выше, это то, что я шунтирую все выходные данные в одноразовые переменные Это делается для того, чтобы измерения производительности были как можно более чистыми, без каких-либо результатов на диск или искажения экрана.
СЛОВО ОСТОРОЖНОСТИ НА СТАТИСТИКЕ УСТАНОВКИ
Также, предостережение для потенциальных тестировщиков ... Вы НЕ ДОЛЖНЫ использовать SET STATISTICS при тестировании функций Scalar или mTVF. Его можно безопасно использовать только для функций iTVF, подобных тем, которые приведены в этом тесте. Было доказано, что SET STATISTICS заставляет функции SCALAR работать в сотни раз медленнее, чем без них. Да, я пытаюсь наклонить другую ветряную мельницу, но это будет целый пост, и у меня нет времени на это. У меня есть статья на SQLServerCentral.com, в которой говорится об этом, но нет смысла публиковать здесь ссылки, потому что кто-то из них обречен.
РЕЗУЛЬТАТЫ ИСПЫТАНИЙ
Итак, вот результаты теста, когда я запускаю тестовую проводку на своем маленьком ноутбуке i5 с 6 ГБ оперативной памяти.
«BASELINE SELECT», который выбирает только данные (каждая строка создается 12 раз для имитации одного и того же объема возврата), появляется примерно за 1/5 секунды. Все остальное пришло примерно за четверть секунды. Ну, все, кроме этой кровавой функции rCTE. Это заняло 4 и 1/4 секунды или 16 раз дольше (на 1600% медленнее).
И посмотрите на логическое чтение (память IO) ... rCTE потребовал колоссальные 2 960 000 (почти 3 МИЛЛИОНА чтения), тогда как другие функции потребляли только около 82 10000. Это означает, что rCTE потребляет в 34,3 раза больше операций ввода-вывода памяти, чем любая другая функция.
ЗАКЛЮЧИТЕЛЬНЫЕ МЫСЛИ
Давайте подведем итоги. Метод rCTE для выполнения этой «маленькой» операции с 12 строками использовал в 16 РАЗ (1600%) больше ЦП (и длительность) и в 34.3 РАЗ (3430%) больше ввода-вывода памяти, чем любая другая функция.
Хех ... Я знаю, о чем ты думаешь. «Большое дело! Это всего лишь одна функция».
Да, согласен, но сколько у вас других функций? Сколько других мест за пределами функций у вас есть? И есть ли у вас какие-нибудь из них, которые работают с более чем 12 рядами в каждом прогоне? И есть ли шанс, что кто-то в беде за метод может скопировать этот код rCTE для чего-то гораздо большего?
Хорошо, время быть тупым. Людям совершенно не имеет смысла оправдывать код, вызывающий проблемы с производительностью, только из-за предполагаемого ограниченного количества строк или использования. За исключением случаев, когда вы приобретаете коробку MPP за, возможно, миллионы долларов (не говоря уже о расходах на переписывание кода, чтобы заставить его работать на такой машине), вы не можете купить машину, которая выполняет ваш код в 16 раз быстрее (выиграл SSD). тоже не делаю ... все это было в быстродействующей памяти, когда мы это тестировали). Производительность в коде. Хорошая производительность в хорошем коде.
Можете ли вы представить, что весь ваш код работает "просто" в 16 раз быстрее?
Никогда не оправдывайте плохой или проблемный код на низких количествах строк или даже на низком уровне использования. Если вы это сделаете, вам, возможно, придется позаимствовать одну из ветряных мельниц, в которой меня обвиняют, чтобы ваши процессоры и диски оставались достаточно прохладными. ;-)
СЛОВО О СЛОВЕ "ТАЛЛИ"
Да я согласен. Семантически говоря, таблица подсчета содержит числа, а не «подсчеты». В моей оригинальной статье на эту тему (это была не оригинальная статья о технике, но она была моей первой), я назвал ее «Tally» не из-за того, что она содержит, а из-за того, что она делает ... используется для «подсчета» вместо цикла и «подсчета» чего-либо - «подсчета» чего-либо. ;-) Назовите это как хотите ... Таблица чисел, Таблица подсчета, Таблица последовательности, как угодно. Мне все равно Для меня «Tally» более полно означает, и, будучи хорошим ленивым администратором баз данных, содержит только 5 букв (2 идентичны) вместо 7, и это легче сказать для большинства людей. Это также «единственное число», которое следует моему соглашению об именах для таблиц. ;-) Это' s также, как назвала это статья, в которой содержалась страница из книги 60-х годов. Я всегда буду называть это «Таблицей подсчета», и вы все равно будете знать, что я или кто-то еще имею в виду. Я также избегаю венгерской нотации, такой как чума, но вызываю функцию «fnTally», чтобы я мог сказать: «Ну, если бы вы использовали эффективную функцию Tally, которую я вам показал, у вас не возникло бы проблемы с производительностью», если бы она на самом деле не была Нарушение прав человека. ;-) без фактического нарушения прав человека. ;-) без фактического нарушения прав человека. ;-)
Больше всего меня беспокоит то, что люди учатся правильно его использовать, а не прибегают к таким вещам, как rCTE с ограниченными возможностями и другие формы скрытого RBAR.
источник
Вам понадобятся
RIGHT JOIN
ваши данные с запросом, возвращающим одну запись за каждый необходимый вам час.Смотрите это на пару способов получить подряд цифры , которые вы могли бы затем вычесть как часы из текущего времени.
В Oracle иерархический запрос на dual будет генерировать строки:
источник