Шаблоны базовых операций с данными - Продукт Modus BI
Данная группа предназначена для настройки источников и приемников данных, сбора статистики, а также очистки таблиц и переноса данных в базе.
Источник
Шаблон «Источник» — основа для работы. Он позволяет указать таблицу базы, из которой будут браться исходные данные для сценария. Если нажать на кнопку редактирование «Источника», откроется диалоговое окно «Выбор таблиц для сценариев».
По умолчанию данные отображаются в виде таблиц и схем. В нижней части окна находится список всех доступных таблиц с указанием их принадлежности к схемам. Чтобы быстро найти нужную таблицу, воспользуйтесь строкой «Поиск (Ctrl + F)» — при вводе символов список будет автоматически фильтроваться по совпадениям.
Чтобы выбрать таблицу для «Источника», дважды кликните по нужной строке. Название выбранной таблицы появится над иконкой шага.
Альтернативный вариант поиска — «Составы выгрузки». Для переключения на этот режим нажмите соответствующую кнопку. В нижней части окна отобразятся данные о составе выгрузок: имена таблиц, правила выгрузки, даты создания и изменения, а также режим записи.
Расширенный поиск — если в списке много таблиц с похожими названиями, можно использовать расширенный поиск. Доступны варианты поиска:
- по началу строки,
- по части строки,
- по точному совпадению.
Поиск можно проводить не только в названиях таблиц, но и в схемах (настройка «Где искать:» в выпадающем списке).
Для отображения актуальной информации в диалоговом окне используйте кнопку «Обновить конфигурацию». Это особенно полезно, если в системе появились новые данные.
В сценарии WorkFlow возможно использовать несколько источников данных, если требуется объединить информацию из разных таблиц. Все добавленные источники отображаются на рабочем холсте.
Приемник
После выполнения всех этапов обработки (загрузки, очистки, трансформации, обогащения и др.) в WorkFlow добавляется финальный шаг — «Приемник». Его настройка сводится к указанию имени результирующего набора данных в строке «Приемник данных» (диалоговое окно «Мастер настройки приемника данных»). Это имя будет использоваться на Аналитическом портале при создании набора данных.
В правом верхнем углу окна доступны вспомогательные кнопки:
- Сохранение в формате *.txt;
- Печать таблицы;
- Просмотр содержимого;
- Копирование ссылки на итоговую таблицу.
В нижней части Мастера отображается SQL-код, включающий:
- удаление предыдущей версии таблицы;
- создание новой на основе данных из последнего шага.
Если поставить галочку «Является источником», появится возможность использовать приемник дальше в сценарии, т.е. протянуть из него стрелку для следующего шага, и такой приемник не будет «финальным».
Просмотр
Данный шаблон не влияет на итоговый результат сценария, но предоставляет удобный способ визуализации и анализа данных, полученных на предыдущем шаге.
Как использовать:
- В левой нижней части окна («Поля») отображается список полей из предыдущего шага.
- Перетащите нужные поля (drag-and-drop) в правую секцию «Статистика» – это позволит вывести их для детального просмотра.
- Для каждого поля можно задать ограничение на количество отображаемых значений, указав число в столбце «Лимит кол-во значений (TOP N)».
Преимущества шаблона:
- Позволяет быстро проверить структуру и содержимое данных.
- Дает возможность выборочно анализировать ключевые поля без модификации сценария.
- Удобен для отладки и промежуточного контроля данных.
Аналогично работе с «Статистикой», вы можете перемещать поля для проверки в секцию «Качество данных». Используйте кнопку «Добавить», чтобы создать новую строку для проверки.
Кнопка «Копировать» позволяет дублировать уже настроенные правила.
Для каждого поля в столбце «Тип проверки» доступны два варианта:
- «Дубли» – проверка на наличие повторяющихся значений.
- «Условие» – возможность задать пользовательское правило для валидации данных.
Чтобы сформировать условие для конкретного поля, выделите строку с этим полем, затем в нижней правой подсекции нажмите на кнопку «Добавить условие» (в виде белого плюса в круге зеленого цвета). Чтобы удалить условие, нажмите на кнопку «Удалить».
Для числовых полей возможно использовать операторы сравнения («больше», «меньше», «больше или равно», «меньше или равно», «равно», «не равно» — «!=») либо вхождения в диапазон («IN»).
Для текстовых строк в условии может быть длина строки (LEN
), поиск по совпадению текста (LIKE
), вхождение в диапазон текстовых значений (IN
). Также возможен поиск по варианту, когда в тексте только цифры («Только цифры [0-9]»).
В столбце «Значение» (правее колонки «Условие») внесите те значения, с которыми производится сравнение.
В каждой строке настройки условия возможно включить селектор «NOT» (первый столбец): он задает, что условие не соблюдается (логическое «НЕ»).
Для типа проверки «Дубли» не предусмотрено условий сравнения.
В показателях статистики доступна следующая информация:
- Общее количество строк по полю.
- Количество пустых или NULL значений.
- Количество уникальных значений.
- Для текстовых полей: минимальная, средняя и максимальная длина.
- Для числовых полей: минимальное, максимальное и среднее значение.
На вкладке «Образец данных» возможно посмотреть образцы значений, а на вкладке «Статистика» для каждого значения каждого поля можно узнать, сколько раз оно встречается.
Очистка таблицы
Шаблон «Очистка таблицы» производит очистку таблицы из базы данных, которая указывается в поле «Приемник данных». В итоге шаг генерирует код SQL TRUNCATE TABLE
с указанием имени таблицы.
Для корректной работы необходимо связать этот шаг с другими этапами сценария, чтобы определить порядок выполнения очистки (между какими операциями она должна происходить)
Перенос данных
Шаг предназначен для передачи информации между разными базами данных в рамках одного сценария. Например, позволяет перемещать данные из PostgreSQL (основная БД) в ClickHouse (витрина данных).
Настройка переноса:
На вкладке «Источник и приемник» укажите:
- База данных-источник и имя исходной таблицы;
- Целевая БД и таблица-приемник;
- Режим записи данных в приемник.
Для дополнительной настройки таблицы-приемника нажмите на гиперссылку «Настроить таблицу».
На вкладке «Связь полей» установите связи между полями таблицы-источника и таблицы-приемника. Для этого над именем поля таблицы-источника (в левой секции окна) нажмите на левую кнопку мыши, и, не отпуская ее, сдвиньте указатель мышь в имя поля таблицы-приемника (в правой секции окна).
В итоге, связанные поля будут выделены жирным шрифтом. В левой части отображается информация о входящем потоке, а в правой устанавливается соответствие и режим записи данных.
Если в таблицах имена полей схожи, и у них совпадает тип, возможно ускорить процесс связывания с помощью кнопки «Автосопоставление». Рядом находится кнопка «Очистить все сопоставления», нажмите на нее, чтобы удалить связи.
Перенос данных логируется документом «Перенос данных» («Главное/ Логи/ Переносы данных»).