Текущее время: Пн, авг 18 2025, 22:22

Часовой пояс: UTC + 3 часа




Начать новую тему Ответить на тему  [ Сообщений: 9 ] 
Автор Сообщение
 Заголовок сообщения: Загрузка БОЛЬШОГО объёма данных.
СообщениеДобавлено: Вс, сен 20 2009, 21:42 
Старший специалист
Старший специалист

Зарегистрирован:
Чт, фев 16 2006, 15:46
Сообщения: 451
Откуда: Россия
Привет. Столкнулся тут с такой проблемой.

В куб нужно закачать 530 миллионов записей из ODS. С понедельника по вторник прокачалось 130 миллионов записей. Первое предположение состояло в том, что на это дело потребуется неделя.

Ага, сейчас. Уже конец воскресенья, а записей дошло в куб только 260 миллионов.

Судя по всему, перед тем как добавить запись, он должен проверить, нет ли там такой другой такой же. На это у него уходит время, пропорциональное количеству записей, которые уже добавил. Нет, индексы пока там не работают. Выходит, временная оценка O(n^2), от количества записей. То есть, для загрузки в два раза большего числа записей нужно в четыре раза большее время.

Скажите, а как вообще можно прогрузить тогда большое количество данных?

_________________
Ян Владимирович,
http://www.vladimirovich.net


Принять этот ответ
Вернуться к началу
 Профиль  
 
 Заголовок сообщения: Re: Загрузка БОЛЬШОГО объёма данных.
СообщениеДобавлено: Пн, сен 21 2009, 09:06 
Начинающий
Начинающий

Зарегистрирован:
Вт, июн 30 2009, 19:46
Сообщения: 11
1) Индексов точно нет?
2) Во сколько потоков идет загрузка?
3) Сколько записей в пакете?
4) Некумулятивные показатели?
5) Большие измерения?
6) Мониторинг запросов к БД?
У меня загружалось 60 млн. записей из PSA в куб за 30 минут.
В пакете по 100000 записей.
При использовании значения по умолчанию (5000 записей) грузилось очень долго, есть подозрение что у SAP неэффективно реализована административная часть (запись сообщений в монитор, обработка пакетов).


Принять этот ответ
Вернуться к началу
 Профиль Отправить email  
 
 Заголовок сообщения: Re: Загрузка БОЛЬШОГО объёма данных.
СообщениеДобавлено: Пн, сен 21 2009, 09:35 
Старший специалист
Старший специалист

Зарегистрирован:
Чт, фев 16 2006, 15:46
Сообщения: 451
Откуда: Россия
Индексов "точно нет", и больше того. Если индексы есть, то объёмы больше какого-то у нас вообще не проходят, слетая с абап дампом.

Сколько потоков? В SM50 крутились три бэкграунд процесса. Кстати, а где настраивается количество потоков?

Записей в пакете 50 тысяч.

Показатели все кумулятивные.

Измерения - как минимум, одно измерение порядка 500 тысяч, и его не сделаешь меньше (0MATERIAL, товар).

...

Есть еще один вопрос. Куб перегружается долго, но "и чорт бы с этим". Но есть одна штука очень печальная, куб загружается из ODS, из которого должны грузится другие данные, парралельно. А при работающей загрузке данные нельзя активировать. Выходит, всё стоит...

_________________
Ян Владимирович,
http://www.vladimirovich.net


Принять этот ответ
Вернуться к началу
 Профиль  
 
 Заголовок сообщения: Re: Загрузка БОЛЬШОГО объёма данных.
СообщениеДобавлено: Пн, сен 21 2009, 11:49 
Почетный гуру
Почетный гуру
Аватара пользователя

Зарегистрирован:
Вт, июл 03 2007, 10:26
Сообщения: 486
Откуда: Kazakhstan, Astana
Пол: Мужской
Поищите артикл =
Performance Tuning Massive SAP BW Systems - Tips & Tricks BY Jay Narayanan

https://forums.sdn.sap.com/thread.jspa?threadID=534837

_________________
"Great minds discuss ideas. Average minds discuss events. Small minds discuss people-Eleanor Roosevelt--Knowledge is to share, Keep it free, Keep sharing"


Принять этот ответ
Вернуться к началу
 Профиль  
 
 Заголовок сообщения: Re: Загрузка БОЛЬШОГО объёма данных.
СообщениеДобавлено: Пн, сен 21 2009, 11:50 
Начинающий
Начинающий

Зарегистрирован:
Вт, июн 30 2009, 19:46
Сообщения: 11
Yanvladimirovich написал(а):
Сколько потоков? В SM50 крутились три бэкграунд процесса. Кстати, а где настраивается количество потоков?
Записей в пакете 50 тысяч.
Показатели все кумулятивные.
Измерения - как минимум, одно измерение порядка 500 тысяч, и его не сделаешь меньше (0MATERIAL, товар).

А 0MATERIAL - line item dimension или он генерит для каждого 0material новый ключ измерения?
И 3 потока, как мне кажется очень мало для таких объемов данных. Я бы начал с увеличения количества параллельных процессов (это можно сделать на лету - DTP, настройки менеджера партий) и размера пакета.
Оценить возможности железа (кол-во процессоров, память), - сколько параллельных процессов могут грузить данные в куб, не конкурируя за оперативную память.
Кстати, какая используется СУБД?


Принять этот ответ
Вернуться к началу
 Профиль Отправить email  
 
 Заголовок сообщения: Re: Загрузка БОЛЬШОГО объёма данных.
СообщениеДобавлено: Пн, сен 21 2009, 12:10 
Директор
Директор
Аватара пользователя

Зарегистрирован:
Вс, июн 26 2005, 22:41
Сообщения: 1135
Откуда: Москва
Пол: Мужской
Yanvladimirovich написал(а):
В SM50 крутились три бэкграунд процесса. Кстати, а где настраивается количество потоков?

Это край как мало! Если на железке стоит десяток физических процов, то логично забить их все, собственно для загрузки рекомендую в настройках системы увеличить число фоновых процессов до максимума (базис должен уметь это делать, есть ноты) и в настройках ППД поставить число параллельных обработок = число фоновых - 2. (ППД -> Перейти к -> Настройка менеджера партий...), размер пакета установить побольше (500 000). Кроме того, подумайте про изменение механизм загрузки в куб - сделать через буферный DSO с оптимизацией записи, т.е. такая связка: Исходный DSO с журналами -> DSO с оптимизацией -> Куб, дельту при этом можно сделать на фильтрах в ППД, а буферный DSO вычищать...


Принять этот ответ
Вернуться к началу
 Профиль  
 
 Заголовок сообщения: Re: Загрузка БОЛЬШОГО объёма данных.
СообщениеДобавлено: Пн, сен 21 2009, 12:44 
Старший специалист
Старший специалист

Зарегистрирован:
Чт, фев 16 2006, 15:46
Сообщения: 451
Откуда: Россия
С системе парралельно работают люди, так что выделять все ресурсы только под эту задачу - нельзя. Там всего шесть фоновых процессов, из низ занимать все шесть означает вообще остановить работу с BW, никакие данные не прогрузятся.

Есть куб. Сейчас выяснилось, что в куб нужно добавить еще один признак, и заполнить его. В кубе примерно 500 миллионов записей.

Для этого создаётся дублирующий куб. Все записи грузятся в него. После этого в мультипровайдерах просто подменяется старый куб на новый. Всё, ура.

Трудность не в том, что загрузка идёт медленно. А в том, что она идёт медленнее и медленнее с каждой записью, за первый день прошли 130 000 000 где-то, для взятия вторых 130 000 000 потребовалось еще пять дней. На лицо зависимость, близка к квадратичной.

Итого. Вопросы, собственно, такие. Можно ли перегрузить из dtp не все данные, а кусками? Как правильно настроить, чтобы шла дельта?

_________________
Ян Владимирович,
http://www.vladimirovich.net


Принять этот ответ
Вернуться к началу
 Профиль  
 
 Заголовок сообщения: Re: Загрузка БОЛЬШОГО объёма данных.
СообщениеДобавлено: Пн, сен 21 2009, 15:29 
Директор
Директор
Аватара пользователя

Зарегистрирован:
Вс, июн 26 2005, 22:41
Сообщения: 1135
Откуда: Москва
Пол: Мужской
Yanvladimirovich написал(а):
Можно ли перегрузить из dtp не все данные, а кусками? Как правильно настроить, чтобы шла дельта?

В DTP можно сделать динамический фильтр - подпрограмма с вашей логикой.


Принять этот ответ
Вернуться к началу
 Профиль  
 
 Заголовок сообщения: Re: Загрузка БОЛЬШОГО объёма данных.
СообщениеДобавлено: Пн, сен 21 2009, 16:33 
Старший специалист
Старший специалист

Зарегистрирован:
Чт, фев 16 2006, 15:46
Сообщения: 451
Откуда: Россия
Цитата:
В DTP можно сделать динамический фильтр - подпрограмма с вашей логикой.


А как потом настроить, чтобы дельта пошла хорошая? То есть, поясню.

Есть dtp ZDTPA. В нёго грузятся данные, по 250 тысяч записей за сутки. Уже там 500 млн записей.
Есть куб ZCUBB. В него из dtp грузятся данные.
Есть куб ZCUBC, в него нужно перегрузить данные, но так, чтобы уже после этого они шли дельта-загрузкой.

Пока есть идея фильтровать по дням. Правда, при этом не загрузятся те данные, которые были перезалиты "задним числом" за время загрузки. Но, кажется, это лучше чем ждать месяц.

_________________
Ян Владимирович,
http://www.vladimirovich.net


Принять этот ответ
Вернуться к началу
 Профиль  
 
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 9 ] 

Часовой пояс: UTC + 3 часа


Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Перейти:  
cron
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group
Русская поддержка phpBB