Текущее время: Пн, авг 18 2025, 17:48

Часовой пояс: UTC + 3 часа




Начать новую тему Ответить на тему  [ Сообщений: 10 ] 
Автор Сообщение
 Заголовок сообщения: Поиск похожих строк
СообщениеДобавлено: Вт, окт 30 2007, 15:29 
Старший специалист
Старший специалист

Зарегистрирован:
Ср, авг 29 2007, 13:53
Сообщения: 251
Всем привет!

Есть задача по обнаружению во всей массе дублирующихся, похожих или "опечатанных" названий, например, контрагентов.
Что-то вроде, "Омский ГазМяс" и "ГазМяс-Омск" и т.п. :)

Как бы это "порелевантнее" для BW сделать? Что-нибудь вроде таблицы взвешенных коэффициентов для отдельных буковок?


Принять этот ответ
Вернуться к началу
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Ср, окт 31 2007, 09:37 
Почетный гуру
Почетный гуру
Аватара пользователя

Зарегистрирован:
Пн, дек 27 2004, 13:48
Сообщения: 772
Откуда: от верблюда
:)
Во как нагнули то бивишников... Такой пакостью заниматься, жесть :shock: Лингвистический анализатор прямо :-)
Предлагаю все-таки как-то выкручиваться без текстов, с использованием только кодов.

_________________
Бросай курить, вставай на лыжи -
И вместо рака будет грыжа!


Принять этот ответ
Вернуться к началу
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Ср, окт 31 2007, 10:15 
Модератор
Модератор
Аватара пользователя

Зарегистрирован:
Пн, фев 21 2005, 00:50
Сообщения: 10284
Откуда: г.Мышуйск
Пол: Женский
Гуру написал - теперь и я поддержу... :D
Может, выгрузить в ёксель и "как-нибудь там"?
А на будущее - сделать жёсткие справочники по f4 (если ввод непосредственно в сап) или в ёксель-форме (если пишут в нем, а потом загружают).

_________________
Пушномолочная свинья-несушка (тест)


Принять этот ответ
Вернуться к началу
 Профиль Отправить email  
 
 Заголовок сообщения:
СообщениеДобавлено: Ср, окт 31 2007, 10:18 
Модератор
Модератор
Аватара пользователя

Зарегистрирован:
Ср, авг 18 2004, 10:59
Сообщения: 754
Откуда: Moscow
А откуда вы загружаете этот справочник контрагентов?
Вот откуда загружаете - пусть там и разруливают :lol:

BW не заточен для решения задач лингвистического анализа, и функциональность по ведению НСИ у BW несколько ограничена.
Для решения задач, подобной вашей, существуют специальные решения, которые стоят отдельных денег. :lol:

_________________
Фарш невозможно провернуть назад,
И мясо из котлет не восстановишь


Принять этот ответ
Вернуться к началу
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Ср, окт 31 2007, 12:06 
Старший специалист
Старший специалист

Зарегистрирован:
Ср, авг 29 2007, 13:53
Сообщения: 251
Спасибо гуру за экспертную оценку, ваши отклики очень ценны и превзошли все мои ожидания от этого топика. :oops:
Речь пока идет о ТЗ заказчика, нужно определиться с чем BW справится, а с чем нет.

Была надежда, что все таки в BI заявлен Data Mining и для нечеткого сравнения строк тоже нашлось место в типовом наборе инструментов. :)
Алгоритмы там вроде не сложные.


Принять этот ответ
Вернуться к началу
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Ср, окт 31 2007, 12:18 
Менеджер
Менеджер
Аватара пользователя

Зарегистрирован:
Чт, май 26 2005, 11:36
Сообщения: 651
Откуда: Киев-Москва
Нужно, чтобы нормально поработал аналитик и сделал критерии дублирования данных применительно к конкретной задаче. В данном случае это задача выявления дубликатов клиентов. У них есть набор атрибутов.
Значит можно прометить дубляжи, скажем, по совпаданию ОКПО или банковских реквизитов. Приводим имя к одному регистру и убираем 'ООО, ЗАО.....'. С Физлицами еще сложнее..... Но. еще раз повторюсь - необходимо выработать критерии "похожести". И потом дать пользователю принять решение окончательно.
Решал аналогичную задачу на ABAP.

_________________
Рисую потоки данных.


Принять этот ответ
Вернуться к началу
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Ср, окт 31 2007, 13:22 
Директор
Директор

Зарегистрирован:
Сб, мар 11 2006, 14:59
Сообщения: 1259
Пол: Мужской
Kubus написал(а):
Алгоритмы там вроде не сложные.

Дело в том, что сам по себе "типовой поиск похожих ..." имеет мало смысла - почти всегда он привязан к контексту.


Принять этот ответ
Вернуться к началу
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Ср, окт 31 2007, 14:07 
Модератор
Модератор
Аватара пользователя

Зарегистрирован:
Ср, авг 18 2004, 10:59
Сообщения: 754
Откуда: Moscow
Data Mining - это, вообще-то, из другой оперы.
Вам нужно копать в сторону MDM.

_________________
Фарш невозможно провернуть назад,
И мясо из котлет не восстановишь


Принять этот ответ
Вернуться к началу
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Ср, окт 31 2007, 14:31 
Старший специалист
Старший специалист

Зарегистрирован:
Ср, авг 29 2007, 13:53
Сообщения: 251
Спасибо за ответы. С конкретикой помогли разобраться. :)

Я просто уже мысленно устремился к сферическому коню в вакууме: когда есть только гора строк и BW. :)


Принять этот ответ
Вернуться к началу
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Ср, окт 31 2007, 15:03 
Почетный гуру
Почетный гуру
Аватара пользователя

Зарегистрирован:
Пт, июн 24 2005, 15:18
Сообщения: 1216
Откуда: Diagon Alley
MakcuM написал(а):
Data Mining - это, вообще-то, из другой оперы.
Вам нужно копать в сторону MDM.


Да не BW-шное это дело.

Задача BW-шной команды:
- Предоставить требования к формату файла/(ов).
- Сформировать и внедрить все необходимые процедуры для загрузки справочника. (В данном случае справочника контрагентов). Это первичная загрузка и дальше регулярная загрузка.

А синтаксически данные должны проверять те, кто их создаёт. А если они там накосячли ХЗЧ, то разгребать это дело при помощи всяких синтаксических анализатов с элементами искусственного интелекта - отдельная задачка, и больше для ABAP-еров или программистов на других языках.

_________________
"Если ты в молодости не испытал трудности, их стоит купить за большие деньги". (с) Даймо


Принять этот ответ
Вернуться к началу
 Профиль  
 
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 10 ] 

Часовой пояс: UTC + 3 часа


Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Перейти:  
cron
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group
Русская поддержка phpBB