Текущее время: Пн, авг 18 2025, 22:24

Часовой пояс: UTC + 3 часа




Начать новую тему Ответить на тему  [ Сообщений: 10 ] 
Автор Сообщение
 Заголовок сообщения: Поиск похожих строк
СообщениеДобавлено: Вт, окт 30 2007, 15:29 
Старший специалист
Старший специалист

Зарегистрирован:
Ср, авг 29 2007, 13:53
Сообщения: 251
Всем привет!

Есть задача по обнаружению во всей массе дублирующихся, похожих или "опечатанных" названий, например, контрагентов.
Что-то вроде, "Омский ГазМяс" и "ГазМяс-Омск" и т.п. :)

Как бы это "порелевантнее" для BW сделать? Что-нибудь вроде таблицы взвешенных коэффициентов для отдельных буковок?


Принять этот ответ
Вернуться к началу
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Ср, окт 31 2007, 09:37 
Почетный гуру
Почетный гуру
Аватара пользователя

Зарегистрирован:
Пн, дек 27 2004, 13:48
Сообщения: 772
Откуда: от верблюда
:)
Во как нагнули то бивишников... Такой пакостью заниматься, жесть :shock: Лингвистический анализатор прямо :-)
Предлагаю все-таки как-то выкручиваться без текстов, с использованием только кодов.

_________________
Бросай курить, вставай на лыжи -
И вместо рака будет грыжа!


Принять этот ответ
Вернуться к началу
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Ср, окт 31 2007, 10:15 
Модератор
Модератор
Аватара пользователя

Зарегистрирован:
Пн, фев 21 2005, 00:50
Сообщения: 10284
Откуда: г.Мышуйск
Пол: Женский
Гуру написал - теперь и я поддержу... :D
Может, выгрузить в ёксель и "как-нибудь там"?
А на будущее - сделать жёсткие справочники по f4 (если ввод непосредственно в сап) или в ёксель-форме (если пишут в нем, а потом загружают).

_________________
Пушномолочная свинья-несушка (тест)


Принять этот ответ
Вернуться к началу
 Профиль Отправить email  
 
 Заголовок сообщения:
СообщениеДобавлено: Ср, окт 31 2007, 10:18 
Модератор
Модератор
Аватара пользователя

Зарегистрирован:
Ср, авг 18 2004, 10:59
Сообщения: 754
Откуда: Moscow
А откуда вы загружаете этот справочник контрагентов?
Вот откуда загружаете - пусть там и разруливают :lol:

BW не заточен для решения задач лингвистического анализа, и функциональность по ведению НСИ у BW несколько ограничена.
Для решения задач, подобной вашей, существуют специальные решения, которые стоят отдельных денег. :lol:

_________________
Фарш невозможно провернуть назад,
И мясо из котлет не восстановишь


Принять этот ответ
Вернуться к началу
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Ср, окт 31 2007, 12:06 
Старший специалист
Старший специалист

Зарегистрирован:
Ср, авг 29 2007, 13:53
Сообщения: 251
Спасибо гуру за экспертную оценку, ваши отклики очень ценны и превзошли все мои ожидания от этого топика. :oops:
Речь пока идет о ТЗ заказчика, нужно определиться с чем BW справится, а с чем нет.

Была надежда, что все таки в BI заявлен Data Mining и для нечеткого сравнения строк тоже нашлось место в типовом наборе инструментов. :)
Алгоритмы там вроде не сложные.


Принять этот ответ
Вернуться к началу
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Ср, окт 31 2007, 12:18 
Менеджер
Менеджер
Аватара пользователя

Зарегистрирован:
Чт, май 26 2005, 11:36
Сообщения: 651
Откуда: Киев-Москва
Нужно, чтобы нормально поработал аналитик и сделал критерии дублирования данных применительно к конкретной задаче. В данном случае это задача выявления дубликатов клиентов. У них есть набор атрибутов.
Значит можно прометить дубляжи, скажем, по совпаданию ОКПО или банковских реквизитов. Приводим имя к одному регистру и убираем 'ООО, ЗАО.....'. С Физлицами еще сложнее..... Но. еще раз повторюсь - необходимо выработать критерии "похожести". И потом дать пользователю принять решение окончательно.
Решал аналогичную задачу на ABAP.

_________________
Рисую потоки данных.


Принять этот ответ
Вернуться к началу
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Ср, окт 31 2007, 13:22 
Директор
Директор

Зарегистрирован:
Сб, мар 11 2006, 14:59
Сообщения: 1259
Пол: Мужской
Kubus написал(а):
Алгоритмы там вроде не сложные.

Дело в том, что сам по себе "типовой поиск похожих ..." имеет мало смысла - почти всегда он привязан к контексту.


Принять этот ответ
Вернуться к началу
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Ср, окт 31 2007, 14:07 
Модератор
Модератор
Аватара пользователя

Зарегистрирован:
Ср, авг 18 2004, 10:59
Сообщения: 754
Откуда: Moscow
Data Mining - это, вообще-то, из другой оперы.
Вам нужно копать в сторону MDM.

_________________
Фарш невозможно провернуть назад,
И мясо из котлет не восстановишь


Принять этот ответ
Вернуться к началу
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Ср, окт 31 2007, 14:31 
Старший специалист
Старший специалист

Зарегистрирован:
Ср, авг 29 2007, 13:53
Сообщения: 251
Спасибо за ответы. С конкретикой помогли разобраться. :)

Я просто уже мысленно устремился к сферическому коню в вакууме: когда есть только гора строк и BW. :)


Принять этот ответ
Вернуться к началу
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Ср, окт 31 2007, 15:03 
Почетный гуру
Почетный гуру
Аватара пользователя

Зарегистрирован:
Пт, июн 24 2005, 15:18
Сообщения: 1216
Откуда: Diagon Alley
MakcuM написал(а):
Data Mining - это, вообще-то, из другой оперы.
Вам нужно копать в сторону MDM.


Да не BW-шное это дело.

Задача BW-шной команды:
- Предоставить требования к формату файла/(ов).
- Сформировать и внедрить все необходимые процедуры для загрузки справочника. (В данном случае справочника контрагентов). Это первичная загрузка и дальше регулярная загрузка.

А синтаксически данные должны проверять те, кто их создаёт. А если они там накосячли ХЗЧ, то разгребать это дело при помощи всяких синтаксических анализатов с элементами искусственного интелекта - отдельная задачка, и больше для ABAP-еров или программистов на других языках.

_________________
"Если ты в молодости не испытал трудности, их стоит купить за большие деньги". (с) Даймо


Принять этот ответ
Вернуться к началу
 Профиль  
 
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 10 ] 

Часовой пояс: UTC + 3 часа


Кто сейчас на конференции

Сейчас этот форум просматривают: Yandex [Bot]


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Перейти:  
cron
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group
Русская поддержка phpBB