srg написал:
А кто нибудь все таки получил этот чудо файл ?
ИМХО собрать все ВУЗы просто не реально, т.к. приходится вести не только актуальные ( действующие) учебные заведения, но и те которые закрылись или переименовались т.к. в дипломе может быть любой из старых ВУЗов. Плюс ко всему если в компании работают сотрудники из других стран, то и учебные заведения для их страны так же надо вести

)
Я получил "чудо-файл". Объединил со своим справочником (на тот момент было 4600 уч. заведений плюс добавили еще около 21 т. Дубли по точному совпаданию слов сразу исключил, потом обработал файл по принципу: избавляемся от всех точек, двойной пробел заменяем на одинарный, гор на г и и т.д. после чегоеще раз отсеял двойников.
Потом прошлись по всему справочнику в ручном режими и еще раз отсеяля двойников. Всех конечно не отсеяли, но больше 3 тысяч отсеяли.
Мнемонические (короткие) наименования формировал складыванием первых букв в словах. Если было точное совпадение, то добавлял "-2","-3" и т.д. (на ПТУ до -24 доходило).
В справочнике действительно на некоторые ВУЗы до 4-х названий (сужу по одному ВУЗу из моего города), но они все должны присутствовать, так как у людей эти наименования могут присутствовать в дипломе.
Требования от бизнеса поступило вести справочник ВУЗов в разрезе стран (у нас много инсотранцев, но для всех стран стоит группировка стран 33), однако дал анализ по объему работ, который необходим для осуществления ведения и какие могут возникнуть проблемы при ведении. Пока не поступало дальнейших распоряжений на сей счет.
Мое мнение, что лучше не вести группировку стран, а все проставлять в 33 группировку. А то найти некоторые ВУЗы станет проблематично, что усложнит ведение учета без очевидных плюсов.