c0f0d5d4

Пример семантической самоорганизующейся




Все это оказалось хорошо для английского языка, но как часто бывает, сломалось на русском.
Менее строгая модель построения предложений, большее влияние стиля документа и тот факт,
что большинство понятий русского языка составляют словосочетания (согласно исследованиям
профессора Г.Г. Белоногова - более 60%), привели к тому, что оригинальная модель не пошла.
Попытки специалистов из "Гарант-Парка" заставить ее удовлетворительно работать с русским
языком успехом не увенчались. В результате в адаптированном WebSOM пришлось подойти к
вопросу организации категорий по другому. Смысловой единицей в нем считается
словосочетание, а выделением категорий смысловых единиц вручную занимаются эксперты.
Второй этап - построение карты документов в обоих вариантах метода реализован одинаково.
После лексического анализа подсчитывается, сколько раз в документе встретилась каждая из
категорий (т.е. сколько раз встретились смысловые единицы, входящие в категорию). В
результате получается гистограмма категорий, представляющая собой смысловой портрет
документа. Смысловые портреты документов подаются на вход карты категорий слов -
происходит обучение карты. После обучения карта раскрашивается пропорционально
плотности распределения смысловых портретов (чем больше документов в области, тем она
темнее) и, затем, размечается экспертом в зависимости от содержания областей.
Таким образом, при существующей карте категорий слов можно создавать карты, содержащие


сколь угодно много документов, причем система сама будет располагать документы на карте в
зависимости от содержания - задача администратора будет состоять только в переразметке
карты и введении, по-необходимости, новых категорий.
Фирма "Гарант-Парк" собирается активно продвигать эту технологию. Ко всему
вышесказанному можно добавить, что WebSOM от "Гарант-Парка" - это на данный момент
единственная коммерческая реализация данной технологии. И вообще, похоже, единственная
реализация данного метода, кроме реализации его авторов из Хельсинкского Технологического
Университета. Во всяком случае, поиск в Internet больше не дал ни одного адреса. Так что можно
с гордостью заявить, что в данном случае российская фирма оказалось первопроходцем, что в
последнее время случается крайне редко.
Перспективы же у WebSOM, при работающей реализации, достаточно радужные. Во-первых,
она будет добавлена в качестве визуального метода поиска в информационную систему "Парк"
(). Естественно там же она будет
использоваться для автоматической сортировки документов, в дополнение к уже готовому
рубрикатору ИС "Парк". В систему можно ввести такой сервис, как "ловушки" для документов -
можно отслеживать документы, попадающие в некоторую, представляющую особый интерес
область карты. Естественно сам алгоритм предполагает достаточно простую реализацию поиска
документов, похожих на данный по содержанию. WebSOM представляет собой готовый полигон
для социологических исследований. С его помощью можно отслеживать пики плотности
распределения, строить карты для документов, датированных определенными отрезками времени
и по пикам плотности и взаимному расположению областей отслеживать эволюцию тематики и
акцентов для новостийных лент, входящей информации, телеконференций. С другой стороны
предполагается развитие WebSOM в сторону трехмерного представления информации из
предметной области. Так что, вполне возможно, скоро начнутся разработки реализации
Содержание раздела