 |
реклама |
|
|
|
|
|
|
|
Авиакосмическое приборостроение Аннотация к статье << Назад
|
Семантическое структурирование данных
в векторной базе: классы сущностей,
атрибутивная модель и индексация
для повышения релевантности
и объяснимости поиска |
Яковлев Е.Л., Хакимов Р.Э.,
Назаренко П.Е., Балахадзе А.Г.
Рост объемов неструктурированных текстовых данных требует новых подходов к информационному поиску, так как традиционные лексические методы (TF-IDF, BM25) неэффективны при работе с синонимией и вариативностью формулировок.
Цель исследования: Разработать и апробировать методологию хранения, индексации и поиска неструктурированных текстовых данных, объединяющую глубокие векторные представления семантики (трансформерные модели) и расширенные структурированные метаданные для повышения точности, полноты и объяснимости поисковой выдачи, а также
обеспечения гибкой фильтрации.
Методы: Системный анализ, математическое моделирование, получение векторных представлений текста (эмбеддингов) на основе трансформеров, алгоритмы построения графов приблизительного поиска ближайших соседей (HNSW), статистическая обработка результатов (MAP, Precision@k, Recall@k, F1-score, NDCG@k, T50, T95).
Результаты: Предложена онтологическая модель типизации документов и гибкая атрибутивная модель. Спроектирован прототип системы с гибридным индексом (векторные эмбеддинги + атрибуты). Эксперименты на корпусе из 10 000 документов показали увеличение MAP на 11–15 % по сравнению с чисто векторным и лексическим поиском, снижение
медианного времени отклика T50 более чем в два раза, улучшение Precision@5 на 9 %.
Практическая значимость: Разработанная методология масштабируема и позволяет развертывать поисковые системы нового поколения с богатыми возможностями фильтрации и контекстно-зависимым ранжированием.
СЕМАНТИЧЕСКОЕ СТРУКТУРИРОВАНИЕ ДАННЫХ
В ВЕКТОРНОЙ БАЗЕ: КЛАССЫ СУЩНОСТЕЙ,
АТРИБУТИВНАЯ МОДЕЛЬ И ИНДЕКСАЦИЯ
ДЛЯ ПОВЫШЕНИЯ РЕЛЕВАНТНОСТИ
И ОБЪЯСНИМОСТИ ПОИСКА
Ключевые слова: семантический поиск; векторная база данных; гибридный индекс; атрибутивная модель;
трансформерные эмбеддинги; поиск ближайших соседей; онтологическая типизация; оценка качества поиска; информационно-поисковые системы.
DOI: 10.25791/aviakosmos.2.2026.1537
Стр. 33-38. |
|
|
|
Последние новости:
Выставки по автоматизации и электронике «ПТА-Урал 2018» и «Электроника-Урал 2018» состоятся в Екатеринбурге Открыта электронная регистрация на выставку Дефектоскопия / NDT St. Petersburg Открыта регистрация на 9-ю Международную научно-практическую конференцию «Строительство и ремонт скважин — 2018» ExpoElectronica и ElectronTechExpo 2018: рост площади экспозиции на 19% и новые формы контент-программы Тематика и состав экспозиции РЭП на выставке "ChipEXPO - 2018" |