Базы Знаний — это фундамент ответов вашего ИИ бота. Искусственный интеллект, как и новый сотрудник, изначально ничего не знает о вашей компании. Чтобы он давал релевантные ответы и не придумывал факты, его нужно обучить на материалах вашего бизнеса.

Как это работает?

В основе лежит технология поиска RAG (Retrieval-Augmented Generation). Когда клиент задает боту вопрос, происходит следующее:

ИИ сначала быстро фильтрует ваши документы и находит в них абзацы текста, где потенциально есть ответ.
ИИ читает эти найденные абзацы.
На основе прочитанного формирует связный, грамотный ответ клиенту в рамках заданной вами роли.

1. Создание Базы Знаний

Вы можете создать несколько баз под разные задачи (например: "База Отдела Продаж", "Техническая Инструкция для Поддержки").

Нажмите кнопку "Добавить" (Add Knowledge Base).
Введите понятное имя и описание. Описание помогает вам ориентироваться в интерфейсе, а в будущем будет полезно самому ИИ для автоматического выбора нужной базы знаний (агентская маршрутизация).

2. Наполнение Базы Знаний (Файлы и Сайты)

Откройте созданную Базу Знаний, нажав на иконку папки/файлов в строке таблицы. Вы можете наполнять базу двумя способами: загрузкой готовых документов или автоматическим сканированием (краулингом) вашего сайта.

Способ А: Загрузка Документов (Файлов)

Нажмите "Загрузить файл". Поддерживаемые форматы: TXT, PDF, DOCX, XLSX.

💡 Рекомендации по подготовке файлов для ИИ:

Структурируйте информацию. Лучше всего ИИ понимает формат Вопрос-Ответ (FAQ), однако обычные регламенты с четкими заголовками тоже отлично подходят.
Уберите "воду". Чем конкретнее информация (цены, сроки доставки, тарифные сетки, контакты), тем точнее будет отвечать бот.
Разделяйте логику. Избегайте загрузки рекламных буклетов на 100 страниц общим куском, если там много форматирования и мало смысла. Простой текстовый файл price_list_2024.txt с прямыми прайсами работает эффективнее сложного PDF-каталога картинками.

Способ Б: Парсинг Веб-сайтов (Краулинг)

Вместо того чтобы вручную копировать тексты с вашего сайта в документы, вы можете поручить эту задачу системе.

Нажмите кнопку "Сканировать сайт" (иконка глобуса).
Введите полный URL-адрес (например, https://example.com).
Укажите Максимум страниц, которые бот должен обойти (для защиты от бесконечных циклов).
Укажите Паттерн URL, если нужно сканировать только определенный раздел (например, /blog/ спарсит только статьи блога).
Нажмите Начать сканирование.

Система создаст фоновую задачу (Сессию сканирования). Вы можете отслеживать её статус в реальном времени в разделе Сессии парсинга.

Сессии парсинга сайтов (Управление краулингом)

Этот раздел позволяет вам:

Видеть статус текущего сканирования: «Ожидание», «Парсинг...», «Ожидает ревью», «Индексация» или «Завершена».
Просмотр страниц: Нажмите кнопку «Страницы» для конкретной сессии, чтобы увидеть весь список найденных URL-адресов.
Удаление сессии: Полностью удаляет сессию вместе со всеми проиндексированными страницами из Базы Знаний.

Управление страницами сессии (Ожидает ревью)

После того как краулер обошел сайт (статус «Ожидает ревью»), вы можете вручную выбрать, какие именно страницы нужно добавить в ИИ:

Отметьте галочками только нужные страницы (например, удалите из списка страницы Корзины, Пользовательского соглашения или старых новостей).
Нажмите Запустить индексацию. Система скачает текст только с выбранных страниц, разобьет их на чанки и добавит в Базу Знаний.

3. Обновление и Удаление данных

Любая информация в бизнесе имеет свойство устаревать (например, изменились условия доставки).

Просто зайдите в Базу Знаний, найдите старый файл и удалите его (иконка корзины).
Затем загрузите новый, актуальный документ на его место (или запустите новое сканирование сайта). ИИ сразу же начнет использовать новые данные.

Справочник настроек Базы Знаний

1. Добавление и Редактирование

Название: Видимое для вас имя коллекции документов (например, «Справка по тарифам»).
Описание: Очень важное поле! Если логика ИИ поддерживает маршрутизацию по разным базам, именно по описанию ИИ поймет, к какой базе нужно обращаться.
Минимальная релевантность (0.0 - 1.0): Порог схожести. Рекомендуется: 0.7. Определяет, насколько точно текст в базе должен совпадать с вопросом пользователя, чтобы ИИ взял его для ответа. 0.1 — берет все подряд, 0.9 — только точное совпадение.
Модель эмбеддингов: Алгоритм, математически переваривающий текст. Внимание: нельзя изменить после создания базы, так как все файлы векторизуются в одном формате.
Двухэтапный поиск (Reranking): Включает дополнительный фильтр через быструю LLM-судью для отсева нерелевантного мусора из результатов поиска. Сильно повышает точность.
HyDE (Генерация ответа): Вместо поиска по вопросу, система сгенерирует гипотетический ответ и будет искать совпадения в базе по его структуре.

2. Управление файлами и Чанками

Диалог для загрузки новых документов в конкретную Базу Знаний.

Выбрать файл: Поддерживаемые форматы: .pdf, .txt, .doc, .docx, .md, .xls, .xlsx.
Стратегия обработки (Пресет): Алгоритм разбивки вашего большого документа на мелкие смысловые кусочки (чанки) для лучшего поиска нейросетью. Переключайте в зависимости от типа вашего документа.
- Универсальный (Рекомендуется): Баланс для большинства документов.
- Детальный (FAQ, Инструкции): Для точного поиска по коротким фактам и ответам.
- Большой контекст (Книги): Для длинных текстов и удержания сложной логики.
- Пользовательский: Ручная настройка размера и перекрытий.
Размер чанка (токенов): Возникает при ручной настройке. Максимальное количество слов/символов в одном текстовом блоке базы (по умолчанию 1024).
Перекрытие (токенов): Возникает при ручной настройке. Количество слов, дублирующихся между соседними фрагментами для сохранения контекста и связок мыслей на границах чанков.

🔍 Просмотр Чанков: Если вы хотите убедиться, что система правильно нарезала ваш документ на абзацы (чанки), нажмите на иконку "Список" (View Chunks) рядом с загруженным файлом. В этом окне вы увидите каждый текстовый блок, который будет использоваться ИИ для поиска ответов.

💡 Совет по загрузке PDF: Избегайте файлов, где текст является картинкой (сканы без распознавания текста OCR). Идеальный PDF — это текстовый документ, сохраненный в формате PDF, с четкой иерархией заголовков.

Умные Базы Знаний (Knowledge Bases)