Платформа опросов с ИИ: насколько меняется точность анализа после обучения модели.

Никита Лиханов

Customer Research Manager в ФОКУЗ

Развиваю направление исследований клиентского опыта и UX в ФОКУЗ. Специализируюсь на исследованиях клиентского опыта (CX), методиках опросов и анализе обратной связи.

Содержание

Открытые текстовые ответы: то, что шкалы никогда не покажут
Когда и зачем использовать открытые ответы
Как правильно задавать открытые вопросы: рабочие правила
Методы обработки открытых ответов
Автоматические методы анализа: современный подход
Как снижать шум и ошибки в текстовых данных (bias и мусорные ответы)
Как соединять открытые ответы с количественными метриками
Как ФОКУЗ помогает работать с открытыми ответами
Ответы на частые вопросы

Открытые текстовые ответы: то, что шкалы никогда не покажут
Когда и зачем использовать открытые ответы
Как правильно задавать открытые вопросы: рабочие правила
Методы обработки открытых ответов
Автоматические методы анализа: современный подход
Как снижать шум и ошибки в текстовых данных (bias и мусорные ответы)
Как соединять открытые ответы с количественными метриками
Как ФОКУЗ помогает работать с открытыми ответами
Ответы на частые вопросы

Искусственный интеллект давно перестал быть фантастикой — сегодня он помогает не только рисовать картинки, оживлять фотографии и создавать видео, но и принимать реальные бизнес-решения. Особенно там, где важна скорость, точность и анализ больших объёмов данных: в маркетинге, HR, UX- и CX-исследованиях.

Исследования потребностей клиентов, их удовлетворенности — важная часть бизнес-процесса. Мы — команда разработчиков технологической платформы опросов для бизнеса ФОКУЗ. И сегодня мы расскажем о том, как внедрили блок ИИ в процесс анализа пользовательских ответов, дообучили нейросеть и к чему это в итоге привело.

ИИ: просто, удобно и время экономит

Триггерные опросы помогают быстро получать обратную связь от пользователей. Раньше анализировать текстовые ответы приходилось вручную: распределять по категориям, добавлять теги и группировать, чтобы увидеть, как меняется клиентский опыт или настроения респондентов. Теперь с нейросетями это стало намного проще. Мы добавили в платформу опросов ИИ‑блок — так обработка данных занимает меньше времени и даёт более точные результаты.

Как это сделано

В сервисе опросов ФОКУЗ реализован функционал автоматического анализа текстовых ответов с помощью ИИ. Этот инструментарий помогает быстро анализировать большие объемы текстовых ответов, выявлять тренды и принимать решения на основе обратной связи.

Система определяет:

Тональность ответа — позитивная, негативная или нейтральная эмоциональная окраска;
Категории (теги) — от 0 до 5 смысловых тегов из предопределенного списка.

Для улучшения результатов ИИ анализа мы провели дообучение модели и сравнили результаты анализа до и после. Фраза прозвучит банально, но результаты действительно превзошли наши ожидания: точность категоризации удалось повысить на 38%, определение тональности — на 4%.

Методология исследования

Кейс исследования: опрос о смене фирменного стиля

Для исследования использовались данные реального опроса нашего клиента на тему новой дизайн-концепции бренда. Клиент - федеральная сеть магазинов у дома. В эксперименте использовались два опроса: в одном предлагалось оценить стиль в одних тонах, во втором - в других.

Структура каждого опроса:

Текстовый экран с описанием
Вопрос про возраст респондента
«Тест пяти секунд»:

Респонденту без ограничения времени показывается набор изображений с новым дизайном.Далее задается вопрос: «Опишите тремя словами ваше первое впечатление от дизайна бренда» с ограничением ответа 250 символов.
Дополнительные вопросы (не используются в анализе)

В ходе исследования было получено:

2700+ текстовых ответов
1350+ респондентов на каждый опрос
58 категорий для анализа

Статистика кейса

Экспертная разметка

Клиент предоставил выгрузку ответов, где для каждого текстового ответа эксперт проставил:

Тональность (одна из трех: позитивная, негативная, нейтральная)
От 0 до 5 категорий из списка 58 возможных тегов

Эта экспертная разметка стала эталоном для оценки точности ИИ.

Примеры категорий из списка 58 тегов: яркость/красочность; подростковое/детское; вырвиглазно; солнечно; лето; отвращение/противно; молодежно; красиво; агрессивно/раздражает; свежесть; современное; стильно/модно; необычно/оригинально; креативно; простота и другие...

Промты: как мы обучали ИИ понимать ответы

Ключевой элемент работы ИИ — это промты (инструкции), которые объясняют модели, что и как нужно делать. Мы разработали два специализированных промта с четкой структурой и обоснованием каждого элемента. Они использовались как для базовой модели, так и в качестве основы для дообучения.

Промт для определения тональности

Структура промта:

Задаем контекст и роль

"Ты — эксперт по анализу пользовательских впечатлений и эмоциональной окраске текста"

Роль и контекст необходимы для того, чтобы модель лучше понимала ваши ожидания и использовала соответствующие знания и стиль анализа.

Даем чёткие определения категорий с примерами

Позитивные: одобрение, восхищение, приятные эмоции. Примеры: «Лето Яркость», «Ярко, красиво, свежо», «Стильно, модно, молодежно»
Негативные: недовольство, отвращение, раздражение. Примеры: «Мне не нравится», «Ужас, противно, некрасиво»
Нейтральные: факты без эмоций, смешанные впечатления. Примеры: «Размыто, нечетко, желто», «Осень»

Примеры из реальных данных помогают модели понять паттерны каждой категории. Модель учится на конкретных случаях, а не только на абстрактных определениях.

Даем конкретные инструкции для сложных случаев

Анализировать эмоционально окрашенную лексику («ужас», «красиво»)
При смешанной тональности определять преобладающую эмоцию
Пустые ответы → нейтральные

Как показывает практика, именно граничные случаи являются основным источником ошибок. Поэтому важно задать четкие явные правила, чтобы снизить неопределённость.

Промт для категоризации

Структура промта:

Гибкость в количестве тегов

«Присвоить от 0 до 5 наиболее подходящих категорий»

Не все ответы нуждаются в 5 тегах. Гибкость в количестве тегов (0–5) позволяет избежать «натягивания» нерелевантных категорий.

Указание на нюансы категорий

«Яркость, красочность» — нейтрально-описательная, а «вырвиглазно» — резко негативная оценка той же яркости.

В исследовании используются 58 категорий, которые имеют смысловые пересечения. Без пояснений модель может путать схожие, но различающиеся оттенками категории.

Примеры правильной категоризации

«Ярко, красочно, лето» → Яркость/красочность, лето
«Слишком яркий, раздражающий» → Вырвиглазно, агрессивно/раздражает
«Стильно модно молодежно» → Молодежно, стильно/модно

Для обучения модели использовался метод обучения на малом числе примеров — Few-shot learning. Примеры показывают логику выбора тегов, позволяя модели лучше понять контекст задачи и более эффективно проводить категоризацию.

Акцент на точность, а не полноту

«Выбери только релевантные категории. Если подходит одна — выбери одну».

Без этой инструкции модель стремится «заполнить все слоты», что ведет к ложным срабатываниям и низкой точности категоризации.

Примеры промтов - на тональность и на категоризацию

Почему такой подход работает

Эффективность промтов основана на трех принципах:

Контекст + примеры — модель понимает не только «что делать», но и «как должен выглядеть результат».
Явные правила для граничных случаев — снижение неопределенности в сложных ситуациях.
Баланс точности и полноты — инструкции настроены на оптимальное соотношение точности (Precision) и полноты (Recall).

Два этапа тестирования

Исследование проводилось в два этапа:

Базовая модель (YandexGPT Pro 5.1) — анализ всех 2700+ ответов с использованием промтов без предварительного обучения.
Дообученная модель (YandexGPT Lite 5) — обучение на 60% данных (1620 текстов) и тестирование на оставшихся 40% (1080 текстов).

Важно: Дообученная модель тестировалась только на данных, которые она НЕ видела при обучении. Это гарантирует объективность оценки и позволяет оценить эффективность дообучения.

Модели ИИ

Метрики качества: что и почему мы измеряли

Для оценки качества работы ИИ мы использовали следующие метрики:

точность — для тональности;
точность и полнота — для категоризации.

Расскажем об обеих более подробно

Метрики для тональности: точность — вежливость королей

Определение тональности подразумевает классификацию по 3 классам: позитивная, негативная, нейтральная. Основной метрикой является точность — процент ответов, где ИИ правильно определил тональность.

Например, если из 100 ответов ИИ правильно определил тональность в 88 случаях, то точность = 88%.

Дополнительно мы отслеживали характер ошибок:

Соседние ошибки — когда ИИ ошибся на один уровень (например, позитивную определил как нейтральную). Это менее критично.
Противоположные ошибки — когда позитивный ответ определил как негативный или наоборот. Это серьёзная ошибка.

Категоризация: не только точность, но и полнота

Открытый вопрос сам по себе не гарантирует хорошего ответа. Если формулировка размытая или перегруженная, респонденты либо напишут одно слово, либо вообще пропустят поле. Поэтому к тексту таких вопросов нужно относиться почти как к UX-копирайтингу.

Подстраивайте язык под аудиторию. И в UX-интервью, и в онлайн-опросах принцип один: говорить на языке респондента, а не внутренним жаргоном команды. Перед запуском полезно протестировать формулировку на коллегах, которые не погружены в продукт.

Избегайте двойных и многосоставных вопросов. Два вопроса в одном всегда ухудшают качество данных: респондент отвечает либо на первую часть, либо даёт поверхностную усредненную реакцию.

Не направляйте респондента, но создавайте фокус. Легкая подсказка помогает человеку вспомнить опыт, но нельзя «подкладывать» ожидаемый ответ. Вопрос должен быть открытым, но не расплывчатым.

Просите конкретику, а не абстракции. Мы часто встречаем такое, что склонны отвечать общими словами: «нормально», «удобно», «долго». Просьба описать шаги, эмоции или события добавляет фактов, которые можно анализировать.

Избегайте пустых конструкций вроде «Напишите всё, что считаете нужным». Такие фразы ведут либо к тишине, либо к нерелевантным текстам. Лучше задать вопрос так, чтобы человек понимал рамку и цель.

Помогайте человеку вспоминать реальные события. Открытые ответы ценны тем, что содержат «полевую» информацию: эмоции, мотивы, препятствия. Чтобы её получить, вопрос должен активировать память о конкретной ситуации, а не просить об абстракциях.

Пример

«Вспомните последний раз, когда приложение зависло или работало медленно. Что вы сделали в этот момент?»

Никита Лиханов

Customer Research Manager в ФОКУЗ

Статья больше про методы обработки. Рекомендую почитать пару небольших, но очень хороших гайдов по составлению вопросов. Вот тут первый, а тут второй.

Методы обработки открытых ответов

Работа с открытыми ответами может идти разными путями — от полностью ручного анализа до полуавтоматических и полностью автоматизированных подходов. Выбор метода зависит от целей исследования, объёма данных и зрелости вашей VoC- или UX-практики.

Классика жанра — ручное кодирование, дающее максимальный контроль над контекстом, но плохо масштабируемое. Более системные команды используют готовые категориальные модели, что ускоряет обработку, но рискует пропустить новые темы. А при discovery-исследованиях эффективнее всего работают индуктивные подходы: категории рождаются прямо из данных, отражая реальную структуру пользовательских смыслов.

В целом методы можно применять одновременно: что-то на части данных, что-то на всех. Ручное кодирование помогает глубоко разобраться в мотивах. Категориальное — быстро масштабировать процессы. Индуктивное — находить новые инсайты, которых вы не ожидали увидеть.

Автоматические методы анализа: современный подход

В отличие от классического кодирования, алгоритмы могут одновременно учитывать семантику, контекст, эмоции и структуру текста. Большие языковые модели (LLM), тематическое моделирование, кластеризация и классификация — это инструменты, которые дополняют друг друга. Многие компании используют гибридный подход: сначала автоматическая обработка, затем ручная проверка «краевых случаев».

Ниже — сравнительная таблица ключевых автоматизированных методов, используемых в CX/UX/VoC-аналитике.

Анализ тональности (Sentiment Analysis);Определяет эмоциональную окраску ответа: позитив, негатив, нейтрально;Быстро выявляет негатив, подходит для больших объёмов, хорошо работает с NPS/CSAT;Разные модели могут ошибаться на сарказме, двусмысленности, сложных конструкциях;VoC-программы, служба поддержки, мониторинг отзывов Тематическое моделирование (Topic Modeling);Выделяет повторяющиеся темы/топики в больших массивах текста;Позволяет увидеть структуру проблем, выделяет основные темы рынка/продукта;Топики могут быть расплывчатыми, требуют некоторой интерпретации;UX discovery, VoC, анализ открытых полей NPS/CSAT Кластеризация (K-means, Hierarchical);Группирует похожие по смыслу ответы;Хорошо работает на больших массивах, выявляет естественную структуру данных;Может давать слишком много или мало кластеров, требует проверки;Анализ отзывов, обнаружение групп проблем, сегментация по языковым паттернам Категоризация (Classification);Относит текст к заранее заданным категориям;Высокая скорость, масштабируется, удобно для операционки;Не найдёт новые темы, работает только в рамках словаря. Очень похожа по сути на тональность;Контакт-центр, служба качества, регулярный CX мониторинг

Автоматический анализ открытых ответов позволяет в 5−20 раз ускорить обработку фидбэка и открывает возможность находить темы, которые невозможно вытащить вручную. Главное — правильно сочетать методы: классификацию для стабильных сценариев, кластеризацию и топики для поиска инсайтов, и LLM — для интерпретации и проверки.

Как снижать шум и ошибки в текстовых данных (bias и мусорные ответы)

Текстовые ответы дают глубину, но одновременно несут высокий уровень шума: короткие реплики без смысла, эмоциональные всплески, дубликаты и спам искажают выводы. Чтобы сохранить качество данных, в VoC-программах и UX-исследованиях применяют комбинацию фильтров: автоматических (правила, ML) и ручных (верификация аналитиком).

Особенно важно чистить данные перед категоризацией и определению тональности: некачественные ответы формируют ложные «темы» и смещают полярность. Большинство проблем сводится к двум вопросам: как распознать неинформативные ответы и как отделить «сильный» негатив от просто эмоционального шума. Ниже рассказали об основных типах шума:

Пустые и малосодержательные ответы. «Ок», «норм», «не знаю», «хз», один смайлик, случайные символы — удаляются автоматически. Это ответы без сигнала: они не добавляют инсайтов.
Штампы и шаблонные фразы. «Всё хорошо», «всё понравилось», «ничего особенного». Такие ответы оставляют только в связке с количественной оценкой (например, CSAT), но исключают из тематического анализа и кластеризации.
Дубликаты и массовый спам. Объединяются по одинаковому тексту или высокой текстовой схожести (cosine similarity). Если источник — бот или пользователь, копирующий один и тот же текст, ответы удаляются.
Шум из-за обязательности поля. Если поле для текста сделали обязательным, пользователи часто пишут рандом («—», «нет», «/»). Неплохое решение — делать текстовый вопрос опциональным, но задавать направляющую формулировку («Расскажите, что именно можно улучшить…»).

Никита Лиханов

Customer Research Manager в ФОКУЗ

Не весь негатив одинаково полезен. В текстах важно отличать эмоцию от факта. Если человек пишет конкретику — «оплата зависла», «курьер перепутал адрес» — это сигнал для анализа. Если же комментарий состоит только из общей эмоциональной реакции — «ужасно!», «ненавижу ваш сервис» — такое лучше относить в общий «фон недовольства», но не включать в узкие проблемные кластеры. Так модели остаются чище, а выводы — точнее.

Как соединять открытые ответы с количественными метриками

Открытые ответы раскрывают что стоит за цифрами NPS, CSAT или CES, поэтому их всегда полезно интерпретировать вместе. Например, при анализе NPS текстовые комментарии позволяют быстро выявить ключевые причины промоутерства и детракторства — от качества сервиса до UX-проблем. Это помогает не просто фиксировать оценку, а понимать, какие механики реально формируют лояльность.

В CSAT-трекинге текст часто указывает на корневые причины падений: долгие ответы поддержки, ошибки интерфейса, неудобная оплата. Анализ по сегментам (мобайл/десктоп, новый/опытный пользователь) помогает увидеть, где именно зарыт сбой в клиентском пути.

В CES открытые комментарии показывают барьеры: непонятные формулировки, скрытые кнопки, труднонаходимые разделы. Это особенно ценно в продуктовой разработке, где важно выявлять точки трения еще до релиза.

Для VoC-программ открытые ответы дают возможность отслеживать динамику тем по кварталам: какие жалобы участились, какие ушли, какие ожидания появились заново. Это превращает голос клиента из набора фраз в системную карту проблем и возможностей для роста.

Как ФОКУЗ помогает работать с открытыми ответами

ФОКУЗ автоматизирует самую тяжелую часть работы с текстовыми данными: сервис автоматически определяет тональность ответов, выделяет ключевые темы и предлагает готовые кластеры. Это позволяет быстрее увидеть реальные причины оценок, даже когда открытых комментариев — тысячи.

Кроме стандартных моделей, в ФОКУЗ можно настраивать собственные правила анализа: обучать категории под вашу специфику, добавлять индивидуальные теги, учитывать уникальную терминологию компании. Это помогает адаптировать аналитику под конкретный бизнес-процесс, а не под усредненные модели.

Все результаты можно автоматически отправлять в CRM, BI или сервисы для внутренней обработки. Благодаря этому открытые ответы перестают быть чем-то «вне контуров продукта» — они становятся частью вашей операционной системы принятия решений.

Ускорить анализ текста

Ответы на частые вопросы