Как измерить производительность ИИ?

Если вы когда-либо выпускали модель, которая блистала в ноутбуке, но потерпела неудачу в производстве, вы уже знаете секрет: измерение производительности ИИ — это не один волшебный показатель. Это система проверок, привязанная к реальным целям. Точность — это хорошо. Надежность, безопасность и влияние на бизнес — еще лучше.

Статьи, которые вам может быть интересно прочитать после этой:

🔗 Как общаться с ИИ
Руководство по эффективному взаимодействию с ИИ для достижения стабильно лучших результатов.

🔗 Что такое подсказки ИИ?
Объясняет, как подсказки влияют на ответы ИИ и качество выходных данных.

🔗 Что такое маркировка данных ИИ?
Обзор процесса присвоения точных меток данным для обучения моделей.

🔗 Что такое этика ИИ?
Введение в этические принципы, лежащие в основе ответственной разработки и внедрения ИИ.

Что обеспечивает высокую производительность ИИ? ✅

Вкратце: высокая производительность ИИ означает, что ваша система полезна, заслуживает доверия и обеспечивает воспроизводимость результатов в сложных, меняющихся условиях. Конкретнее:

Качество выполнения задачи — это получение правильных ответов по правильным причинам.
Калибровка — показатели достоверности соответствуют действительности, поэтому вы можете принимать обоснованные решения.
Надежность — он выдерживает отклонения от нормы, нестандартные ситуации и некорректные данные от сторонних источников.
Безопасность и справедливость — это предотвращение вредного, предвзятого или противоправного поведения.
Эффективность — система достаточно быстрая, дешевая и стабильная для работы в больших масштабах.
Влияние на бизнес — это реальное изменение ключевых показателей эффективности, которые для вас важны.

Если вам нужна формальная точка отсчета для согласования метрик и рисков, то структура управления рисками в области ИИ от NIST является надежным ориентиром для достоверной оценки системы. [1]

Основной алгоритм измерения производительности ИИ 🍳

Мыслите в трех уровнях :

Показатели задачи — корректность для данного типа задачи: классификация, регрессия, ранжирование, генерация, управление и т. д.
Системные метрики : задержка, пропускная способность, стоимость вызова, частота сбоев, отклонения сигналов тревоги, соглашения об уровне обслуживания (SLA) по времени безотказной работы.
Показатели результатов — желаемые бизнес- и пользовательские результаты: конверсия, удержание, инциденты, связанные с безопасностью, нагрузка на ручную проверку, объем заявок.

В хорошем плане измерений намеренно сочетаются все три компонента. В противном случае получится ракета, которая так и не покинет стартовую площадку.

Основные метрики по типам проблем — и когда использовать те или иные 🎯

1) Классификация

Точность, полнота, F1 — трио первого дня. F1 — это гармоническое среднее точности и полноты; полезно, когда классы несбалансированы или затраты асимметричны. [2]
ROC-AUC — ранжирование классификаторов, не зависящее от порогового значения; если положительные результаты редки, также следует проверить PR-AUC . [2]
Сбалансированная точность — среднее значение показателя полноты по классам; удобно для искаженных меток. [2]

Осторожно, подводные камни: одна лишь точность может сильно вводить в заблуждение, особенно при наличии дисбаланса. Если 99% пользователей являются легитимными, то примитивная, всегда легитимная модель набирает 99% и подводит вашу команду по борьбе с мошенничеством еще до обеда.

2) Регрессия

MAE для ошибок, различимых человеком; RMSE, когда нужно наказывать за большие ошибки; R² для объясненной дисперсии. Затем проверьте распределения и графики остатков. [2]
(Используйте единицы измерения, понятные в предметной области, чтобы заинтересованные стороны могли действительно почувствовать ошибку.)

3) Ранжирование, поиск, рекомендации

nDCG — учитывает позицию и градуированную релевантность; стандарт качества поиска.
MRR — фокусируется на том, как быстро появляется первый релевантный элемент (отлично подходит для задач типа «найти один хороший ответ»).
(Ссылки на реализацию и примеры решения задач находятся в основных библиотеках метрик.) [2]

4) Генерация и суммирование текста

BLEU и ROUGE — классические показатели пересечения; полезны в качестве базовых показателей.
Метрики, основанные на встраивании (например, BERTScore ), часто лучше коррелируют с оценкой человека; всегда используйте их в сочетании с оценками людей по стилю, достоверности и безопасности. [4]

5) Ответы на вопросы

Точное совпадение и проверка F1 на уровне токенов распространены в вопросах и ответах, требующих извлечения информации; если ответы должны содержать ссылки на источники, следует также проверять обоснованность (проверку подтверждения ответа).

Калибровка, уверенность и линза Brier 🎚️

Показатели достоверности — это то, что многие системы скрывают. Вам нужны вероятности, отражающие реальность, чтобы оперативный персонал мог устанавливать пороговые значения, направлять запросы к специалистам или оценивать риски.

Калибровочные кривые — визуализация прогнозируемой вероятности в зависимости от эмпирической частоты.
Показатель Брайера — правильное правило оценки вероятностной точности; чем ниже, тем лучше. Он особенно полезен, когда вас интересует качество вероятности , а не просто ранжирование. [3]

Примечание с места событий: немного «хуже» показатель F1, но значительно улучшенная калибровка могут существенно повысить эффективность сортировки пациентов, поскольку люди, наконец, смогут доверять полученным результатам.

Безопасность, предвзятость и справедливость — измеряйте то, что действительно важно 🛡️⚖️

Система может быть в целом точной, но при этом наносить вред отдельным группам. Отслеживайте сгруппированные показатели и критерии справедливости:

Демографическое равенство — одинаковые показатели положительных результатов во всех группах.
Равные шансы / Равные возможности - равные показатели ошибок или истинно положительных результатов во всех группах; используйте их для выявления и управления компромиссами, а не в качестве одноразовых штампов «прошел/не прошел». [5]

Практический совет: начните с панелей мониторинга, которые анализируют основные показатели по ключевым атрибутам, а затем добавьте конкретные показатели справедливости в соответствии с требованиями вашей политики. Это может показаться сложным, но это дешевле, чем инцидент.

LLM и RAG — руководство по измерениям, которое действительно работает 📚🔍

Измерение производительности генеративных систем — дело непростое. Сделайте вот что:

Определите результаты для каждого сценария использования: корректность, полезность, безвредность, соответствие стилю, фирменный тон, обоснование ссылками, качество отказа.
Автоматизируйте базовые оценки с помощью надежных фреймворков (например, инструментов оценки из вашего стека) и ведите их версионирование вместе с вашими наборами данных.
Добавьте семантические метрики (на основе встраивания) плюс метрики перекрытия (BLEU/ROUGE) для обеспечения корректности. [4]
Основа инструментария в RAG: частота правильных ответов при извлечении информации, точность/полнота контекста, перекрытие ответов и их поддержки.
Экспертная оценка с учетом согласия экспертов — измерьте согласованность оценок (например, коэффициент Коэна κ или коэффициент Флейсса κ), чтобы ваши оценки не отражали субъективное мнение.

Бонус: логирование процентилей задержки и стоимости токена или вычислений для каждой задачи. Никому не нравится поэтический ответ, который придет в следующий вторник.

Таблица сравнения — инструменты, которые помогут вам измерить производительность ИИ 🛠️📊

(Да, это сделано специально, чтобы избежать беспорядка — настоящие купюры тоже бывают неаккуратными.)

Инструмент	Лучшая аудитория	Цена	Почему это работает — краткий обзор
метрики scikit-learn	Специалисты по машинному обучению	Бесплатно	Канонические реализации для классификации, регрессии, ранжирования; легко интегрируются в тесты. [2]
MLflow Evaluate / GenAI	Специалисты по анализу данных, MLOps	Бесплатно + платно	Централизованное выполнение тестов, автоматизированные метрики, судьи LLM, пользовательские системы оценки; корректное ведение журналов событий.
Очевидно	Команды, которым нужны быстрые панели мониторинга	Открытое программное обеспечение + облако	Более 100 метрик, отчеты о дрейфе и качестве, механизмы мониторинга — удобные визуализации в экстренных случаях.
Веса и смещения	Экспериментальные организации	Бесплатный уровень	Сравнительный анализ, оценка наборов данных, эксперты; таблицы и графики выглядят довольно аккуратно.
ЛэнгСмит	Разработчики приложений LLM	Оплаченный	Отслеживайте каждый шаг, сочетайте проверку человеком с оценкой правил или экспертами уровня LLM; отлично подходит для RAG.
TruLens	Любители оценки программ магистратуры с открытым исходным кодом	OSS	Функция обратной связи позволяет оценить токсичность, обоснованность и актуальность; её можно интегрировать куда угодно.
Большие надежды	Организации, ставящие качество данных на первое место	OSS	Оформите требования к данным в формальном порядке, потому что плохие данные в любом случае портят все показатели.
Глубокие проверки	Тестирование и CI/CD для машинного обучения	Открытое программное обеспечение + облако	В комплект входят батареи для тестирования на предмет смещения данных, проблем с моделью и мониторинга; надежные средства защиты.

Цены меняются — проверяйте документы. И да, вы можете смешивать эти товары, не опасаясь появления «полиции инструментов».

Пороговые значения, затраты и кривые принятия решений — секретный ингредиент 🧪

Удивительная, но правдивая вещь: две модели с одинаковым показателем ROC-AUC могут иметь совершенно разную коммерческую ценность в зависимости от порогового значения и соотношения затрат .

Краткий план сборки:

Установите стоимость ложноположительного и ложноотрицательного результата в деньгах или времени.
Определите пороговые значения и рассчитайте ожидаемую стоимость на 1000 принятых решений.
Выберите минимальный ожидаемый порог затрат, а затем зафиксируйте его с помощью мониторинга.

Используйте кривые PR, когда положительные результаты редки, кривые ROC для общей формы, а калибровочные кривые — когда решения основаны на вероятностях. [2][3]

Пример из практики: модель обработки заявок в службу поддержки с невысоким показателем F1, но отличной калибровкой, исключает ручную переадресацию после того, как оперативный отдел переключился с жесткого порогового значения на многоуровневую маршрутизацию (например, «автоматическое разрешение», «ручная проверка», «эскалация»), привязанную к калиброванным диапазонам оценок.

Онлайн-мониторинг, отслеживание изменений и оповещения 🚨

Офлайн-оценка — это начало, а не конец. В процессе производства:

Отслеживайте дрейф входных данных , дрейф выходных данных и снижение производительности по сегментам.
Установите параметры проверки на соответствие критериям: максимальная частота галлюцинаций, пороговые значения токсичности, разница в справедливости.
Добавьте индикаторы состояния системы (canary dashboards) для отображения задержки p95, таймаутов и стоимости запроса.
Для ускорения этого процесса используйте специализированные библиотеки; они предоставляют базовые функции для отслеживания дрейфа, качества и мониторинга.

Небольшая, но не совсем удачная метафора: представьте свою модель как закваску для хлеба — вы не просто один раз печете и уходите; вы подкармливаете, наблюдаете, нюхаете и иногда перезапускаете процесс.

Человеческая оценка, которая не рушится 🍪

Когда люди оценивают результаты своей работы, сам процесс имеет большее значение, чем вы думаете.

Составьте четкие критерии оценки с примерами зачета, пограничного результата и незачета.
По возможности проводите рандомизацию и слепое тестирование образцов.
Оцените согласованность между экспертами (например, коэффициент Каппа Коэна для двух экспертов, коэффициент Каппа Флейсса для многих) и обновите критерии оценки, если согласованность снизится.

Это предотвратит изменение ваших представлений о человеке в зависимости от настроения или наличия кофе.

Подробный анализ: как измерить производительность ИИ для LLM в RAG 🧩

Качество поиска - полнота@k, точность@k, nDCG; охват эталонных фактов. [2]
Проверка достоверности ответа — проверка на основе ссылок и подтверждений, оценка обоснованности, проверка на основе враждебных аргументов.
Удовлетворенность пользователей — количество нажатий на кнопку "палец вверх", завершение задачи, расстояние редактирования от предложенных черновиков.
Безопасность — токсичность, утечка персональных данных, соблюдение политики.
Стоимость и задержка — токены, попадания в кэш, задержки p95 и p99.

Свяжите это с бизнес-действиями: если уровень обоснованности опускается ниже определенного значения, автоматически перенаправьте запрос в строгий режим или на проверку человеком.

Простое руководство для начала работы уже сегодня 🪄

Опишите задачу — напишите одним предложением: что должен делать ИИ и для кого.
Выберите 2–3 метрики задачи , а также калибровку и как минимум один показатель справедливости. [2][3][5]
Определяйте пороговые значения, исходя из стоимости , а не наугад.
Создайте небольшой набор оценочных примеров — 100–500 размеченных примеров, отражающих структуру производства.
Автоматизируйте оценку изменений — интегрируйте оценку/мониторинг в CI, чтобы каждое изменение запускало одни и те же проверки.
Мониторинг в производственной среде : дрейф, задержка, стоимость, флаги инцидентов.
Проводите анализ примерно раз в месяц — удаляйте показатели, которые никто не использует; добавляйте те, которые отвечают на реальные вопросы.
Документируйте принятые решения — это постоянно обновляемая система показателей, которую ваша команда действительно читает.

Да, именно так. И это работает.

Распространённые подводные камни и как их избежать 🕳️🐇

Переобучение на основе одной метрики — используйте набор метрик , соответствующих контексту принятия решения. [1][2]
Игнорирование калибровки — уверенность без калибровки — это просто хвастовство. [3]
Без сегментации — всегда сегментация по группам пользователей, географии, устройству, языку. [5]
Неопределенные затраты — если вы не учитываете ошибки в ценообразовании, вы выберете неправильный пороговый уровень.
Изменение результатов человеческой оценки — измерение степени согласованности, обновление критериев оценки, переобучение рецензентов.
Никаких средств контроля безопасности — добавьте справедливость, токсичность и проверку политики сейчас, а не потом. [1][5]

Фраза, которую вы искали: как измерить производительность ИИ — Слишком длинно, я не стал её читать 🧾

Начните с четких результатов , затем распределите по задачам , системам и бизнесу . [1]
Используйте подходящие метрики для решения задачи : F1 и ROC-AUC для классификации; nDCG/MRR для ранжирования; перекрытие + семантические метрики для генерации (в паре с людьми). [2][4]
Откалибруйте свои вероятности и оцените свои ошибки , чтобы выбрать пороговые значения. [2][3]
Добавьте справедливости с помощью групповых срезов и явно управляйте компромиссами. [5]
Автоматизируйте оценку и мониторинг, чтобы вы могли совершенствоваться без опасений.

Вы же знаете, как это бывает: измеряйте то, что важно, иначе в итоге будете улучшать то, что не имеет значения.

Ссылки

[1] NIST. Структура управления рисками в ИИ (AI RMF). Подробнее
[2] scikit-learn. Оценка модели: количественная оценка качества прогнозов (Руководство пользователя). Подробнее
[3] scikit-learn. Калибровка вероятности (калибровочные кривые, оценка Бриера). Подробнее
[4] Папинени и др. (2002). BLEU: метод автоматической оценки машинного перевода. ACL. Подробнее
[5] Хардт, Прайс, Сребро (2016). Равенство возможностей в контролируемом обучении. NeurIPS. Подробнее

Найдите новейший ИИ в официальном магазине AI Assistant

О нас

Вернуться в блог

Страна/регион