Что такое тренер ИИ?

Иногда кажется, что ИИ — это почти фокус. Вы задаёте случайный вопрос, и — бац! — через несколько секунд появляется отточенный, безупречный ответ. Но вот в чём загвоздка: за каждой «гениальной» машиной стоят реальные люди, которые её корректируют, исправляют и формируют. Этих людей называют тренерами ИИ, и их работа гораздо страннее, забавнее и, честно говоря, человечнее, чем думает большинство людей.

Давайте разберемся, почему эти тренеры важны, как выглядит их повседневная работа и почему эта профессия набирает популярность быстрее, чем кто-либо предполагал.

Статьи, которые могут вас заинтересовать после этой:

🔗 Что такое арбитраж в сфере ИИ: правда, скрывающаяся за этим модным словом
В статье объясняется арбитраж с использованием ИИ, его риски, преимущества и распространенные заблуждения.

🔗 Требования к хранению данных для ИИ: что вам действительно нужно знать
Рассматриваются потребности в хранении данных, масштабируемость и эффективность систем искусственного интеллекта.

🔗 Кто является отцом искусственного интеллекта?
В книге рассматриваются пионеры искусственного интеллекта и истоки его развития.

Что делает обучающий инструмент на основе ИИ по-настоящему эффективным? 🏆

Это не работа по беспорядочному нажатию кнопок. Лучшие тренеры опираются на довольно необычное сочетание талантов:

Терпение (много терпения) — модели не учатся с первого раза. Тренеры постоянно вносят одни и те же исправления, пока они не закрепятся.
Умение распознавать нюансы — способность улавливать сарказм, культурный контекст или предвзятость — вот что придает обратной связи от человека ее преимущество [1].
Прямолинейная коммуникация — половина работы заключается в написании четких инструкций, которые ИИ не сможет неправильно истолковать.
Любопытство + этика - Хороший тренер задается вопросом, является ли ответ «фактически правильным», но при этом социально неадекватным - важная тема в надзоре за ИИ [2].

Проще говоря: тренер — это отчасти преподаватель, отчасти редактор и немного этик.

Краткий обзор ролей тренеров ИИ (с некоторыми особенностями 😉)

Тип роли	Кому лучше всего подойдёт	Типичная заработная плата	Почему это работает (или не работает)
Маркер данных	Люди, которые любят мельчайшие детали	Низкий–средний уровень $$	Это абсолютно необходимо; если метки некачественные, страдает вся модель [3] 📊
Специалист по РЛХФ	Писатели, редакторы, аналитики	Средне-высокий уровень $$	Ранжирует и переписывает ответы, чтобы привести тон и ясность в соответствие с ожиданиями людей [1]
Тренер по предметной области	Юристы, врачи, эксперты	Разбросано по всей карте 💼	Обрабатывает узкоспециализированную терминологию и нестандартные ситуации в системах, специфичных для конкретной отрасли
Эксперт по безопасности	Люди, придерживающиеся этических принципов	Средний $$	Применяет рекомендации, чтобы ИИ избегал вредоносного контента [2][5]
Креативный тренер	Художники, рассказчики	Непредсказуемый 💡	Помогает ИИ воплощать воображение, оставаясь при этом в безопасных пределах [5]

(Да, форматирование немного неаккуратное — примерно как и сама работа.)

Один день из жизни тренера ИИ

Так как же выглядит эта работа на самом деле? Представьте себе не столько гламурное программирование, сколько:

Ранжирование ответов, написанных ИИ, от худшего к лучшему (классический этап RLHF) [1].
Исправление ошибок (например, когда модель забывает, что Венера — это не Марс).
Переписывание ответов чат-бота, чтобы они звучали более естественно.
Разметка огромных массивов текста, изображений или аудио — где точность действительно имеет значение [3].
Обсуждается вопрос, достаточно ли «технически корректно» или же правила безопасности должны иметь приоритет [2].

Это отчасти рутинная работа, отчасти головоломка. Честно говоря, представьте, что вы учите попугая не просто говорить, а перестать использовать слова с небольшими ошибками — вот что это такое. 🦜

Почему тренеры важнее, чем вы думаете

Без участия человека за рулём ИИ бы:

Звучит скованно и роботизированно.
Распространение предвзятости без контроля (пугающая мысль).
Совершенно отсутствует юмор и эмпатия.
В деликатных ситуациях следует проявлять меньшую осторожность.

Тренеры — это те, кто незаметно вводит «сложные человеческие вещи» — сленг, теплоту, иногда неуклюжие метафоры — одновременно устанавливая ограничители, чтобы обеспечить безопасность [2][5].

Навыки, которые действительно имеют значение

Забудьте о мифе, что вам нужна докторская степень. Больше всего помогает следующее:

Навыки письма и редактирования - Отполированный, но естественно звучащий текст [1].
Аналитическое мышление — выявление повторяющихся ошибок в модели и внесение корректировок.
Культурная осведомленность — умение распознавать неверные формулировки [2].
Терпение — потому что ИИ не всё понимает мгновенно.

Дополнительные баллы начисляются за знание нескольких языков или узкоспециализированные знания.

Где появляются тренеры 🌍

Эта работа связана не только с чат-ботами — она проникает во все сферы экономики:

Здравоохранение - Разработка правил аннотирования для пограничных случаев (найдено в руководстве по ИИ в здравоохранении) [2].
Финансы - Обучение системам обнаружения мошенничества без погружения людей в ложные тревоги [2].
Розничная торговля - Обучение помощников использованию сленга покупателей при сохранении фирменного стиля [5].
Образование - Создание обучающих ботов, которые будут поощрять, а не проявлять снисходительность [5].

В общем, если у ИИ есть место за столом переговоров, то где-то на заднем плане скрывается его тренер.

Вопрос этики (пропустить нельзя)

Вот тут-то и начинается самое важное. Если не контролировать ИИ, он будет повторять стереотипы, дезинформацию или что-то еще хуже. Тренеры предотвращают это, используя такие методы, как RLHF или конституционные правила, которые направляют модели к полезным и безвредным ответам [1][5].

Пример: если бот выдает предвзятые рекомендации по вакансиям, тренер отмечает это, переписывает свод правил и следит за тем, чтобы это больше не повторилось. Это контроль в действии [2].

Не самая приятная сторона

Не всё так радужно. Тренеры сталкиваются со следующими проблемами:

Однообразие — бесконечная маркировка быстро надоедает.
Эмоциональная усталость — просмотр вредного или вызывающего тревогу контента может негативно сказаться на здоровье; системы поддержки имеют решающее значение [4].
Недостаток внимания — пользователи редко знают о существовании тренеров.
Постоянные изменения — инструменты постоянно развиваются, а это значит, что инструкторам приходится идти в ногу со временем.

Тем не менее, многих привлекает возможность влиять на «мозги» технологических компаний, и это продолжает их увлекать.

Скрытые MVP искусственного интеллекта

Итак, кто такие тренеры ИИ? Они — связующее звено между базовыми алгоритмами и системами, которые действительно работают на людей. Без них ИИ был бы подобен библиотеке без библиотекарей — тонны информации, но практически невозможность её использовать.

В следующий раз, когда чат-бот вас рассмешит или покажется удивительно «чуть нащупанным», поблагодарите тренера. Это незаметные фигуры, благодаря которым машины не просто вычисляют, но и взаимодействуют [1][2][5].

Ссылки

[1] Оуян, Л. и др. (2022). Обучение языковых моделей выполнению инструкций с обратной связью от человека (InstructGPT). NeurIPS. Ссылка

[2] NIST (2023). Структура управления рисками в области искусственного интеллекта (AI RMF 1.0). Ссылка

[3] Норткатт, К. и др. (2021). Распространенные ошибки в метках тестовых наборов дестабилизируют бенчмарки машинного обучения. Наборы данных и бенчмарки NeurIPS. Ссылка

[4] ВОЗ/МОТ (2022). Руководство по психическому здоровью на рабочем месте. Ссылка

[5] Бай, Ю. и др. (2022). Конституционный ИИ: безвредность обратной связи от ИИ. arXiv. Ссылка

Найдите новейшие разработки в области ИИ в официальном магазине ИИ-помощников

О нас

Вернуться в блог