Что такое маркировка данных с помощью ИИ?

Если вы разрабатываете или оцениваете системы машинного обучения, рано или поздно вы столкнётесь с тем же препятствием: размеченными данными. Модели не обладают волшебным образом способностью понимать, что есть что. Людям, политикам, а иногда и программам приходится их учить. Итак, что же такое разметка данных в ИИ? Короче говоря, это практика добавления смысла к необработанным данным, чтобы алгоритмы могли на них учиться… 😊

🔗 Что такое этика ИИ?
Обзор этических принципов, регулирующих ответственную разработку и внедрение ИИ.

🔗 Что такое MCP в ИИ?
Объясняет протокол управления моделью и его роль в управлении поведением ИИ.

🔗 Что такое передовой ИИ?
Рассматривается, как искусственный интеллект обрабатывает данные непосредственно на устройствах на периферии сети.

🔗 Что такое агентный ИИ?
Представляет автономных агентов ИИ, способных планировать, рассуждать и действовать самостоятельно.

Что же такое разметка данных с помощью ИИ на самом деле? 🎯

Маркировка данных с помощью ИИ — это процесс добавления понятных человеку тегов, диапазонов, блоков, категорий или оценок к исходным входным данным, таким как текст, изображения, аудио, видео или временные ряды, чтобы модели могли выявлять закономерности и делать прогнозы. Например, ограничивающие рамки вокруг автомобилей, теги сущностей для людей и мест в тексте или голоса за то, какой ответ чат-бота кажется более полезным. Без этих меток классическое контролируемое обучение никогда не сдвинется с мертвой точки.

Вы также услышите термины «эталонные данные» или «золотые данные»: согласованные ответы с четкими инструкциями, используемые для обучения, проверки и аудита поведения модели. Даже в эпоху базовых моделей и синтетических данных размеченные наборы данных по-прежнему важны для оценки, тонкой настройки, проверки безопасности и анализа сложных граничных случаев — то есть, как ваша модель ведет себя при выполнении пользователями тех необычных действий, которые они действительно совершают. Бесплатного сыра не бывает, есть только лучшие инструменты.

Что делает разметку данных с помощью ИИ качественной ✅

Проще говоря: хорошая маркировка скучна в самом лучшем смысле этого слова. Она кажется предсказуемой, повторяемой и немного излишне документированной. Вот как это выглядит:

Строгая онтология: именованный набор классов, атрибутов и отношений, которые вас интересуют.
Инструкции Crystal: рабочие примеры, контрпримеры, особые случаи и правила разрешения конфликтов.
Циклы проверки: взгляд со стороны на часть задач.
Метрики согласованности: согласованность между аннотаторами (например, κ Коэна, α Криппендорфа), то есть вы измеряете согласованность, а не общее впечатление. α особенно удобен, когда отсутствуют метки или несколько аннотаторов охватывают разные элементы [1].
Садоводство, ориентированное на редкие и необычные случаи: регулярное коллекционирование странных, нестандартных или просто редких экземпляров.
Проверка предвзятости: проверка источников данных, демографических данных, регионов, диалектов, условий освещения и т. д.
Происхождение и конфиденциальность: отслеживание происхождения данных, прав на их использование и способов обработки персональных данных (что считается персональными данными, как их классифицируют и какие существуют меры защиты) [5].
Обратная связь в процессе обучения: метки не хранятся на кладбище электронных таблиц — они используются для активного обучения, тонкой настройки и оценки.

Небольшое признание: вы будете переписывать свои правила несколько раз. Это нормально. Как и приправа к рагу, небольшое изменение может иметь большое значение.

Небольшая полевая история: одна команда добавила в свой пользовательский интерфейс единственный вариант «не могу принять решение — нужна политика». Уровень согласия повысился, потому что аннотаторы перестали наугад выбирать, и журнал принятия решений стал более точным за одну ночь. Скучные решения побеждают.

Сравнительная таблица: инструменты для маркировки данных ИИ 🔧

Это не исчерпывающий список, и да, формулировки намеренно немного сумбурны. Цены меняются — всегда уточняйте информацию на сайтах поставщиков, прежде чем составлять бюджет.

Инструмент	Лучше всего подходит для	Тип ценообразования (ориентировочный)	Почему это работает
Ярлык-бокс	Предприятия, сочетание CV + NLP	Бесплатный тариф, основанный на объеме использований.	Отличные рабочие процессы контроля качества, онтологии и метрики; хорошо справляется с масштабированием.
AWS SageMaker Ground Truth	Организации, ориентированные на AWS, конвейеры HITL	Использование AWS на каждую задачу + затраты на выполнение	Широкий спектр услуг AWS, возможности участия человека, надежные инфраструктурные решения.
Масштаб ИИ	Сложные задачи, управляемый персонал	Индивидуальная расценка, многоуровневая	Высококачественные услуги и инструменты; эффективные операции для сложных случаев.
СуперАннотация	Команды с большим видением, стартапы	Уровни, бесплатная пробная версия	Продуманный пользовательский интерфейс, совместная работа, полезные инструменты на основе моделей.
Вундеркинд	Разработчики, которым нужен локальный контроль	Пожизненная лицензия, за каждое место.	Возможность скриптования, быстрые циклы, быстрые рецепты — запускается локально; отлично подходит для обработки естественного языка.
Доккано	Проекты с открытым исходным кодом в области обработки естественного языка	Бесплатное программное обеспечение с открытым исходным кодом	Управляемый сообществом, простой в развертывании, подходит для классификации и последовательностей работ

Проверка реальности в отношении моделей ценообразования: поставщики комбинируют единицы потребления, плату за задачу, уровни, индивидуальные корпоративные предложения, разовые лицензии и решения с открытым исходным кодом. Политика меняется; уточняйте конкретные детали непосредственно в документации поставщика, прежде чем отдел закупок будет вносить цифры в электронную таблицу.

Распространенные типы этикеток с быстрыми мысленными образами 🧠

Классификация изображений: одна или несколько меток для всего изображения.
Обнаружение объектов: ограничивающие рамки или повернутые рамки вокруг объектов.
Сегментация: маски на уровне пикселей — экземплярные или семантические; как ни странно удовлетворительные, когда чистые.
Ключевые точки и позы: ориентиры, такие как суставы или точки на лице.
NLP: метки документов, области для именованных сущностей, отношения, ссылки кореферентности, атрибуты.
Аудио и речь: транскрипция, диаризация говорящих, метки намерений, акустические события.
Видео: покадровые блоки или дорожки, временные события, метки действий.
Временные ряды и датчики: оконные события, аномалии, трендовые режимы.
Генеративные рабочие процессы: ранжирование предпочтений, красные флажки безопасности, оценка достоверности, оценка на основе рубрик.
Поиск и RAG: релевантность запроса к документу, возможность ответа, ошибки поиска.

Если изображение — это пицца, сегментация — это идеальное разрезание каждого кусочка, в то время как обнаружение — это указание и сообщение о том, что кусочек находится где-то там.

Анатомия рабочего процесса: от брифа до ценных данных 🧩

Надежный конвейер маркировки обычно имеет следующую форму:

Определите онтологию: классы, атрибуты, отношения и допустимые неоднозначности.
Проект рекомендаций: примеры, пограничные случаи и каверзные контрпримеры.
Разметьте пилотный набор: получите несколько сотен размеченных примеров, чтобы найти пробелы.
Измерение согласованности: вычислить κ/α; корректировать инструкции до тех пор, пока аннотаторы не придут к согласию [1].
Проектирование QA: консенсусное голосование, вынесение решений, иерархический обзор и выборочные проверки.
Производственные процессы: контроль пропускной способности, качества и отклонений.
Замкните цикл: проводите повторное обучение, повторную выборку и обновляйте критерии оценки по мере развития модели и продукта.

Совет, за который вы потом поблагодарите себя: ведите дневник принимаемых решений. Записывайте каждое уточняющее правило и объясняйте, почему. В будущем вы забудете контекст. В будущем вы будете недовольны этим.

Человеческий фактор, слабый контроль и подход «больше ярлыков, меньше кликов» 🧑💻🤝

Человек в цикле (Human-in-the-loop, HITL) означает, что люди сотрудничают с моделями на этапах обучения, оценки или эксплуатации — подтверждая, корректируя или воздерживаясь от предложений модели. Используйте это для ускорения процесса, сохраняя при этом контроль качества и безопасности за людьми. HITL является ключевой практикой в рамках надежного управления рисками в области ИИ (человеческий контроль, документирование, мониторинг) [2].

Слабое наблюдение — это другой, но дополнительный прием: программные правила, эвристики, дистанционное наблюдение или другие источники шума генерируют предварительные метки в больших масштабах, а затем их очищают от шума. Программирование данных популяризировало объединение множества источников шума (так называемых функций разметки) и изучение их точности для получения более качественного обучающего набора [3].

На практике высокопроизводительные команды сочетают все три: ручную маркировку для золотых наборов, слабый контроль для самозагрузки и HITL для ускорения повседневной работы. Это не мошенничество. Это мастерство.

Активное обучение: выберите следующую лучшую вещь для маркировки 🎯📈

Активное обучение меняет привычный ход событий. Вместо случайной выборки данных для маркировки вы позволяете модели запрашивать наиболее информативные примеры: высокую неопределённость, высокий уровень разногласий, разнообразные репрезентативные данные или точки вблизи границы принятия решений. Качественная выборка позволяет сократить потери на маркировку и сосредоточиться на воздействии. Современные исследования, посвящённые глубокому активному обучению, демонстрируют высокую эффективность при меньшем количестве меток, если цикл оракула хорошо спроектирован [4].

Простой рецепт, с которого можно начать, без лишних сложностей:

Тренируйтесь на небольших семенах.
Оцените результаты в бассейне без меток.
Выберите верхний K по неопределенности или несогласованности модели.
Маркировка. Переобучение. Повторение в небольших группах.
Следите за кривыми проверки и показателями согласия, чтобы не гоняться за шумом.

Вы поймете, что это работает, когда ваша модель улучшится, а ежемесячные расходы на маркировку не удвоятся.

Контроль качества, который действительно работает 🧪

Не нужно кипятить океан. Ориентируйтесь на эти проверки:

Золотые вопросы: ввод известных элементов и отслеживание точности для каждого маркировщика.
Консенсус с вынесением решения: два независимых лейбла и рецензент в случае разногласий.
Согласованность между аннотаторами: используйте α, если у вас несколько аннотаторов или неполные метки, κ для пар; не зацикливайтесь на одном пороговом значении — важен контекст [1].
Пересмотр руководств: повторяющиеся ошибки обычно указывают на неоднозначные инструкции, а не на плохих аннотаторов.
Проверка дрейфа: сравнение распределения меток во времени, географическом положении и каналах ввода.

Если вы выбираете только одну метрику, выбирайте согласие. Это быстрый сигнал о состоянии здоровья. Немного некорректная метафора: если ваши маркировщики не согласованы, ваша модель шатается.

Модели рабочей силы: внутренняя, BPO, краудсорсинг или гибридная 👥

Внутри компании: лучше всего подходит для конфиденциальных данных, сложных предметных областей и быстрого кросс-функционального обучения.
Специализированные поставщики: постоянная производительность, обученный контроль качества и покрытие в разных часовых поясах.
Краудсорсинг: недорого за задание, но вам понадобятся сильные игроки и контроль за спамом.
Гибридный: сохранить основную команду экспертов и использовать внешние ресурсы.

Какой бы вариант вы ни выбрали, инвестируйте в начальные этапы, обучение основам, калибровочные раунды и частую обратную связь. Дешёвые этикетки, требующие трёхкратной перемаркировки, стоят недёшево.

Стоимость, время и окупаемость инвестиций: быстрая проверка реальности 💸⏱️

Расходы распределяются по следующим статьям: затраты на персонал, платформу и обеспечение качества. Для приблизительного планирования составьте схему своего воронки продаж следующим образом:

Целевая производительность: количество изделий в день на одно этикетировочное устройство × количество этикетировочных устройств.
Накладные расходы отдела контроля качества: % товаров с двойной маркировкой или прошедших проверку.
Скорость переработки: бюджет на повторную аннотацию после обновления руководств.
Рост автоматизации: предварительные метки на основе моделей или программные правила могут существенно сократить объем ручного труда (не волшебным образом, но существенно).

Если отдел закупок запрашивает цифру, предоставьте им примерную модель, а не предположение, и постоянно обновляйте ее по мере стабилизации ваших руководящих принципов.

Подводные камни, с которыми вы обязательно столкнетесь хотя бы раз, и как их избежать 🪤

Расширение объема инструкций: инструкции разрастаются до размеров повести. Исправить это можно с помощью деревьев решений и простых примеров.
Избыток классов: слишком много классов с размытыми границами. Объедините или определите строгое «другое» с помощью политики.
Чрезмерная индексация скорости: поспешные метки незаметно портят данные тренировок. Вставляйте золотые маркеры; ограничивайте скорость на самых сложных склонах.
Блокировка инструментов: форматы экспорта ограничены. Заранее определитесь со схемами JSONL и идемпотентными идентификаторами элементов.
Игнорирование оценки: если вы сначала не пометите набор оценочных данных, вы никогда не будете уверены в том, что именно улучшилось.

Будем честны, время от времени вы будете отступать. Это нормально. Секрет в том, чтобы записывать отступления, чтобы в следующий раз они были намеренными.

Краткий раздел часто задаваемых вопросов: быстрые и честные ответы 🙋♀️

В: Разметка и аннотирование — это разные вещи?
О: На практике люди используют эти термины взаимозаменяемо. Аннотирование — это акт пометки или присвоения тегов. Разметка же часто подразумевает подход, основанный на достоверности данных, с учетом контроля качества и руководящих принципов. Всё просто.

В: Можно ли обойтись без маркировки благодаря синтетическим данным или самоконтролю?
О: Вы можете уменьшить ее, но не полностью отказаться от нее. Вам все равно понадобятся маркированные данные для оценки, ограничений, тонкой настройки и поведения, специфичного для продукта. Слабый контроль может масштабировать вас, когда одной ручной маркировки недостаточно [3].

В: Нужны ли мне по-прежнему метрики качества, если мои рецензенты — эксперты?
О: Да. Эксперты тоже расходятся во мнениях. Используйте метрики согласия (κ/α), чтобы выявить нечеткие определения и неоднозначные классы, а затем уточните онтологию или правила [1].

В: Является ли участие человека в процессе лишь маркетингом?
О: Нет. Это практический подход, при котором люди направляют, корректируют и оценивают поведение модели. Он рекомендуется в рамках надежных методов управления рисками в области ИИ [2].

В: Как определить приоритетность следующей маркировки?
О: Начните с активного обучения: возьмите самые неопределённые или разнообразные образцы, чтобы каждая новая маркировка давала максимальное улучшение модели [4].

Полевые заметки: мелочи, которые имеют большое значение ✍️

Храните в репозитории постоянно обновляемый файл таксономии . Относитесь к нему как к коду.
Сохраняйте «до и после» каждый раз, когда обновляете рекомендации.
Создайте крошечный, идеальный золотой набор и защитите его от загрязнения.
Чередование сеансов калибровки: показ 10 элементов, автоматическая маркировка, сравнение, обсуждение, обновление правил.
Отслеживайте аналитику маркировки с помощью удобных и надежных панелей мониторинга, без всякого стеснения. Вы найдете возможности для обучения, а не злодеев.
Добавляйте подсказки, основанные на моделях, постепенно. Если предварительные метки неверны, они замедляют работу человека. Если же они часто оказываются правильными, это просто волшебство.

Заключительные замечания: этикетки — это память о вашем продукте 🧩💡

В чём суть маркировки данных ИИ? Это ваш способ определить, как модель должна видеть мир, принимая одно взвешенное решение за раз. Делайте это правильно, и всё последующее станет проще: выше точность, меньше регрессий, более чёткие дискуссии о безопасности и предвзятости, более плавная отправка данных. Делайте это небрежно, и вы будете постоянно спрашивать, почему модель ведёт себя неправильно, хотя ответ скрывается в вашем наборе данных с неправильным названием. Не для всего нужна огромная команда или сложное программное обеспечение, но для всего нужен надёжный подход.

Слишком длинно, чтобы читать: инвестируйте в четкую онтологию, пишите ясные правила, измеряйте согласованность, сочетайте ручные и программные метки и позвольте активному обучению выбрать ваш следующий лучший вариант. Затем повторяйте. Снова. И снова… и, как ни странно, вам это понравится. 😄

Ссылки

[1] Артштейн, Р., и Поэзио, М. (2008). Согласованность между кодировщиками в вычислительной лингвистике. Вычислительная лингвистика, 34(4), 555–596. (Рассматривает κ/α и как интерпретировать согласованность, включая пропущенные данные.)
PDF

[2] NIST (2023). Структура управления рисками искусственного интеллекта (AI RMF 1.0). (Человеческий надзор, документирование и контроль рисков для надёжного ИИ.)
PDF

[3] Ратнер, А. Дж., Де Са, К., Ву, С., Сельсам, Д., и Ре, К. (2016). Программирование данных: быстрое создание больших обучающих наборов. NeurIPS. (Фундаментальный подход к слабому контролю и шумоподавлению зашумленных меток.)
PDF

[4] Ли, Д., Ван, З., Чен, И. и др. (2024). Обзор глубокого активного обучения: последние достижения и новые горизонты. (Доказательства и модели эффективного активного обучения.)
PDF

[5] NIST (2010). SP 800-122: Руководство по защите конфиденциальности персонально идентифицируемой информации (PII). (Что считается PII и как защитить её в вашем конвейере данных.)
PDF

Найдите новейшие разработки в области ИИ в официальном магазине ИИ-помощников

О нас

Вернуться в блог