Что такое набор данных ИИ?

Если вы разрабатываете, покупаете или даже просто оцениваете системы ИИ, вы столкнётесь с одним обманчиво простым вопросом: что такое набор данных ИИ и почему он так важен? Если коротко: это топливо, кулинарная книга, а иногда и компас для вашей модели.

Статьи, которые вам может быть интересно прочитать после этой:

🔗 Как ИИ предсказывает тенденции
Исследует, как ИИ анализирует закономерности для прогнозирования будущих событий и поведения.

🔗 Как измерить производительность ИИ
Метрики и методы оценки точности, эффективности и надежности модели.

🔗 Как общаться с ИИ
Руководство по созданию более эффективного взаимодействия для улучшения ответов, генерируемых ИИ.

🔗 Что такое подсказки ИИ?
Обзор того, как подсказки формируют результаты работы ИИ и общее качество коммуникации.

Что такое набор данных ИИ? Краткое определение 🧩

Что такое набор данных ИИ? Это набор примеров, на которых обучается или оценивается ваша модель. Каждый пример содержит:

Входные данные — данные, которые видит модель, например, текстовые фрагменты, изображения, аудио, табличные строки, показания датчиков, графики.
Цели — метки или результаты, которые модель должна предсказать, например, категории, числа, фрагменты текста, действия, а иногда и вообще ничего.
Метаданные — контекст, такой как источник, метод сбора, временные метки, лицензии, информация о согласии и примечания о качестве.

Подумайте об этом как о тщательно упакованном ланч-боксе для вашей модели: ингредиенты, этикетки, информация о пищевой ценности и, конечно же, записка с надписью «не ешьте эту часть». 🍱

Для контролируемых задач вы увидите входные данные с явными метками. Для неконтролируемых задач вы увидите входные данные без меток. В случае обучения с подкреплением данные часто выглядят как эпизоды или траектории с состояниями, действиями и вознаграждениями. Для мультимодальных задач примеры могут объединять текст, изображение и аудио в одну запись. Звучит заманчиво, но в основном это сантехника.

Полезные руководства и практики: таблиц данных для наборов данных помогает командам объяснить, что находится внутри и как это следует использовать [1], а карточки моделей дополняют документацию данных со стороны модели [2].

Что делает набор данных для ИИ хорошим ✅

Давайте будем честны: многие модели успешны, потому что набор данных не был ужасным. «Хороший» набор данных — это:

Репрезентативны для реальных случаев использования, а не только для лабораторных условий.
Точно маркированные , с чёткими инструкциями и периодическим пересмотром. Метрики согласованности (например, показатели типа «каппа») помогают контролировать согласованность.
полно и сбалансировано , чтобы избежать скрытого провала на длинных хвостах. Дисбаланс — это нормально, а вот халатность — нет.
Происхождение чистое , согласие, лицензия и разрешения задокументированы. Скучная бумажная волокита мешает захватывающим судебным искам.
Хорошо документировано с использованием карточек данных или технических описаний, в которых подробно описано предполагаемое использование, ограничения и известные виды отказов [1]
Управление осуществляется с помощью управления версиями, журналов изменений и утверждений. Если невозможно воспроизвести набор данных, невозможно воспроизвести и модель. В руководстве NIST «Система управления рисками ИИ» качество данных и документирование рассматриваются как первостепенные задачи [3].

Типы наборов данных ИИ, в зависимости от вашей деятельности 🧰

По задаче

Классификация — например, спам/не спам, категории изображений.
Регрессия — прогнозирование непрерывной величины, например цены или температуры.
Маркировка последовательности - поименованные сущности, части речи.
Генерация - реферирование, перевод, подписи к изображениям.
Рекомендация - пользователь, элемент, взаимодействие, контекст.
Обнаружение аномалий — редких событий во временных рядах или журналах.
Обучение с подкреплением — состояние, действие, вознаграждение, последовательности следующего состояния.
Поиск — документы, запросы, оценки релевантности.

По модальности

Табличный формат — столбцы типа «возраст», «доход», «отток». Недооценённый, невероятно эффективный.
Текст - документы, чаты, код, сообщения на форумах, описания продуктов.
Изображения - фотографии, медицинские сканы, спутниковые снимки; с масками, коробками, ключевыми точками или без них.
Аудио — формы сигналов, расшифровки, теги говорящих.
Видео - кадры, временные аннотации, метки действий.
Графы - узлы, ребра, атрибуты.
Временные ряды - датчики, финансы, телеметрия.

Под наблюдением

С маркировкой (золото, серебро, автоматическая маркировка), слабо маркированная , немаркированная , синтетическая . Покупная смесь для торта может быть вполне приличной, если внимательно прочитать состав на упаковке.

Внутри коробки: структура, разделения и метаданные 📦

Надежный набор данных обычно включает в себя:

Схема — типизированные поля, единицы измерения, допустимые значения, обработка значений NULL.
Разделение — обучение, валидация, тестирование. Храните тестовые данные в тайне — относитесь к ним как к последней дольке шоколада.
План выборки — как вы отбирали примеры из генеральной совокупности; избегайте удобных выборок из одного региона или устройства.
Дополнения — перевороты, кадрирование, шум, парафразы, маски. Хороши, когда честны; вредны, когда изобретают закономерности, которые никогда не встречаются в природе.
Версионность — набор данных v0.1, v0.2… с журналами изменений, описывающими дельты.
Лицензии и согласие — права использования, перераспределение и удаление данных. Национальные органы по защите данных (например, ICO Великобритании) предоставляют практичные контрольные списки для проверки законности обработки данных [4].

Жизненный цикл набора данных, шаг за шагом 🔁

Определите решение — какое решение примет модель и что произойдет, если оно неверно.
Характеристики и метки области действия — измеримые, наблюдаемые, этичные для сбора.
Исходные данные - приборы, журналы, опросы, публичные корпуса, партнеры.
Согласие и юридические вопросы — уведомления о конфиденциальности, отказ от использования, минимизация данных. См. руководство регулирующего органа, чтобы узнать, «почему» и «как» [4].
Собирайте и храните — безопасное хранение, доступ на основе ролей, обработка персональных данных.
Метка — внутренние аннотаторы, краудсорсинг, эксперты; управление качеством с помощью золотых задач, аудитов и показателей согласования.
Очистка и нормализация — дедупликация, устранение пропусков, стандартизация единиц, исправление кодировки. Скучная, но героическая работа.
Разделение и проверка — предотвращение утечек; стратификация при необходимости; предпочтение временным разделениям для временных данных; продуманное использование перекрестной проверки для получения надежных оценок [5].
Документ — паспорт или карточка данных; предполагаемое использование, оговорки, ограничения [1].
Мониторинг и обновление — обнаружение отклонений, частота обновления, планы прекращения работы. Механизм управления рисками ИИ (AI RMF) NIST формирует этот непрерывный цикл управления [3].

Быстрый совет из практики: команды часто «выигрывают демоверсию», но терпят неудачу в производстве, потому что их набор данных незаметно дрейфует — новые линейки продуктов, переименованное поле или измененная политика. Простой журнал изменений + периодическое повторение аннотаций позволяют избежать большинства этих проблем.

Качество данных и оценка — не так скучно, как кажется 🧪

Качество многомерно:

Точность — верны ли этикетки? Используйте показатели согласованности и периодические проверки.
Полнота — охватывайте те области и классы, которые вам действительно нужны.
Последовательность — избегайте противоречивых названий для схожих входных данных.
Своевременность — устаревшие данные делают предположения неактуальными.
Справедливость и предвзятость — охват всех демографических групп, языков, устройств и сред; начните с описательных аудитов, а затем проведите стресс-тесты. Практики, ориентированные на документирование (технические паспорта, карты моделей), делают эти проверки видимыми [1], а структуры управления выделяют их как средства контроля рисков [3].

Для оценки модели используйте правильное разделение и отслеживайте как средние метрики, так и метрики худшей группы. За блестящим средним значением может скрываться провал. Основы перекрёстной проверки подробно описаны в стандартной документации по инструментам машинного обучения [5].

Этика, конфиденциальность и лицензирование — защитные барьеры 🛡️

Этические данные — это не атмосфера, это процесс:

Ограничение согласия и цели — четко указывайте цели и правовые основания [4].
Обработка персональных данных — минимизируйте, псевдонимизируйте или анонимизируйте по мере необходимости; рассмотрите технологии повышения конфиденциальности, если риски высоки.
Указание авторства и лицензии — соблюдайте ограничения на совместное использование и коммерческое использование.
Предвзятость и вред — проверка на наличие ложных корреляций («дневной свет = безопасность» будет очень запутанным ночью).
Исправление — знайте, как удалять данные по запросу и как откатывать модели, обученные на них (задокументируйте это в своей таблице данных) [1].

Насколько большой размер считается достаточно большим? Размеры и соотношение сигнал/шум 📏

Практическое правило: больше примеров обычно помогает, если они релевантны и не являются почти дубликатами. Но иногда лучше использовать меньше примеров, но они более чёткие и чётко обозначены, чем горы запутанных.

Следите за:

Кривые обучения — постройте график зависимости производительности от размера выборки, чтобы понять, привязаны ли вы к данным или к модели.
Длинный хвост покрытия — редкие, но критически важные классы часто требуют целенаправленного сбора, а не просто большего объема.
Шум на этикетке — измерьте, затем уменьшите; немного шума терпимо, но не приливная волна.
Сдвиг распределения — данные обучения из одного региона или канала могут не распространяться на другой; проверьте на тестовых данных, подобных целевым [5].

Если сомневаетесь, запускайте небольшие пилотные проекты и расширяйтесь. Это как приправа: добавьте, попробуйте, отрегулируйте и повторите.

Где найти и управлять наборами данных 🗂️

Популярные ресурсы и инструменты (сейчас нет необходимости запоминать URL):

Наборы данных Hugging Face — программная загрузка, обработка, обмен.
Google Dataset Search — метапоиск по всему Интернету.
Репозиторий UCI ML — тщательно отобранные классические материалы для базового уровня и обучения.
OpenML - задачи + наборы данных + запуски с указанием происхождения.
AWS Open Data / Google Cloud Public Datasets — размещенные, масштабные массивы.

Совет: не просто скачивайте. Ознакомьтесь с лицензией и техническим описанием , а затем задокументируйте свою копию, указав номера версий и источник [1].

Маркировка и аннотация — где истина становится реальностью ✍️

Аннотация — это место, где ваш теоретический путеводитель по этикеткам сталкивается с реальностью:

Разработка задания — напишите четкие инструкции с примерами и контрпримерами.
Обучение аннотаторов — заполнение ответов «золотыми» вариантами, проведение калибровочных раундов.
Контроль качества — использование согласованных показателей, механизмов консенсуса и периодических аудитов.
Инструменты — выбирайте инструменты, обеспечивающие проверку схемы и очереди проверки; даже электронные таблицы могут работать с правилами и проверками.
Обратная связь — фиксируйте заметки аннотатора и ошибки модели для доработки руководства.

Если у вас возникает ощущение, будто вы редактируете словарь с тремя друзьями, у которых разногласия по поводу запятых... это нормально. 🙃

Документирование данных — превращение неявных знаний в явные 📒

Легкий паспорт или карта данных должны содержать следующую информацию:

Кто, как и почему его собрал.
Предполагаемое использование и использование, выходящее за рамки сферы применения.
Известные пробелы, предубеждения и виды отказов.
Протокол маркировки, этапы контроля качества и статистика согласований.
Лицензия, согласие, контакт по вопросам, процесс удаления.

Шаблоны и примеры: таблицы данных для наборов данных и карты моделей широко используются в качестве отправных точек [1].

Пишите во время разработки, а не после. Память — ненадёжный носитель информации.

Сравнительная таблица — места для поиска и размещения наборов данных ИИ 📊

Да, это немного самоуверенно. И формулировки намеренно немного неровные. Это нормально.

Инструмент / Репозиторий	Аудитория	Цена	Почему это работает на практике
Наборы данных об обнимающихся лицах	Исследователи, инженеры	Бесплатный уровень	Быстрая загрузка, потоковая передача, скрипты сообщества; отличная документация; версионные наборы данных
Поиск по наборам данных Google	Каждый	Бесплатно	Широкая область применения; отлично подходит для исследований; хотя иногда метаданные противоречивы
Репозиторий UCI ML	Студенты, преподаватели	Бесплатно	Избранные классические издания; небольшие, но аккуратные; подходят для базовых занятий и обучения
OpenML	Исследователи репродукции	Бесплатно	Задачи + наборы данных + совместные прогоны; интересные маршруты происхождения
Реестр открытых данных AWS	Инженеры по обработке данных	В основном бесплатно	Хостинг в масштабе петабайт; облачный доступ; отслеживание расходов на исходящий трафик
Наборы данных Kaggle	Практикующие	Бесплатно	Простой обмен информацией, сценарии, конкурсы; сигналы сообщества помогают фильтровать шум
Публичные наборы данных Google Cloud	Аналитики, команды	Бесплатно + облако	Размещение рядом с вычислительным оборудованием; интеграция с BigQuery; внимательное отношение к выставлению счетов
Академические порталы, лаборатории	Эксперты в узкой нише	Варьируется	Узкоспециализированный; иногда недостаточно документированный — всё равно стоит поискать

(Если клетка выглядит болтливой, это сделано намеренно.)

Создаём свой первый — практичный стартовый набор 🛠️

Вы хотите перейти от вопроса «что такое набор данных ИИ» к вопросу «я создал такой, и он работает». Попробуйте следующий минимальный путь:

Запишите решение и метрику — например, уменьшите количество ошибок входящих запросов поддержки, предсказав нужную команду. Метрика: макро-F1.
Приведите 5 положительных и 5 отрицательных примеров — образцы настоящих билетов; не подделывайте их.
Составьте руководство по этикеткам — одна страница; четкие правила включения/исключения.
Соберите небольшую реальную выборку — несколько сотен билетов по категориям; удалите ненужные вам личные данные.
Разделение с проверкой на утечку — все сообщения от одного и того же клиента следует разделить на одно разделение; использовать перекрестную проверку для оценки дисперсии [5].
Аннотирование с QA — два аннотатора на подмножестве; разрешение разногласий; обновление руководства.
Обучите простую базовую модель — сначала логистику (например, линейные модели или компактные трансформаторы). Цель — проверить данные, а не завоевать медали.
Просмотрите ошибки — где и почему произошел сбой; обновите набор данных, а не только модель.
Документ - небольшой технический паспорт: источник, ссылка на руководство по маркировке, разделения, известные ограничения, лицензия [1].
Планируйте обновления — появляются новые категории, новый сленг, новые домены; планируйте небольшие, но частые обновления [3].

Из этого цикла вы узнаете больше, чем из тысячи быстрых дублей. И, пожалуйста, делайте резервные копии.

Распространенные подводные камни, которые подстерегают команды 🪤

Утечка данных — ответ проскальзывает в характеристики (например, использование полей после разрешения для прогнозирования результатов). Похоже на мошенничество, потому что так оно и есть.
Поверхностное разнообразие — одна география или устройство маскируется под глобальную. Тесты покажут поворот сюжета.
Дрейф меток — критерии меняются со временем, а руководство по меткам — нет. Документируйте и версионируйте свою онтологию.
Недоопределенные цели — если вы не можете определить плохой прогноз, ваши данные тоже не смогут этого сделать.
Грязные лицензии — убрать сейчас, а потом извиняться — это не стратегия.
Чрезмерное дополнение — синтетические данные, которые обучают нереалистичным артефактам, например, обучение повара на пластиковых фруктах.

Краткие ответы на часто задаваемые вопросы о самой фразе ❓

«Что такое набор данных ИИ?» — это всего лишь определение? В основном да, но это также сигнал о том, что вас интересуют скучные детали, которые делают модели надёжными.
Всегда ли нужны метки? Нет. В неконтролируемых, самоконтролируемых и обучающих системах с подкреплением часто отсутствуют явные метки, но курирование всё равно важно.
Могу ли я использовать публичные данные в каких-либо целях? Нет. Соблюдайте лицензии, условия платформы и обязательства по конфиденциальности [4].
Больше или лучше? В идеале и то, и другое. Если нужно выбрать, сначала выбирайте лучшее.

Заключительные замечания — что можно сделать с помощью скриншота 📌

Если кто-то спросит вас, что такое набор данных ИИ , ответьте: это тщательно отобранная, документированная коллекция примеров, обучающих и тестирующих модель, обёрнутая в систему управления, чтобы люди могли доверять результатам. Лучшие наборы данных репрезентативны, чётко маркированы, юридически чисты и постоянно поддерживаются. Остальное — детали, важные детали, касающиеся структуры, разделений и всех этих мелких барьеров, которые не позволяют моделям выходить за рамки дорожного движения. Иногда этот процесс похож на садоводство с электронными таблицами, иногда — на управление пикселями. В любом случае, инвестируйте в данные, и ваши модели будут вести себя менее странно. 🌱🤖

Ссылки

[1] Технические описания наборов данных — Gebru и др., arXiv. Ссылка
[2] Карточки моделей для отчётности по моделям — Mitchell и др., arXiv. Ссылка
[3] Структура управления рисками искусственного интеллекта NIST (AI RMF 1.0) . Ссылка
[4] Руководство и ресурсы GDPR Великобритании — Управление комиссара по информации (ICO). Ссылка
[5] Перекрёстная проверка: оценка эффективности оценщика — Руководство пользователя scikit-learn. Ссылка

Найдите новейший ИИ в официальном магазине AI Assistant

О нас

Вернуться в блог

Страна/регион