откуда ИИ получает информацию

Откуда ИИ получает информацию?

Вы когда-нибудь сидели и чесали голову, гадая… откуда всё это берётся ? В конце концов, ИИ не роется в пыльных библиотечных стеллажах и не смотрит тайком короткие видео на YouTube. И всё же каким-то образом он выдаёт ответы на всё – от рецептов лазаньи до физики чёрных дыр – словно у него внутри бездонный картотека. Реальность страннее и, возможно, интригующая, чем вы думаете. Давайте немного разберёмся (и, да, заодно развеем пару мифов).


Это колдовство? 🌐

Это не колдовство, хотя иногда кажется, что это так. То, что происходит под капотом, по сути, является прогнозированием шаблонов . Большие языковые модели (LLM) не хранят факты так, как ваш мозг хранит рецепт печенья вашей бабушки; вместо этого они обучены угадывать следующее слово (токен) на основе того, что было до этого [2]. На практике это означает, что они цепляются за взаимосвязи: какие слова стоят рядом, как обычно формируются предложения, как целые идеи выстраиваются, как строительные леса. Вот почему вывод звучит правильно, хотя — честно говоря — это статистическая мимикрия, а не понимание [4].

Так что же на самом деле делает информацию, генерируемую ИИ, полезной ? Несколько вещей:

  • Разнообразие данных — извлечение данных из множества источников, а не из одного узкого потока.

  • Обновления — без циклов обновления информация быстро устаревает.

  • Фильтрация — в идеале улавливание мусора до того, как он просочится внутрь (хотя, давайте будем реалистами, в этой сети есть дыры).

  • Перекрестная проверка — опора на авторитетные источники (например, НАСА, ВОЗ, крупные университеты), что является обязательным условием большинства руководств по управлению ИИ [3].

Тем не менее, иногда он уверенно выдумывает. Эти так называемые галлюцинации ? По сути, отполированная чушь, произнесённая с серьёзным выражением лица [2][3].

Статьи, которые вам может быть интересно прочитать после этой:

🔗 Может ли ИИ предсказывать лотерейные номера?
Изучение мифов и фактов о лотерейных прогнозах с помощью ИИ.

🔗 Что значит комплексный подход к ИИ?
Понимание ИИ с точки зрения этики и воздействия.

🔗 Что говорит Библия об искусственном интеллекте?
Изучение библейских взглядов на технологии и творение человека.


Быстрое сравнение: откуда берёт начало ИИ 📊

Не все источники равноценны, но каждый играет свою роль. Вот краткий обзор.

Тип источника Кто его использует (ИИ) Стоимость/Ценность Почему это работает (или не работает...)
Книги и статьи Большие языковые модели Бесценный (иш) Плотные, структурированные знания быстро устаревают.
Веб-сайты и блоги Почти все ИИ Бесплатно (с шумом) Дикое разнообразие; смесь великолепия и абсолютного мусора.
Научные статьи Искусственный интеллект, требующий больших затрат на исследования Иногда платный доступ Строгость + достоверность, но выраженные тяжелым жаргоном.
Данные пользователя Персонализированные ИИ Очень чувствительный ⚠️ Идеальный пошив, но много проблем с конфиденциальностью.
Интернет в реальном времени ИИ, связанные с поиском Бесплатно (если онлайн) Сохраняет информацию актуальной; недостаток — риск распространения слухов.

Вселенная обучающих данных 🌌

Это фаза «детского обучения». Представьте, что вы даёте ребёнку миллионы книг, новостных вырезок и кроличьих нор Википедии — всё сразу. Именно так выглядит предварительная подготовка. В реальном мире поставщики услуг собирают общедоступные данные, лицензированные источники и тексты, сгенерированные тренером [2].

Сверху: тщательно отобранные человеческие примеры — хорошие ответы, плохие ответы, подсказки в правильном направлении — еще до начала подкрепления [1].

Предупреждение о прозрачности: компании не раскрывают все детали. Некоторые барьеры связаны с секретностью (интеллектуальной собственности, соображениями безопасности), поэтому вы получаете лишь частичное представление о реальном составе [2].


Поиск в реальном времени: дополнительная начинка 🍒

Некоторые модели теперь могут заглядывать за пределы своего обучающего пузыря. Это генерация данных с дополненной поисковой обработкой (RAG) — по сути, извлечение фрагментов из текущего индекса или хранилища документов и их последующее включение в ответ [5]. Идеально подходит для быстро меняющихся данных, таких как заголовки новостей или цены акций.

В чём загвоздка? ​​Интернет — это одновременно гениальность и мусор. Если фильтры или проверка происхождения слабы, вы рискуете снова получить нежелательные данные — именно о чём предупреждают системы оценки рисков [3].

Распространённый обходной путь: компании подключают модели к своим внутренним базам данных, чтобы в ответах ссылались на актуальную кадровую политику или обновлённую документацию по продукту, а не импровизировали. Подумайте: меньше моментов «ух ты!», больше ответов, заслуживающих доверия.


Тонкая настройка: этап полировки ИИ 🧪

Предварительно обученные модели неуклюжи. Поэтому их нужно дорабатывать :

  • Обучение их быть полезными, безвредными, честными (с помощью обучения с подкреплением на основе обратной связи от человека, RLHF) [1].

  • Шлифовка небезопасных или токсичных кромок (выравнивание) [1].

  • Поправка на тон — дружеский, официальный или игриво-саркастический.

Это не столько шлифовка бриллианта, сколько принуждение статистическую лавину вести себя как собеседник.


Удары и неудачи 🚧

Не будем притворяться, что всё безупречно:

  • Галлюцинации — четкие ответы, которые в корне неверны [2][3].

  • Смещение — оно отражает шаблоны, заложенные в данных; может даже усиливать их, если не проверено [3][4].

  • Никакого личного опыта — он может рассказывать о рецептах супов, но никогда их не пробовал [4].

  • Излишняя самоуверенность — повествование идёт так, будто всё известно, даже если это не так. В рамках моделей риска акцент делается на неопределённых предположениях [3].


Почему это похоже на знание 🧠

У него нет убеждений, нет памяти в человеческом смысле и, конечно же, нет личности. Однако, поскольку он плавно связывает предложения, ваш мозг воспринимает его так, как будто понимает . Происходит лишь масштабное предсказание следующего токена : перебор триллионов вероятностей за доли секунды [2].

«Интеллектуальное» поведение – это явление, которое исследователи в шутку называют «стохастического попугая» [4].


Детская аналогия 🎨

Представьте себе попугая, который прочитал все книги в библиотеке. Он не понимает историй, но может переиначить слова во что-то, что покажется ему мудрым. Иногда это точно, иногда — полная чушь, но при должном чутье не всегда можно заметить разницу.


Подводя итоги: откуда берётся информация для ИИ 📌

Проще говоря:

  • Массивные данные для обучения (публичные + лицензированные + созданные тренерами) [2].

  • Тонкая настройка с помощью обратной связи от человека для формирования тона/поведения [1].

  • Системы поиска , подключенные к потокам данных в реальном времени [5].

ИИ ничего не «знает» — он предсказывает текст . Это одновременно его суперспособность и его ахиллесова пята. В итоге? Всегда проверяйте важную информацию, используя достоверный источник [3].


Ссылки

  1. Оуян, Л. и др. (2022). Обучение языковых моделей выполнению инструкций с обратной связью от человека (InstructGPT) . arXiv .

  2. OpenAI (2023). Технический отчёт GPT-4 — сочетание лицензированных, общедоступных и созданных человеком данных; цель и ограничения прогнозирования следующего токена. arXiv .

  3. NIST (2023). Структура управления рисками ИИ (AI RMF 1.0) — происхождение, надёжность и контроль рисков. PDF .

  4. Бендер, Э.М., Гебру, Т., Макмиллан-Мейджор, А., Митчелл, С. (2021). Об опасностях стохастических попугаев: могут ли языковые модели быть слишком большими? PDF .

  5. Льюис, П. и др. (2020). Генерация дополненной поисковой информации для обработки естественного языка, требующей больших знаний . arXiv .


Найдите новейший ИИ в официальном магазине AI Assistant

О нас

Вернуться в блог