Откуда ИИ получает информацию?

Откуда ИИ получает информацию?

Вы когда-нибудь сидели и ломали голову, гадая… откуда вообще всё это берётся ? В конце концов, ИИ не роется в пыльных библиотечных стеллажах и не смотрит тайком короткие видеоролики на YouTube. И всё же он каким-то образом выдаёт ответы на всё — от лайфхаков с лазаньей до физики чёрных дыр — словно у него внутри есть бездонный картотечный шкаф. Реальность гораздо страннее и, возможно, интригующе, чем вы думаете. Давайте разберёмся (и, да, возможно, развеём пару мифов по пути).


Это колдовство? 🌐

Это не колдовство, хотя иногда кажется именно так. По сути, под капотом происходит предсказание закономерностей . Большие языковые модели (БЛМ) не хранят факты так, как ваш мозг хранит рецепт печенья вашей бабушки; вместо этого они обучены угадывать следующее слово (токен) на основе того, что было раньше [2]. На практике это означает, что они цепляются за связи: какие слова стоят рядом, как обычно формируются предложения, как строятся целые идеи, подобно каркасу. Вот почему результат звучит правильно, хотя — честно говоря — это статистическая имитация, а не понимание [4].

Так что же на самом деле делает информацию, сгенерированную искусственным интеллектом, полезной ? Несколько факторов:

  • Разнообразие данных — это сбор информации из бесчисленных источников, а не из одного узкого потока.

  • Обновления — без периодического обновления информация быстро устаревает.

  • Фильтрация — в идеале, улавливание мусора до того, как он проникнет внутрь (хотя, будем честны, в этой сетке есть дыры).

  • Перекрестная проверка — использование авторитетных источников (например, НАСА, ВОЗ, крупные университеты), что является обязательным условием в большинстве руководств по управлению ИИ [3].

Тем не менее, иногда это делается с уверенностью. Эти так называемые галлюцинации ? По сути, отполированная чепуха, произнесенная с невозмутимым лицом [2][3].

Статьи, которые могут вас заинтересовать после этой:

🔗 Может ли искусственный интеллект предсказать номера лотереи?
Разбираем мифы и факты о прогнозах лотерей, основанных на искусственном интеллекте.

🔗 Что означает целостный подход к искусственному интеллекту?
Понимание искусственного интеллекта с учетом сбалансированных взглядов на этику и последствия.

🔗 Что говорит Библия об искусственном интеллекте?
Изучение библейских взглядов на технологии и сотворение человека.


Краткое сравнение: Откуда ИИ черпает информацию 📊

Не все источники одинаково полезны, но каждый играет свою роль. Вот краткий обзор.

Тип источника Кто его использует (ИИ)? Соотношение цена/качество Почему это работает (или не работает...)
Книги и статьи Большие языковые модели Бесценно (почти) Плотные, структурированные знания быстро устаревают.
Веб-сайты и блоги Практически все ИИ Бесплатно (с шумом) Полное разнообразие; смесь гениальности и полнейшего мусора.
Научные статьи Искусственный интеллект, требующий глубоких исследований Иногда доступ к контенту платный Строгость + достоверность, но облечено в сложный профессиональный жаргон.
Данные пользователя Персонализированный ИИ Очень чувствительный ⚠️ Элегантный крой, но масса проблем с конфиденциальностью.
Веб в реальном времени Искусственный интеллект, связанный с поиском Бесплатно (при подключении к интернету) Поддерживает актуальность информации; недостаток – риск распространения слухов.

Вселенная обучающих данных 🌌

одновременно даете ребенку миллионы общедоступные данные, лицензированные источники и текст, сгенерированный тренером [2].

Сверху накладываются тщательно отобранные примеры поведения людей — хорошие ответы, плохие ответы, подталкивания в нужном направлении — еще до начала подкрепления [1].

Предостережение относительно прозрачности: компании не раскрывают все детали. Некоторые ограничения носят секретный характер (интеллектуальной собственности, вопросы безопасности), поэтому вы получаете лишь частичное представление о реальном положении дел [2].


Поиск в реальном времени: Изюминка 🍒

Некоторые модели теперь могут выходить за пределы своей обучающей среды. Это генерация с дополненным поиском (RAG) — по сути, извлечение фрагментов из действующего индекса или хранилища документов, а затем встраивание их в ответ [5]. Идеально подходит для быстро меняющихся вещей, таких как заголовки новостей или цены акций.

В чем загвоздка? ​​Интернет – это одновременно гениальное изобретение и мусорный пожар. Если фильтры или проверки происхождения слабы, есть риск, что мусорные данные проникнут обратно – именно об этом предупреждают системы оценки рисков [3].

Распространенный обходной путь: компании подключают модели к своим внутренним базам данных, чтобы ответы основывались на действующей кадровой политике или обновленной документации по продукту, а не на импровизации. Подумайте: меньше неприятных моментов, больше достоверных ответов.


Тонкая настройка: этап полировки ИИ 🧪

Необработанные, предварительно обученные модели неуклюжи. Поэтому их дорабатывают :

  • Обучение их быть полезными, безвредными, честными (посредством обучения с подкреплением на основе обратной связи от человека, RLHF) [1].

  • Шлифовка небезопасных или токсичных кромок (выравнивание) [1].

  • Подбор тона — будь то дружелюбный, формальный или игриво-саркастический.

Речь идёт не столько о полировке алмаза, сколько о том, чтобы заставить статистическую лавину вести себя больше как собеседник.


Трудности и неудачи 🚧

Давайте не будем делать вид, что всё безупречно:

  • Галлюцинации — четкие ответы, которые являются откровенно неверными [2][3].

  • Предвзятость — она отражает закономерности, заложенные в данных; может даже усиливать их, если ее не контролировать [3][4].

  • Нет личного опыта — он может рассказать о рецептах супов, но никогда их не пробовал [4].

  • Излишняя самоуверенность — текст течет так, будто все знает, даже когда это не так. В рамках управления рисками особое внимание уделяется выявлению предположений [3].


Почему это похоже на знание 🧠

Оно не имеет убеждений, не имеет памяти в человеческом понимании и уж точно не имеет «я». И все же, поскольку оно плавно связывает предложения, ваш мозг читает их так, как будто понимает . Происходит всего лишь масштабное предсказание следующего токена : обработка триллионов вероятностей за доли секунды [2].

Эффект «интеллекта» — это возникающее поведение, которое исследователи называют, немного иронично, «стохастическим эффектом попугая» [4].


Аналогия, понятная детям 🎨

Представьте себе попугая, который прочитал все книги в библиотеке. Он не понимает сюжетов, но может перефразировать слова, придав им мудрый смысл. Иногда это попадает в точку, иногда — в чепуху, но при достаточном мастерстве отличить одно от другого бывает сложно.


Подводя итоги: откуда берется информация для ИИ 📌

Проще говоря:

  • Массив обучающих данных (общедоступные + лицензированные + сгенерированные тренером) [2].

  • Тонкая настройка с использованием обратной связи от человека для формирования тона/поведения [1].

  • Системы поиска при подключении к потокам данных в реальном времени [5].

Искусственный интеллект не «знает» вещи — он предсказывает текст . Это одновременно и его суперспособность, и его ахиллесова пята. Вывод? Всегда сверяйте важную информацию с надежным источником [3].


Ссылки

  1. Оуян, Л. и др. (2022). Обучение языковых моделей выполнению инструкций с обратной связью от человека (InstructGPT) . arXiv .

  2. OpenAI (2023). Технический отчет GPT-4 — сочетание лицензированных, общедоступных и созданных человеком данных; цель прогнозирования следующего токена и ограничения. arXiv .

  3. NIST (2023). Структура управления рисками в области ИИ (AI RMF 1.0) — происхождение, достоверность и контроль рисков. PDF .

  4. Бендер, Э.М., Гебру, Т., Макмиллан-Мейджор, А., Митчелл, С. (2021). Об опасностях стохастических попугаев: могут ли языковые модели быть слишком большими? PDF .

  5. Льюис, П. и др. (2020). Генерация с расширенными возможностями поиска для обработки естественного языка, требующей интенсивного использования знаний . arXiv .


Найдите новейшие разработки в области ИИ в официальном магазине ИИ-помощников

О нас

Вернуться в блог