Вы когда-нибудь сидели и ломали голову, гадая… откуда вообще всё это берётся ? В конце концов, ИИ не роется в пыльных библиотечных стеллажах и не смотрит тайком короткие видеоролики на YouTube. И всё же он каким-то образом выдаёт ответы на всё — от лайфхаков с лазаньей до физики чёрных дыр — словно у него внутри есть бездонный картотечный шкаф. Реальность гораздо страннее и, возможно, интригующе, чем вы думаете. Давайте разберёмся (и, да, возможно, развеём пару мифов по пути).
Это колдовство? 🌐
Это не колдовство, хотя иногда кажется именно так. По сути, под капотом происходит предсказание закономерностей . Большие языковые модели (БЛМ) не хранят факты так, как ваш мозг хранит рецепт печенья вашей бабушки; вместо этого они обучены угадывать следующее слово (токен) на основе того, что было раньше [2]. На практике это означает, что они цепляются за связи: какие слова стоят рядом, как обычно формируются предложения, как строятся целые идеи, подобно каркасу. Вот почему результат звучит правильно, хотя — честно говоря — это статистическая имитация, а не понимание [4].
Так что же на самом деле делает информацию, сгенерированную искусственным интеллектом, полезной ? Несколько факторов:
-
Разнообразие данных — это сбор информации из бесчисленных источников, а не из одного узкого потока.
-
Обновления — без периодического обновления информация быстро устаревает.
-
Фильтрация — в идеале, улавливание мусора до того, как он проникнет внутрь (хотя, будем честны, в этой сетке есть дыры).
-
Перекрестная проверка — использование авторитетных источников (например, НАСА, ВОЗ, крупные университеты), что является обязательным условием в большинстве руководств по управлению ИИ [3].
Тем не менее, иногда это делается с уверенностью. Эти так называемые галлюцинации ? По сути, отполированная чепуха, произнесенная с невозмутимым лицом [2][3].
Статьи, которые могут вас заинтересовать после этой:
🔗 Может ли искусственный интеллект предсказать номера лотереи?
Разбираем мифы и факты о прогнозах лотерей, основанных на искусственном интеллекте.
🔗 Что означает целостный подход к искусственному интеллекту?
Понимание искусственного интеллекта с учетом сбалансированных взглядов на этику и последствия.
🔗 Что говорит Библия об искусственном интеллекте?
Изучение библейских взглядов на технологии и сотворение человека.
Краткое сравнение: Откуда ИИ черпает информацию 📊
Не все источники одинаково полезны, но каждый играет свою роль. Вот краткий обзор.
| Тип источника | Кто его использует (ИИ)? | Соотношение цена/качество | Почему это работает (или не работает...) |
|---|---|---|---|
| Книги и статьи | Большие языковые модели | Бесценно (почти) | Плотные, структурированные знания быстро устаревают. |
| Веб-сайты и блоги | Практически все ИИ | Бесплатно (с шумом) | Полное разнообразие; смесь гениальности и полнейшего мусора. |
| Научные статьи | Искусственный интеллект, требующий глубоких исследований | Иногда доступ к контенту платный | Строгость + достоверность, но облечено в сложный профессиональный жаргон. |
| Данные пользователя | Персонализированный ИИ | Очень чувствительный ⚠️ | Элегантный крой, но масса проблем с конфиденциальностью. |
| Веб в реальном времени | Искусственный интеллект, связанный с поиском | Бесплатно (при подключении к интернету) | Поддерживает актуальность информации; недостаток – риск распространения слухов. |
Вселенная обучающих данных 🌌
одновременно даете ребенку миллионы общедоступные данные, лицензированные источники и текст, сгенерированный тренером [2].
Сверху накладываются тщательно отобранные примеры поведения людей — хорошие ответы, плохие ответы, подталкивания в нужном направлении — еще до начала подкрепления [1].
Предостережение относительно прозрачности: компании не раскрывают все детали. Некоторые ограничения носят секретный характер (интеллектуальной собственности, вопросы безопасности), поэтому вы получаете лишь частичное представление о реальном положении дел [2].
Поиск в реальном времени: Изюминка 🍒
Некоторые модели теперь могут выходить за пределы своей обучающей среды. Это генерация с дополненным поиском (RAG) — по сути, извлечение фрагментов из действующего индекса или хранилища документов, а затем встраивание их в ответ [5]. Идеально подходит для быстро меняющихся вещей, таких как заголовки новостей или цены акций.
В чем загвоздка? Интернет – это одновременно гениальное изобретение и мусорный пожар. Если фильтры или проверки происхождения слабы, есть риск, что мусорные данные проникнут обратно – именно об этом предупреждают системы оценки рисков [3].
Распространенный обходной путь: компании подключают модели к своим внутренним базам данных, чтобы ответы основывались на действующей кадровой политике или обновленной документации по продукту, а не на импровизации. Подумайте: меньше неприятных моментов, больше достоверных ответов.
Тонкая настройка: этап полировки ИИ 🧪
Необработанные, предварительно обученные модели неуклюжи. Поэтому их дорабатывают :
-
Обучение их быть полезными, безвредными, честными (посредством обучения с подкреплением на основе обратной связи от человека, RLHF) [1].
-
Шлифовка небезопасных или токсичных кромок (выравнивание) [1].
-
Подбор тона — будь то дружелюбный, формальный или игриво-саркастический.
Речь идёт не столько о полировке алмаза, сколько о том, чтобы заставить статистическую лавину вести себя больше как собеседник.
Трудности и неудачи 🚧
Давайте не будем делать вид, что всё безупречно:
-
Галлюцинации — четкие ответы, которые являются откровенно неверными [2][3].
-
Предвзятость — она отражает закономерности, заложенные в данных; может даже усиливать их, если ее не контролировать [3][4].
-
Нет личного опыта — он может рассказать о рецептах супов, но никогда их не пробовал [4].
-
Излишняя самоуверенность — текст течет так, будто все знает, даже когда это не так. В рамках управления рисками особое внимание уделяется выявлению предположений [3].
Почему это похоже на знание 🧠
Оно не имеет убеждений, не имеет памяти в человеческом понимании и уж точно не имеет «я». И все же, поскольку оно плавно связывает предложения, ваш мозг читает их так, как будто понимает . Происходит всего лишь масштабное предсказание следующего токена : обработка триллионов вероятностей за доли секунды [2].
Эффект «интеллекта» — это возникающее поведение, которое исследователи называют, немного иронично, «стохастическим эффектом попугая» [4].
Аналогия, понятная детям 🎨
Представьте себе попугая, который прочитал все книги в библиотеке. Он не понимает сюжетов, но может перефразировать слова, придав им мудрый смысл. Иногда это попадает в точку, иногда — в чепуху, но при достаточном мастерстве отличить одно от другого бывает сложно.
Подводя итоги: откуда берется информация для ИИ 📌
Проще говоря:
-
Массив обучающих данных (общедоступные + лицензированные + сгенерированные тренером) [2].
-
Тонкая настройка с использованием обратной связи от человека для формирования тона/поведения [1].
-
Системы поиска при подключении к потокам данных в реальном времени [5].
Искусственный интеллект не «знает» вещи — он предсказывает текст . Это одновременно и его суперспособность, и его ахиллесова пята. Вывод? Всегда сверяйте важную информацию с надежным источником [3].
Ссылки
-
Оуян, Л. и др. (2022). Обучение языковых моделей выполнению инструкций с обратной связью от человека (InstructGPT) . arXiv .
-
OpenAI (2023). Технический отчет GPT-4 — сочетание лицензированных, общедоступных и созданных человеком данных; цель прогнозирования следующего токена и ограничения. arXiv .
-
NIST (2023). Структура управления рисками в области ИИ (AI RMF 1.0) — происхождение, достоверность и контроль рисков. PDF .
-
Бендер, Э.М., Гебру, Т., Макмиллан-Мейджор, А., Митчелл, С. (2021). Об опасностях стохастических попугаев: могут ли языковые модели быть слишком большими? PDF .
-
Льюис, П. и др. (2020). Генерация с расширенными возможностями поиска для обработки естественного языка, требующей интенсивного использования знаний . arXiv .