Откуда ИИ получает информацию?

Вы когда-нибудь сидели и ломали голову, гадая… откуда вообще всё это берётся ? В конце концов, ИИ не роется в пыльных библиотечных стеллажах и не смотрит тайком короткие видеоролики на YouTube. И всё же он каким-то образом выдаёт ответы на всё — от лайфхаков с лазаньей до физики чёрных дыр — словно у него внутри есть бездонный картотечный шкаф. Реальность гораздо страннее и, возможно, интригующе, чем вы думаете. Давайте разберёмся (и, да, возможно, развеём пару мифов по пути).

Это колдовство? 🌐

Это не колдовство, хотя иногда кажется именно так. По сути, под капотом происходит предсказание закономерностей . Большие языковые модели (БЛМ) не хранят факты так, как ваш мозг хранит рецепт печенья вашей бабушки; вместо этого они обучены угадывать следующее слово (токен) на основе того, что было раньше [2]. На практике это означает, что они цепляются за связи: какие слова стоят рядом, как обычно формируются предложения, как строятся целые идеи, подобно каркасу. Вот почему результат звучит правильно, хотя — честно говоря — это статистическая имитация, а не понимание [4].

Так что же на самом деле делает информацию, сгенерированную искусственным интеллектом, полезной ? Несколько факторов:

Разнообразие данных — это сбор информации из бесчисленных источников, а не из одного узкого потока.
Обновления — без периодического обновления информация быстро устаревает.
Фильтрация — в идеале, улавливание мусора до того, как он проникнет внутрь (хотя, будем честны, в этой сетке есть дыры).
Перекрестная проверка — использование авторитетных источников (например, НАСА, ВОЗ, крупные университеты), что является обязательным условием в большинстве руководств по управлению ИИ [3].

Тем не менее, иногда это делается с уверенностью. Эти так называемые галлюцинации ? По сути, отполированная чепуха, произнесенная с невозмутимым лицом [2][3].

Статьи, которые могут вас заинтересовать после этой:

🔗 Может ли искусственный интеллект предсказать номера лотереи?
Разбираем мифы и факты о прогнозах лотерей, основанных на искусственном интеллекте.

🔗 Что означает целостный подход к искусственному интеллекту?
Понимание искусственного интеллекта с учетом сбалансированных взглядов на этику и последствия.

🔗 Что говорит Библия об искусственном интеллекте?
Изучение библейских взглядов на технологии и сотворение человека.

Краткое сравнение: Откуда ИИ черпает информацию 📊

Не все источники одинаково полезны, но каждый играет свою роль. Вот краткий обзор.

Тип источника	Кто его использует (ИИ)?	Соотношение цена/качество	Почему это работает (или не работает...)
Книги и статьи	Большие языковые модели	Бесценно (почти)	Плотные, структурированные знания быстро устаревают.
Веб-сайты и блоги	Практически все ИИ	Бесплатно (с шумом)	Полное разнообразие; смесь гениальности и полнейшего мусора.
Научные статьи	Искусственный интеллект, требующий глубоких исследований	Иногда доступ к контенту платный	Строгость + достоверность, но облечено в сложный профессиональный жаргон.
Данные пользователя	Персонализированный ИИ	Очень чувствительный ⚠️	Элегантный крой, но масса проблем с конфиденциальностью.
Веб в реальном времени	Искусственный интеллект, связанный с поиском	Бесплатно (при подключении к интернету)	Поддерживает актуальность информации; недостаток – риск распространения слухов.

Вселенная обучающих данных 🌌

одновременно даете ребенку миллионы общедоступные данные, лицензированные источники и текст, сгенерированный тренером [2].

Сверху накладываются тщательно отобранные примеры поведения людей — хорошие ответы, плохие ответы, подталкивания в нужном направлении — еще до начала подкрепления [1].

Предостережение относительно прозрачности: компании не раскрывают все детали. Некоторые ограничения носят секретный характер (интеллектуальной собственности, вопросы безопасности), поэтому вы получаете лишь частичное представление о реальном положении дел [2].

Поиск в реальном времени: Изюминка 🍒

Некоторые модели теперь могут выходить за пределы своей обучающей среды. Это генерация с дополненным поиском (RAG) — по сути, извлечение фрагментов из действующего индекса или хранилища документов, а затем встраивание их в ответ [5]. Идеально подходит для быстро меняющихся вещей, таких как заголовки новостей или цены акций.

В чем загвоздка? Интернет – это одновременно гениальное изобретение и мусорный пожар. Если фильтры или проверки происхождения слабы, есть риск, что мусорные данные проникнут обратно – именно об этом предупреждают системы оценки рисков [3].

Распространенный обходной путь: компании подключают модели к своим внутренним базам данных, чтобы ответы основывались на действующей кадровой политике или обновленной документации по продукту, а не на импровизации. Подумайте: меньше неприятных моментов, больше достоверных ответов.

Тонкая настройка: этап полировки ИИ 🧪

Необработанные, предварительно обученные модели неуклюжи. Поэтому их дорабатывают :

Обучение их быть полезными, безвредными, честными (посредством обучения с подкреплением на основе обратной связи от человека, RLHF) [1].
Шлифовка небезопасных или токсичных кромок (выравнивание) [1].
Подбор тона — будь то дружелюбный, формальный или игриво-саркастический.

Речь идёт не столько о полировке алмаза, сколько о том, чтобы заставить статистическую лавину вести себя больше как собеседник.

Трудности и неудачи 🚧

Давайте не будем делать вид, что всё безупречно:

Галлюцинации — четкие ответы, которые являются откровенно неверными [2][3].
Предвзятость — она отражает закономерности, заложенные в данных; может даже усиливать их, если ее не контролировать [3][4].
Нет личного опыта — он может рассказать о рецептах супов, но никогда их не пробовал [4].
Излишняя самоуверенность — текст течет так, будто все знает, даже когда это не так. В рамках управления рисками особое внимание уделяется выявлению предположений [3].

Почему это похоже на знание 🧠

Оно не имеет убеждений, не имеет памяти в человеческом понимании и уж точно не имеет «я». И все же, поскольку оно плавно связывает предложения, ваш мозг читает их так, как будто понимает . Происходит всего лишь масштабное предсказание следующего токена : обработка триллионов вероятностей за доли секунды [2].

Эффект «интеллекта» — это возникающее поведение, которое исследователи называют, немного иронично, «стохастическим эффектом попугая» [4].

Аналогия, понятная детям 🎨

Представьте себе попугая, который прочитал все книги в библиотеке. Он не понимает сюжетов, но может перефразировать слова, придав им мудрый смысл. Иногда это попадает в точку, иногда — в чепуху, но при достаточном мастерстве отличить одно от другого бывает сложно.

Подводя итоги: откуда берется информация для ИИ 📌

Проще говоря:

Массив обучающих данных (общедоступные + лицензированные + сгенерированные тренером) [2].
Тонкая настройка с использованием обратной связи от человека для формирования тона/поведения [1].
Системы поиска при подключении к потокам данных в реальном времени [5].

Искусственный интеллект не «знает» вещи — он предсказывает текст . Это одновременно и его суперспособность, и его ахиллесова пята. Вывод? Всегда сверяйте важную информацию с надежным источником [3].

Ссылки

Оуян, Л. и др. (2022). Обучение языковых моделей выполнению инструкций с обратной связью от человека (InstructGPT) . arXiv .
OpenAI (2023). Технический отчет GPT-4 — сочетание лицензированных, общедоступных и созданных человеком данных; цель прогнозирования следующего токена и ограничения. arXiv .
NIST (2023). Структура управления рисками в области ИИ (AI RMF 1.0) — происхождение, достоверность и контроль рисков. PDF .
Бендер, Э.М., Гебру, Т., Макмиллан-Мейджор, А., Митчелл, С. (2021). Об опасностях стохастических попугаев: могут ли языковые модели быть слишком большими? PDF .
Льюис, П. и др. (2020). Генерация с расширенными возможностями поиска для обработки естественного языка, требующей интенсивного использования знаний . arXiv .

Найдите новейшие разработки в области ИИ в официальном магазине ИИ-помощников

О нас

Вернуться в блог

Страна/регион