Общественно-политический журнал

 

Мировые IT-гиганты торопятся занять места в будущем, где правят чат-боты

На технологическом рынке в последние месяцы развернулась настоящая битва — Microsoft, Google и Meta друг за другом объявили о планах внедрить в свои продукты большие языковые модели (LLM). Ситуация на рынке ИИ всё больше походит на гонку, в которой торопятся поучаствовать как крупные корпорации, так и многочисленные стартапы. При этом еще недавно на пике хайпа была совсем другая технология — метавселенные, в которые та же Meta вложила миллиарды долларов, но без заметного эффекта.

Но оправдан ли шум вокруг этой технологии?

LLM — это тип ИИ, который использует большие объемы данных и алгоритмы машинного обучения для анализа и понимания языка (как естественного, так и, например, языка программирования). Такие модели обучаются на огромных объемах текстовых данных, включая те, что свободно доступны в интернете, и умеют применять знания на практике — например, генерировать текст при ответах на вопросы пользователей.

Одна из наиболее известных больших языковых моделей — это GPT (Generative Pre-trained Transformer), разработанная компанией OpenAI (среди ее инвесторов — Илон Маск, Питер Тиль и другие известные бизнесмены). Она обучена на огромном объеме текстовых данных и может генерировать связные тексты, ответы на вопросы, переводить с одного языка на другой и выполнять другие задачи, связанные с естественным языком.

В историю с языковыми моделями уже успела по-крупному вписаться корпорация Microsoft. В январе 2023 года она объявила об инвестициях в OpenAI — источники Bloomberg оценили их в $10 млрд за несколько ближайших лет. Технологии созданного на базе последней версии языковой модели (GPT-3) чатбота ChatGPT сразу же стали интегрировать в коммерческие продукты — Bing, браузер Edge и офисный пакет Microsoft 365, где с этим ИИ уже можно познакомиться и пообщаться.

Такой резкий ход со стороны Microsoft привлек внимание к Bing: если раньше технологические аналитики чаще посмеивались над навязчивыми попытками Microsoft убедить хотя бы пользователей Windows использовать свой поисковик (в январе 2023 года на Bing приходилось всего 8,85% глобального рынка поиска, тогда как у Google — 84,69%), то сейчас всерьез заинтересовались им и даже обсуждают, что интеграция ChatGPT может помочь Microsoft победить на рынке поиска.

Впрочем, не надо думать, что другие лидеры технологического рынка отстают: они уже давно начали интегрировать языковые модели в свои продукты. Например, Google использует модель BERT в своей поисковой системе для улучшения запросов и результатов. Она же используется в приложениях Google Assistant и Google Translate. А в начале февраля Google выпустил (пока только для бета-тестирования) чат-бот Bard — полноценного конкурента ChatGPT.

У того же Facebook уже давно есть модель RoBERTa (оптимизированная версия BERT) — ее используют для улучшения качества рекомендаций, персонализации и анализа текста. Новую модель LLaMa там планируют интегрировать в WhatsApp, Messenger и Instagram.

Amazon развивает сервис машинного обучения Comprehend, который использует BERT и другие модели для анализа текстовых данных, в том числе в отзывах пользователей, социальных сетях и новостных статьях. Свои разработки есть и у Snapchat, NVIDIA, китайских Baidu и Huawei, а также у нескольких стартапов.

Оседлать кривую хайпа

Большие языковые модели считаются ресурсоемкой технологией — именно поэтому крупные корпорации (или компании, со старта привлекавшие крупных инвесторов, как та же OpenAI) получили фору в выходе на рынок.

При этом сама по себе технология больших языковых моделей не нова. Об этом говорят в той же Meta — если послушать не первое лицо и пиарщиков компании, а реальных ученых, которые занимаются проектом. Так, известный специалист по машинному обучению Ян Лекун, который возглавляет в Meta исследования в области ИИ, назвал ChatGPT — наверно, самое хайповое, что сейчас вообще есть в популярной технологической повестке, — «не особо инновационной» и «совсем не революционной» технологией.

Заявление показалось скандальным широкой аудитории, но точно не специалистам. Как объясняет сам Лекун, все существующие большие языковые модели, хотя и отличаются размером, датасетами (массивами информации, на которых они тренируются), алгоритмами оптимизации и т. п., базируются на давних разработках.

Так, сетевая архитектура Transformer, созданная Google к 2017 году (на ней строится в том числе и GPT-3), по словам Лекуна, использует наработки канадского математика Йошуа Бенжио, который создал свою большую языковую модель еще «около 20 лет назад». Не говоря уже о том, что сами Google и Facebook используют их годами — например, в реальных коммерческих продуктах.

Почему же мы столько слышим о языковых моделях именно сейчас — в начале 2023 года?

Одна из причин — появление удобного и бесплатного интерфейса, который дал возможность быстро испытать технологию миллионам людей. ChatGPT вышел в открытый доступ 30 ноября 2022 года, и темпы его проникновения в аудиторию оказались беспрецедентными. Чат-бот набрал 100 млн уникальных пользователей в месяц уже по итогам января — то есть всего за два месяца. Для сравнения: у TikTok на это ушло девять месяцев, а у Instagram — больше двух лет.

После этого запустился стандартный цикл интереса к новым технологиям, хорошо описанный компанией Gartner. Ее кривая хайпа (Gartner Hype Cycle) отражает пять стадий принятия обществом:

  1. «Большие ожидания» (Technology Trigger): новая технология, продукт или услуга появляется на рынке и вызывает интерес и энтузиазм у потребителей и инвесторов.
  2. «Пик завышенных ожиданий» (Peak of Inflated Expectations): интерес и внимание к новой технологии достигают своего пика, вокруг нее появляется много шума и хайпа, но еще нет или мало практических применений.
  3. «Пропасть разочарования» (Trough of Disillusionment): происходит падение интереса к новой технологии, поскольку она не оправдала обещаний и не дала ожидаемых результатов.
  4. «Порог производства» (Slope of Enlightenment): на этой стадии технология начинает раскрывать свой потенциал, появляются новые идеи и способы использования.
  5. «Плато производительности» (Plateau of Productivity): новая технология становится широко принятой и начинает приносить значимые результаты в бизнесе и обществе.

Кажется, в случае с большими языковыми моделями мы уверенно выходим на пик завышенных ожиданий. Компании так торопятся сделать новые объявления о своих будущих прорывах в этой сфере, что иногда сами ставят себе палки в колеса.

Вот пара примеров. Google в начале февраля потерял $100 млрд рыночной капитализации после того, как его чатбот Bard сделал ошибку прямо во время маркетинговой презентации. В рекламном ролике, обещающем, что новая технология упростит для пользователей сложные темы, Bard в ответ на вопрос об открытиях, сделанных с помощью орбитального телескопа «Джеймс Уэбб», уверенно приписывает ему снимки, сделанные через наземный Very Large Telescope Европейской южной обсерватории.

Поспешной выглядела и интеграция ChatGPT в Bing. Широко разошлась статья The New York Times, автор которой, протестировав технологию, пришел к выводу, что она пока в принципе не готова к использованию без контроля модератором-человеком: бот в общении допускал агрессию, угрозы, ложь, и мог занимать определенную политическую позицию.

На этом фоне неудивительно, что Марк Цукерберг вышел со своими заявлениями позже остальных и при этом не показал собственно никакой технологии: у Facebook раньше уже случались собственные провалы с большими языковыми моделями, правда, еще в прошлом году, когда внимание к ним не было настолько высоким. Вышедший в августе 2022-го BlenderBot просто плохо работал, а модель Galactica — она должна была писать научные работы — закрыли через три дня, поскольку писала она в основном бессмыслицу.

Вкалывают роботы, а не человек

При виде волны хайпа вокруг языковых моделей и чат-ботов на ум приходит прежняя, едва успевшая закончиться волна — метавселенные. То, с какой скоростью Meta, которая потратила на эту технологию миллиарды долларов практически без какого-либо видимого эффекта, переключилась в своей публичной повестке на ИИ, удивило многих наблюдателей. Не надо забывать, что об инвестициях в технологии метавселенных и AR (дополненной реальности) объявляли и Google с Microsoft (но успели выйти из новостной повестки по этой теме чуть раньше).

В рамках хайпа это логично — и ничего не говорит собственно о перспективности той или иной технологии. Корпорациям приходится действовать особенно быстро в ситуации, когда любое неосторожное заявление может обрушить котировки, а инвесторы и так насторожены и ждут от компаний серьезного сокращения расходов, что уже вылилось в массовые сокращения среди всех лидеров технологического рынка. Той же Meta сейчас надо продолжать увольнять тысячи человек, чтобы вписаться в свои финансовые цели. Именно поэтому один — уже невыгодный — нарратив оказался быстро забыт и сменен другим, более перспективным.

Но, возможно, в этот раз всё действительно серьезней. Метавселенные, по крайней мере, в интерпретации Meta, вызывали скорее комический эффект, выглядели как компьютерная игра типа Sims (причем разработанная несколько лет назад), и предполагали в значительной степени чисто маркетинговое применение — потенциальную витрину для брендов.

Большие языковые модели предлагают более конкретный путь: если никому на самом деле не нужна была метавселенная внутри Facebook, то ИИ-помощник внутри поисковика, очевидно, востребован уже сейчас — даже несмотря на то, что он пока еще может совершать ошибки.

Планка обещаний тоже высока. В киберпанковских романах часто описываются ИИ, которые становятся самодостаточными и способными к обучению. LLM могут стать первым шагом к созданию таких интеллектов.

Среди других потенциальных вариантов применения — использование ИИ на базе LLM для создания долгосрочных планов развития бизнеса или даже государств: эти планы учитывают множество факторов, таких как экономика, демография, политика и технологии, создание новых языков, которые могут быть использованы для коммуникации между людьми и машинами, и многое другое.

Есть и немало опасений: на этот раз роботы, возможно, впервые грозят заменить не рабочий класс, а «белых воротничков» и творческих работников, — пока неясно, как общество сможет адаптироваться к такой реальности. Есть и вопросы к тому, какие новые возможности технология даст для распространения дезинформации, — и как бороться с этим.

В любом случае еще через год-два корпорации наверняка переключатся на что-то другое — хорошо, если за это время риски удастся минимизировать, и технология начнет работать на благо пользователей так, как мы, возможно, еще и не представляем.

Один из оптимистичных сценариев ее применения описал словенский философ Славой Жижек, отвечая на вопрос о том, похоронит ли ИИ образовательную систему: «Нет! Мой студент приносит мне свое эссе, написанное ИИ, я подключаю его к своему ИИ для оценки, и мы свободны! Пока происходит «обучение», наше супер-эго удовлетворено и мы вольны учиться всему, чему захотим».

Павел Белавин