«Слепоглухонемой» ChatGPT, нейрографомания и свёрточные функции

Коллаж DALL·E & Stable Diffusion
Коллаж DALL·E & Stable Diffusion

Максим Борисов и Борис Штерн беседуют о проблемах искусственного интеллекта с Михаилом Бурцевым, канд. физ.-мат. наук, Landau AI Fellow, London Institute for Mathematical Sciences. Видеоверсию интервью см. по адресу youtu.be/UxPXE2Ug3A0

Модель окружающей действительности

— Сегодня в гостях у ТрВ-Наука Михаил Бурцев, стипендиат Ландау Лондонского института математических наук. В нашей беседе принимает также участие главный редактор «Троицкого варианта» Борис Штерн. Первый вопрос, который я хотел бы задать Михаилу, будет иметь некоторый привкус научной фантастики, поскольку тема искусственного интеллекта у нас часто сопутствует тем авторам, что пишут фантастические романы. Станислав Лем в романе «Непобедимый» рассуждал о «некроэволюции»1, т. е. эволюции среди неживых устройств. Вы работаете на стыке биологии и компьютерных систем. Вопрос такой: насколько осмысленны все эти параллели между эволюцией в случае живой и неживой материи и насколько может быть наивен или, наоборот, прозорлив был в свое время Станислав Лем?

Михаил Бурцев
Михаил Бурцев

Михаил Бурцев: Если мы создадим такую систему, где устойчиво выполняются все принципы, наличествующие в природной эволюции, то я не вижу в принципе преград, чтобы у нас осуществлялась такая эволюция. Другое дело, что на данный момент нет таких примеров, где бы это было реализовано (если мы будем считать, что для этого необходимо обязательно некоторое материальное воплощение). Если же мы станем рассматривать применение схожих принципов для эволюции решений каких-то задач, то такое успешно применяется: есть эволюционное программирование, генетическое программирование, широкий класс алгоритмов этакой эволюционной оптимизации, который позволяет найти решение для задач при помощи подхода, основанного на принципах, лежащих в основе нашей теории эволюции.

— Спасибо. Насколько нам известно, сейчас специалисты в области компьютерных систем разделились в вопросах возможностей обучения моделей на вторичных данных об окружающем мире (которые они, собственно, только и поглощают). В частности, ChatGPT и прочие системы такого рода имеют дело лишь с языковыми реальностями, без собственного доступа к окружающему физическому миру, который им пока не предоставлен. Возможен ли в таком случае в перспективе настоящий искусственный интеллект (тут, наверное, надо оговориться, что искусственный интеллект может быть «разного рода»)? Какой точки зрения вы придерживаетесь по этому вопросу и почему?

М. Б.: Это на самом деле такой достаточно глубокий и в какой-то степени философский вопрос… Если мы посмотрим на самого человека: есть слепоглухонемые люди, которые могут не воспринимать мир привычными для нас органами чувств. И мы знаем примеры, когда слепоглухонемые люди даже получали научные степени, пройдя обучение в вузах. Это говорит о том, что, несмотря на какие-то ограничения каналов взаимодействия с внешним миром, при достаточно высоком уровне способности к обучению можно получить достаточно много знаний из внешнего мира. И вообще, если посмотреть на любые биологические системы, на человека, как на нечто, находящееся во внешнем мире, воспринимающее его и предсказывающее, что в нем произойдет, то на самом деле то, что нам кажется очень простым, — что мы видим объективный мир, который нас окружает, — по большому счету таким простым не является. Потому что всё это сложная картина, которая создается взаимодействием каких-то фотонов с клетками сетчатки глаза. Другие клетки (в зависимости от того, как у нас расположены разные части тела) реагируют на то, какое на них воздействие оказывают силы притяжения и т. д. Всё это вместе складывается в некоторую общую картину, а человек к этому добавляет еще и другие инструменты — всевозможные микроскопы, телескопы в различных диапазонах излучения. Таким образом, мы в принципе видим гораздо больше — гораздо более целостную картину мира. Исходя из этого, мое мнение такое: если есть хоть какой-то канал, при помощи которого можно получать информацию об окружающем мире и взаимодействовать с ним, то это уже принципиально позволяет такой системе обучаться. В этом смысле большие языковые модели вроде GPT, конечно, напрямую с внешним миром не взаимодействуют — даже в текстовом формате, — потому что они скорее учатся предсказывать описание этого внешнего мира, чем совершать какие-то действия. Но даже с этой точки зрения, на мой взгляд, если мы будем рассматривать и считать одним из наиболее важных свойств искусственного интеллекта создание некоторых моделей окружающего мира, то ChatGPT и другие самые большие системы создают самые продвинутые из существующих на сегодня таких моделей как бы независимо от человека. Понятно, что ChatGPT строит это всё на основе текстов.

И здесь гипотеза такая: для того, чтобы правильно предсказывать текст, недостаточно просто запомнить какие-то факты, недостаточно знать только структуру языка. Необходимо создать некоторые как бы модели процессов, которые в этом внешнем мире происходят, потому что именно эти процессы в объективном мире и стоят за теми текстами, которые люди сгенерировали. Поэтому, когда модель предсказывает следующее слово в тексте, то для нее эффективно использовать ту внутреннюю модель, которая описывает взаимодействие человека с окружающим миром или какую-то ситуацию, в которой человек находится. Глубина и точность этой модели — это обсуждаемые вопросы. Одно из мнений, которое не все разделяют (а я, например, разделяю): при обучении внутри нейросети создается такая модель окружающего мира.

Борис Штерн: Эта модель — ее строит программист или сам ChatGPT, т. е. компьютер?

М. Б.: Ее строит сам компьютер… Как устроено обучение ChatGPT? Это на самом деле очень примитивные вещи, если так посмотреть на базовые принципы. У нас есть просто текст, и мы ставим задачу: например, подав на вход модели 3000 слов, требуем, чтобы она предсказала 3001-е слово, — и всё, больше модель ничего не делает. Но так как текстов очень много, то мы получаем достаточно хорошую модель. На самом деле, меня до сих пор удивляет, что нейросеть способна создать настолько хорошую, как бы предсказывающую модель для текста. Но так вот получается. Здесь можно придумывать интерпретации, за счет чего это происходит. Если мы будем интерпретировать это с точки зрения вычислений, то для того, чтобы делать хорошие предсказания, модель должна максимально эффективно сжимать ту информацию, на которой она обучалась. И поэтому в некотором смысле можно связать обучение модели с поиском минимального описания данных. В теории вычислений есть всякие понятия, связанные со сложностью данных, оцениваемой в виде минимальной длины программы, которая может породить эти данные, — это так называемая колмогоровская сложность 2. Можно сказать, что нейросеть пытается приблизиться к той минимальной программе, которая может описать все тексты, которые создал человек.

— Я должен заметить, что нейросети, которые генерируют картинки, как раз показывают, что у них с физической моделью что-то не совсем то. Общеизвестные вещи: количество конечностей у людей на картинках бывает самое разное, несмотря на все усилия в этом направлении, — до сих пор ни одна, даже самая развитая нейросеть такого рода не избавилась от этих глюков… зависающие какие-то предметы… Понятно, что это очевидные дефекты.

— Это относится не только к картинкам, в текстах то же самое… Если просить эту модель, чтобы она рассуждала, например, об отношениях между людьми, то проблем не будет, а вот если тестировать на знания о трехмерном мире, то результат будет удручающим. Нейросеть хорошо может рассказать про то, что чувствует человек, и описать какие-то ситуации, возникающие между людьми, а вот, например, складывать какие-нибудь трехзначные числа у нее получается плохо. И даже если вы зададите простой вопрос: что больше, 1/2 или 2/4, — она может очень долго путаться, давать противоречивые объяснения. Поэтому я и сказал, что, на мой взгляд, на сегодня это наиболее всесторонняя и полная модель, но очевидно, что она далеко не полная. Фактически и у любого человека тоже есть какой-то здравый смысл, завязанный на некоторую модель окружающей действительности. И есть какое-то более формализованное математическое знание, которое мы можем использовать для того, чтобы совершать вычисления. И есть компьютерные модели. Ну и, в принципе, вся наша наука, можно сказать, такая огромная модель, описывающая окружающий мир в разных аспектах — в зависимости от того, какую научную дисциплину мы возьмем.

Конечно, ChatGPT еще очень далеко до этого. Но, с другой стороны, удивительно, какой прогресс был достигнут на основе простой идеи предсказания текстов. И кажется, что можно и дальше с этим работать, применяя даже какие-то подходы «в лоб», вроде того, чтобы обучать модели на видео вместе с текстами. Это позволит им получать уже гораздо больше информации и строить более полноценные модели окружающего мира со всем тем, что там может происходить. Впрочем, сейчас разрабатываются и подходы к тому, чтобы заставить модели точно так же и таким же образом создать идеальный мир чисел. То есть мы можем генерировать разные последовательности и заставлять модель предсказывать их. Или, например, по последовательности чисел предсказывать описание функции или системы дифференциальных уравнений — по системе уравнений генерировать решение в символьном виде. Такие работы ведутся. Мне кажется, что такой простой подход, в принципе, масштабируем, и на каком-то достаточно осознаваемом горизонте (десятилетия) мы, возможно, получим очень мощные модели, которые будут интегрировать знания из разных наук и позволят нам делать какие-то предсказания и проверять какие-то гипотезы на согласованность, которые сегодня нам очень сложно проверить, потому что одному человеку очень трудно вместить в себя много различных областей знаний…

Глупцы или убийцы?

— Сейчас звучат опасения, что искусственный интеллект становится всё более «настоящим», высказываются разного рода прогнозы алармистского характера: компьютеры могут захватить мир, поработить или уничтожить человечество… Иногда это звучит совсем наивно, иногда — довольно витиевато. Скажем, есть такая идея, что искусственный интеллект постепенно искажает нашу действительность, проникая в наш мозг, пользуясь реальными человеческими высказываниями. А с другой стороны, через какое-то время ИИ может оторваться от реальности и стать «глупым», перестать воспроизводить что-либо достоверное, сталкиваясь в той же Сети по большей части со своими собственными искаженными продуктами. Как вы относитесь ко всякого рода завиральным идеям и опасениям?

— Критерий того, что такое настоящий искусственный интеллект, сложно определить. Пока мы можем делать что-то полезное с помощью компьютеров, давайте это использовать. Мне кажется, что все эти алармистские представления исходят из поверхностного понимания того, как всё это устроено, и наивных допущений о природе человека. В Интернете сейчас полно различных мнений. Много сумасшедших людей, которые пишут что попало. Также есть те, кто звонит по телефону и пытается убедить других делать черте что. Но очевидно, что существуют методы, которые позволяют бороться с неправильным контентом в Интернете. Если у вас есть проверенные источники информации, то вы получаете достоверную информацию. Я думаю, что проблема с наводнением Интернета фейковыми новостями — это наименьшая из проблем, которые у нас вообще могут быть. Мы уже привыкли к этому и просто не замечаем всю темную фейковую материю Интернета, которая в нем присутствует. Мы видим только то, что нам необходимо для решения наших задач. Я не думаю, что еще большее число интернет-графоманов с искусственным интеллектом смогут нам чем-то испортить жизнь.

Другое дело, если мы говорим про то, что искусственный интеллект может начать воздействовать на общественное мнение и заставлять людей делать то, что им не нужно делать. Здесь мне кажется, что мир еще очень далек от этого. Люди уже сейчас стараются заставить других делать то, что им нужно, проводят массовые пиар-кампании, совершенствуют пропаганду, тратят на это огромные средства — да и то это не всегда достигает цели. Когда речь идет об искусственном интеллекте, он еще очень далек от того, чтобы воздействовать на одного человека, — не говоря уж о том, какие интеллектуальные усилия еще потребуются, чтобы заставить всех людей поверить во что-то. Даже с группами людей это сложно. Поэтому мне кажется, что здесь пока нет опасности. Более того, у нас всегда есть возможность управлять этими системами, потому что они, как правило, требуют много энергии. Мы всегда можем нажать на стоп-кран и выключить электроэнергию, и всё остановится, все проблемы исчезнут. Даже если у вас есть большой дата-центр, он не может существовать без огромных затрат денег на электричество и другие ресурсы.

То есть наивно предполагать, что какая-то система захватит управление и начнет высасывает триллионы долларов, чтобы запудрить мозги человечеству — всегда можно определить, куда уходят деньги и перекрыть кран, всё это быстро остановится. Можно, конечно, предположить какие-то абсолютно маловероятные сценарии, когда у каждого человека будет свой собственный персональный искусственный интеллект, очень маленький. И эти очень маленькие искусственные интеллекты будут объединены друг с другом и станут заставлять людей покупать электричество для того, чтобы их прокормить… Уже наклевывается такой фантастический рассказ небольшой… Но мне кажется, это всё очень сложно… Конечно, есть секты, людей можно в чем-то убедить, но все-таки в таком массовом масштабе, чтобы люди этого не заметили, когда это начнется, и не приняли какие-то меры… мне кажется, такое очень-очень сложно представить.

Б. Ш.: Выскажу алармистскую идею другого толка. Искусственный интеллект может привести к деградации естественного интеллекта. Понятно, каким образом?

М. Б.: Мне кажется, это очень похоже на ситуацию с калькуляторами. Калькулятор тоже может приводить к тому, что люди хуже делают арифметические вычисления, хуже обращаются с большими числами, не тренируются в этом… Можно сказать, что они хуже понимают, как устроена математика. С другой стороны, профессиональные математики активно пользуются программными пакетами для того, чтобы делать такие вычисления на каждодневной основе. Если следовать вышеозвученному аргументу, всё было бы наоборот, т. е. если у нас появились калькуляторы и компьютер, то математика должна исчезать, потому что всё рассчитывает компьютер. На самом деле наоборот: многие достижения в современной математике были получены с помощью компьютера. Поэтому мне кажется, что такое навряд ли будет происходить.

Б. Ш.: Ну, проблема-то в том, что ИИ лезет во все сферы — в написание текстов, например. Люди перестанут сами писать тексты, просто разучатся. Изобразительное искусство: там тоже лезет во всё искусственный интеллект. То есть он захватывает такие сферы, которые относятся к творческим. Не значит ли это, что творческие способности широких масс в конце концов деградируют? Понятно, что останутся какие-нибудь там узкие профессионалы, которые сохранят творческий потенциал. Вот в массе это может привести к некоторой деградации, мне кажется.

М. Б.: А в массе-то он есть, этот творческий потенциал? Люди пишут или нет? На самом деле хорошие книги и хорошие картины пишут и так немногие — если смотреть относительно общей человеческой популяции.

Б. Ш.: Ну, это вы берете верхушку. Есть масса промежуточных уровней, где тоже нужен естественный интеллект человека. И вот как раз этот промежуточный уровень и будет под ударом.

М. Б.: Смотрите, я не знаю, что будет в будущем, но по крайней мере в текущий момент сам по себе искусственный интеллект, на мой взгляд, не может создавать контент самого высокого уровня. Изображения, тексты, видео массового потребления, которые тиражируются постоянно, какие-то одинаковые образы с небольшими вариациями, вроде обложек журналов про машины, — такое в подавляющем большинстве искусственный интеллект сможет генерировать. Ну или множество книг, в которых примерно один и тот же сюжет, но по-разному в разных ситуациях, оформлено по-разному, в разной стилистике и т. д. Здесь искусственный интеллект сможет какой-то контент генерировать и, возможно, люди это действительно будут читать, это им будет интересно.

Если же мы говорим о некоторых содержательных новых вещах, то уже сейчас заметно, что если вы дадите тому же ChatGPT задачу написать на какую-нибудь тему эссе, то оно будет содержать во многом воду и быть достаточно графоманским — если это не какая-то историческая вещь, если вы попросите о чем-то действительно новом написать. Грубо говоря, эти модели могут переформатировать некоторые содержательные сообщения, но сами нового содержания практически никогда не генерируют. То есть если вы пишите научную статью, то ChatGPT вам ничем не поможет — вам всё еще нужно добавить туда что-то содержательное. Например, вы описываете какой-то феномен, и там должна присутствовать вся цепочка содержательных утверждений и аргументов, которые должны быть приведены. А ChatGPT может это потом переписать в более ясном виде, чтобы другим было понятнее, но сама нейросеть этих аргументов, эту цепочку не построит.

То же самое, мне кажется, касается и генерации других текстов. Если нужна автоматическая генерация текстов на уровне: «Я посмотрел результаты футбольного матча, теперь я должен описать, что в пяти матчах подряд „Спартак“ забил сто голов „Динамо“», — это может сделать ChatGPT. А если какой-то новый сюжет или новая проблема (писатели переносят в свои произведения те проблемы, которые возникают в обществе, пытаясь их осмыслить некоторым образом) — здесь, я думаю, современные модели бессильны, они не понимают суть этих проблем, потому что в них нет тех мотиваций, целей, что у людей. Поэтому для них это всё не выглядит как проблемы.

— Я понял это так, что строгие ограничения на искусственный интеллект нет необходимости вводить? А интересно, с точки зрения развития ИИ: предпочтительно, чтобы этим занимались частные компании или что-то нужно создавать на государственном уровне? И сразу напомню про разговоры о так называемых персональных агентах, которые должны действовать в интересах конкретных пользователей. Возникает вопрос, к кому они в конечном счете будут более лояльны — к частным лицам или же к тем корпорациям, которые их разрабатывают?

М. Б.: Может быть, у меня несколько наивный взгляд на эти проблемы, но если мы действительно посмотрим на агентов, то в некотором смысле сможем перенести на них те же самые правила, что используем для людей. То есть, представьте, что у вас есть некий сотрудник, который ходит за вас в магазин или выполняет какие-то поручения, или сотрудник компании, который что-то делает. Тоже можно задать вопрос: а он какими интересами руководствуется — интересами компании или интересами других людей? Мне кажется, всё то же самое переносимо и на таких программных агентов. Соответственно, очевидно, что есть нормы, регулирующие поведение людей: если это курьер — он должен принести еду, но не должен зайти к вам в дом и ограбить вас. Если курьер какой-то компании пришел, вас ограбил, то не только он несет ответственность, но и компания будет нести ответственность за это.

Мне кажется, такие кейсы можно включить в более-менее стандартную законодательную практику. Другое дело, если мы говорим о возникновении каких-то монополий на саму технологию, т. е. насколько та или иная компания или организация может контролировать некоторую технологию, навязывать что-то другим, какие-то услуги, либо следить за нами, либо делать еще что-то такое не очень хорошее. Здесь, на мой взгляд, одно из решений, пропонентом которого я являюсь, — это публикация каких-то базовых алгоритмов в открытом доступе, чтобы все знали, как это всё работает, и, соответственно, это всё могло бы обсуждаться, и общество знало, какие технологии есть, кем они используются, на что они направлены, и в соответствии с этим вырабатывало бы какие-то свои способы регуляции таких технологий.

Место России

— А какое место Россия занимает во всем этом бизнесе, связанном с искусственным интеллектом, какие у нее перспективы, возможности и, скажем так, намерения, специфика? Вот мы видим, в принципе, отдельные разработки, связанные в том числе с «Яндексом» и «Сбербанком», который выкатил свою успешную нейросеть «Кандинский» 3, — т. е. вроде бы здесь Россия вполне заметна. С другой стороны, в том же «Кандинском» видна какая-то вторичность, можно понять, что он скорее переводит с русского языка на свой внутренний английский prompt’ы и не знает известных российских писателей, артистов, скажем. Какое может быть взаимодействие с западным миром в этом отношении? Можно ли сказать, что мы вышли на мировой уровень? Что говорит об этом ваш опыт работы в российских лабораториях, связанных с искусственным интеллектом, насколько мы «могём», что называется?

«Слепоглухонемой» ChatGPT, нейрографомания и свёрточные функцииМ. Б.: Мне кажется, здесь мой ответ нужно разделить на несколько уровней. Если мы говорим именно про бизнес, основанный на технологиях, то его аудитория на данный момент ограничена, скорее всего, Российской Федерацией. То есть трудно себе представить, что кто-то в мире будет использовать российские разработки. Ну, за исключением некоторых отдельных стран. Также здесь очень сильно сказывается завязанность на аппаратное обеспечение — ведь для того, чтобы всё считалось, всё работало, нужно много специализированных вычислителей, графических ускорителей. Понятно, что сейчас поставки такого оборудования в Россию затруднены. Если тенденция сохранится, то у нас останется Китай, который может выпускать что-то свое. Вот Huawei выпускает свой чип и, соответственно, Россия, возможно, будет иметь к нему доступ. Но Китай в любой момент может перестать куда-либо этот чип продавать — и тогда мы фактически останемся только с теми запасами, что у нас остались. А эти карты тоже выходят из строя, сгорают и т. д. До последнего времени — в принципе, в течение нескольких лет — эта область (машинное обучение искусственного интеллекта) очень интенсивно развивалась за счет того, что, в отличие от многих других областей науки и технологии, много всего выкладывалось в открытый доступ — причем под лицензиями, которые разрешали исследование и дальнейшее использование без каких-либо лицензионных отчислений. Это приводило к тому, что дико ускорилось развитие этой отрасли вообще, и это позволяло компаниям из разных стран достаточно плотно следовать за лидерами индустрии. При этом все пользовались примерно одинаковыми базовыми разработками, но с отставанием, может, на полгода-год друг от друга. Именно это позволяло и позволяет пока еще российским компаниям создавать некоторые технологии, которые находятся на уровне, который очень близок к мировому.

Если же мы будем говорить про сами исследования в этой области, то здесь очевидно, что, с одной стороны, у нас есть такие группы, которые публикуются на очень хорошем международном уровне (если говорить о публикациях о машинном обучении, то там в основном люди публикуются не в журналах, а в сборниках конференций, т. е. выступление на хорошей конференции считается как публикация в крупнейшем журнале). Но если в целом смотреть на научный выход, то, конечно же, он по масштабам гораздо меньше, чем в других странах. Я уж не говорю про Китай и США, которые находятся просто где-то в совершенно другом измерении по сравнению с европейскими странами, но и среди европейских стран Россия тоже не на первых позициях.

— А где, по вашему мнению, следует в самое ближайшее время ждать каких-то новых прорывов, которые, может быть, будут заметны и для широких масс? Какие области совершенно несправедливо отстают? Очевидно, что за последние год-два очень сильно «выстрелили» те же самые нейросети, ChatGPT и картинки, и до сих пор всё это бурно развивается. Но, скажем, те же роботы, которые могли бы ориентироваться в окружающем пространстве, они где (несмотря на Boston Dynamics и проч.)? Общение голосом? Интерфейс «мозг — компьютер»?

М. Б.: Предлагаю вернуться к нашей исходной идее: на сегодняшний день мы понимаем большие языковые модели, которыми связаны все последние наиболее яркие события, как некоторые модели данных об окружающем мире и опосредованные модели этого окружающего мира. Значит, можно выдвинуть гипотезу — и она следует из моделирования мира с помощью таких данные. Мир параллельно описывается в разных модальностях, разными данными — у нас есть видео о мире, есть тексты о мире, есть какие-то финансовые отчеты о том, что происходит в мире, есть набор данных о погоде. На самом деле, чем больше данных мы включим в процесс обучения нашей модели, тем большего качества она достигнет. То есть утверждение примерно такое: если мы будем обучать модель, которая станет предсказывать и текст, и видео, и финансовые данные, при этом она будет знать как бы новости, связанные с этими данными, то это позволит нам создать более полную и точную модель мира.

Это модель может быть направлена на то, чтобы выучить закономерности внутри данных, которые позволяют предсказывать дальше, — процесс обучения будет приводить к тому, что модель будет выстраивать зависимости, которые свяжут между собой эти разные модальности, и это позволит существенно повысить ее качество. Такая, кажется, простая идея, возможно, приведет к качественно новому повышению уровня работы этих моделей. Если мы просто даже, особо не изменяя существующую архитектуру, существующие алгоритмы, будем увеличивать размер модели и количество данных, которые она может одновременно закодировать, и пытаться их как-то выровнять относительно друг друга, то получим модель гораздо лучшего качества. Причем эта модель может служить и для решения самых разных задач, таких, как генерация изображений, видео и всего остального. То есть это такая первая, самая простая, очевидная вещь. И тогда, если у нас появится такая модель, то окажется, что и задачу с навигацией роботов нам тоже будет легче решить. То есть именно с точки зрения навигации эта модель будет помогать лучше понимать окружающий мир. У нас есть камера, камера видит, что происходит вокруг робота, соответственно мы можем легко перевести это в некоторое описание, например, на естественном языке. Модель может порассуждать, что ей нужно сделать, в каком состоянии она сейчас находится, где она была раньше, как это выглядело раньше. И, исходя из этого, предпринять какие-то действия, которые позволяют поставленную задачу решить. Другое дело, что сегодня, возможно, мы не очень хорошо можем управлять самими движениями. Но здесь, скорее всего, в ближайшее время возникнут какие-то инженерные решения. У нас есть Boston Dynamics с локальной устойчивостью — их роботы могут двигаться, их толкнешь — они поднимутся, они устойчивы на всяких наклонных поверхностях, могут пробираться по лесу, по камням и т. д. Это решается встроенными механизмами, которые не затрагивают, скажем так, высший «психический» уровень нашей языковой модели. А вот именно рассуждение, планирование, куда пойти, что сделать, — это может быть как раз отдано на откуп вот такой всё более и более мультимодальной модели мира, которая будет существовать. И это очевидный следующий шаг, на мой взгляд.

— Появление так называемого сильного искусственного интеллекта в ближайшее время стоит ожидать? Или это не совсем корректный термин?

М. Б.: Если мы называем сильным искусственным интеллектом тот, который по своим когнитивным способностям по крайней мере не хуже человека, то мне кажется, что пока еще рано говорить об этом. На мой взгляд, в ближайшие 10–20–30 лет такого не появится. Я тут не очень оптимистичен по сравнению с другими, но мое мнение такое.

Как отличить кошку от собаки

Б. Ш.: Я бы хотел спустить дискуссию на более «низкий» уровень, на матчасть. Наш интеллект основан по большей части (скажем, на 80%) на зрительном восприятии мира. Мы легко, за доли секунды, отличаем кошку от собаки. Умеет ли это машина? Понятно ли, как она это делает (если она это умеет)? И каково представление этих картинок, образов, которые показывают машине? Достаточно ли здесь двухмерных картинок? Мы же имеем трехмерный опыт восприятия мира… Эти вопросы могут развернуться в целое новое интервью, но вот кратко, основные тезисы по этому поводу: представление картинок, нынешние возможности машины отличать кошку от собаки и перспективы.

М. Б.: Да, тут нужно, наверное, сразу сказать, что у нас есть общая задача компьютерного зрения. Мы можем рассматривать некоторые статические изображения или последовательность изображений в виде видео. Соответственно там несколько задач: задача классификации изображений (о чем мы говорили — отличить кошку от собаки), задача локализации каких-то объектов на изображении и задача синтеза изображений по какому-то описанию. И если мы говорим про задачу именно классификации, то сегодня нейросети могут решать задачи классификации лучше, чем человек, на мой взгляд. Это показывают замеры на определенных наборах данных. То есть можно обучить нейросеть отличать/классифицировать изображения лучше, чем это делает среднестатистический человек. Когда мы переходим к более сложным задачам, например таким, как предсказание будущего по изображению, то нам как раз необходимо обычное трехмерное наше представление об окружающем мире. То есть мы вращаем какой-то объект — и знаем, что обычно задняя его часть выглядит по-другому, чем передняя, — мы можем предсказать, какая она будет. И здесь, мне кажется, пока еще есть, над чем работать, это активно будет развиваться.

Как представляются изображения? Это, на самом деле, достаточно просто. Все мы знаем, как у нас устроены картинки в цифровом виде. Есть пиксели, и каждому пикселю приписано три компоненты: красный, зеленый и синий. Соответственно, есть некоторая точность представления этих компонент — сколько уровней яркости у каждой компоненты (от 0 до 255). Мы кодируем изображение в виде такой большой матрицы — точнее, трех матриц разных цветов — и подаем на вход нейросети. Нейросеть изначально, пока еще не обучена, не имеет никакого представления о каких-либо объектах, классах, ни о чем. Есть только эти числа, описывающие конкретные точки. Нейросети для компьютерного зрения называются сверточными. Свое название они получили по свертке, которая является математической операцией, позволяющей найти максимальное перекрытие двух функций при сдвиге. То есть у них есть определенные пространственные шаблоны, которые можно описать в виде какой-то локальной области, например квадрата или прямоугольника. И представьте, что вам нужно выучить некоторые паттерны яркости для каждого светового канала, которые будут с какой-то характерно большей вероятностью встречаться на изображениях. И в процессе обучения параметры этой функции, которые задают яркости внутри этого квадрата, оптимизируются таким образом (эта функция меняется), чтобы в конце концов повысить точность классификации изображений. То есть функция оптимизируется таким образом, чтобы алгоритм лучше отличал кошек от собак или породы собак друг от друга. Очевидно, что эти свёрточные функции, которые требуется выучить, будут связаны. Например, если мы различаем породы собак по шерсти и цвету, то такие функции будут выучиваться параллельно. В процессе обработки изображения оно огрубляется. У нас есть функция-фильтр, которую можно назвать пространственным фильтром меньшего масштаба. Мы берем некоторую свёртку и применяем ее к изображению, чтобы найти места, где встречается паттерн яркости, описываемый этой функцией. Таким образом, мы получаем карту признаков. И так для всех функций, которые оптимизируются, — мы строим много таких параллельных карт. Затем, так как на изображении мы можем видеть что-то в разных масштабах (т. е. у нас может собака занимать 10% изображения, может занимать 80% изображения), мы как бы делаем такое огрубление — мы эту картинку сжимаем, т. е. говорим, что заменяем там, не знаю, четыре пикселя соседних — четыре точки — на один, каким-то образом усредняя ее. Мы таким образом как бы изменяем масштаб представления наших объектов и выучиваем такие же свёрточные функции для следующего масштаба изображения и т. д. Таким образом, в процессе обработки мы создаем такой набор функций для разных масштабов пространственных на картинке. И когда наша модель обучена, то параллельно мы строим представление изображения в виде набора таких карт. Ну, то есть каждая карта — это как бы некоторый набор чисел, описывающий, где встречается тот или иной признак, выделенный нами. Эти все признаки как бы отображаются в некоторое пространство, более абстрактное. Оно может быть не привязано к пространственному расположению элементов на изображении, и в нем уже происходит окончательная классификация, разделение этих двух классов. И обычно, как показывает практика, перед самым выходом (где некоторый выход нашей функции) у нас есть какие-то вектора — значения, которые нам говорят, к какому классу принадлежит тот или иной входной набор чисел для изображения, — т. е. набор чисел, представляющий то или иное изображение. В процессе обучения получается так, что эти вектора проецируются в такие области многомерного пространства, которые достаточно легко линейно разделимы, ну, потому что это повышает качество классификации, так как оптимизация происходит за счет уменьшения ошибки, а самый сильный сигнал ошибки как раз в самом конце находится нашей функции. Чем дальше мы, грубо говоря, от картинки, чем ближе к выходу нашей нейронной сети, тем сильнее «распутаны» у нас эти вектора, которые представляют эти картинки, тем легче их различить. Примерно как-то так.

Б. Ш.: Спасибо, я, наконец, начал что-то понимать, но я подозреваю, что как раз многие слушатели перестали что-либо понимать… Просто чтобы прояснить: преобразование Фурье — это тоже свёрточная процедура. В общем, такая наиболее универсальная. На преобразовании Фурье мы сразу начинаем много чего видеть, что не видим глазом на картинке. Здесь, как я понимаю, используется много таких преобразований разного типа. Вот эти функции подбирает человек, а машина, скажем, подгоняет параметры или она сама выбирает вид этих функций? На каком уровне работает машина?

— Вид этих функций достаточно простой, и машина подбирает параметры. Машина подбирает параметры, т. е. функции. Выглядит так, что у нас есть такое линейное преобразование, мы все яркости на входе перемножаем на коэффициенты — и там суммируем. Вот это наше преобразование, коэффициенты должен подобрать наш оптимизационный алгоритм. Потом может быть нелинейное преобразование после этой суммы, но, в принципе, как бы это базовая идея.

— Ну что ж, спасибо за подробную интересную беседу! Надеюсь, что и мы, и читатели лучше стали представлять, что такое искусственный интеллект и по какому пути сейчас идет наука. Надеюсь, что это не последний наш разговор такого рода. Спасибо, что пришли!

Б.Ш.: И от меня спасибо. Я, наконец, стал что-то понимать.

М. Б.: Да, и вам большое спасибо за приглашение. Как же не прийти в любимый «Троицкий вариант»?!

Б.Ш.: Да, Михаил у нас работал в свое время, был членом редакционного совета. Так что спасибо. До свидания.

М. Б.: Всего хорошего.


1 trv-science.ru/2023/07/lem-intellectronica-i-necroevolyuciya/

2 Описательная сложность, сложность Колмогорова — Хайтина, ru.wikipedia.org/wiki/Колмогоровская_сложность

3 fusionbrain.ai

Подписаться
Уведомление о
guest

1 Комментарий
Встроенные отзывы
Посмотреть все комментарии
Mike
Mike
1 год назад

Не знаю как насчет отличия кошки от собаки, но вылавливание нужного человека в толпе из тысяч лиц работает успешно. Наверно эти лица отличаются друг от друга в меньшей степени, чем кошки от собак. Поручите человеку ловить людей по снимкам лиц в толпе. Ничего не получится.

Оценить: 
Звёзд: 1Звёзд: 2Звёзд: 3Звёзд: 4Звёзд: 5 (6 оценок, среднее: 4,00 из 5)
Загрузка...