Текст переведен на русский язык и публикуется с разрешения автора, оригинал можно найти тут: linkedin.com/pulse/reconstructing-x-from-brain-activity-what-does-mean-rafael-grigoryan
Вопрос: Итак, о чем эта новая нашумевшая статья? 1
Ответ: Ученые провели несколько экспериментов по МРТ-сканированию мозга, предъявляя при этом испытуемым некоторые изображения / клипы / слова / звуки / что угодно, затем сопоставляли эти стимулы с активностью мозга посредством алгоритмов машинного обучения и смогли использовать полученную модель для успешной реконструкции входных данных / стимулов по мозговой активности наблюдающих за всем предложенным участников эксперимента.
Вопрос: Что значит «успешная реконструкция»?
Ответ: Это означает, что метрики сходства между реконструированными и исходными стимулами заметно выше, чем случайное совпадение.
Вопрос: Что такое метрики сходства / мера сходства?
Ответ: По сути, любая метрика, количественно определяющая различия, которую решили использовать авторы. Она должна иметь некоторые математические свойства, например расстояние (a, b) должно быть равно расстоянию (b, a), а расстояние (a, a) должно быть равно нулю, но для разных случаев существует множество разных метрик. Хотя все они количественно оценивают примерно одно и то же, всё это может рассматриваться с разных точек зрения, и выбор метрики способен сильно влиять на результат. Например, если мы количественно определим статистическое расстояние между словами «корова», «собака» и «волк», некоторые показатели поместят корову и собаку ближе, потому что в них меньше разных букв, а некоторые поместят собаку и волка ближе, потому что они оба из семейства псовых. То же самое касается любого другого случая.
Вопрос: Означает ли это, что если расстояние небольшое, то стимул, который мы реконструировали по активности мозга, идентичен тому, что мы предъявили испытуемому?
Ответ: Возможно, это лучше, чем случайное совпадение, но это всё не самоочевидно, и иногда вам нужно использовать свое воображение, чтобы увидеть сходство. Это может выглядеть более впечатляющим, если лежащий в основе процесс устойчив, например если зрительная кора является ретинотопической (пространственное распределение активности напрямую связано с наблюдаемым изображением). Однако не ожидайте слишком многого, особенно если декодирование включает в себя некоторые концепции более высокого порядка, например, при реконструкции какого-то сюжета на основе данных мозга человека, смотрящего видео.
Вопрос: Но реконструированные картинки/фильмы в статье выглядят практически идентично!
Ответ: Во-первых, это не так: посмотрите внимательно на картинки. Кроме того, они были тщательно отобраны. Это отнюдь не подлог: невозможно включить в статью все стимулы. Однако вы можете быть уверены, что многие изображения в наборе данных выглядят менее впечатляюще.
Вопрос: То есть теперь вы можете показать испытуемому любые стимулы, даже те, которые не были частью эксперимента, и получить достоверную меру сходства?
Ответ: В идеале реконструкцию следует тестировать на данных за пределами выборки, но это не всегда получается. Кроме того, набор данных обычно не может представлять все возможные классы стимулов — ни один испытуемый не способен участвовать в эксперименте достаточно долго, чтобы отсмотреть хотя бы набор данных, размер которого в компьютерном зрении считается средним. Да и за использование аппарата МРТ требуется почасовая оплата… Если вы предъявите стимул, совершенно отличный от того, что представляли модели на этапе обучения, то можете получить плохую реконструкцию, особенно если устраните все утечки данных. По сути, это то же самое, что и любая другая модель машинного обучения, но с меньшим количеством данных и худшим соотношением сигнал/шум. Однако это будет работать и в более простых ситуациях, если кодирование стимулов является надежным и простым, как в первичной зрительной коре.
Вопрос: Можем ли мы использовать одну и ту же модель с разными людьми?
Ответ: Вряд ли. Скорее всего, ее придется строить для каждого человека отдельно (предъявить стимулы, записать данные, построить модель, затем использовать ее только для этого участника эксперимента). Однако через несколько лет мы, возможно, сможем строить и межсубъектные модели, если в исследованиях будет принимать участие более нескольких десятков испытуемых.
Вопрос: Сработает ли это, если вы не будете предъявлять участникам стимул, а попросите их лишь подумать о нем или предъявите его однажды и попросите вспомнить позже? Можно ли восстановить этот мысленный образ?
Ответ: Нет, этого не получится, если только у вас не будет очень небольшого и несбалансированного набора стимулов или где-то не произойдет утечка данных — и даже тогда это, вероятно, не сработает. Известны работы по «расшифровке» снов, но это не совсем то — больше похоже на классификацию, чем на реконструкцию.
Вопрос: Джек Галлант уже сделал это около 15 лет назад: зачем это повторять? 2
Ответ: Во-первых, нейронные сети стали намного более продвинутыми. Кроме того, вы можете пропустить результаты своей модели через любой современный инструмент генеративного искусственного интеллекта, и изображения будут выглядеть лучше, чем 15 лет назад (хотя это, возможно, не особо добавляет что-то новое к пониманию работы мозга). Во-вторых, в наши дни люди пытаются расшифровать концепции более высокого уровня, такие как семантика 3.
Мы до сих пор не до конца понимаем, как эти вещи закодированы, поэтому результаты довольно интересны.
Вопрос: Приближает ли это нас к прямому обмену информацией между мозгом и компьютером?
Ответ: В некоторой степени, я думаю, это лучше, чем ничего. Тем не менее не ожидайте слишком многого — существует множество более актуальных исследований, таких как декодирование мысленной речи или мысленного написания слов.
Вопрос: Означает ли всё это, что ученые теперь могут читать мысли?
Ответ: Еще одна статья в массовой прессе под названием «Нейробиологи читают мысли с помощью нового инструмента искусственного интеллекта» — и, клянусь богом, я перестану быть таким вежливым!
Вопрос: Значит, всё это совершенно бесполезно?
Ответ: Фундаментальные исследования могут казаться бесполезными. Но из этого исследования можно сделать некоторые выводы: например, какие области мозга в большей степени интересны с точки зрения декодирования. Это не обязательно имеет определяющее значение, но означает, что там происходит что-то важное с точки зрения тех задач, что заслуживают дальнейшего изучения.
Рафаэль Григорян, нейробиолог и инженер неинвазивных интерфейсов «мозг — компьютер»,
работающий с исследовательскими и промышленными приложениями
Сергей Шишкин, руководитель группы нейрокогнитивных интерфейсов МЭГ-центра МГППУ, ведущий телеграм-канала «Нейроинтерфейсы»:
Q&A Рафаэля Григоряна, ученика известного российского специалиста по нейроинтерфейсам Александра Каплана, применимы, частично или даже целиком, к уже довольно большому числу исследований, в которых «декодировалась» работа мозга, и новые такие исследования появляются уже чуть ли не каждый месяц. В прессе и соцсетях их результаты практически всегда подаются крайне преувеличенно, и выглядит так, что ученые то ли уже читают мысли, то ли вот-вот начнут это делать. Более того, сами авторы исследований и в интервью журналистам, и даже в научных публикациях нередко используют неосторожные выражения, способствующие закреплению этого впечатления.
Однако угадывание того, какой стимул предъявлялся испытуемому, — несравненно более простая задача, чем реконструкция результатов работы воображения, «чтение» самостоятельно генерируемых мыслей, вообще любое проникновение в приватный, внутренний мир сознания или бессознательных процессов (исключение составляет лишь оценка очень общего характера, например, того, в возбужденном или расслабленном состоянии находится человек). Ведь внешние стимулы вызывают активацию мозга, очень четко организованную в пространстве и времени, обычно хорошо повторяющуюся от стимула к стимулу и к тому же еще и многократно дублирующуюся на разных уровнях обработки информации — ничего подобного в ответ на собственную, не вызванную внешними стимулами ментальную деятельность увидеть не удается.
Но даже при описании результата декодирования внешних стимулов используются разные способы его приукрашивания. В одной широко освещавшейся работе (Schneider et al 2023) для каждого момента времени декодер просто выбирал из кадров просматриваемого видео наиболее подходящий, а у зрителя складывалось впечатление, что нейроученые в буквальном смысле подсматривали за тем, что видели подопытные мыши!
При этом многие из подобных исследований имеют вполне серьезное научное содержание, но его понимание требует более серьезного настроя — и, разумеется, оно затмевается яркими образами «чтения мыслей».
Мне кажется, однако, что разобраться в том, о чем на самом деле эти исследования, вполне возможно и для тех, кто не является специалистами в области нейронаук, и Q&A Рафаэля могут отлично помочь в этом.
Schneider S., Lee J.H., Mathis M.W. Learnable latent embeddings for joint behavioural and neural analysis. Nature, 03 May 2023. doi.org/10.1038/s41586-023-06031-6
1 doi.org/10.1101/2022.11.18.517004
doi.org/10.1016/j.cub.2011.08.031
doi.org/10.1371/journal.pcbi.1006633
2 psychology.berkeley.edu/videos/modeling-and-decoding-human-brain-professor-jack-gallant;
youtube.com/watch?v=Ecvv-EvOj8M&t=2s
3 См. linkedin.com/feed/update/urn:li:activity:7043542048347410432
или linkedin.com/feed/update/urn:li:activity:7059122859448623104