Искусственные нейронные сети, вездесущие модели машинного обучения, которые можно обучить выполнять множество задач, называются так потому, что их архитектура вдохновлена тем, как биологические нейроны обрабатывают информацию в человеческом мозге.
Около шести лет назад ученые обнаружили новый тип более мощной модели нейронной сети, известной как трансформатор. Эти модели могут достигать беспрецедентной производительности, например, генерируя текст из подсказок с точностью, близкой к человеческой. Трансформатор лежит в основе систем искусственного интеллекта, таких как, например, ChatGPT и Bard. Несмотря на невероятную эффективность, трансформеры также загадочны: в отличие от других моделей нейронных сетей, вдохновленных мозгом, было неясно, как их создавать с использованием биологических компонентов.
Теперь исследователи из Массачусетского технологического института, лаборатории искусственного интеллекта MIT-IBM Watson и Гарвардской медицинской школы выдвинули гипотезу, которая может объяснить, как можно создать трансформатор, используя биологические элементы в мозге. Они предполагают, что биологическая сеть, состоящая из нейронов и других клеток мозга, называемых астроцитами, могла бы выполнять те же основные вычисления, что и трансформатор.
Недавние исследования показали, что астроциты, ненейронные клетки, которые в изобилии присутствуют в головном мозге, взаимодействуют с нейронами и играют определенную роль в некоторых физиологических процессах, таких как регулирование кровотока. Но ученым все еще не хватает четкого понимания того, что эти клетки выполняют в вычислительном отношении.
В новом исследовании, опубликованном на этой неделе в Proceedings of the National Academy of Sciences, исследователи изучили роль астроцитов в мозге с вычислительной точки зрения и создали математическую модель, которая показывает, как их можно использовать вместе с нейронами для создания биологически правдоподобного трансформатора.
Их гипотеза дает представление о том, что может послужить толчком к будущим исследованиям в области неврологии о том, как работает человеческий мозг. В то же время это могло бы помочь исследователям в области машинного обучения объяснить, почему трансформаторы так успешно справляются с разнообразным набором сложных задач.
“Мозг намного превосходит даже самые лучшие искусственные нейронные сети, которые мы разработали, но на самом деле мы точно не знаем, как работает мозг. Размышления о связях между биологическим оборудованием и крупномасштабными сетями искусственного интеллекта имеют научную ценность. Это нейробиология для искусственного интеллекта и искусственный интеллект для нейронауки”, – говорит Дмитрий Кротов, научный сотрудник лаборатории искусственного интеллекта MIT-IBM Watson и старший автор исследовательской статьи.
К Кротову в работе присоединились ведущий автор Лео Козачков, постдок факультета мозга и когнитивных наук Массачусетского технологического института; и Ксения В. Кастаненко, доцент кафедры нейробиологии Гарвардской медицинской школы и помощник исследователя Массачусетского института общих исследований.
Биологическая невозможность становится правдоподобной
Трансформаторы работают иначе, чем другие модели нейронных сетей. Например, рекуррентная нейронная сеть, обученная обработке естественного языка, сравнивала бы каждое слово в предложении с внутренним состоянием, определяемым предыдущими словами. Преобразователь, с другой стороны, сравнивает все слова в предложении одновременно, чтобы сгенерировать прогноз – процесс, называемый самонаблюдением.
Кротов объясняет, что для того, чтобы сработало самовнимание, трансформатор должен сохранять все слова наготове в той или иной форме памяти, но это казалось биологически невозможным из-за способа взаимодействия нейронов.
Однако несколько лет назад ученые, изучавшие несколько иной тип модели машинного обучения (известной как плотная ассоциированная память), поняли, что этот механизм самонаблюдения может возникать в мозге, но только в том случае, если существует связь по крайней мере между тремя нейронами.
“Цифра три действительно показалась мне неожиданной, потому что в неврологии известно, что эти клетки, называемые астроцитами, которые не являются нейронами, образуют трехсторонние связи с нейронами, так называемые трехсторонние синапсы”, – говорит Козачков.
Когда два нейрона взаимодействуют, пресинаптический нейрон посылает химические вещества, называемые нейромедиаторами, через синапс, который соединяет его с постсинаптическим нейроном. Иногда подключается и астроцит — он обвивает синапс длинным тонким щупальцем, создавая трехсторонний синапс. Один астроцит может образовывать миллионы трехсторонних синапсов.
Астроцит собирает некоторые нейромедиаторы, которые проходят через синаптическое соединение. В какой-то момент астроцит может подать ответный сигнал нейронам. Поскольку астроциты функционируют в гораздо более длительном масштабе времени, чем нейроны, — они создают сигналы, медленно повышая свою кальциевую реакцию, а затем снижая ее, — эти клетки могут удерживать и интегрировать информацию, поступающую к ним от нейронов. Таким образом, астроциты могут образовывать своего рода буфер памяти, говорит Кротов.
“Если вы подумаете об этом с этой точки зрения, то астроциты чрезвычайно естественны именно для тех вычислений, которые нам необходимы для выполнения операции внимания внутри трансформаторов”, – добавляет он.
Построение нейронно-астроцитарной сети
Исходя из этого, исследователи сформировали свою гипотезу о том, что астроциты могут играть определенную роль в том, как трансформаторы вычисляют. Затем они приступили к построению математической модели нейронно-астроцитарной сети, которая работала бы подобно трансформатору.
Они взяли основные математические основы, из которых состоит трансформатор, и разработали простые биофизические модели того, что делают астроциты и нейроны, когда они взаимодействуют в мозге, основываясь на глубоком изучении литературы и рекомендациях сотрудников-нейробиологов.
Затем они определенным образом объединили модели, пока не пришли к уравнению нейронно-астроцитарной сети, которое описывает самонаблюдение трансформатора.
“Иногда мы обнаруживали, что определенные вещи, которые мы хотели бы видеть правдой, не могут быть правдоподобно реализованы. Итак, нам пришлось придумать обходные пути. В статье есть некоторые моменты, которые являются очень тщательным приближением архитектуры трансформатора, чтобы иметь возможность сопоставить ее биологически правдоподобным образом”, – говорит Козачков.
Проведя свой анализ, исследователи показали, что их биофизическая нейронно-астроцитарная сеть теоретически соответствует трансформатору. Кроме того, они провели численное моделирование, передавая изображения и абзацы текста моделям-трансформерам и сравнивая ответы с ответами их смоделированной нейронно-астроцитарной сети. Оба ответили на подсказки схожим образом, подтвердив свою теоретическую модель.
Следующим шагом для исследователей является переход от теории к практике. Они надеются сравнить предсказания модели с теми, которые наблюдались в биологических экспериментах, и использовать эти знания для уточнения — или, возможно, опровержения — своей гипотезы.
Кроме того, одним из следствий их исследования является то, что астроциты могут быть вовлечены в долговременную память, поскольку сеть должна хранить информацию, чтобы иметь возможность воздействовать на нее в будущем. По словам Кротова, дополнительные исследования могли бы углубить эту идею.
“По многим причинам астроциты чрезвычайно важны для познания и поведения, и они функционируют принципиально иначе, чем нейроны. Моя самая большая надежда на эту статью заключается в том, что она послужит катализатором целого ряда исследований в области вычислительной нейронауки, посвященных глиальным клеткам и, в частности, астроцитам”, – добавляет Козачков.