Сергей Карелов: Почему ИИ развивается в неверном направлении

И что нужно менять в этой связи.

Дискуссии о том, что развитие ИИ идет не туда, становятся все более активными и авторитетными. Все больше исследователей разделяют мысль, что глубокое обучение, хоть и эффективно для узких практик, но бесполезно для реализации универсального механизма когнитивных функций типа биологического разума. И уже нет большой надежды, что, идя по этому направлению, что-то кардинально изменится.

Критики магистрального направления развития ИИ предостаточно.

Но что же взамен? Какие альтернативы?

Источник: https://ieeetv.ieee.org/mobile/video/voicehd-hyperdimensional-computing-for-efficient-speech-recognition-ieee-rebooting-computing-2017

Апологеты существующей парадигмы ИИ, в авангарде которых, естественно, ее главные выгодоприобретатели – крупный бизнес, пока успешно отбиваются от нападок. Так и так, мол, мы ищем альтернативные пути, но реальных практических альтернатив пока нет.

А ведь это не так. Альтернативы есть.

И чтоб не сотрясать голословно воздух, вот конкретный пример потенциальной смены парадигмы –

ИИ на основе активного восприятия (“active perception”)

Это совершенно иной тип интеллекта, нежели ИИ в современной парадигме. Его принципиальная новизна в интеграции восприятия и действия.

При активном восприятии поведение агентов направлено на увеличение информационного содержания, получаемого из потока сенсорных данных в результате поведения агентов в конкретной среде.

Иными словами, чтобы понять мир, мы перемещаемся и исследуем его. Мы исследуем мир глазами, ушами, носом, кожей и языком, исследуя и конструируя свое понимание (восприятие) окружающей среды на основе своего поведения (действий).

Восприятие может быть основана на какой-угодно сенсорной информации (зрительной, слуховой, обонятельной и т.д.) об объектах окружающей среды, представляющих собой образы (визуальные, слуховые и т.д.) или коды (тексты, последовательности ДНК и т.д.).

Действие также может быть каким-угодно: движение, распознавание, классификация и т.д.)

Целью интеграции восприятия и действия является достижениепонимания со стороны ИИ стоящих перед ним задач и выбора способа их решения на основе этого понимания.

Способом достижения названной цели является формирование у ИИ в ходе его постоянного обучения памяти и рефлексов.

Пример

Например, если сегодняшний традиционный ИИ используется для управления роботом или самоуправляемым авто, в нем работают три отдельные системы:

датчики информации (сенсоры) об окружающей среде (включая собственное положение);

исполнительные механизмы, которые перемещают робота/авто, а также управляют (механически, электрически, пневматически …) его собственной инфраструктурой;

центральный обучающийся механизм, который определяет необходимое действие с учетом данных датчиков или наоборот.

Эти три системы «говорят» на разных языках и ни одна из них, в реальности, не знает, как выглядит машина, человек, велосипед, собака … и потому просто не может их видеть, а лишь отрабатывает реакции на паттерны, сформированные в процессе глубокого обучения.

При активном восприятии все совсем иначе.

Активный воспринимающий ИИ:

Знает, почему и зачем он хочет получить от сенсоров ту или иную информацию.

В соответствии с этим, он выбирает, что он будет воспринимать, и определяет, как, когда и где достичь этого восприятия.

В итоге, он выбирает и фиксирует сцены, моменты времени и эпизоды.

Затем он балансирует свои механизмы, датчики и другие компоненты, помогая себе увидеть то, что он хочет видеть, и выбирая точки обзора, с которых лучше всего это увидеть так, как ему требуется.

Звучит весьма заманчиво.
Но как можно реализовать подобное активное восприятие на практике?

Ответ на этот вопрос есть. Вполне практический и уже экспериментально опробованный – нужно сменить метод вычислений на

Гиперразмерные вычисления

За полвека существования ИИ для его реализации использовались два метода вычислений: символический и искусственные нейронные сети. Ни тот, ни другой метод не позволяет на практике реализовать активное восприятие: получается настолько медленно и неэффективно, что не помогает даже самое мощное вычислительное оборудование.

Но есть 3й – промежуточный путь между символическим вычислением и вычислением с помощью искусственных нейронных сетей. Это гиперразмерные вычисления (Hyperdimensional Computing), оперирующие с гиперразмерными двоичными векторами (HBV – Hyperdimensional Binary Vectors).

Источник: https://ieeetv.ieee.org/mobile/video/voicehd-hyperdimensional-computing-for-efficient-speech-recognition-ieee-rebooting-computing-2017

Традиционные вычисления рассматривают биты, числа и указатели памяти как базовые объекты, на которых построено все остальное. В гиперразмерных вычислениях базовыми объектами являются операции с многомерными векторами, например, с 10 000-битными словами.

При этом:

ни один отдельный бит или подмножество битов не имеют собственного значения;

любая часть информации, закодированная в вектор, распределена по всем компонентам (чем-то это похоже на Блокчейн);

В итоге, традиционная запись данных, разделенная на поля, кодируется как многомерный вектор с наложенными полями.

Вместо Булевой алгебры традиционных вычислений здесь используется иная алгебраическая структура, называемая “полем” (Field).

Две операции над многомерными векторами соответствуют сложению и умножению чисел. Добавляя 3ю операцию – перестановку координат

-получаем систему вычислений, которая в некотором роде богаче и мощнее арифметики, а также отличается от линейной алгебры.

Эти три операции, применяемые к ортогональным или почти ортогональным векторам, позволяют кодировать, декодировать и манипулировать наборами, последовательностями, списками и произвольными структурами данных гипер-высоких размерностей (более 10 тыс.) Одна из причин высокой размерности заключается в том, что она обеспечивается бесконечным запасом почти ортогональных векторов. Получается это за счет того, что каждый новый случайно сгенерированный вектор почти ортогонален любому уже сгенерированному вектору.

Помимо вычислительного устройства архитектура гиперразмерных вычислений включает в себя память, которая, будучи вызвана многомерным вектором, находит своих ближайших соседей среди сохраненных векторов. Похожим на это примером может служить работа ассоциативной памяти нейронной сети.

Теперь хотелось бы понять –

Какими новыми универсальными когнитивными функциями обладает ИИ активного восприятия

В ИИ активного восприятия возможности действий, сенсорного ввода и управляющая информация

занимают одно и то же пространство,

«говорят» на одном языке

и сливаются воедино,

как бы создавая своего рода память для такого ИИ. Гиперразмерная структура может превратить любую последовательность воспринимаемых «сенсорных моментов» в новые HBV и сгруппировать существующие HBV вместе, – все с одинаковой длиной вектора.

Это естественный способ создания семантически значимых «воспоминаний». Кодирование все большего количества информации, в свою очередь, приводит к векторам «истории» и способности их запоминать.

Сигналы становятся векторами, индексирование переводится в память, а обучение происходит посредством кластеризации. Воспоминания ИИ о том, что он почувствовал и сделал в прошлом, могут заставить его ожидать будущего восприятия и влиять на его будущие действия (вырабатывая что-то типа рефлексов). Такое активное восприятие позволит ИИ стать более автономным и лучше выполнять задачи.

Получается почти как у биологического интеллекта. Просто дух захватывает.

Только один вопрос -

Почему же такой замечательный ИИ еще не сделали?

Вопрос резонный. Гиперразмерные вычисления придумали совсем не вчера.

Но проблема была в том, что не могли придумать практически реализуемый способ интеграции восприятия ИИ с его действиями, с которым можно реально экспериментировать не в теории, а в деле.

Иными словами, было не ясно, что использовать на входе для кодирования гиперразмерных векторов.

И вот, наконец, придумали решение этой задачи для самой, пожалуй, актуальной задачи робототехники и самоуправляемых авто – активное восприятие движения.

Секрет оказался в использовании зрительных сенсоров принципиально иного типа -

Датчики динамического зрения

Использование датчиков динамического зрения (DVS) вместо обычных камер было ключевым компонентом проверки работоспособности теории гиперразмерных вычислений. Большинство методов компьютерного зрения используют изображения, качество которых определяется плотностью пикселей.

Плотность пикселей хорошо отражает моменты во времени, но не идеальна для представления движения, потому что движение – это непрерывный объект. А датчики динамического зрения (DVS) фиксируют не изображение, а как раз этот непрерывный объект. DVS не «делает снимки» в обычном смысле, а фиксирует движение в виде «потока событий», фокусируясь на границах объектов при их движении. За счет этого визуализация DVS куда лучше подходит для наблюдения движения со стороны ИИ активного восприятия.

Вдохновленный зрением млекопитающих, DVS поддерживает широкий спектр условий освещения, от темного до яркого, и допускает фиксацию даже очень быстрого движение в условиях множества шумов.

Но главное – это то, что данные, которые накапливает DVS, намного лучше подходят для интегрированной среды теории гиперразмерных вычислений, поскольку данных от DVS намного меньше, чем от последовательности изображений.

Резюме

ИИ активного восприятия на основе гиперразмерных вычислений и датчиков динамического зрения способен сменить существующую ИИ парадигму за счет того, что:

у ИИ формируются воспоминания о том, что он почувствовал и сделал в прошлом;

эти воспоминания могут заставить его ожидать будущего восприятия и влиять на его будущие действия (рефлексы);

такое активное восприятие позволит ИИ стать более автономным и выполнять универсальные классы задач, выходящие за рамки робототехники и самоуправляемых авто.

Если все так замечательно, почему же Google и Со. этого еще не делают?

Первый ответ, как в Одессе, – вопросом на вопрос: а вы уверены, что не делают? Дело ведь архисекретное. Тот, кто сделает первым, возьмет банк.

А второй ответ практический.

Написание операционной системы для гиперразмерных вычислений – задачка будь здоров. А без нее все будет оставаться на уровне академических экспериментов.

И последнее.

Ключом к новой ИИ парадигме оказывается математика.

Как хорошо сказал «отец» гиперразмерных вычислений Пентти Канерва (Pentti Kanerva)

«Математики гиперразмерных репрезентаций, точно, не хватит для объяснения работы мозга. Но этот подход может помочь вымостить путь к более комплексным моделям, основанным на более глубокой математике. Проблема заключается в нахождении математических систем, еще более точно отражающих поведение когнитивных систем, которые мы хотим понять. Будем надеяться, что найдутся математики, готовые погрузиться в решение этой проблемы и указать нам правильный путь».

Дополнительные материалы.

• Только что опубликованная работа «Learning sensorimotor control with neuromorphic sensors: Toward hyperdimensional active perception« о реализации ИИ активного восприятия на основе гиперразмерных вычислений и датчиков динамического зрения.

Базовая работа «отца» гиперразмерных вычислений Пентти Канерва «Hyperdimensional Computing: An Introduction to Computing in Distributed Representation with High-Dimensional Random Vectors« и его видео-лекция Computing with High-Dimensional Vectors

Как работают гиперразмерные вычисления для разных ИИ применений в видео-лекции Hyperdimensional Computing for Efficient Speech Recognition

Профиль автора в соцсети: https://zen.yandex.ru/id/5a3bc6e5256d5ca91fc90afe