Материалы  подготовлены по результатам выполнения гранта РФФИ №16-29-04379
АВТОМАТИЧЕСКИЙ СИНТЕЗ СЦЕНАРИЕВ ПОХОДКИ РЕКОНФИГУРИРУЕМЫХ МЕХАТРОННО-МОДУЛЬНЫХ РОБОТОВ В МОДИФИКАЦИИ ШАГАЮЩЕЙ ПЛАТФОРМЫ

Привлекательность и функциональные возможности многозвенных реконфигурируемых роботов, концепция которых появилась и стала активно развиваться на рубеже XX-XXI веков, целиком и полностью определяются интеграцией известных принципов блочно-модульного построения сложных технических систем. Комплексное сочетание модульности механических конструкций, аппаратных средств и программно-алгоритмического обеспечения обусловливает потенциальные преимущества реконфигурируемых роботов, как нового класса электромеханических устройств, создаваемых на базе типовых мехатронных элементов и обладающих уникальным набором свойств, включая многофункциональность, повышенную проходимость и мобильность, надежность и самовосстанавливаемость, адаптивность кинематической структуры и ее оперативную модифицируемость в соответствии с особенностями прикладного применения и условиями внешней среды. Практическое воплощение подобного подхода связано с необходимостью решения ряда ключевых задач, среди которых одними из важнейших являются самообучение и автоматический синтез алгоритмов управления многозвенным мехатронно-модульным роботом для его конфигурации, синтезированной исходя из специфики текущей ситуации.

Особенности функционирования мехатронно-модульных реконфигурируемых роботов. Концепция построения мехатронных роботов с адаптивной кинематической структурой предполагает наличие однотипных модулей, объединяемых в единую многозвенную конструкцию. Типовые мехатронные модули включают в свой состав один и несколько двигателей с поворотными шарнирами и простейшими механическими передачами, интерфейсные площадки для обеспечения взаимного механического, электрического и информационного сопряжения, управляющий контроллер, различные виды датчиков и автономный источник питания. Подобная конструкция типовых модулей позволяет обеспечить их автоматическую стыковку и расстыковку для оперативного формирования необходимой конфигурации кинематической структуры робота в зависимости от целей и условий функционирования.

Несмотря на разнообразие предлагаемых вариантов типовых мехатронных модулей, подавляющее большинство разработчиков в приложении к задачам целенаправленного перемещения многозвенных роботов с адаптивной кинематической структурой рассматривает три основных модификации их возможной компоновки [1], показанные на рис. 1 - 4:

- с конфигурацией «колеса» для движения по поверхности ровного профиля;

- со змеевидной конфигурацией для движения в условиях ограниченного пространства;

- с конфигурацией шагающей платформы для движения по поверхностям переменного профиля в условиях сложных сцен с многочисленными препятствиями и неровностями.

а) б) в)
Рис. 1. Примеры различных конфигураций экспериментального образца многозвенного мехатронно-модульного робота с адаптивной кинематической структурой PolyBot(PARK, Xerox, USA): конфигурация типа «колесо» (а)), змеевидная конфигурация (б)), конфигурация шагающей платформы (в))
а) б) в)
Рис. 2. Примеры различных конфигураций экспериментального образца многозвенного мехатронно-модульного робота с адаптивной кинематической структуройCkBot(Modlab, UPenn, USA)
а) б) в)
г) д) е)
Рис. 3. Мехатронно-модульный реконфигурируемый робот с адаптивной кинематической структурой«АРАКС» (МТУ МИРЭА, Россия): компьютерные модели и макетный образец в змеевидной конфигурации ( а), г)), в конфигурации колеса ( б), д)) и в  конфигурации  шагающей платформы ( д, е))

Следует отметить, что управление такими роботами в змеевидной конфигурации и конфигурации колеса может осуществляться с помощью универсальных алгоритмов, обеспечивающих волнообразную повторяемость движений мехатронных модулей в составе единой кинематической цепи для ее целенаправленного перемещения [2].

Необходимость трансформации робота в конфигурацию шагающей платформы в общем случае обусловливается усложнением характера внешней среды и условий проходимости (Рис. 5). При этом, и число конечностей шагающей платформы, и количество входящих в них сочленений должно определяться исходя из анализа фактической обстановки с учетом величины преодолеваемых неровностей и препятствий, массогабаритных параметров полезной нагрузки и других факторов.

а) б)
в) г)
д) е)
Рис. 4. Примеры различных конфигураций экспериментального образца многозвенного мехатронно-модульного робота Polyрot(PARK, Xerox, USA)

Априорная неизвестность и множественность вариантов возможного построения кинематической схемы мехатронно-модульного робота в конфигурации шагающей платформы не позволяет обеспечить разработку требуемых сценариев походки и соответствующих алгоритмов управления.

Таким образом, становится очевидным, что проблемы управления реконфигурируемыми роботами в модификации шагающей платформы во многом связаны с организацией режима самообучения, направленного на автоматическое формирование сценариев походки для обоснованно выбранной кинематической схемы с установленным числом конечностей и их сочленений.

а) б)
Рис. 5. Трансформация мехатронно-модульного робота с адаптивной кинематической структурой в конфигурацию шагающей платформы при усложнении характера внешней среды и условий проходимости

Методы и технологии самообучения в интеллектуальных системах управления автономными роботами. Одна из ключевых проблем создания интеллектуальных систем управления автономными роботами и другими типами сложных динамических объектов, действующих в условиях неопределенности, связана с организацией режимов самообучения для приобретения новых знаний о закономерностях окружающего мира и правилах целесообразного поведения в тех или иных ситуациях.

Многообразие задач самообучения, актуальных для автономной робототехники [3], обусловливает необходимость поиска адекватных методов их решения. Следует отметить, что теория машинного обучения, как самостоятельный подраздел искусственного интеллекта, обладает достаточно обширным арсеналом специальных средств и методов [4]. Соответствующие технологии, основанные на использовании методов кластеризации, обучения с подкреплением, эволюционного и генетического программирования, регрессионного анализа, Байесовского обучения, деревьев и лесов классификации, роя частиц, самоорганизуемых нейронных сетей и др., находят свое практическое применение в целом ряде прикладных сфер, начиная от медицинской и технической диагностики, до компьютерной безопасности и распознавания образов.

Вместе с тем, результаты фундаментальных исследований в области интеллектуальных систем управления показывают, что некоторые из этих методов могут успешно использоваться для решения отдельных задач самообучения автономных роботов [5 - 14]. В том числе, привлечение методов эволюционного программирования позволяет обеспечить автоматический синтез алгоритмов управления движением мобильных платформ различных типов [5, 6]. В свою очередь, методы деревьев и лесов классификации служат эффективным инструментом самообучения автономных роботов, например для формирования знаний о проходимости разнородных участков маршрута движения в целях его оперативной корректировки с учетом минимизации «стоимостных» характеристик выбираемой траектории [3, 8].

Среди множества известных подходов к организации процессов самообучения определенный интерес и перспективы представляет аппарат специализированного класса конечных автоматов, главный принцип построения и функционирования которых связан со сменой состояния в зависимости от текущей глубины его хранения в памяти. Эта особенность, реализуемая тем или иным образом в автоматах подобной разновидности, позволяет обеспечить решение задач самообучения, нацеленных на выявление условий наиболее эффективного взаимодействия с внешней средой.

В классе самообучаемых автоматов с памятью можно выделить целый ряд характерных представителей. Одним из них является так называемый автомат Цетлина с линейной тактикой, диаграмма переходов которого представлена на рис. 6. На каждое выполняемое действие автомат получает ответную реакцию внешней среды в виде сигналов поощрения или штрафа. В случае положительного отклика текущее состояние автомата перезапоминается на следующем, более высоком уровне памяти. Получение отрицательного отклика обусловливает уменьшение глубины хранения текущего состояния или его кардинальную смену на самом нижнем уровне памяти.

Рис. 6. Диаграмма переходов автомата Цетлина с линейной тактикой

Таким образом конечный автомат данного типа можно интерпретировать как динамическую систему, которая под воздействием некоторой управляющей команды , поступающей на вход в дискретный момент времени t , изменяет свое текущее состояние x и уровень глубины j его запоминания в памяти на новое:

где f,h - функции переходов и выходов, задаваемые таблицей 1.

Следует отметить, что глубина памяти определяет инерционные свойства автомата, позволяющие сохранить приверженность к оптимальному действию даже при наличии отдельных отрицательных откликов на его выполнение. При этом, доказывается, что при достаточно больших значениях глубины памяти автомата, его поведение стремится к наилучшему [15, 16].

Доверчивый автомат Кринского по принципам своего построения и функционирования во многом аналогичен автомату Цетлина. Как показано на рис. 7 а), основное отличие заключается в переходе текущего состояния автомата на максимально глубокий уровень хранения при получении положительного отклика на выполненное действие.

В свою очередь автомат Роббинса отличается от доверчивого автомата Кринского механизмом кардинальной смены текущего состояния на новое с переходом из нижнего на самый высокий уровень памяти (Рис. 7 б)).

а) б)
Рис. 7. Диаграммы переходов доверчивого автомата Кринского (а)) и автомата Роббинса (б))

Также как и для автомата Цетлина, для автоматов Кринского и Роббинса, функции переходов и выходов которых представлены соответственно в таблицах 2, 3, строго доказывается, что их поведение в любых стационарных средах является целесообразным.


Автоматическое формированиясценария походки реконфигурируемого мехатронно-модульного робота в конфигурации шагающей платформы. Один из вариантов постановки рассматриваемой задачи по автоматизации синтеза сценариев походки шагающей платформы может быть получен исходя из ее интерпретации с позиций принципов построения и функционирования саморганизуемых конечных автоматов, в которых смена текущего состояния осуществляется в зависимости от глубины его хранения в памяти с учетом реакции внешней среды в виде приходящих сигналов поощрения или штрафа.

В данном контексте совокупность взаимосвязанных состояний на разных глубинах памяти автомата следует трактовать как последовательность возможных действий, выполняемых в рамках той или иной походки.

В качестве допущения будем считать, что искомые сценарии походки должны соответствовать некоторому циклическому процессу, в течение которого часть конечностей находится в движении, а часть выполняет роль статической опоры. Таким требованиям в полной мере удовлетворяет наиболее простой и надежный вариант так называемой «осторожной» походки, когда на каждом этапе движения перемещается только одна конечность.

В этом случае потеря или сохранение устойчивости шагающей платформы могут рассматриваться в качестве критериев отбора подходящего сценария походки в процессе ее автоматизированного синтеза.

Очевидное упрощение задачи, решаемой на основе применения аппарата самоорганизуемых конечных автоматов, заключается в ее декомпозиции на два этапа, связанных соответственно с формированием последовательности движения сочленений по перестановке отдельной конечности и порядка выполнения шагов, необходимых для перемещения платформы.

Использование подобных представлений позволяет полностью определить структуру автоматов, задающих многообразие сценариев походки в качестве множества сочетаний возможных действий по их реализации.

Так, типовой сценарий, регламентирующий перестановку конечности в ходе выполнения очередного шага, может быть представлен в виде последовательности элементарных поворотов ее сочленений на априорно заданную величину отрабатываемого угла Δ. Таким образом, задача автоматического синтеза сценария перестановки конечности сводится к комбинаторной постановке, допускающей применение аппарата самоорганизуемых конечных автоматов для поиска необходимого решения.

Обобщенная структура самоорганизуемого конечного автомата, обеспечивающего поиск последовательности элементарных поворотов, приводящих конфигурацию сочленений конечности из известного начального до некоторого целевого состояния опоры, показана на рис. 8.

Условно, данный автомат разделим на уровни, в каждом из которых обобщенные совершается одно элементарное действие: обобщенные координаты конечности либо изменяются на величину Δ (как в отрицательном, так и в положительном направлении), либо остаются неизменными. Тогда количество состояний SLiв i-ом уровне будет определяться по формуле:

где N – количество сочленений в конечности; L - количество уровней, рассчитываемое по формуле:

где qmin и qmax – минимально и максимально возможные углы в сочленении.

Тогда, общее количество состояний автомата не превышает величины S1:

В качестве критерия отбора искомого решения может использоваться условие соответствия текущей конфигурации сочленений конечности состоянию опоры. (Рис. 9): При этом, как показано на рис. 9, текущее положение конечности Р по отношению к опорной поверхности не должно превышать заданного уровня ε:

где

qi = кiΔ, (i = 1, 2,…, N) – обобщенные координаты конечности;

кi– коэффициент пропорциональности, определяемый самоорганизуемым автоматом в процессе его функционирования;

N– количество сочленений в составе конечности;

F – функция связи обобщенных и декартовых координат конечности.


Рис. 8. Обобщенная структура самоорганизуемого автомата для формирования сценария перестановки конечности шагающей платформы

а) б)
Рис. 9. Оценка соответствия текущей конфигурации конечности (а) состоянию опоры (б)

Важно отметить, что выбор значений априорно задаваемых величин угла элементарного поворота отдельного сочленения конечности Δ, а так же условия соответствия ее текущей конфигурации состоянию опоры ε должен существенно сказываться не только на времени поиска подходящих сценариев, но и на динамике движения шагающей платформы.

Так, увеличение этих параметров должно приводить к сокращению продолжительности поиска, но к ухудшению динамики движения в смысле значительного увеличения амплитуды колебаний центра масс платформы в вертикальной плоскости.

И наоборот, уменьшение значений угла элементарного поворота Δ, а так же допустимого превышения конечности над опорной поверхностью ε должно в общем случае обусловливать увеличение продолжительности поиска при одновременном улучшении динамики движения с уменьшением амплитуды колебаний центра масс шагающей платформы.

Собственно сценарий походки должен регламентировать порядок перестановки конечностей шагающей платформы в процессе ее движения.

Структура самоорганизуемого конечного автомата, обеспечивающего автоматическое формирование последовательности перестановки конечностей для четырехногой шагающей платформы (взятой в качестве примера), представлена на рис. 10.

Следует отметить, что состояния S2 этого автомата определяются множеством вариантов перестановки конечностей в соответствии с концепцией «осторожной» походки:

S2 = K! ,

где K - количество конечностей.

Для получения всех возможных вариантов «осторожной» походки можно использовать один из известных комбинаторных алгоритмов генерации перестановок.

Рис. 10. Обобщенная структура самоорганизуемого конечного автомата для формирования последовательности перестановки конечностей


В свою очередь, переходы между отдельными состояниями фактически задаются прин-ципами построения и функционирования самоорганизуемых автоматов с учетом поступаю-щих входных сигналов штрафа или поощрения в зависимости от потери или сохранения устойчивости платформы. При этом, необходимая оценка устойчивости может определяться либо на программно-алгоритмическом уровне путем непосредственного расчета условий попадания (или не попадания) проекции центра тяжести платформы в зону площади опоры, либо в процессе и по результатам виртуального моделирования, проводимого с учетом основных законов ньютоновской физики.

Для платформы с четырьмя конечностями, приведенной для примера на рис. 11 а), не все варианты осторожной походки являются равнозначными с точки зрения поддержания устойчивости. Так, при последовательном перемещении конечностей по схеме «1-2-3-4» из-менение положения центра тяжести платформы на стадии выполнения 1 шага, приводит к ее опрокидыванию (Рис. 11 а)-з)). В то же время, другой вариант походки с перемещением ко-нечностей по схеме «4-3-1-2» позволяет сохранить устойчивость шагающей платформы в процессе ее движения (Рис. 12 а)-з)).

а) б) в) г)
д) е) ж) з)
Рис. 11. Моделирование движения шагающей платформы по принципу «осторожной походки» по схеме «1-2-3-4», при которой происходит потеря устойчивости
а) б) в) г)
д) е) ж) з)
Рис. 12. Моделирование движения шагающей платформы по принципу «осторожной походки» по схеме «4-3-1-2», при которой не происходит потеря устойчивости

Проведенная серия модельных экспериментов, фрагменты которых представлены на рис. 13, убедительно свидетельствует о возможности и эффективности использования предложенного подхода для автоматического формирования сценариев походки мехатронно-модульных реконфигурируемых роботов.

Полученные экспериментальные результаты, приведенные в таблицах 4, 5 и Рис 14 (а, б) подтверждают, как само существование, так и совпадение ожидаемого и фактического характера зависимостей продолжительности поиска сценариев походки и амплитуды колебаний центра масс шагающей платформы от значений угла элементарного поворота Δ сочленений конечности, а так же допустимого превышения ее положения  над опорной поверхностью.

а) б) в)
г) д) е)
ж) з) и)
Рис. 13. Фрагменты моделирования движений шагающей платформы на основе обобщенного сценария, синтезированного в автоматическом режиме с использованием аппарата самоорганизуемых конечных автоматов

а) б)
Рис. 14. Экспериментальные результаты: а) зависимость амплитуды колебаний центра масс от величин зазора и угла дискретизации б) зависимость среднего времени обучения от величин угла дискретизации и зазора

Заключение. Развитие технологий самообучения, основанных на современных методах обработки машинных форм представления знаний, открывает широкие перспективы как для автоматизации синтеза и настройки интеллектуальных систем управления, так и для совершенствования их функциональных и адаптационных возможностей на основе анализа и обобщения результатов своей работы в процессе штатной эксплуатации. Подобные постановки, представляют крайнюю актуальность для принципиально различных приложений – от интеллектуальных систем управления приводами, до автономных робототехнических систем, способных адаптировать свои моторно-двигательные, поведенческие и кооперативно-поведенческие функции к априорно непредусмотренным условиям внешней обстановки.

Материалы настоящей статьи наглядно свидетельствуют о возможности разработки и целесообразности привлечения средств самообучения, основанных на применении аппарата конечных автоматов для автоматизации синтеза сценариев походки автономных мехатронно-модульных реконфигурируемых роботов в модификации шагающей платформы. Существуют и другие подходы к решению этой задачи, связанные, например, с применением генетических алгоритмов и методов эволюционного программирования [5, 6].

Разработка перспективных образцов автономных роботов различных типов и назначения, обладающих развитыми адаптационными возможностями, в том числе за счет реконфигурируемости своей структуры, предполагает необходимость их оснащения эффективными средствами самообучения.

В этой связи первоочередные планы продолжения начатых исследований предполагают проведение сравнительного анализа по оценке эффективности применения генетических алгоритмов и аппарата самоорганизуемых конечных автоматов для автоматического формирования сценариев целесообразного поведения и алгоритмов управления автономных реконфигурируемых роботов.

Список литературы:
1.    Макаров И.М., Лохин В.М., Манько С.В. и др. Многозвенные мехатронно-модульные роботы с адаптивной кинематической структурой / Мехатроника, автоматизация, управление №11, 2006
2.    Макаров И.М., Лохин В.М., Манько С.В. и др.  Управление движением мехатронно-модульных роботов с адаптивной кинематической структурой / Мехатроника, автоматизация, управление №3, 2008
3.    Лохин В.М., Манько С.В., Диане С.А.К., Панин А. С., Александрова Р.И. Механизмы интеллектуальных обратных связей, обработки знаний и самообучения в системах управления автономными роботами и мультиагентными робототехническими группировками / Мехатроника, автоматизация, управление №8. Том 16. 2015
4.    Николаенко С.Н., Тулупьев А.Л. Самообучающиеся системы. – М.: МЦНМО, 2009
5.    Макаров И.М., Лохин В.М., Манько С.В., Кадочников М.В., Ситников М.С. Использование генетических алгоритмов для автоматического формирования базы знаний интеллектуальной системы управления автономным мобильным роботом / Мехатроника, автоматизация, управление №6, 2008
6.    Макаров И.М., Лохин В.М., Манько С.В., Кадочников М.В., Востриков Г. С. Использование генетических алгоритмов в задачах автоматического обучения и самоорганизации интеллектуальных робототехнических систем / Мехатроника, автоматизация, управление №9, 2008
7.    Макаров И.М., Лохин В.М., Манько С.В., Романов М.П. и др. Автоматизация синтеза и обучение интеллектуальных систем управления - М.: Наука, 2009
8.    Лохин В.М., Манько С.В., Диане С.А.К., Панин А.С., Александрова Р.И. Механизмы самообучения в мультиагентных робототехнических группировках на основе эволюционного леса деревьев классификации / Мехатроника, автоматизация, управление №3. Том 18. 2017
9.    Risto Kojcev, Nora Etxezarreta, Alejandro Hernandez and Vıctor Mayoral. Evaluation of Deep Reinforcement learning Methods for Modular Robots. ICLR 2018.
10.    Massimiliano D’Angelo, Berend Weel and A.E. Eiben. Online Gait Learning for Modular Robots with Arbitrary Shapes and Sizes. TPNC 2013, LNCS 8273, pp. 45–56, 2013.
11.    Varshavskaya, P., Kaelbling, L.P., & Rus, D. (2004). Learning distributed control for modular robots. 2004 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), 3, 2648-2653 vol.3.
12.    J. Zhang, J.T. Springenberg, J. Boedecker, W. Burgard, Deep reinforcement learning with successor features for navigation across similar environments, 2016.
13.    V. Mnih, A.P. Badia, M. Mirza, A. Graves, T.P. Lillicrap, T. Harley, D. Silver, K. Kavukcuoglu, "Asynchronous methods for deep reinforcement learning", International Conference on Machine Learning, 2016.
14.    E. Yoshida, S. Murata, A. Kamimura, K. Tomita, H. Kurokawa, S. Kokaji, "Evolutionary Synthesis of Dynamic Motion and Reconfiguration Process for a Modular Robot M-TRAN", Proceedings 2003 International Symposium on Computational Intelligence in Robotics and Automation, pp. 1004-1010, 2003.
15.    Demin A.V., Vityaev E.E. (2018) Adaptive Control of Modular Robots. In: Samsonovich A., Klimov V. (eds) Biologically Inspired Cognitive Architectures (BICA) for Young Scientists. BICA 2017. Advances in Intelligent Systems and Computing, vol 636. Springer, Cham
16.    Цетлин М. Л., Исследования по теории автоматов и моделированию биологических систем. – М.: Наука, 1969, 316 стр.
17.    Варшавский В.И., Поспелов Д.А. Оркестр играет без дирижера: размышления об эволюции некоторых технических систем и управления ими. – М.: Наука, 1984. – 208 с.


References:

1.    I. M. Makarov, V. M. Lokhin, S. V. Manko and others Multilink Mechatronic Modular Robots with Adaptive Kinematic Structure / Mechatronics, Automation, Control №11, 2006
2.    I. M. Makarov, V. M. Lokhin, S. V. Manko, and others. Motion Control of Mechatronic Modular Robots with Adaptive Kinematic Structure / Mechatronics, Automation, Control №3, 2008
3.    Lokhin V. M., Manko S. V., Diane S. A. K., Panin A. S., Alexandrova R. I. Mechanisms of Intellectual Feedbacks, Knowledge Processing and Self-Learning In Control Systems of Autonomous Robots and Multiagent Robotic Groups / Mechatronics, Automation, Control №8. Volume 16. 2015.
4.    Nikolayenko S. N., Tulupyev A. L. Self-Learning Systems. – Moscow: MTSNMO Publ, 2009
5.    Makarov I. M., Lokhin V. M., Manko S. V., Kadochnikov M. V., Sitnikov M. S. use of genetic algorithms for automatic knowledge base formation of intelligent control system for Autonomous mobile robot / Mechatronics, Automation, Control №6, 2008
6.    Makarov I. M., Lokhin V. M., Manko S. V., Kadochnikov M. V., Vostrikov G. S. The Use of Genetic Algorithms in the Problems of Automatic Learning and Self-Organization of Intelligent Robotic Systems / Mechatronics, Automation, Control l № 9, 2008
7.    I. M. Makarov, V. M. Lokhin, S. V. man'ko, M. P. Romanov, and others. Automation of the Synthesis and the Learning of Intelligent Control Systems, M.: Nauka Publ, 2009
8.    Lokhin V. M., Manko S. V., Diane S. A. K., Panin A. S., Aleksandrova R. I. Self-Learning Mechanisms in Multiagent Robotic Groups Based on Evolutionary Tree Forest Classification / Mechatronics, Automation, Control №3. Volume 18. 2017
9.    Risto Kojcev, Nora Etxezarreta, Alejandro Hernandez and Vıctor Mayoral. Evaluation of Deep Reinforcement learning Methods for Modular Robots. ICLR 2018.
10.    Massimiliano D’Angelo, Berend Weel and A.E. Eiben. Online Gait Learning for Modular Robots with Arbitrary Shapes and Sizes. TPNC 2013, LNCS 8273, pp. 45–56, 2013.
11.    Varshavskaya, P., Kaelbling, L.P., & Rus, D. (2004). Learning distributed control for modular robots. 2004 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), 3, 2648-2653 vol.3.
12.    J. Zhang, J.T. Springenberg, J. Boedecker, W. Burgard, Deep reinforcement learning with successor features for navigation across similar environments, 2016.
13.    V. Mnih, A.P. Badia, M. Mirza, A. Graves, T.P. Lillicrap, T. Harley, D. Silver, K. Kavukcuoglu, "Asynchronous methods for deep reinforcement learning", International Conference on Machine Learning, 2016.
14.    E. Yoshida, S. Murata, A. Kamimura, K. Tomita, H. Kurokawa, S. Kokaji, "Evolutionary Synthesis of Dynamic Motion and Reconfiguration Process for a Modular Robot M-TRAN", Proceedings 2003 International Symposium on Computational Intelligence in Robotics and Automation, pp. 1004-1010, 2003.
15.    Demin A.V., Vityaev E.E. (2018) Adaptive Control of Modular Robots. In: Samsonovich A., Klimov V. (eds) Biologically Inspired Cognitive Architectures (BICA) for Young Scientists. BICA 2017. Advances in Intelligent Systems and Computing, vol 636. Springer, Cham
16.    Cetlin M. L., Studies on the Theory of Automata and Modeling of Biological Systems. - Moscow: Science Publ, 1969.
17.    Varshavsky V. I., Pospelov D. A. the Orchestra Plays without a Conductor: Reflections on the Evolution and Control of Some Technical Systems. - Moscow: Science Publ, 1984.
Об авторах:
Манько Сергей Викторович, доктор технических наук, профессор, кафедра проблем управления Института кибернетики «Московский технологический университет» (119454, Россия, Москва, пр-т Вернадского, д. 78).
Шестаков Евгений Игоревич, аспирант кафедры проблем управления Института кибернетики «Московский технологический университет» (119454, Россия, Москва, пр-т Вернадского, д. 78).
About authors:
Sergey V. Manko, Dr.Sc. (Engineering), Professor, Chair of control problems, Institute of Cyber-netics Moscow Technological University (78, Vernadskogo Pr., Moscow 119454, Russia).
Evgeny I. Shestakov, Postgraduate Student, Chair of control problems, Institute of Cybernetics Moscow Technological University (78, Vernadskogo Pr., Moscow 119454, Russia).







Автор, с которым следует вести переговоры по вопросу публикации:
Шестаков Евгений Игоревич, Этот адрес электронной почты защищен от спам-ботов. У вас должен быть включен JavaScript для просмотра. , +7 903 745 8293