суббота, 2 февраля 2013 г.

решение задач динамического программирования гольдштейн

445 b.Название Дата конвертации09.10.2012Размер445 b.Тип Нейро-Динамическое Программирование Автономных Агентов Как обучаемые агенты решают задачи оптимизации План Введение: Cистемы с динамически-оптимальным управлением Классическая задача оптимизации с ограничениями Управляемая оптимальная динамика Программное управление Прогностическое управление на основе нейросетевой модели системы Нейро-динамическое программирование Марковский процесс принятия решения Уравнение Беллмана Игровая стратегия и оценка позиции Нейросетевая аппроксимация функции ценности Алгоритм SARSA и Q-обучение Примеры прикладных разработок Динамическое управление портфелем финансовых активов Динамическое резервирование каналов сети сотовой связи. Рациональное ведение хозяйства Формально сводится к определению оптимального варианта решения в текущих условиях Наибольший прогресс в математических методах достигнут при рассмотрении статических задач решение принимается ЂЂЂодномоментноЂЂЂ оптимизируемой функцией является оценка последствий выполнения такого решения. Поиска оптимума в многошаговых задачах Предмет лекции: системы, в которых решение принимается поэтапно. Оптимальным должен быть весь многоэтапный процесс смены состояний системы! Многоэтапные задачи - 1 Менеджмент проекта. Real options. Управление оптовыми закупками в торговых сетях с учетом будущих потребностей. Управление динамикой инвестиционного портфеля. Управляющие воздействия состоят в покупке и продаже некоторых активов портфеля с целью достижения выбранного критерия эффективности. Многоэтапные задачи - 2 Динамическое планирование загрузки каналов сети сотовой связи (обеспечение качественного сервиса для максимального числа пользователей при заданном диапазоне выделенных частот). Поиск информации в распределенной сети хранилищ. Одновременно с задачей поиска может решаться задача динамического оптимального размещения информации в сети. Динамическое составление расписаний (динамическое назначение пилотов на рейсы в крупных авиакомпаниях). Многоэтапные задачи - 3 ЂЂЂПроблемныеЂЂЂ задачи: обучение в многошаговых играх адаптивное управление в распределенных и автономных системах активное обучение (обучение агента, сопровождающееся активным отбором информации для дальнейшего обучения) адаптация робота в сложной окружающей среде. Классическая задача оптимизации с ограничениями Исследуемая система описывается набором переменных, включающим переменные состояния и переменные, описывающие возможные целенаправленные изменения (управления) в системе. Определена функция ценности (цели), которую желательно максимизировать, заданы ограничения. В классической постановке эта оптимизация целиком выполняется во временной точке, без учета характера последующей динамики системы. В результате применения управлений система сразу переходит в окончательное состояние, которое и оценивается целевой функцией Классическая задача оптимизации с ограничениями Постановка задачи: Линейная Оптимизация Леонид Витальевич Канторович ЂЂЂЭкономический расчет наилучшего использования ресурсо Ђ (1939) George Dantzig ЂЂЂ симплекс-метод (1963) Динамическая Оптимизация Функция ценности меняется во времени Функция ценности доступна не для всех значений аргументов Функция ценности зависит от принятых решений Цель ЂЂЂ найти оптимальную последовательность решений Программное управление Постановка задачи: Прогностическое управление на основе (нейросетевой) модели динамики системы Логика алгоритмов MPC - 1 Нейронная сеть обучается на исторических данных и данных, полученных в результате испытаний управляемой системы в условиях программного управления. После обучения, нейронная сеть может использоваться для предсказания динамики системы при заданном законе управления на N последовательных шагов по времени (горизонт прогнозирования). На каждом шаге управления новое состояние системы измеряется в петле обратной связи. Логика алгоритмов MPC - 2 Управляющие воздействия на последующих M шагах рассматриваются как неизвестные переменные . Набор этих переменных вместе с нейросетевой моделью отклика системы синтезируют теоретическую траекторию изменения состояния системы. Оптимальные значения управляющих переменных далее определяются итерационно путем минимизацией стоимости прогнозируемой траектории. Только первое управляющее действие (из N последовательных значений управления) фактически применяется к управляемой системе. Далее алгоритм тогда повторяется для следующего шага. Типы задач в подходе MPC Адаптивное управление, при котором состояние управляемой системы следует заданной траектории. Целевая функция штрафует отклонение теоретической траектории от желательной траектории. Оптимальное управление ЂЂЂ нахождение траектории системы, ведущей к указанному множеству конечных состояний, вдоль которой стоимость управления минимальна. Стоимость может включать как прямые материальные затраты, так и косвенные требования к управлению (технологическое качество кривой управления, стоимость модификации управляющей системы, робастность, и т.д.). Методологические проблемы MPC Необходимость наличия адекватной математической модели управляемого объекта. В некоторых важных приложениях математической модели системы может и не быть, либо ее использование требует неприемлемых вычислительных ресурсов. Поиск многошагового оптимального управления путем прямой оптимизации возможен лишь в задачах с небольшим числом переменных и временных шагов. (Р. Беллман: ЂЂЂпроклятие размерностиЂЂЂ) В общем случае объект управления демонстрирует вероятностное поведение, которое может быть вызвано как неполнотой описания сложной системы, так и объективными характером процессов. Марковский Процесс Принятия Оптимального Решения Изменение состояния окружения Агента Наблюдаемая функция Подкрепление на временном шаге Изменение состояния Агента Политика (действие) Агента Цель Агента Динамическое взаимодействие агента и окружения Динамическое взаимодействие агента и окружения Почему Агенты? Агент изменяет свои решения с целью получение максимального подкрепления (reinforcement) При этом он решает требуемую задачу оптимизации! Жизненный цикл Агента включает: Наблюдение окружения (sense) и реакцию на него Выбор поведения (reasoning, adaptation) Активное действие Сложность Задачи Агента Агент, наблюдая локальные состояния системы и получая локальные подкрепления, должен н

Нейро-Динамическое Программирование Автономных Агентов Как обучаемые агенты решают задачи оптимизации

Нейро-Динамическое Программирование Автономных Агентов Как обучаемые агенты решают задачи оптимизации

Комментариев нет:

Отправить комментарий