概要
本論文は、センシング、通信、計算資源の制約により連続的な適応が困難な環境における、時間変動マルコフ決定過程(TVMDP)での逐次意思決定問題を研究しています。決定主体が間欠的にしか観測・更新できない状況下で、学習と計画のパフォーマンスがどの程度低下するかを定量的に分析することを目指しています。
ポイント
- 問題設定:時間変動するMDPにおいて、システム観測とモデル更新が定期的(間欠的)にしか実行できない制約下での意思決定
- 提案手法:スキップ更新学習・計画フレームワークにより、時変遷移カーネルの尤度推定と有限地平計画を組み合わせ、更新期間中は古い情報で政策実行
- 評価指標:動的後悔(Dynamic Regret)を採用し、完全情報と連続観測を持つオラクル政策との相対的な性能差を測定
- 理論的貢献:更新率に依存した動的後悔の上界を確立し、情報制約がパフォーマンスに与える影響を定量化
- 適用範囲:エネルギーシステム最適化、スマートグリッド制御、資源配分など、センサネットワークや通信遅延がある実世界システムへの応用可能性
出典
Dynamic Regret in Time-varying MDPs with Intermittent Information
この記事はAIが海外情報を要約・翻訳したものです。元記事は出典リンクをご覧ください。