您现在的位置是：首页 >技术教程 >【论文阅读】基于鲁棒强化学习的无人机能量采集可重构智能表面网站首页 技术教程

【论文阅读】基于鲁棒强化学习的无人机能量采集可重构智能表面

各可 2024-06-17 10:43:04

简介【论文阅读】基于鲁棒强化学习的无人机能量采集可重构智能表面

只做学习记录，侵删原文链接

@article{peng2023energy,
title={Energy Harvesting Reconfigurable Intelligent Surface for UAV Based on Robust Deep Reinforcement Learning},
author={Peng, Haoran and Wang, Li-Chun},
journal={IEEE Transactions on Wireless Communications},
year={2023},
publisher={IEEE}
}

《Energy Harvesting Reconfigurable Intelligent Surface for UAV Based on Robust Deep Reinforcement Learning》基于鲁棒强化学习的无人机能量采集可重构智能表面 IEEE Transactions on Wireless Communications一区

论文背景

研究目标

RIS每一个反射单元都由无源器件电容、电阻等构成，能耗小、成本低，能单独对信号进行反射。
UAV在动态密集的户外活动，如马拉松、音乐会等，提供按需通信服务有巨大潜力。
- 缺点：
RIS：静态部署，当服务覆盖范围中只有少量用户终端（UT）时，使用所有反射阵列进行信号传输可能导致资源浪费。
UAV：临时基站（BS）、辅助物联网（IoT），增强热点覆盖，但电池容量限制。
- 目标：这项工作是使无人机和智能反射面结合，旨在在有限的时间范围内最大限度地提高UAV–RIS的总能量收集效率，同时满足用户所需的最小吞吐量约束

系统模型

在这里插入图片描述

两个维度
1. 只考虑时间：分为两个阶段
  （1）能量传输阶段（2）信号传递阶段
2. 考虑时间和空间
  （1）能量传输阶段（2）信号传递阶段：在该阶段还考虑智能反射面哪些反射元件用于能量收集。

通信模型

在这里插入图片描述

优化函数

下图中只写出了时空两个维度的，单一时间维度的类似。
在这里插入图片描述

算法设计

本文使用到强化学习的SD3算法，该算法是TD3算法的优化（求Q值引入Softmax），下图对比了TD3算法和DDPG算法，并简单列出了SD3算法的推导过程。
在这里插入图片描述

TD3改善DDPG高估的问题。
SD3算法改善TD3算法的低估问题。推导过程如下（其中为便于计算机求解原算法将积分问题使用了重要性采样）：
马尔科夫元组个元素。

实验部分不在此是赘述，感兴趣可以阅读原文。

风语者！平时喜欢研究各种技术，目前在从事后端开发工作，热爱生活、热爱工作。

上一篇
nginx 服务器总结

下一篇
golang-websocket

站长推荐

U8W/U8W-Mini使用与常见问题解决
U8W/U8W-Mini使用与常见问题解决
QT多线程的5种用法，通过使用线程解决UI主界面的耗时操作代码，防止界面卡死。
QT多线程的5种用法，通过使用线程解决UI主界面的耗时操作代码，防止界面卡死。...
stm32使用HAL库配置串口中断收发数据（保姆级教程）
stm32使用HAL库配置串口中断收发数据（保姆级教程）
分享几个国内免费的ChatGPT镜像网址(亲测有效)
分享几个国内免费的ChatGPT镜像网址(亲测有效)
Allegro16.6差分等长设置及走线总结
Allegro16.6差分等长设置及走线总结