霍逸夫(2023)
发布时间:2024-01-30
点击次数:
邮箱:15841788221@163.com
个人简介
东北大学自然语言处理实验室23级硕士研究生。 研究方向为基于人类反馈的强化学习以及大语言模型的训练与解码。
学术研究及论文发表情况
ESRL: Efficient Sampling-based Reinforcement Learning for Sequence Generation. AAAI2023. Wang, C., Zhou, H., Hu, Y., Huo, Y., Li, B., Liu, T., ... & Zhu, J. (2023). ESRL: Efficient Sampling-based Reinforcement Learning for Sequence Generation. arXiv preprint arXiv:2308.02223.