霍逸夫(2025)
发布时间:
点击次数:

邮箱:15841788221@163.com
个人简介
东北大学自然语言处理实验室25级博士研究生。 研究方向为基于人类反馈的强化学习以及大语言模型的训练与解码。
学术研究及论文发表情况
ESRL: Efficient Sampling-based Reinforcement Learning for Sequence Generation. AAAI2023. Wang, C., Zhou, H., Hu, Y., Huo, Y., Li, B., Liu, T., ... & Zhu, J. (2023). ESRL: Efficient Sampling-based Reinforcement Learning for Sequence Generation. arXiv preprint arXiv:2308.02223.
上一条:2011届毕业生毕业去向
下一条:2010届毕业生毕业去向
