adequacy AAAI2019 | 腾讯AI Lab详解自然语言处理领域三大研究方向及入选论文( 六 )


16. 基于最大化后验估计的词嵌入模型
Word Embedding as Maximum A Posteriori Estimation
这项研究由肯特大学与腾讯AI Lab合作完成。词嵌入模型GloVe可以被重构成一个最大似然估计问题,再通过优化的方式进行求解。该论文通过考虑基于GloVe的参数化方法,同时结合先验分布来对GloVe词嵌入模型进行泛化。本文提出了一个新的词嵌入模型,该模型对每个上下文词的变化进行建模,来表示这个词的信息重要性。论文中提出的框架可以统一学习词向量和每个词的变化。实验表明本文提出词向量模型优于GloVe和它的其他变种。
17.可控的图像到视频转换:关于人脸表情生成的案例分析
Controllable Image-to-Video Translation: A Case Study on Facial Expression Generation
这项研究由腾讯AI lab主导,与麻省理工学院合作完成。深度学习的最新进展使得利用神经网络生成如照片般逼真的图像成为可能,甚至可以从视频过去几帧推断出未来几帧——某种意义上,实现了从过去视频到未来视频的生成。为了进一步深化这种探索,同时也出于对实际应用的兴趣,我们研究了图像到视频的转换,特别关注面部表情的视频。与图像到图像的转换相比,该问题通过一个额外的时间维度来挑战深度神经网络;此外,这里的单张输入图像使大多数视频到视频转换的方法无法应用。为了解决这个新问题,研究者提出了一种用户可控制的方法,以便从单个人脸图像生成各种长度的表情视频剪辑,用户可控制视频的长度和表情的类型。因此,我们设计了一种新颖的神经网络架构,可将用户输入作用到网络的跳层连接上;同时,提出对神经网络的对抗训练方法的若干改进。通过实验和用户研究验证了该方法的有效性。尤其值得强调的是,即使随机的网络图像和作者自己的图像相对于训练数据有较大的差异,本文的模型也可以生成高质量的面部表情视频,其中约50%被用户认为是真实采集的视频。
18. 利用考虑偏好的损失学习实现任务迁移
Task Transfer by Preference-Based Cost Learning
这项研究由清华大学与腾讯AI Lab合作完成。强化学习中的任务迁移旨在把智能体在源任务中的策略迁移到目标任务。尽管当前方法取得了一定成功,但是他们依赖于两个很强的假设:1)专家演示和目标任务精确相关 以及 2)目标任务中的损失函数需要显式定义。在实际中这两个假设都是难以满足。该论文提出了一个新颖的迁移框架减少对这两个假设的依赖,为此,研究者使用了专家偏好作为迁移的指导。具体而言,研究者交替进行以下两个步骤:首先,研究者通过预定义的专家偏好从源任务鸿挑选与目标任务相关的演示;然后,基于这些挑选的演示,研究者通过利用增强版的对抗最大熵模型来同时学习目标损失函数以及状态-操作的轨迹分布。该论文的理论分析证明了方法的收敛性。大量的仿真实验也验证了该论文方法的有效性。
19. 超越RNN:面向视频问答的具有位置特性的自注意力和交互注意力模型
Beyond RNNs: Positional Self-Attention with Co-Attention for Video Question Answering
这项研究由电子科技大学与腾讯AI Lab合作完成。当前,大部分实现视频问答的方法都是基于考虑注意力的递归神经网络。虽然取得一些进展,但是RNN的局限性导致了这些方法往往需要花费大量训练时间却难以捕捉长时间关联。该论文提出了一种新的架构,具有位置属性的自注意力和交互注意力结合,这个框架不再需要RNN来实现视频问答。具体而言,研究者从机器翻译中自注意力的成功得到启发,提出了一种具有位置属性的自主力模型来计算同一个序列中每个位置自身的激活以及其与其他位置的相关激活。因此,PASC能利用问题与视频的全局依赖,并且使得问题和视频编码能并行进行。除了利用视频自注意力,研究者更进一步查询问题中“哪些单词需要注意”来设置交互注意力机制。据研究者所知,这是视频问答领域中首次尝试去抛开RNN而只用注意力模型。在三个公开的数据集上,本文的方法显著优于当前最好,并且在另外一个数据集上取得了接近当前最好的结果。与RNN模型相比,本文的方法在更短的运算时间取得了更高的精度。此外,本文还进行了若干对比实验来验证方法每个组件的有效性。

推荐阅读