今年五月份,机器学习国际顶级会议ICML放榜,有两篇来自中国科学院大学人工智能学院的高水平论文成功入选,其中一篇还被ICML组委会评选为录用级别最高的Oral宣讲论文。ICML全称为国际机器学习会议(International Conference on Machine Learning),是人工智能领域最有影响力的顶级学术会议之一,被中国计算机学会评选为CCF-A类国际顶会(h5-index为257,对标SCI一区Top),与NeurIPS、ICLR并称为人工智能机器学习领域最权威的三大国际顶级学术会议。
人工智能学院今年被ICML接收的两篇论文的第一作者与第二作者均为我院2022级硕士研究生裴正奇同学与张安然同学,两篇论文的通讯作者均为中国科学院计算技术研究所的王树徽研究员。
裴正奇同学本科毕业于多伦多大学工程科学系,毕业后归国创业,积累了一定的工程经验和学术热忱。裴正奇同学于2022年被中国科学院大学人工智能学院录取,师从中国科学院计算技术研究所的王树徽研究员,研究方向为机器学习理论、神经拟态计算、类脑计算。
以下为论文题目及摘要:
题目:Data-free Neural Representation Compression with Riemannian Neural Dynamics
作者:裴正奇、张安然、王树徽(通讯作者)、季向阳、黄庆明
论文摘要:从物理启发的角度来看,神经模型等价于动态系统,这意味着在神经网络上的计算可以解释为神经元之间的动态相互作用。然而,现有的工作将神经元之间的交互作用建模为基于权重的线性变换,这会导致整个神经模型的非线性和数据拟合能力有限。受黎曼几何启发,我们通过将神经元投影到黎曼神经状态空间来解释神经结构,提出了一种基于黎曼度规的神经表征方法RieM,这是一种参数效率更高的神经表示方法。针对 RieM,我们进一步设计了一种无需使用真实数据进行额外微调的新型无数据神经压缩机制。以 ResNet 和 Vision Transformer 为骨干网络,我们在 MNIST、CIFAR-100、ImageNet-1k 和 COCO 目标检测等数据集上进行了广泛的实验。实证结果表明,在相同的压缩率和计算复杂度下,与现有的无数据压缩方法相比,使用 RieM 压缩的模型在推理准确率表现更优。
论文链接:https://icml.cc/virtual/2024/poster/34294
(该论文在Poster的基础上被评选为Oral宣讲论文)
论文插图:
题目:Modeling Language Tokens as Functionals of Semantic Fields
作者:裴正奇、张安然、王树徽(通讯作者)、黄庆明
论文摘要:近年来,自然语言处理的进展在很大程度上依赖基于Transformer的语言模型。然而,Transformer通常需要较大的参数量和模型深度。现有使用状态空间模型的非Transformer方法虽然表现优于Transformer,但它们仍然缺乏与人脑的神经生物学联系。本文提出了 LasF(将语言词素表示为语义场的泛函形式),通过模拟人脑神经元行为,可以实现更高效的语言建模能力。LasF 模块相当于为序列数据定制的非线性近似器。通过用 LasF 模块替换预训练语言模型的最后几层得到的基于LasF的模型,可以在多个自然语言处理任务中取得优越的性能提升。在标准阅读理解和问答任务上进行的实验表明,基于LasF的模型在减少参数量的同时,能够持续提高模型推理准确度。此外,我们使用CommonsenseQA的盲测集评估了全参数调优的基于LasF的模型,结果显示其分别比之前最好的多模型和单模型高出0.4% 和 3.1%。此外,从零训练的仅包含LasF的语言模型在WikiText103和PennTreebank等标准数据集上优于同等参数规模的语言模型。
论文链接:https://icml.cc/virtual/2024/poster/34594
论文插图:
如今,人工智能机器学习领域最热门的深度学习模型通过纵向堆叠大量神经层来实现强大的表征能力,这种模型结构不仅对算力的消耗水平更高,可解释性更弱,而且这种深度模型结构与人类大脑的扁平化生物学特性并不一致。通过进一步探索深度学习结构与人类大脑运作机制之间的差异性,裴正奇同学与王树徽研究员于2022年找到了一种另辟蹊径的解决思路,那就是不再追求神经模型纵向发展的深度学习(Deep Learning)范式,而是更注重基于神经元社群之间的通讯机制的扁平化学习(Flat Learning)范式。Mototaka Suzuki等人于2023年10月在《Nature Neuroscience》发表的论文《The Shallow Brain Hypothesis》进一步验证了这种扁平化学习机制的生物学合理性。总结来说,这种扁平化学习可以用更少的模型参数实现更强大的神经表征能力,主流的基于神经权重值的计算过程被等价表达为神经元之间信号传递与交互的“无权重”机制。除此之外,这套扁平化学习框架也能够与动力学系统、黎曼几何、神经生物学等自然科学领域的理论充分结合起来,为人工智能学科由工程科学迈向自然科学的历程提供了更为强大的理论体系。