AI 绘画引入人类反馈；微软多模态 ChatGPT？

2023-03-06

　　机器之心 & ArXiv Weekly

　　参与：楚航、罗若天、梅洪源

　　本周重要论文包括谷歌研究院和加州大学伯克利分校在文本到图像模型中引入人类反馈、以及微软最新的多模态大模型等。

　　Language Is Not All You Need: Aligning Perception with Language Models

　　Learning Harmonic Molecular Representations on Riemannian Manifold

　　Single-cell biological network inference using a heterogeneous graph transformer

　　Towards Stable Test-time Adaptation in Dynamic Wild World

　　A Comprehensive Survey on Pretrained Foundation Models: A History from BERT to ChatGPT

　　Aligning Text-to-Image Models using Human Feedback

　　Large Torsion Thin Artificial Muscles Tensegrity Structure for Twist Manipulation

　　ArXiv Weekly Radiostation：NLP、CV、ML 更多精选论文（附音频）

　　论文 1：Language Is Not All You Need: Aligning Perception with Language Models

　　作者：Shaohan Huang 等

　　论文地址：https://arxiv.org/pdf/2302.14045.pdf

　　摘要：微软团队介绍了一个多模态大型语言模型（MLLM）—— KOSMOS-1，它可以感知一般模态、遵循指令（零样本学习）以及在上下文中学习（少样本学习）。研究目标是使感知与 LLM 保持一致，模型能够看到（see）和说话（talk）。研究者按照 METALM 的方式从头开始训练 KOSMOS-1。

　　 AI 绘画引入人类反馈；微软多模态 ChatGPT？(图1) 推荐：微软多模态 ChatGPT 来了？16 亿参数搞定看图答题、智商测验等任务。

　　论文 2：Learning Harmonic Molecular Representations on Riemannian Manifold

　　作者：Yiqun Wang 等

　　论文地址：https://openreview.net/pdf?id=ySCL-NG_I3

　　摘要：分子表示学习在 AI 辅助药物发现研究中起着至关重要的作用。在传统药物研发中，常用的分子对接模型需要进行大量的构型采样与优化，并筛选出较为稳定的结构。这类策略效率较低，难以应用于高通量的蛋白质对接任务。

　　本文介绍的基于分子表面黎曼流形的深度学习表示方法 ( Harmonic Molecular Representation, HMR ) 实现了更准确、高效的蛋白质对接模型开发。HMR 用二维黎曼流形建模分子表面，结合调合分析技术与神经网络实现流形上几何、化学信号的多尺度传播和两个蛋白质表面之间的匹配度比较，进而利用「蛋白质拼图」的逻辑实现蛋白质分子刚性对接 ( rigid protein docking ) 。实验表明，基于 HMR 的分子对接模型比当前深度学习 SOTA [ 1 ] 有更高的准确性，并且较传统分子对接方法提速 100 倍以上。

　　 AI 绘画引入人类反馈；微软多模态 ChatGPT？(图2) 推荐：ICLR 2023 | 初探 AI 拼图模型预测蛋白质复合物结构。

　　论文 3：Single-cell biological network inference using a heterogeneous graph transformer

　　作者：Anjun Ma 等

　　论文地址：https://www.nature.com/articles/s41467-023-36559-0#Sec9

　　摘要：单细胞多组学 ( scMulti-omics ) 技术允许同时量化多种模态，以捕捉复杂分子机制和细胞异质性的复杂性。现有工具无法有效地推断出不同细胞类型中 active 生物网络以及这些网络对外部刺激的反应。

　　山东大学等多机构研究团队开发了基于深度学习的单细胞数据多组学分析平台 —— DeepMAPS，用于从 scMulti-omics 进行生物网络推理。DeepMAPS 在异构图中对 scMulti-omics 进行建模，并使用多头图（multi-head graph）Transformer 以稳健的方式学习局部和全局上下文中的细胞和基因之间的关系。

　　 AI 绘画引入人类反馈；微软多模态 ChatGPT？(图3) 推荐：山东大学团队提出基于异构图 Transformer 的单细胞生物网络推理。

　　论文 4：Towards Stable Test-time Adaptation in Dynamic Wild World

　　作者：Shuaicheng Niu 等

　　论文地址：https://openreview.net/pdf?id=g2YraF75Tj

　　摘要：测试时自适应（Test-Time Adaptation,TTA）方法在测试阶段指导模型进行快速无监督 / 自监督学习，是当前用于提升深度模型分布外泛化能力的一种强有效工具。然而在动态开放场景中，稳定性不足仍是现有 TTA 方法的一大短板，严重阻碍了其实际部署。

　　为此，来自华南理工大学、腾讯 AI Lab 及新加坡国立大学的研究团队，从统一的角度对现有 TTA 方法在动态场景下不稳定原因进行分析，指出依赖于 Batch 的归一化层是导致不稳定的关键原因之一，另外测试数据流中某些具有噪声 / 大规模梯度的样本容易将模型优化至退化的平凡解。基于此进一步提出锐度敏感且可靠的测试时熵最小化方法 SAR，实现动态开放场景下稳定、高效的测试时模型在线迁移泛化。本工作已入选 ICLR 2023 Oral。

　　如下为 Test-Time Adaptation 示意图及其与现有方法特点对比。

　　 AI 绘画引入人类反馈；微软多模态 ChatGPT？(图4) 推荐：Batch Norm 层等暴露 TTA 短板，开放环境下解决方案来了。

　　论文 5：A Comprehensive Survey on Pretrained Foundation Models: A History from BERT to ChatGPT

　　作者：Ce Zhou 等

　　论文地址：https://arxiv.org/pdf/2302.09419.pdf

　　摘要：在最近的一篇综述文章中，来自密歇根州立大学、北京航空航天大学、理海大学等机构的研究者仔细梳理了该领域的几百篇论文，主要聚焦文本、图像和图学习领域的预训练基础模型，值得一读。杜克大学教授、加拿大工程院院士裴健，伊利诺大学芝加哥分校计算机科学系特聘教授俞士纶，Salesforce AI Research 副总裁熊蔡明都是该论文作者之一。

　　 AI 绘画引入人类反馈；微软多模态 ChatGPT？(图5) 推荐：从 BERT 到 ChatGPT，百页综述梳理预训练大模型演变史。

　　论文 6：Aligning Text-to-Image Models using Human Feedback

　　作者：Kimin Lee 等

　　论文地址：https://arxiv.org/pdf/2302.12192v1.pdf

　　摘要：语言建模领域，从人类反馈中学习已经成为一种用来「对齐模型行为与人类意图」的强大解决方案。这类方法通过人类对模型输出的反馈，首先学习一个旨在反映人类在任务中所关心内容的奖励函数，通过一种强化学习算法（如近端策略优化 PPO）使用学得的奖励函数来优化语言模型。这种带有人类反馈框架的强化学习（RLHF）已经成功地将大规模语言模型（例如 GPT-3）与复杂的人类质量评估结合起来。

　　近日，受 RLHF 在语言领域的成功，谷歌研究院和加州伯克利的研究者提出了使用人类反馈来对齐文本到图像模型的微调方法。

　　 AI 绘画引入人类反馈；微软多模态 ChatGPT？(图6) 推荐：学习 ChatGPT，AI 绘画引入人类反馈会怎样？。

　　论文 7：Large Torsion Thin Artificial Muscles Tensegrity Structure for Twist Manipulation

　　作者：Ryota Kobayashi 等

　　论文地址：https://ieeexplore.ieee.org/document/10016717

　　摘要：在制造机器人的过程中，灵活、适当地组合各种性能是一项挑战任务，因为这些性能有时是相互矛盾的。比方制造一个既灵活又强壮的机器人并非易事，但也不是不可能。最近一项研究中，东京工业大学制造出了这样一种机器人，它具有高度灵活性，同时仍保持其「肌肉」内的高度张力，使其躯体能进行充分的扭转，从而完成困难的任务。研究结果发表在 1 月 13 日的《IEEE 机器人和自动化通讯》。

　　 AI 绘画引入人类反馈；微软多模态 ChatGPT？(图7) 推荐：拧瓶盖螺丝，高度灵活的柔性机器人为你开可口可乐。

　　ArXiv Weekly Radiostation

　　机器之心联合由楚航、罗若天、梅洪源发起的 ArXiv Weekly Radiostation，在 7 Papers 的基础上，精选本周更多重要论文，包括 NLP、CV、ML 领域各 10 篇精选 , 并提供音频形式的论文摘要简介，详情如下：

　　本周 10 篇 NLP 精选论文是：

　　1. ChatAug: Leveraging ChatGPT for Text Data Augmentation. ( from Wei Liu, Dinggang Shen )

　　2. Competence-Based Analysis of Language Models. ( from ChengXiang Zhai )

　　3. Automatic Prompt Augmentation and Selection with Chain-of-Thought from Labeled Data. ( from Tong Zhang )

　　4. Frauds Bargain Attack: Generating Adversarial Text Samples via Word Manipulation Process. ( from Wei Liu )

　　5. Dependency Dialogue Acts -- Annotation Scheme and Case Study. ( from Martha Palmer, Marilyn Walker )

　　6. Augmented Transformers with Adaptive n-grams Embedding for Multilingual Scene Text Recognition. ( from Yaochu Jin )

　　7. Check Your Facts and Try Again: Improving Large Language Models with External Knowledge and Automated Feedback. ( from Jianfeng Gao )

　　8. Interactive Text Generation. ( from Jianfeng Gao )

　　9. ProofNet: Autoformalizing and Formally Proving Undergraduate-Leel Mathematics. ( from Dragomir Radev )

　　10. Soft Prompt Guided Joint Learning for Cross-Domain Sentiment Analysis. ( from Yi Yang )

　　本周 10 篇 CV 精选论文是：

　　1. Decoupling Human and Camera Motion from Videos in the Wild. ( from Jitendra Malik )

　　2. Vid2Seq: Large-Scale Pretraining of a Visual Language Model for Dense Video Captioning. ( from Ivan Laptev, Josef Sivic, Cordelia Schmid )

　　3. Weakly-supervised HOI Detection via Prior-guided Bi-level Representation Learning. ( from Tinne Tuytelaars )

　　4. DA-BEV: Depth Aware BEV Transformer for 3D Object Detection. ( from Lei Zhang )

　　5. ESceme: Vision-and-Language Navigation with Episodic Scene Memory. ( from Dacheng Tao )

　　6. Nearest Neighbors Meet Deep Neural Networks for Point Cloud Analysis. ( from Jianbo Shi )

　　7. PointFlowHop: Green and Interpretable Scene Flow Estimation from Consecutive Point Clouds. ( from C.-C. Jay Kuo )

　　8. Point Cloud Forecasting as a Proxy for 4D Occupancy Forecasting. ( from Deva Ramanan )

　　9. Towards Generalisable Video Moment Retrieval: Visual-Dynamic Injection to Image-Text Pre-Training. ( from Shaogang Gong, Yang Liu )

　　10. Monocular Depth Estimation using Diffusion Models. ( from David J. Fleet )

　　本周 10 篇 ML 精选论文是：

　　1. Consistency Models. ( from Ilya Sutskever )

　　2. PaGE-Link: Path-based Graph Neural Network Explanation for Heterogeneous Link Prediction. ( from Christos Faloutsos )

　　3. Active Reward Learning from Multiple Teachers. ( from Stuart Russell )

　　4. D4FT: A Deep Learning Approach to Kohn-Sham Density Functional Theory. ( from Shuicheng Yan )

　　5. On the Role of Emergent Communication for Social Learning in Multi-Agent Reinforcement Learning. ( from Katia Sycara )

　　6. Subspace based Federated Unlearning. ( from Dacheng Tao )

　　7. OmniForce: On Human-Centered, Large Model Empowered and Cloud-Edge Collaborative AutoML System. ( from Wei Liu, Dacheng Tao )

　　8. AdaSAM: Boosting Sharpness-Aware Minimization with Adaptive Learning Rate and Momentum for Training Deep Neural Networks. ( from Dacheng Tao )

　　9. High-dimensional analysis of double descent for linear regression with random projections. ( from Francis Bach )

　　10. Benign Overfitting in Linear Classifiers and Leaky ReLU Networks from KKT Conditions for Margin Maximization. ( from Peter L. Bartlett, Nathan Srebro )

　　THE END

　　转载请联系本公众号获得授权

　　投稿或寻求报道：content@jiqizhixin.com

<<刚蹭完ChatGPT热点的浪潮凉了？｜浪潮｜浪潮信息｜英特尔

人工智能热：选什么专业／职业，不会被Chatgpt取代？>>

AI 绘画引入人类反馈；微软多模态 ChatGPT？

您可能还会对下面的文章感兴趣：

随便看看