Hyung Won Chung

Hyung Won Chung（韩语：정형원）是一位韩国人工智能研究科学家，因其对大型语言模型 (LLM) 的开发和扩展所做的贡献而闻名。他目前是 Meta 超智能实验室的一员，并在 OpenAI 和 Google Brain 担任研究职位，在那里他为 PaLM、Flan-T5、T5X 和 OpenAI 的 o1 等著名模型和框架做出了贡献。 ^[1] ^[2]

早年生活

Chung 最初来自韩国。他目前居住在加利福尼亚州的山景城，这是科技产业的一个重要中心。 ^[1]

教育

Hyung Won Chung 在麻省理工学院 (MIT) 完成了他的博士学业，并获得了博士学位。他的学术背景为他随后的机器学习和人工智能研究生涯奠定了基础。 ^[2]

职业生涯

Chung 的职业生涯始于 Google Brain 的一名研究科学家，他的工作重点是克服与大型 AI 模型扩展相关的挑战。他是 T5X 的主要贡献者，T5X 是一个基于 JAX 的框架，旨在促进大规模模型训练，并参与了 Pathways 语言模型 (PaLM) 等主要模型的训练。他的研究还显著推进了指令微调领域，从而开发了 Flan-PaLM 和 Flan-T5 模型系列，这些模型提高了 LLM 遵循用户指令的能力。 ^[1]

2023 年 2 月，Chung 过渡到 OpenAI。在 OpenAI，他的研究重点是增强 AI 系统的推理能力和开发自主代理。他是该组织几项重大举措的基础贡献者，包括 o1-preview（2024 年 9 月）、完整版 o1 模型（2024 年 12 月）和深度研究项目（2025 年 2 月）。在此期间，他还领导了 Codex mini 模型的训练工作，Codex mini 模型是代码生成模型的一个较小、专门的版本。 ^[1] ^[2]

2025 年 7 月，Chung 加入了 Meta 的超智能实验室，担任 AI 研究科学家。他与他的同事 Jason Wei 一起从 OpenAI 转到 Meta，他们在 Google 和 OpenAI 都保持着密切的工作关系。 ^[4] ^[5]

主要作品和出版物

Chung 共同撰写了机器学习和自然语言处理领域的众多有影响力的论文。他的研究成果已在顶级期刊上发表，并在主要会议上发表。

扩展指令微调语言模型 (2022)：这篇发表在《机器学习研究杂志》上的论文系统地探讨了扩展模型开发的各个方面（包括模型大小、任务数量和思维链数据）如何影响性能。该研究表明了指令调整带来的显著改进，并发布了 Flan-T5 模型。
PaLM：使用 Pathways 扩展语言建模 (2022)：作为共同作者，Chung 为 5400 亿参数 Pathways 语言模型 (PaLM) 的开发做出了贡献。该论文详细介绍了该模型如何在 Pathways 系统上进行训练，并在众多语言任务中实现了最先进的少样本性能，展示了在推理、代码生成和翻译方面的突破。
使用 t5x 和 seqio 扩展模型和数据 (2022)：这项工作介绍了 T5X，这是一个模块化的、基于 JAX 的框架，用于大规模 Transformer 模型的高性能训练，以及 SeqIO，一个用于数据预处理的基于任务的库。Chung 是这篇论文的主要作者，该论文为 Google 的大部分大型模型研究提供了基础设施。
OpenAI o1 系统卡 (2024)：Chung 是 OpenAI o1 模型的官方系统卡的贡献者。该文档全面概述了模型的功能、性能基准、局限性以及开发过程中实施的安全协议。
GPT-4 技术报告 (2023)：他是制作 GPT-4 技术报告的团队成员。该报告详细介绍了多模态模型的架构、训练过程以及其在各种专业和学术基准测试中相对于前几代产品的显著改进的性能。
大型语言模型编码临床知识 (2023)：这项发表在《自然》杂志上的研究调查了 LLM 在医学领域的潜力。该研究发现，像 Flan-PaLM 这样的模型可以在医学能力考试中达到很高的准确率，并为临床问题提供连贯的、长篇的答案。
Flan 集合：设计用于有效指令调整的数据和方法 (2023)：这篇论文在国际机器学习大会 (ICML) 上发表，描述了“Flan 集合”的创建和设计，这是一个以指令形式格式化的大型任务数据集。该工作详细介绍了用于扩展指令调整的方法，并且是 Flan-T5 模型的基础。
UniMax：用于大规模多语言预训练的更公平、更有效的语言采样 (2023)：这篇论文在国际学习表征会议 (ICLR) 上发表，提出了一种新的数据采样方法，通过平衡不同语言之间的数据表示来提高多语言语言模型的性能和公平性。

这些出版物突出了 Chung 对模型扩展、指令调整和大型语言模型的实际应用的关注。 ^[1]

公开演讲和讲座

Chung 经常通过在大学的邀请讲座和研讨会与更广泛的学术和技术社区分享他的研究和见解。他的演讲涵盖的主题包括大型语言模型的演变、指令微调的原理、来自人类反馈的强化学习 (RLHF) 以及对 AI 研究中范式转变的高层次视角。他曾在以下机构发表演讲：

斯坦福大学（CS 25 课程）
麻省理工学院（MIT 具身智能研讨会）
首尔国立大学
纽约大学（CSCI 2590 课程）
康奈尔大学

这些讲座通常会公开发布，并作为该领域学生和研究人员的教育资源。 ^[1] ^[3]

订阅 wiki

Share wiki

Bookmark

Wiki Details

个人简介