IT资讯 Archiver

金磊 发表于 2024/3/28 12:52:01

微软亚研院新作:让大模型一口气调用数百万个 API

近年来,人工智能发展迅速,尤其是像 ChatGPT 这样的基础大模型,在对话、上下文理解和代码生成等方面表现出色,能够为多种任务提供解决方案。

但在特定领域任务上,由于专业数据的缺乏和可能的计算错误,它们的表现并不理想。同时,虽然已有一些专门针对特定任务的 AI 模型和系统表现良好,但它们往往不易与基础大模型集成。

为了解决这些重要问题,TaskMatrix.AI 破茧而出、应运而生,这是由微软(Microsoft)设计发布的新型 AI 生态系统。

其核心技术近期在《科学》合作期刊 Intelligent Computing 上发表的论文 TaskMatrix.AI: Completing Tasks by Connecting Foundation Models with Millions of APIs 中正式亮相,作者为微软亚洲研究院段楠博士团队

(详见链接:https://spj.science.org/doi/10.34133/icomputing.0063

TaskMatrix.AI 将基础大模型与数以百万计的应用程序编程接口(APIs)连接起来完成任务。

其核心思想是利用现有的基础大模型作为类似大脑的中央系统,结合其他 AI 模型和系统的 APIs 作为各种子任务解决者,以完成数字和物理领域的多样化任务。

▲ 图由 DALL・E 3 生成

TaskMatrix.AI 如何工作?

TaskMatrix.AI 的整体架构由以下四个关键组件构成:

以上四个组件协同工作,共同构建了一个高效的系统。MCFM 作为用户交互的主要接口,负责生成解决方案。API 平台则提供了一个标准化的 API 文档格式,并作为一个集中存储库,容纳了数百万 API。API 选择器根据 MCFM 对用户需求的理解,从 API 平台中选取合适的 API。

最后,API 执行器负责执行由选定 API 生成的代码,并解决任务。

此外,TaskMatrix.AI 还提供了两个可学习的机制,以更有效地将 MCFM 与 API 对齐:

因此,TaskMatrix.AI 可以被视为一个超级 AI,同时也是一个生态系统,具有以下关键优势:

TaskMatrix.AI 能完成什么任务?

TaskMatrix.AI 能完成的任务非常广泛,小到文字、图像信息的基本信息处理,大到控制机器人平台、接入物联网(IoT)等通用平台任务,TaskMatrix 都能胜任。

图像处理任务

TaskMatrix.AI 可以执行图像处理任务,并且能够接受语言和图像作为输入。下图展示了 TaskMatrix.AI 的相关版本 Visual ChatGPT,它不仅能够理解人类意图,还能处理语言和图像输入,以完成包括图像生成、问题回答和编辑在内的复杂视觉任务。

下图展示了使用多个 API 协作生成高分辨率图像的示例。在该例中,解决方案框架由 3 个 API 组成:图像问答、图像标题以及图像对象替换。

左侧框线部分展示了解决方案框架如何协助将图像扩展至 2048×4096 分辨率。通过迭代执行框架中的预定义步骤,TaskMatrix.AI 可以生成任何所需尺寸的高分辨率图像。

办公自动化

TaskMatrix.AI 能够通过语音指令理解并自动执行计算机操作系统、专业软件以及智能手机应用的操作。利用 TaskMatrix.AI,可以快速上手复杂软件。

此外,它还能帮助用户在不进行搜索的情况下直接访问所需功能。以下是一个 PowerPoint 自动化的实例,TaskMatrix.AI 能够根据用户指定的主题自动生成幻灯片,智能调整内容布局,插入和优化图像,并应用相应的设计主题,从而显著提升工作效率。

机器人和物联网设备控制

TaskMatrix.AI 可以连接机器人和物联网设备,实现对体力劳动和智能家居操作的自动化管理。通过集成先进的机器人技术,TaskMatrix.AI 能够执行一系列任务,如物体的拾取与放置以及对家庭物联网设备的智能控制。

此外,该平台还整合了多种流行的互联网服务,包括但不限于日历 API、天气 API 和新闻 API,提供了更加丰富和便捷的用户体验。

TaskMatrix.AI 的挑战

尽管 TaskMatrix.AI 已经在各种任务中证明了其强大的功能和通用性,但仍面临以下几个挑战:

关于 Intelligent Computing

Intelligent Computing 由之江实验室和美国科学促进会(AAAS)共同创办,是《科学》合作期刊框架中智能计算领域的第一本开放获取(Open Access)国际期刊。期刊以「面向智能的计算、智能驱动的计算」以及「智能、数据与计算驱动的科学发现」为主题,主要刊载原创研究论文、综述论文和观点论文。

本文来自微信公众号:量子位 (ID:QbitAI),作者:关注前沿科技

查看完整版本: 微软亚研院新作:让大模型一口气调用数百万个 API