从"我要去山西旅游"看AI智能体的未来之旅:大模型如何重构自动化服务生态

前言

这篇文章主要是基于目前AI发展现状做出的一些思考,如何才能让模型更智能。

我们基于一个旅游场景来设想模型应该如何实现: 我要去山西旅游

任务分解

模型首先要基于”我要去山西旅游”这个要求进行分解,整理成一个类似操作列表的东西。下边是基于实际情况给出的一个设想。

  1. TODO 要问用户是什么时间去,要去的具体地方。
  2. TODO 确定时间和地方后帮用户查看当地的天气情况,给出穿衣建议。
  3. TODO 帮用户自动查询交通工具,给出合理的建议,供用户选择。
  4. TODO 用户选择后自动去请求接口订票。
  5. TODO 给用户提供一些当地的特色,游玩,美食等。

应该如何实现

  1. 需要模型能够理解用户的意图,并能分解成计划。(现在一些通用的大模型,可以通过多轮的方式实现类似效果。)
  2. 跟用户逐步确定计划中需要的点,比如具体要去的地方等,完成一条计划就标记为DONE。
  3. 根据计划选择合适的外部工具,比如调用实时查询天气的工具,订票的工具等,完成后同样标记完成。
  4. 按照模型自己给出的计划,依次完成知道任务结束。

实现难点

  1. 如何让模型能够识别系统中注册的工具或者agent(如果是企业级,可能会有很多)
  2. 如何定义合理的接口,能让模型理解接口的输入输出,从而自动产生相应的参数,将整个计划自动串联起来。

一个技术人的设想

  1. 定义一个统一的工具交互规范,模型能够理解,并能根据需要方便识别到。
  2. 提供一个注册中心,个人或者企业能够按照业务创建很多智能体,然后注册。
  3. 参考面向对象的思想,智能体应该是独立的个体,没有中间调度也可以独立使用。
  4. 模型可以根据用户要求分解任务,并在注册中心中找到合理的智能体进行调度。

结语

现在很多落地的东西是一条条的工作流,只能体现一部分模型的能力,虽然可以对外交互,也只是人为干预的结果。当然也可能有很多优秀的方案没有发现。

如何一句话让模型把事儿干好,才是未来发展的方向。

如果大家有合适的方案可以沟通交流,感谢。