跳转至

大模型视觉识别

工作原理

  • 理解意图:当发出一个指令时,无论是“向前走两步然后挥挥手”,还是“你看到了什么”,系统首先会将这个指令(语音或文本)发送给 LLM。
  • 任务分解与“工具”选择:我们已经为 LLM 预设了机器人能够使用的所有“工具”(即它的各项能力,如视觉识别、执行特定动作、唱歌等)。LLM 会像一个聪明的指挥官一样,分析您的指令,并将其分解成一个或多个机器人可以执行的步骤。
  • 生成结构化指令:LLM 不会返回一段普通的聊天文本,而是会生成一个机器可以精确理解的指令,并将其分发给对应的功能模块(如动作控制、视觉分析等)去执行。

这种方式赋予了机器人前所未有的灵活性和理解能力,使其能够处理模糊和复杂的自然语言指令。

核心功能详解

自然语言交互 (语音 & 文本)

机器人能够听懂您说的话,并用自然的声音回答您,实现流畅的对话式交互。

实现方式

  • 语音转文本 (ASR): 当您在 Web 界面点击麦克风说话时,OriginMan 会捕捉您的声音。它将录制的音频发送至大模型,该模型能高效、准确地将您的语音转换成文字。
  • 文本转语音 (TTS): 当机器人需要回答或发出提示时,大模型会生成对应文本并生成高质量、有表现力的语音,并通过扬声器播放出来。

视觉理解

机器人不仅仅是一个执行者,它还拥有一双“眼睛”,能够观察和理解周围的世界。

实现方式

  • 持续观察: 机器人通过摄像头以固定频率捕捉图像,并将其发布到 ROS 网络中,为系统提供实时的视觉输入。
  • 图像与问题的结合: 当您提出一个关于视觉的问题,例如“你看到了什么?”,机器人会获取最新的摄像头图像,并将其与您的问题文本一起发送给多模态大模型。
  • 生成描述性回答: 大模型能够理解图像内容和文本问题的关联,并生成一段详细的、人性化的描述性文字作为回答,例如“我看到了桌子上有一个红色的苹果...”等。

动作执行与唱歌

无论是简单的移动还是复杂的舞蹈,机器人都能准确执行您的指令。

实现方式

  • 动作指令解析: 机器人接收到您的自然语言后,会请求大模型进行解析。该模型已经知晓机器人所有可执行的动作名称列表。
  • 生成动作序列: LLM 根据您的语言生成精确的指令。它会解析出动作名称和重复次数,然后调用底层的硬件控制库来驱动机器人的舵机,完成相应的物理动作。

运行实例

与 OriginMan 机器人互动非常简单:

  1. 申请密钥: 在阿里云百炼官网申请 API Key
  2. 启动系统: 使用ros2 launch originman_vision robot_interaction.launch.py开启相关节点。
  3. 访问 Web 界面: 在您的浏览器中,打开地址 http://<机器人IP地址>:5000,即可进入下图所示界面。

    image-20220923124819442

  4. 配置 API Key: 在页面上方的输入框中,填入您的阿里云 Dashscope API Key,然后点击“保存并分发 API Key”。所有 AI 功能都依赖于此密钥。

    :如果无需更换密钥,可直接在/root/.bashrc文件中使用export DASHSCOPE_API_KEY="sk-xxxxxx"命令添加固定密钥,引号内需修改为官网申请的实际密钥。

  5. 开始交互:

    • 文本输入: 在底部的文本框中输入指令,例如“你好”、“请前进三步然后挥挥手。”或者“你看到了什么?”,然后点击“发送”。
    • 语音输入: 点击麦克风图标,它会变为红色,此时您可以开始说话。说完后,再次点击麦克风图标结束录音。系统会自动识别您的语音并执行指令。
    • 观察与互动: 观察机器人在现实世界中的动作和语音反馈,并在 Web 界面的聊天记录中查看完整的交互历史。尽情探索与 AI 机器人对话的乐趣吧!

图片1