大模型视觉识别

工作原理

理解意图：当发出一个指令时，无论是“向前走两步然后挥挥手”，还是“你看到了什么”，系统首先会将这个指令（语音或文本）发送给 LLM。
任务分解与“工具”选择：我们已经为 LLM 预设了机器人能够使用的所有“工具”（即它的各项能力，如视觉识别、执行特定动作、唱歌等）。LLM 会像一个聪明的指挥官一样，分析您的指令，并将其分解成一个或多个机器人可以执行的步骤。
生成结构化指令：LLM 不会返回一段普通的聊天文本，而是会生成一个机器可以精确理解的指令，并将其分发给对应的功能模块（如动作控制、视觉分析等）去执行。

这种方式赋予了机器人前所未有的灵活性和理解能力，使其能够处理模糊和复杂的自然语言指令。

机器人能够听懂您说的话，并用自然的声音回答您，实现流畅的对话式交互。

实现方式

语音转文本 (ASR): 当您在 Web 界面点击麦克风说话时，OriginMan 会捕捉您的声音。它将录制的音频发送至大模型，该模型能高效、准确地将您的语音转换成文字。
文本转语音 (TTS): 当机器人需要回答或发出提示时，大模型会生成对应文本并生成高质量、有表现力的语音，并通过扬声器播放出来。

机器人不仅仅是一个执行者，它还拥有一双“眼睛”，能够观察和理解周围的世界。

实现方式

持续观察: 机器人通过摄像头以固定频率捕捉图像，并将其发布到 ROS 网络中，为系统提供实时的视觉输入。
图像与问题的结合: 当您提出一个关于视觉的问题，例如“你看到了什么？”，机器人会获取最新的摄像头图像，并将其与您的问题文本一起发送给多模态大模型。
生成描述性回答: 大模型能够理解图像内容和文本问题的关联，并生成一段详细的、人性化的描述性文字作为回答，例如“我看到了桌子上有一个红色的苹果...”等。

无论是简单的移动还是复杂的舞蹈，机器人都能准确执行您的指令。

实现方式

与 OriginMan 机器人互动非常简单：

申请密钥: 在阿里云百炼官网申请 API Key。
启动系统: 使用ros2 launch originman_vision robot_interaction.launch.py开启相关节点。
访问 Web 界面: 在您的浏览器中，打开地址 http://<机器人IP地址>:5000，即可进入下图所示界面。
配置 API Key: 在页面上方的输入框中，填入您的阿里云 Dashscope API Key，然后点击“保存并分发 API Key”。所有 AI 功能都依赖于此密钥。

注：如果无需更换密钥，可直接在/root/.bashrc文件中使用export DASHSCOPE_API_KEY="sk-xxxxxx"命令添加固定密钥，引号内需修改为官网申请的实际密钥。
开始交互:
- 文本输入: 在底部的文本框中输入指令，例如“你好”、“请前进三步然后挥挥手。”或者“你看到了什么？”，然后点击“发送”。
- 语音输入: 点击麦克风图标，它会变为红色，此时您可以开始说话。说完后，再次点击麦克风图标结束录音。系统会自动识别您的语音并执行指令。
- 观察与互动: 观察机器人在现实世界中的动作和语音反馈，并在 Web 界面的聊天记录中查看完整的交互历史。尽情探索与 AI 机器人对话的乐趣吧！