去年底开始基于ESP32开发DIY的各种AI语音智能助手层出不穷,AI智能玩偶也比较火热。目前市面上也都有比较成熟的开发板集成了各种模块麦克风、OLED、功放、摄像头等几乎是开箱即用,普通开发者买了折腾一通总能搞点什么出来,当然对于批量推出市场的使用这种开发板成本比较高,通常比较少人这么用。
目前市面上很多此类DIY项目都是服务端基于小智的魔改、小智的设备端固件使用官方开源版本。其ESP32固件使用的是C开发对于不熟悉C的人来二次开发改造说难度太大。
本文所DIY的语音助手设备端使用的是MicroPython、服务端是Python,对于很多开发者来说MicroPython入门没难度。但其性能、稳定性和C++开发的没法比,对于DIY的小玩具这已经基本够了。下面分别介绍整体架构、设备端流程、服务端流程等。
基于ESP32 (MicroPython) 开发的固件和 Python服务端,最基本的主要组件有:音频采集、VAD检测、ASR识别、大模型、TTS 服务、WebSocket通讯等。下面将给出设备端与服务端的整体架构图以及整个平台的各个阶段完整数据流程,具体如下图所示。
数据流描述
Python服务端提供WebSocket服务,整个架构基于异步编程模型,层次清晰,模块解耦,具有良好的扩展性和维护性。目前除了大模型没有采用流式输出,其他服务调用均采用流式处理技术,实现了低延迟的实时语音交互体验。
WebSocket服务层作为最上层,负责网络通信和连接管理,在指定端口提供WebSocket服务,支持双向实时通信和消息路由。
业务处理层是核心逻辑层,包含三个关键模块:Connection Handler负责管理每个客户端连接的生命周期;消息处理器实现了文本和二进制消息的解析与路由;异步任务管理器则协调各个AI服务的并发调用。
AI服务集成层整合了四大AI能力:VAD进行语音活动检测;ASR和TTS均采用火山引擎服务,分别负责语音识别和语音合成;LLM使用DeepSeek实现智能对话生成。 外部API服务层统一管理第三方服务调用,包括火山引擎API、DeepSeek API和PyTorch Hub。
ESP32-S3硬件层包含INMP441麦克风负责音频采集、MAX98357功放实现音频播放、OLED显示屏提供状态反馈。
驱动层封装了I2S音频接口实现音频数据的读写,异步WebSocket客户端处理网络通信,OLED驱动支持滚动显示功能。
业务层的VoiceRecorder模块管理音频采集流程,使用deque队列缓冲音频数据,消息处理模块负责协议解析和数据路由。
应用层通过异步任务管理器协调各模块运行,主控制逻辑处理系统状态和异常。架构充分考虑了嵌入式系统的资源限制,采用异步编程模型提高了系统效率和响应速度。
架构图
ESP32-S3业务流程分为主流程和异步任务两部分并行执行。主流程从系统启动开始,依次完成硬件初始化、建立WebSocket连接、创建异步任务,然后进入事件循环等待任务完成,最后进行异常处理和资源清理。 异步任务
1、WebSocket处理任务负责维护网络连接、接收服务器消息并分发处理;
2、I2S音频读取任务持续从麦克风采集16kHz音频数据并通过WebSocket实时发送。
两个任务通过共享的数据队列和WebSocket连接进行协作,形成了完整的音频采集-传输-播放循环。整个流程采用异步并发模式,确保音频采集不会被网络操作阻塞,同时支持自动重连机制保证系统稳定性。
流程图
目前面向个人市场推出此类玩具或助手等最大的难点应该是外观设计与销售渠道,技术实现目前都比较成熟,要推To B靠的就是某些特殊渠道关系了。
欧姆定律是指在同一电路中,通过某段导体的电流跟这段导体两端的电压成正比,跟这段导体的电阻成反比。该定律是由德国物理学家乔治·西蒙·欧姆1826年4月发表的《金属导电定律的测定》论文提出的。
MimiClaw 是一款基于 ESP32-S3 芯片的超轻量级AI助手,适合嵌入式AI与物联网开发者快速部署本地化AI代理。本系列教程基于MimiClaw的Arduino移植版本进行讲解,小节主要讲解部署和测试。
就像我们用手机打开WiFi功能后可以浏览附近的可用WiFi。要将手机连接到热点,通常需要打开Wi-Fi设置应用程序,列出可用的网络,然后选择所需的热点。然后输入密码(或不输入密码),可以使用ESP32进行相同的操作。
近日,中国台湾大学电机工程学系副教授李宏毅在社交平台上传了一节公开课,以OpenClaw为例,介绍了AI Agent的运作原理。这堂课把最近火爆全网的OpenClaw从头到脚拆了一遍,讲清楚了这只“龙虾”到底是怎么工作的。
本文本介绍配置飞书机器人为MimiClaw的一个输入/输出端,和添加一个控制WS2812与LED的控制技能。
一块 30 块钱的开发板 + 一个大模型 API,就能做出可以听懂人话的智能硬件。 本文记录完整安装过程和踩坑经验,确保你跟着做就能跑通。
本文将从手绘架构图入手,逐层拆解 MimiClaw 的分层设计、核心模块、数据流转与底层实现,带你解剖这只“智能虾”的技术骨架,看懂在 C 语言加持下,AI 智能体如何以可穿戴设备的形态,在你身边稳稳运行、离线服务、主动响应。
本文介绍如何在不脱离 ArduinoIDE 可视化开发的前提下,通过一个名为 platform.local.txt 的小文件,实现对 ESP32 编译流程的精准控制。
本文将系统分析程序体积增长的五大根源,并提供经过验证的优化方案,帮助减小固件大小。
本小节使用音频开发框架实现一个音频录制到文件的示例。
I2S协议通过BCLK、LRCLK和DATA三线精准传输音频数据,但时序边沿、帧格式、时钟源等细节常引发噪声或断连。本文详解ESP32的I2S实现,从协议原理到ESP-IDF v5.x代码配置,助你避开常见陷阱,确保音频稳定传输。