Windows语音唤醒助手

最近闲着无聊随便做了一个windows的语音唤醒助手,主要是闲平常要出门,或者不方便的时候(比如运动、躺床上的时候),可以叫一声电脑就做我想让他做的内容(可以连接LLM/GUI agent/MCP等等)。 再加上现在GUIAgent发展的很快,网上还没有语音唤醒形式的链接,也就自己搭了一个出来。 下面是这个项目的readme。 WinAssistant – Windows 本地语音唤醒与自动化执行 一个在 Windows 上运行的本地语音助手: 说出唤醒词 → 识别你的语音 → 自动执行自定义动作(脚本、GUI Agent、MCP 等)。 全离线(唤醒+识别均可离线),即插即用,优先使用耳机麦克风。 演示视频 https://github.com/user-attachments/assets/a48b8e94-8b95-46eb-9aa5-a4085c2341c4 ✨ 核心特性 多唤醒词可选 / 可自定义 内置多种常见唤醒词,也可替换为你训练的 .ppn 文件。 本地唤醒:Picovoice Porcupine 轻量、低延迟、可靠,离线运行。 语音识别:fast-whisper 内置去噪、VAD 端点检测,自动判断“用户是否说完”,可按需调节模型大小(速度/准确度权衡)。 自动音频设备选择 自动选择可用的输入/输出设备,优先耳机。 可插拔“处理态” 识别到文本后进入你的“处理态”(可自定义),例如: 调用 MCP / 工具调用 触发 GUI Agent 执行脚本、打开应用、查询信息等 🧠 工作流 / 状态机 stateDiagram-v2 [*] --> 空闲态 空闲态 --> 唤醒态: 语音唤醒 唤醒态 --> 处理态: 用户语音结束 处理态 --> 空闲态 唤醒态 --> 空闲态: 用户长时间无应答 空闲态 --> 空闲态: (持续监听) 说明:唤醒后进入实时听写;若检测到长时间静音则回退到空闲态。 ...

2025年09月04日

最近在做的一些事

最近都在广泛学习一些有趣的内容,主要是通过coursera平台。在家呆了2个多月了,也不知道未来啥方向,目前也是有些迷茫的状态,还是学些东西充实下自己吧,搜寻一下感兴趣的东东。 coursera平台类似于国外的mooc,国内外还有好多这样的平台,如中国大学mooc、bilibili大学、网易云课等等。coursera需要付费会员才能观看课程,而且只能通过国外信用卡付款(无)。于是,我在淘宝一搜,这么多卖号,而且很便宜,86半年,立马充值了一波。 有了平台,我立马重新在coursera里,拾起深度学习的基础知识,吴恩达的课程。之前只听过,在coursera认真地观看,还是感觉受益匪浅,毕竟有作业有互动,感觉b站还是差点味道。 现在主要看了深度学习专项课程的前3个: 其实就相当于复习了一下之前在李沐动手学深度学习的内容。 然后光看深度学习也有些乏味,我在网上搜索coursera有没有其他好课程,打开了一个课程排名,类似于垃圾小网站的那种: 然后最近在看幸福科学,才刚开始看,讲的是如何变得幸福,通过科学的方式,感觉讲的还挺好的,在实验的加持下,科学成为人们可以坚持最大的迷信,hhh,但是还是要有反驳精神,感觉很多科学实验严谨性还是有些欠缺。 之后的日子,想了解一下金融相关的知识,挺感兴趣的。马上要开学了,5555,希望能保持学习一些课外内容的习惯。还有,运动也要保持,在家和爸妈打了一个暑假的乒乓球,每日锻炼~

2025年08月25日