Python入门项目：用Qwen3-ASR-0.6B打造你的第一个语音助手

张

张建站

2026/6/21 17:18:56

10分钟阅读

Python入门项目用Qwen3-ASR-0.6B打造你的第一个语音助手想学Python但觉得光看语法太枯燥想接触AI又觉得大模型太复杂那今天这个项目就是为你准备的。我们不用去啃那些晦涩的理论直接动手用不到100行代码做一个能听懂你说话的桌面小助手。想象一下你对着电脑说“打开记事本”它就能帮你打开说“播放音乐”它就能为你放首歌。这个听起来有点酷的小工具就是我们今天要一起完成的项目。整个过程就像搭积木我们会从最基础的安装Python开始一步步把各个“零件”拼装起来。你不需要有任何AI基础只要会复制粘贴代码跟着我做就能亲眼看到代码“活”过来变成一个能交互的智能程序。这比你写一百个“Hello World”都有意思得多。1. 项目准备搭好你的Python工作台工欲善其事必先利其器。在开始敲代码之前我们需要先把“工作台”搭建好。别担心步骤很简单就像给新手机安装APP一样。1.1 安装Python和代码编辑器首先确保你的电脑上安装了Python。打开命令行Windows上是CMD或PowerShellMac上是终端输入python --version或者python3 --version。如果能看到像Python 3.8.10这样的版本号恭喜你这一步已经完成了。如果没有你需要去Python官网下载安装包。记住一定要选择Python 3.7或以上的版本。安装时记得勾选“Add Python to PATH”这个选项这能让你在命令行里直接使用python命令。接下来你需要一个写代码的工具我们称之为代码编辑器或IDE。对于新手我强烈推荐Visual Studio Code (VS Code)。它免费、轻量而且对Python支持非常好。去VS Code官网下载安装即可。安装好后记得在扩展商店里搜索并安装“Python”这个扩展它会帮你高亮代码、自动补全让写代码轻松很多。1.2 认识我们的核心“引擎”Qwen3-ASR我们这个语音助手的“耳朵”和“大脑”就是一个叫做Qwen3-ASR-0.6B的模型。ASR是“自动语音识别”的缩写简单说它就是负责把你说的话转换成电脑能看懂的文本。为什么选它呢因为它足够“轻巧”。0.6B代表它有6亿个参数在AI模型里属于“小个子”这意味着它对电脑配置要求不高在你的笔记本上就能快速运行。同时它的中文识别效果很不错非常适合我们做入门实践。我们不需要自己去训练这个复杂的模型那样太费时费力了。幸运的是有很多平台已经把这个模型封装成了好用的服务我们只需要通过一个简单的网络请求API调用就能使用它。这就像我们不用自己发电直接插上插座就能用电一样方便。在本教程中我们将以一种模拟的方式学习如何调用这类服务理解其背后的原理。1.3 创建项目文件夹和虚拟环境为了让项目干净整洁不和你电脑上其他的Python项目打架我们需要创建一个专属的“工作间”。在你的电脑上找个地方比如桌面或文档文件夹新建一个文件夹名字就叫my_voice_assistant。打开VS Code点击“文件” - “打开文件夹”选择你刚创建的my_voice_assistant文件夹。在VS Code里打开终端“终端” - “新建终端”。在终端里输入以下命令来创建一个虚拟环境python -m venv venv这会在你的项目文件夹里创建一个叫venv的子文件夹里面是一个独立的Python环境。激活虚拟环境Windows:venv\Scripts\activateMac/Linux:source venv/bin/activate激活后你会发现终端命令行的前面多了个(venv)的标记这说明你已经在这个独立环境里了。好了工作台已经准备就绪我们可以开始动手制作第一个零件了——让程序学会“听”。2. 第一步让程序“听见”你的声音我们的助手要能响应语音命令第一步当然是得能录制我们的声音。在Python里有一个库叫pyaudio它能帮我们处理麦克风输入。不过它安装起来稍微麻烦一点所以我们用一个更简单的替代品sounddevice。同时我们还需要numpy和scipy来处理录制下来的音频数据。在刚才激活了虚拟环境的终端里一次性安装这些需要的“零件”pip install sounddevice numpy scipy安装完成后我们来写第一个核心功能录音。在VS Code里新建一个文件命名为voice_assistant.py。然后把下面的代码复制进去import sounddevice as sd import numpy as np from scipy.io.wavfile import write import time def record_audio(duration5, sample_rate16000): 录制一段音频。参数 duration: 录制时长单位秒默认5秒。 sample_rate: 采样率默认16000Hz16kHz这是语音识别常用的采样率。 print(f开始录音请说话...{duration}秒) # 开始录音 recording sd.rec(int(duration * sample_rate), sampleratesample_rate, channels1, # 单声道 dtypeint16) sd.wait() # 等待录音结束 print(录音结束。) return recording, sample_rate def save_audio_to_file(recording, sample_rate, filenameoutput.wav): 将录制的音频数据保存为WAV文件。 # 将numpy数组的数据类型转换为int16确保兼容性 audio_data np.int16(recording * 32767) write(filename, sample_rate, audio_data) print(f音频已保存为{filename}) # 测试一下录音功能 if __name__ __main__: # 录制3秒钟音频 my_recording, sr record_audio(duration3) # 保存为test.wav文件 save_audio_to_file(my_recording, sr, test.wav) print(试试用播放器打开‘test.wav’听听你刚才说了什么。)代码简单解释一下record_audio函数这是主角。sd.rec是开始录音的命令我们告诉它录多久、用多高的采样率。sd.wait()是让程序乖乖等着直到录完。save_audio_to_file函数录音得到的数据是一堆数字这个函数负责把这些数字打包成电脑上常见的.wav音频文件。最后if __name__ “__main__”:下面的代码是当我们直接运行这个文件时会执行的测试部分。现在运行你的第一个程序在终端里输入python voice_assistant.py按照提示说话程序会在当前文件夹生成一个test.wav文件。双击打开听听是不是你的声音恭喜你的程序已经拥有“耳朵”了3. 第二步让程序“听懂”你在说什么录下了声音接下来就要把声音变成文字。这就是语音识别ASR模型的工作。前面提到我们会学习如何调用这类服务。为了模拟这个过程并专注于Python学习我们接下来将实现一个本地的、简单的“语音命令匹配”功能。这能让你理解交互的核心逻辑未来你可以很容易地将匹配逻辑替换为真正的API调用。我们先定义一个简单的命令字典。在voice_assistant.py文件中添加以下代码可以放在文件顶部import语句下面# 一个简单的语音命令映射表 VOICE_COMMANDS { “打开记事本”: “notepad”, “打开计算器”: “calc”, “播放音乐”: “start music”, “现在几点”: “time”, “你好”: “greeting”, }然后我们需要一个函数来“理解”录音。由于我们没有接入真实的ASR服务我们将模拟一个识别过程假设我们录下的音频经过某种“黑盒”识别后返回了一个文本结果。我们来修改和添加函数def understand_audio(audio_filename): 模拟语音识别过程。在实际项目中这里会将audio_filename文件发送给ASR服务API并返回识别文本。此处我们模拟一个简单的交互来学习流程。 # 模拟假装我们调用了一个API并得到了识别结果。 # 为了演示我们让用户手动输入模拟的识别结果。 print(f\n[模拟环节] 假设已处理音频文件: {audio_filename}) simulated_text input(“请输入你想模拟的语音命令例如‘打开记事本’ “) return simulated_text.strip() # 返回模拟的识别文本 def process_command(text): 处理识别出来的文本命令。 if not text: return “抱歉我没有听清。” # 在命令字典里查找 for command, action in VOICE_COMMANDS.items(): if command in text: # 简单判断如果输入文本包含我们的命令关键词 print(f“识别到命令{command} 执行动作{action}”) return execute_action(action) # 如果没找到匹配的命令 return f“我还不懂‘{text}’这个命令你可以教我。”看我们创建了一个VOICE_COMMANDS字典它就像我们给助手定下的“规矩”当听到“打开记事本”这句话时它就对应到“notepad”这个动作码。understand_audio函数模拟了调用语音识别服务的过程。process_command函数则负责把识别出来的文字去我们的“规矩本”字典里查找找到后就执行相应的动作。那么动作由谁来执行呢我们需要一个“执行者”。4. 第三步让程序“执行”你的命令助手听懂了命令最后一步就是去执行。我们需要根据不同的动作码让电脑去做不同的事情。Python的os和subprocess库可以帮我们运行系统命令datetime库可以获取时间。在voice_assistant.py文件里继续添加代码import os import subprocess import datetime def execute_action(action_code): 根据动作码执行具体的操作。 try: if action_code “notepad”: # 打开记事本 (Windows) os.system(“notepad”) return “已打开记事本。” elif action_code “calc”: # 打开计算器 (Windows) os.system(“calc”) return “已打开计算器。” elif action_code “start music”: # 这里可以替换成你电脑上音乐播放器的路径或者一个在线音乐URL # 例如用系统默认播放器打开一个音乐文件 # subprocess.Popen([‘start’, ‘C:\\Users\\YourName\\Music\\song.mp3‘], shellTrue) return “音乐播放功能已准备就绪。请配置你的音乐文件路径” elif action_code “time”: # 获取当前时间 current_time datetime.datetime.now().strftime(“%H:%M:%S”) return f“现在时间是 {current_time}。” elif action_code “greeting”: return “你好我是你的语音助手很高兴为你服务。” else: return f“未知动作码{action_code}” except Exception as e: return f“执行命令时出错{e}”这个execute_action函数就是一个大开关。如果动作码是“notepad”它就调用os.system(“notepad”)这行代码的效果和你在Windows运行对话框里输入“notepad”并回车一模一样。其他命令也是类似的原理。现在只差最后一步把“录音”、“识别”、“执行”这三个环节串起来了。5. 第四步组装完整助手并加入循环让我们创建一个主函数把前面所有的功能像流水线一样连接起来并且加上一个循环让助手可以一直等待你的命令而不是说一次就结束。在voice_assistant.py文件末尾添加主函数并修改启动部分def main(): 语音助手主循环。 print(“ 简易语音助手已启动 ) print(f“当前支持的命令{‘ ‘.join(VOICE_COMMANDS.keys())}”) print(“说‘退出’或‘关闭’可以结束程序。\n”) while True: # 1. 录音 input(“按回车键开始录音...或输入‘q’退出”) # 等待用户准备 audio_data, sample_rate record_audio(duration4) # 录制4秒 temp_filename “temp_recording.wav” save_audio_to_file(audio_data, sample_rate, temp_filename) # 2. 模拟识别 recognized_text understand_audio(temp_filename) # 检查退出命令 if recognized_text in [“退出” “关闭”]: print(“语音助手已关闭。”) break # 3. 处理并执行命令 response process_command(recognized_text) print(f“助手{response}\n”) # 清理临时文件可选 # import os # if os.path.exists(temp_filename): # os.remove(temp_filename) if __name__ “__main__”: main()现在把我们最开始写的测试代码部分if __name__ “__main__”:后面的那三行注释掉或者删掉因为我们有了更完整的main()函数。大功告成运行你的完整版语音助手吧python voice_assistant.py你会看到程序启动列出支持的命令。按回车开始录音然后在弹出的输入框里输入你想模拟的命令比如“打开记事本”。看看会发生什么是不是记事本程序弹出来了你可以多试几个命令体验一下这个由你亲手创造的智能小管家的乐趣。6. 总结与下一步怎么样从零开始我们只用了一个Python文件和一些基础的库就做出了一个能响应简单语音命令的桌面程序。这个过程里你其实已经不知不觉地实践了好几个Python核心概念函数封装把功能打包成record_audioprocess_command、字典映射VOICE_COMMANDS、条件判断if/elif/else、循环while True以及调用系统功能os.system。这个项目是一个完美的起点。它现在还很简陋但每一个部分都有巨大的改进空间真正的语音识别你可以去探索一些提供免费额度的语音识别API服务如一些大模型平台提供的服务用requests库替换掉我们模拟的understand_audio函数让助手能真正听懂你的声音。更多命令扩展你的VOICE_COMMANDS字典和execute_action函数。比如添加“打开网站”、“查天气”、“关机”等等。语音反馈让助手不仅能听还能说。可以研究一下文本转语音TTS的库比如pyttsx3在执行命令后播报结果。图形界面用tkinter或PyQt给助手做一个可爱的桌面窗口加上一个麦克风按钮体验会更棒。编程最大的乐趣就在于创造和优化。这个小小的语音助手就像你堆的第一个乐高模型虽然简单但所有基本的连接方式你都掌握了。接下来想把它变成钢铁侠的贾维斯还是《星际穿越》里的TARS就全凭你的想象力和动手能力了。希望这个项目能点燃你对Python和AI编程的兴趣享受动手创造的快乐获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

探索三线圈多线圈无线电能传输仿真的奇妙世界

多线圈无线电能传输仿真三线圈在无线电能传输领域，多线圈系统为提高传输效率和灵活性带来了新的可能。今天咱们就来深入聊聊三线圈无线电能传输仿真。三线圈无线电能传输原理简述简单来说，三线圈系统包含发射线圈、中继线圈和接收线圈。发射线圈通过交…...

2026/6/17 10:47:48 阅读更多 →

基于虚拟仪器技术的音乐喷泉设计

逻辑及其目的：读取.wav音频文件。在程序运行时同步播放音频文件。从播放的音频数据流中提取与幅值或频率相关的特定特征信息。根据选择的控制模式（幅值或频率），对提取的特征值进行滤波和平移缩放处理。将处理后的特征值通过一组并…...

2026/6/19 2:41:39 阅读更多 →

Firefox Nightly版用户必看：xpinstall.signatures.required设置全指南与避坑要点

Firefox Nightly版用户必看：xpinstall.signatures.required设置全指南与避坑要点作为浏览器领域的创新先锋，Firefox Nightly版一直是开发者测试前沿功能的利器。但当遇到插件签名验证问题时，许多用户发现常规解决方案在Nightly版上完全失效—…...

2026/6/15 15:41:24 阅读更多 →

如何快速配置ExplorerPatcher：面向Windows用户的完整界面定制指南

如何快速配置ExplorerPatcher：面向Windows用户的完整界面定制指南【免费下载链接】ExplorerPatcher This project aims to enhance the working environment on Windows 项目地址: https://gitcode.com/GitHub_Trending/ex/ExplorerPatcher 还在为Windows 1…...

2026/6/21 0:08:07 阅读更多 →