数据库课程设计新思路：集成SenseVoice-Small构建语音查询系统

张

张建站

2026/4/4 6:41:51

10分钟阅读

数据库课程设计新思路集成SenseVoice-Small构建语音查询系统每次带数据库课程设计看着学生们埋头写那些千篇一律的“学生信息管理系统”用着十年前的老界面做着增删改查的重复劳动我就在想能不能给这门课注入点新东西能不能让学生们接触到当下最前沿的技术做出一个真正有点“酷”的项目直到我尝试把语音AI和数据库结合起来。想象一下一个学生信息管理系统你不再需要点击复杂的按钮或者输入拗口的SQL语句只需要对着麦克风说一句“帮我查一下张三同学这学期的成绩”系统就能听懂你的话自动从数据库里找到答案再用语音播报出来。这听起来是不是比传统的课程设计有意思多了这就是我想分享的新思路将开源的语音大模型SenseVoice-Small集成到数据库课程设计中打造一个支持语音交互的学生信息管理系统。这不仅仅是换个花样而是将AI应用开发与传统数据库知识进行了一次深度融合让学生在一个项目里就能体验到从前端交互、AI模型调用、到后端数据库操作的全栈开发流程。1. 为什么选择“语音查询”作为课程设计课题传统的数据库课程设计核心是让学生掌握数据库设计E-R图、范式、SQL语言以及通过某种编程语言如JavaSpring Boot, PythonFlask进行CRUD操作。这固然重要但往往与当前的技术热点脱节学生做完后感觉“学了但又好像没学到什么新东西”。引入“语音查询”这个课题能带来几个显著的提升第一项目吸引力直线上升。“语音交互”、“AI”这些关键词本身就对学生们有巨大的吸引力。它能极大地激发学生的学习热情和探索欲让他们觉得“我在做一个很酷、很现代的东西”而不是完成一个枯燥的作业。第二知识面得到实质性拓展。这个项目要求学生不仅要懂数据库和Web开发还需要了解AI模型API调用如何与一个开源的语音模型进行交互。语音转文本ASR理解语音识别的基本流程和结果处理。自然语言转SQLText-to-SQL这是项目的核心挑战之一如何将用户的自然语言问题如“张三的成绩怎么样”转化为结构化的SQL查询语句如SELECT * FROM scores WHERE student_name ‘张三’。这涉及到简单的自然语言处理NLP思想。文本转语音TTS如何将查询结果用语音播报出来完成交互闭环。第三工程实践能力综合锻炼。学生需要设计一个完整的系统架构处理音频流、调用模型API、解析返回结果、拼接SQL、执行查询、格式化结果、调用语音合成这一套流程下来对模块化设计、异常处理、API集成等工程能力的锻炼是全方位的。第四紧扣“数据库”核心。无论前端多么花哨核心依然是数据库。学生需要精心设计数据库表结构学生表、课程表、成绩表等编写复杂的SQL查询来应对各种语音问法这反而加强了对数据库原理的理解和应用。2. 系统核心架构与组件选型在开始动手之前我们先来俯瞰一下整个系统的蓝图。一个完整的语音查询系统可以大致分为以下几个层次用户语音输入 ↓ [前端Web界面] (接收音频) ↓ [后端服务] (Python/Java等) │ ├── 调用 [SenseVoice-Small] 进行语音识别 (ASR) │ ↓ │ 得到文本“查询张三的数据库课程成绩” │ ├── [自然语言转SQL模块] (规则/简单模型) │ ↓ │ 生成SQLSELECT score FROM scores s JOIN students stu ON s.student_id stu.id JOIN courses c ON s.course_id c.id WHERE stu.name ‘张三‘ AND c.name ‘数据库原理‘ │ ├── 执行SQL查询 [MySQL数据库] │ ↓ │ 获得结果{“score”: 95} │ └── 调用 [文本转语音服务] (如pyttsx3, Edge-TTS) ↓ 生成音频流 ↓ [前端Web界面] 播放结果音频“张三同学的数据库原理课程成绩是95分。”关键技术组件选型建议兼顾教学与可行性语音识别ASRSenseVoice-Small为什么选它SenseVoice是商汤开源的高质量语音识别模型其Small版本在精度和效率上取得了很好的平衡非常适合部署在课程设计这样的学习环境中。它支持中文识别并且提供了清晰的API和预训练模型学生可以相对容易地集成到自己的后端服务中。后端框架Python Flask / FastAPI为什么选它Python语法简洁生态丰富非常适合快速原型开发。Flask轻量灵活FastAPI性能好且自带API文档两者都能很好地处理HTTP请求、调用模型和操作数据库。数据库MySQL为什么选它高校数据库课程的主流选择学生最熟悉。完全满足本项目需求。Text-to-SQL模块规则引擎少量关键词匹配为什么不用复杂模型对于课程设计使用完整的NL2SQL模型如SQLNet、TypeSQL过于复杂。我们采用更实用的方法规则模板关键词抽取。例如定义一系列查询模板然后从用户问题中提取“学生姓名”、“课程名”、“查询动作成绩/选课”等关键信息再填充到模板中生成SQL。这本身就是一次很好的逻辑训练。文本转语音TTSpyttsx3 或 Edge-TTSpyttsx3离线Python库简单易用但音质一般。Edge-TTS调用微软Edge浏览器的在线语音合成服务音质自然但需要网络。根据实验环境选择即可。前端HTML/JavaScript (可选用Vue/React简化)核心功能是录音和播放音频。可以使用Web Audio API或现成的库如recorder.js实现录音并通过Ajax或Fetch API与后端通信。3. 分步实现指南与核心代码片段下面我们抛开理论直接看看关键部分怎么实现。我会用Python Flask SenseVoice-Small作为示例。3.1 环境搭建与SenseVoice-Small快速部署首先确保你的开发环境已经准备好。# 1. 创建项目目录并进入 mkdir voice_sql_system cd voice_sql_system # 2. 创建虚拟环境推荐 python -m venv venv # Windows激活 venv\Scripts\activate # Linux/Mac激活 source venv/bin/activate # 3. 安装核心依赖 pip install flask pymysql torch transformers # 安装SenseVoice相关库请根据其官方仓库的README安装 # 例如pip install -U openai-whisper (如果SenseVoice基于或类似Whisper) # 注意SenseVoice-Small可能需要从商汤的ModelScope或Hugging Face下载SenseVoice-Small的调用方式可能因发布形式而异。这里假设它提供了类似以下方式的接口# sensevoice_utils.py - 封装语音识别功能 import torch from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor import librosa class SenseVoiceASR: def __init__(self, model_pathSenseVoice-Small): # 加载模型和处理器 self.processor AutoProcessor.from_pretrained(model_path) self.model AutoModelForSpeechSeq2Seq.from_pretrained(model_path) self.device cuda:0 if torch.cuda.is_available() else cpu self.model.to(self.device) def transcribe(self, audio_path): # 加载音频 audio_array, sampling_rate librosa.load(audio_path, sr16000) # 处理输入 inputs self.processor(audio_array, sampling_ratesampling_rate, return_tensorspt).to(self.device) # 生成识别结果 with torch.no_grad(): generated_ids self.model.generate(**inputs) # 解码文本 transcription self.processor.batch_decode(generated_ids, skip_special_tokensTrue)[0] return transcription # 初始化识别器 asr_engine SenseVoiceASR()3.2 设计数据库与初始化数据我们设计一个简单的学生-课程-成绩模型。-- schema.sql CREATE DATABASE IF NOT EXISTS student_voice_db; USE student_voice_db; CREATE TABLE students ( id INT PRIMARY KEY AUTO_INCREMENT, student_id VARCHAR(20) UNIQUE NOT NULL COMMENT ‘学号‘, name VARCHAR(50) NOT NULL COMMENT ‘姓名‘, gender ENUM(‘男‘, ‘女‘) COMMENT ‘性别‘, major VARCHAR(100) COMMENT ‘专业‘ ); CREATE TABLE courses ( id INT PRIMARY KEY AUTO_INCREMENT, course_code VARCHAR(20) UNIQUE NOT NULL COMMENT ‘课程代码‘, name VARCHAR(100) NOT NULL COMMENT ‘课程名称‘, credit FLOAT COMMENT ‘学分‘ ); CREATE TABLE scores ( id INT PRIMARY KEY AUTO_INCREMENT, student_id INT NOT NULL COMMENT ‘学生ID‘, course_id INT NOT NULL COMMENT ‘课程ID‘, score DECIMAL(5,2) COMMENT ‘成绩‘, semester VARCHAR(20) COMMENT ‘学期‘, FOREIGN KEY (student_id) REFERENCES students(id) ON DELETE CASCADE, FOREIGN KEY (course_id) REFERENCES courses(id) ON DELETE CASCADE, UNIQUE KEY uk_student_course (student_id, course_id, semester) ); -- 插入一些示例数据 INSERT INTO students (student_id, name, gender, major) VALUES (‘2023001‘, ‘张三‘, ‘男‘, ‘计算机科学与技术‘), (‘2023002‘, ‘李四‘, ‘女‘, ‘软件工程‘); INSERT INTO courses (course_code, name, credit) VALUES (‘CS101‘, ‘数据库原理‘, 3.0), (‘CS102‘, ‘数据结构‘, 4.0); INSERT INTO scores (student_id, course_id, score, semester) VALUES (1, 1, 95.5, ‘2023-2024-1‘), (1, 2, 88.0, ‘2023-2024-1‘), (2, 1, 92.0, ‘2023-2024-1‘);3.3 构建后端Flask应用与核心逻辑这是整个系统的大脑负责串联所有环节。# app.py from flask import Flask, request, jsonify import pymysql import os from werkzeug.utils import secure_filename from sensevoice_utils import asr_engine # 导入我们封装的ASR类 import tts_utils # 假设的TTS工具模块 app Flask(__name__) app.config[‘UPLOAD_FOLDER‘] ‘uploads/‘ app.config[‘MAX_CONTENT_LENGTH‘] 16 * 1024 * 1024 # 16MB限制 os.makedirs(app.config[‘UPLOAD_FOLDER‘], exist_okTrue) # 数据库配置 DB_CONFIG { ‘host‘: ‘localhost‘, ‘user‘: ‘your_username‘, ‘password‘: ‘your_password‘, ‘database‘: ‘student_voice_db‘, ‘charset‘: ‘utf8mb4‘ } def get_db_connection(): return pymysql.connect(**DB_CONFIG) # 核心自然语言转SQL的规则引擎简化版 class SimpleNL2SQL: def parse(self, text): 将自然语言问题转换为SQL查询。这是一个非常简单的规则示例实际项目中需要更完善的规则或模型。 text text.lower() sql params [] # 规则1查询某个学生的成绩 if ‘成绩‘ in text or ‘分数‘ in text: # 提取学生姓名这里用简单查找实际可用NER if ‘张三‘ in text: student_name ‘张三‘ elif ‘李四‘ in text: student_name ‘李四‘ else: student_name None # 提取课程名 course_keywords {‘数据库‘: ‘数据库原理‘, ‘数据结构‘: ‘数据结构‘} course_name None for kw, cname in course_keywords.items(): if kw in text: course_name cname break # 构建SQL if student_name and course_name: sql SELECT s.name as student_name, c.name as course_name, sc.score, sc.semester FROM scores sc JOIN students s ON sc.student_id s.id JOIN courses c ON sc.course_id c.id WHERE s.name %s AND c.name %s params [student_name, course_name] elif student_name: sql SELECT c.name as course_name, sc.score, sc.semester FROM scores sc JOIN students s ON sc.student_id s.id JOIN courses c ON sc.course_id c.id WHERE s.name %s params [student_name] else: return None, [] # 无法解析 # 规则2查询学生信息可以继续扩展更多规则... elif ‘信息‘ in text and (‘张三‘ in text or ‘李四‘ in text): if ‘张三‘ in text: student_name ‘张三‘ else: student_name ‘李四‘ sql SELECT student_id, name, gender, major FROM students WHERE name %s params [student_name] return sql, params nl2sql_engine SimpleNL2SQL() app.route(‘/api/query-by-voice‘, methods[‘POST‘]) def query_by_voice(): 接收音频文件识别、转SQL、查询、返回文本和语音结果 if ‘audio‘ not in request.files: return jsonify({‘error‘: ‘No audio file‘}), 400 audio_file request.files[‘audio‘] if audio_file.filename ‘‘: return jsonify({‘error‘: ‘No selected file‘}), 400 # 1. 保存音频文件 filename secure_filename(audio_file.filename) audio_path os.path.join(app.config[‘UPLOAD_FOLDER‘], filename) audio_file.save(audio_path) try: # 2. 语音识别 (ASR) user_query_text asr_engine.transcribe(audio_path) print(f识别出的文本: {user_query_text}) # 3. 自然语言转SQL sql_query, query_params nl2sql_engine.parse(user_query_text) if not sql_query: return jsonify({ ‘text_reply‘: ‘抱歉我没有理解您的查询意图。请尝试问类似“查询张三的数据库成绩”这样的问题。‘, ‘audio_url‘: None }) # 4. 执行数据库查询 conn get_db_connection() cursor conn.cursor(pymysql.cursors.DictCursor) cursor.execute(sql_query, query_params) results cursor.fetchall() cursor.close() conn.close() # 5. 格式化查询结果为自然语言文本 if not results: text_reply f“根据您的查询‘{user_query_text}‘未找到相关记录。“ else: # 简单格式化实际可以更复杂 if ‘score‘ in results[0]: text_reply f“查询到{len(results)}条成绩信息\n“ for r in results: text_reply f“{r[‘student_name‘]}同学的{r[‘course_name‘]}课程成绩是{r[‘score‘]}分学期{r[‘semester‘]}。\n“ else: text_reply f“查询到的学生信息如下\n“ for r in results: text_reply f“学号{r[‘student_id‘]} 姓名{r[‘name‘]} 性别{r[‘gender‘]} 专业{r[‘major‘]}。\n“ # 6. 文本转语音 (TTS) audio_output_path os.path.join(‘static/audio‘, f‘result_{filename}.mp3‘) os.makedirs(os.path.dirname(audio_output_path), exist_okTrue) # 假设tts_utils有一个generate_speech函数 tts_utils.generate_speech(text_reply, audio_output_path) # 7. 返回结果文本和音频URL audio_url f‘/static/audio/{os.path.basename(audio_output_path)}‘ return jsonify({ ‘original_text‘: user_query_text, ‘generated_sql‘: sql_query, # 用于调试前端可不显示 ‘text_reply‘: text_reply, ‘audio_url‘: audio_url }) except Exception as e: print(f“处理过程中出错: {e}“) return jsonify({‘error‘: str(e)}), 500 if __name__ ‘__main__‘: app.run(debugTrue)3.4 实现一个简单的前端界面前端主要负责录音和播放。!DOCTYPE html html head title语音查询学生信息系统/title script srchttps://cdn.jsdelivr.net/npm/axios/dist/axios.min.js/script /head body h1 语音查询学生信息系统/h1 p请点击下方按钮开始录音用自然语言提问例如“查询张三的数据库成绩”/p button idrecordBtn按住说话/button button idstopBtn disabled停止并查询/button p idstatus准备就绪/p hr h3识别出的文本/h3 p idqueryText--/p h3系统回复/h3 p idreplyText--/p audio idaudioPlayer controls stylemargin-top: 20px;/audio script let mediaRecorder; let audioChunks []; const recordBtn document.getElementById(‘recordBtn‘); const stopBtn document.getElementById(‘stopBtn‘); const status document.getElementById(‘status‘); const queryText document.getElementById(‘queryText‘); const replyText document.getElementById(‘replyText‘); const audioPlayer document.getElementById(‘audioPlayer‘); recordBtn.addEventListener(‘mousedown‘, startRecording); recordBtn.addEventListener(‘mouseup‘, stopRecording); // 移动端适配 recordBtn.addEventListener(‘touchstart‘, startRecording); recordBtn.addEventListener(‘touchend‘, stopRecording); async function startRecording() { status.textContent ‘正在录音...‘; audioChunks []; const stream await navigator.mediaDevices.getUserMedia({ audio: true }); mediaRecorder new MediaRecorder(stream); mediaRecorder.start(); mediaRecorder.ondataavailable event { audioChunks.push(event.data); }; } function stopRecording() { if (!mediaRecorder || mediaRecorder.state ‘inactive‘) return; mediaRecorder.stop(); status.textContent ‘录音结束处理中...‘; mediaRecorder.onstop async () { const audioBlob new Blob(audioChunks, { type: ‘audio/webm‘ }); await sendAudioToServer(audioBlob); }; } async function sendAudioToServer(audioBlob) { const formData new FormData(); formData.append(‘audio‘, audioBlob, ‘recording.webm‘); try { const response await axios.post(‘/api/query-by-voice‘, formData, { headers: { ‘Content-Type‘: ‘multipart/form-data‘ } }); const data response.data; if (data.error) { status.textContent ‘错误: ‘ data.error; return; } queryText.textContent data.original_text || ‘--‘; replyText.textContent data.text_reply || ‘--‘; if (data.audio_url) { audioPlayer.src data.audio_url; audioPlayer.play(); } status.textContent ‘查询完成‘; } catch (error) { console.error(‘请求失败:‘, error); status.textContent ‘请求失败请检查控制台。‘; } } /script /body /html4. 项目深化与扩展思路完成基础版本后这个课程设计课题还有巨大的深化空间可以引导学生进行“升级打怪”挑战一让NL2SQL更智能。现在的规则引擎太脆弱。可以引导学生研究如何用关键词提取jieba分词、命名实体识别NER来更准确地提取“学生”、“课程”、“属性”等信息。更进一步可以尝试集成一个轻量级的Text-to-SQL微调模型如用T5-small在少量数据上微调这能直接接触到NLP的前沿。挑战二支持更复杂的查询。“计算机专业成绩最好的三名同学是谁”涉及聚合、分组、排序。这需要设计更强大的语义解析逻辑。挑战三加入对话状态管理。实现多轮对话。比如用户先说“查一下张三”系统问“请问想查询张三的什么信息”用户再说“他的成绩”。这涉及到对话状态Dialog State的维护是一个经典的对话系统课题。挑战四前端体验优化。实现实时语音识别流式ASR用户一边说文字一边出现说完立即出结果。这需要用到WebSocket和模型支持的流式接口。挑战五系统优化与部署。将SenseVoice-Small模型服务化如用FastAPI单独部署后端通过RPC调用。引入缓存Redis缓存常见的查询结果。学习使用Docker将整个系统容器化这本身就是一项宝贵的DevOps技能。把这个项目作为数据库课程设计学生们收获的远不止是SQL和CRUD。他们亲手搭建了一个融合了AI感知能力语音和传统数据处理能力数据库的完整应用看到了如何将课堂上的理论数据库设计、SQL与业界热门技术AI模型、Web开发结合起来解决一个看似“未来感”十足的问题。这种从0到1构建一个智能系统的体验对于他们的信心和职业视野的开拓价值远超一个传统的管理系统。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

BERT文本分割模型5分钟快速部署：零基础搭建智能分段工具

BERT文本分割模型5分钟快速部署：零基础搭建智能分段工具 1. 引言：告别文字“墙”，让长文本秒变清晰段落你有没有过这样的经历？辛辛苦苦听完一场两小时的线上会议，语音转文字工具生成了一份上万字的逐字稿。你满怀期…...

2026/4/4 6:37:41 阅读更多 →

MusePublic多场景落地：高校视觉传达课程AI辅助教学实践案例

MusePublic多场景落地：高校视觉传达课程AI辅助教学实践案例 1. 项目背景与教学痛点高校视觉传达设计课程长期面临一个现实矛盾：学生需要大量练习人像构图、光影表现和艺术风格表达，但传统教学依赖手绘或摄影素材，周期长、成本高…...

2026/4/4 6:36:38 阅读更多 →

5步搞定！Ollama部署TranslateGemma-4b-it图文翻译模型，支持图片文字识别翻译

5步搞定！Ollama部署TranslateGemma-4b-it图文翻译模型，支持图片文字识别翻译 1. 为什么选择TranslateGemma-4b-it 如果你正在寻找一个既能翻译文字又能识别图片内容的轻量级翻译工具，TranslateGemma-4b-it可能是目前最理想的选择。这个由Go…...

2026/4/4 6:32:37 阅读更多 →

在 Windows 11 家庭版安装 Docker Desktop解决虚拟化问题

目录前言环境说明架构原理第一步：启用 Windows 虚拟化功能第二步：修复 Hypervisor 启动配置第三步：安装 WSL 2 与 Ubuntu 第四步：启动 Docker Desktop 第五步：验证安装常见问题总结前言 Docker 是目…...

2026/3/31 3:31:24 阅读更多 →

实在 Agent 和通用大模型有什么不一样？深度拆解 AI Agent 的感知、决策与执行逻辑

获取系统时间这一任务，虽然看似简单，却深刻揭示了 AI Agent 与通用大模型在本质、能力、架构和应用场景上的根本性差异。通用大模型（LLM），如 GPT、Claude 或通义千问等，其核心是基于海量文本数据训练出的概…...

2026/3/29 0:02:57 阅读更多 →

pdf2docx完全指南：如何高效将PDF转换为可编辑的Word文档

pdf2docx完全指南：如何高效将PDF转换为可编辑的Word文档【免费下载链接】pdf2docx Open source Python library converting pdf to docx. 项目地址: https://gitcode.com/gh_mirrors/pd/pdf2docx pdf2docx是一个强大的开源Python库，专门用于将PD…...

2026/4/4 3:15:07 阅读更多 →