An-Labeler：AudioLabellerV3 AI 辅助标注工具详解（自研Qt + FFT/模型自动标注）

张

张建站

2026/7/7 23:58:27

10分钟阅读

An-Labeler：AudioLabellerV3 AI 辅助标注工具详解（自研Qt + FFT/模型自动标注）

An-Labeler V3：AudioLabeller AI 辅助标注工具详解（自研Qt + FFT/模型自动标注）Author:Code-keys (qq_37445230)Version:V3 (2026-03)系列文章：An-Labeler：AudioLabeller 高效音视频标注工具[AAn-Labeler：AudioLabellerV3 AI 辅助标注工具详解]一、V3 版本更新概览在 V1（基础标注）和 V2（手工标注优化）的基础上，V3 引入了AI 辅助自动标注能力，核心升级如下：特性V1/V2V3音频播放pyaudio+ Threadsounddevice(PyPlayer.AudioPlayer)标注模式纯手动FFT 自动检测 + 模型推理（可切换）频谱图参数FFT=1024, hop=512, mels=128FFT=512, hop=256, mels=256（更高分辨率）线程池max 2max 10类别快捷键Ctrl+1~91~9（直接按键）新增菜单—自动化标注（FFT / 模型切换）模块化单文件引入AudioAlgos、PyPlayer外部模块DEBUG 开关无全局DEBUG标志，条件日志二、架构概览V3 采用模块化拆分，将播放器和算法逻辑从主脚本中解耦：PyAudioLabelerV3FFT.py ← 主程序（UI + 标注逻辑） ├── PyPlayer.py ← 独立音频播放模块（sounddevice） ├── AudioAlgos ← 自动检测算法库（FFT/余弦相似度/零填充/跳变检测） └── classes.txt ← 类别配置文件文件依赖关系PyAudioLabelerV3FFT.py │ ├── AudioAlgos.* # 自动标注算法（detect_repeated_by_cos_similarity 等） │ ├── PyPlayer.AudioPlayer # 音频播放（替代 V1 的 AudioPlayCanStop） │ └── sounddevice # 底层音频 I/O │ └── librosa # 音频加载与重采样 │ ├── PyQt5 / pyqtgraph # GUI 框架 ├── soundfile / librosa # 音频读取与频谱计算 └── classes.txt # 标注类别定义三、核心类与模块详解3.1PyPlayer.AudioPlayer— 独立播放器模块V3 用全新的AudioPlayer替换了 V1 的AudioPlayCanStop，底层从pyaudio切换到sounddevice。PyPlayer.py核心实现：classAudioPlayer:"""基于 sounddevice 的音频播放器，支持加载 WAV、截取片段播放，子线程播放"""def__init__(self,files=None,datas=None,sr=16000,blocksize=160):self.sr=sr self.blocksize=sr//50# 每块 20msself.datas=self.load_raw(datas,sr)ifdatasisnotNoneelseself.load(files,sr)self._stop_event=threading.Event()defload(self,path,sr=None):datas,_=librosa.load(path,mono=True,sr=sr)self.datas=datas.astype(np.float32)returnself.datasdefplay(self,start_sec=0.0,end_sec=None,async_=True):"""播放音频片段，支持非阻塞子线程播放"""start=int(start_sec*self.sr)end=int(end_sec*self.sr)ifend_secisnotNoneelselen(self.datas)clip=self.datas[start:end]ifasync_:self._thread=threading.Thread(target=self._play_clip,args=(clip,),daemon=False)self._thread.start()def_play_clip(self,clip):self._stream=sd.OutputStream(samplerate=self.sr,channels=1,blocksize=self.blocksize,dtype='float32',latency='low')self._stream.start()foriin

Translumo：你的游戏翻译工具与外语学习助手终极指南

Translumo：你的游戏翻译工具与外语学习助手终极指南【免费下载链接】Translumo Advanced real-time screen translator for games, hardcoded subtitles in videos, static text and etc. 项目地址: https://gitcode.com/gh_mirrors/tr/Translumo 你是否曾在…...

2026/6/30 17:16:34 阅读更多 →

RevelGo搭建教程：类Rails开发体验的Go Web框架

👉 推荐使用莱卡云服务器搭建 RevelGo 全栈应用，能够提供稳定的运行环境与良好的访问体验，适合开发测试与生产环境部署。一、什么是 RevelGo？RevelGo 是一款基于 Go 语言的全栈 Web 开发框架，集成了 Web 应用开发所需…...

2026/7/3 6:21:45 阅读更多 →

【JavaEE30-后端部分】Spring AOP 原理——代理模式，原来AOP是这样“偷偷”增强你的代码的【AI辅助理解】

开篇：你有没有想过这个问题？ 老铁们，前面我们学了怎么用 AOP 给方法加耗时统计、加日志、加各种增强功能。用起来是真爽——写一个切面类，加几个注解，所有方法都自动被增强了。但是，你有没有想过一个问题&…...

2026/7/4 2:58:00 阅读更多 →

从论文到实践：一维卷积神经网络在RUL预测中的复现与调优

1. 为什么选择一维卷积做RUL预测？我第一次接触RUL（剩余使用寿命）预测时，发现大多数论文都在用二维卷积处理传感器数据。直到实际处理CMAPSS航空发动机数据集时，才意识到一维卷积才是更自然的选择。想象一下&#xff0c…...

2026/7/7 11:49:54 阅读更多 →

STM32与SPI EEPROM高效数据存储与检索方案

1. 项目背景与核心需求在嵌入式系统开发中，快速精确的数据检索是一个常见但极具挑战性的需求。特别是在工业控制、医疗设备和物联网终端等场景下，系统往往需要在毫秒级时间内完成关键参数的读取和写入操作。传统基于Flash存储的方案存在擦写次数有限、操…...

2026/7/7 6:45:27 阅读更多 →

23-AGENTS.md高级用法

23 AGENTS.md 高级用法概述上一篇文章介绍了 AGENTS.md 的三层加载机制，这是 AGENTS.md 体系的基础。但在实际的大型项目中，三层结构往往不够灵活。团队经常面临这样的场景：同一个 Git 仓库中包含多个服务或模块，每个模块都有自己的独特规范，同时还要继承项目级的通用…...

2026/7/6 10:10:39 阅读更多 →