实验追踪：MLflow 与模型版本管理

张

张建站

2026/5/14 7:33:10

10分钟阅读

实验追踪MLflow 与模型版本管理1. 技术分析1.1 实验追踪重要性实验追踪是机器学习工程的重要组成部分实验追踪目的记录实验参数和结果复现实验比较不同实验管理模型版本1.2 实验追踪工具对比工具功能特点适用场景MLflow全功能开源、轻量级通用Weights Biases可视化云端服务团队协作TensorBoard可视化TensorFlow生态深度学习Neptune企业级丰富功能企业环境1.3 实验追踪内容追踪内容参数: 超参数、配置指标: 准确率、损失等模型: 模型文件、权重数据: 数据集版本代码: 代码快照2. 核心功能实现2.1 MLflow 基础用法import mlflow import mlflow.sklearn from sklearn.ensemble import RandomForestClassifier from sklearn.metrics import accuracy_score from sklearn.model_selection import train_test_split class MLflowExperiment: def __init__(self, experiment_name): mlflow.set_experiment(experiment_name) self.experiment_name experiment_name def start_run(self, run_nameNone): self.run mlflow.start_run(run_namerun_name) def log_param(self, key, value): mlflow.log_param(key, value) def log_params(self, params): mlflow.log_params(params) def log_metric(self, key, value): mlflow.log_metric(key, value) def log_metrics(self, metrics): mlflow.log_metrics(metrics) def log_model(self, model, model_name): mlflow.sklearn.log_model(model, model_name) def log_artifact(self, local_path): mlflow.log_artifact(local_path) def end_run(self): mlflow.end_run() class ExperimentRunner: def __init__(self, experiment_name): self.experiment MLflowExperiment(experiment_name) def run_experiment(self, model_class, params, X, y): self.experiment.start_run() try: self.experiment.log_params(params) model model_class(**params) X_train, X_val, y_train, y_val train_test_split(X, y, test_size0.2) model.fit(X_train, y_train) train_acc accuracy_score(y_train, model.predict(X_train)) val_acc accuracy_score(y_val, model.predict(X_val)) self.experiment.log_metrics({ train_accuracy: train_acc, val_accuracy: val_acc }) self.experiment.log_model(model, model) print(fExperiment completed: train_acc{train_acc:.4f}, val_acc{val_acc:.4f}) finally: self.experiment.end_run()2.2 模型版本管理class ModelRegistry: def __init__(self): pass def register_model(self, model_uri, name): mlflow.register_model(model_uri, name) def get_model_version(self, name, version): model mlflow.pyfunc.load_model(fmodels:/{name}/{version}) return model def transition_model_stage(self, name, version, stage): client mlflow.tracking.MlflowClient() client.transition_model_version_stage( namename, versionversion, stagestage ) def list_models(self): client mlflow.tracking.MlflowClient() return client.search_registered_models() class ModelVersionManager: def __init__(self, model_name): self.model_name model_name self.client mlflow.tracking.MlflowClient() def create_version(self, model_uri): version self.client.create_model_version( nameself.model_name, sourcemodel_uri, run_idmlflow.active_run().info.run_id ) return version.version def get_latest_version(self, stageNone): versions self.client.search_model_versions(fname{self.model_name}) if stage: versions [v for v in versions if v.current_stage stage] if versions: return max(versions, keylambda v: int(v.version)) return None def compare_versions(self, version1, version2, X, y): model1 self.get_model_version(self.model_name, version1) model2 self.get_model_version(self.model_name, version2) acc1 accuracy_score(y, model1.predict(X)) acc2 accuracy_score(y, model2.predict(X)) return { fversion_{version1}: acc1, fversion_{version2}: acc2 }2.3 实验比较与分析class ExperimentAnalyzer: def __init__(self, experiment_name): self.experiment_name experiment_name self.client mlflow.tracking.MlflowClient() def get_all_runs(self): experiment self.client.get_experiment_by_name(self.experiment_name) runs self.client.search_runs(experiment.experiment_id) return runs def compare_runs(self, metricval_accuracy): runs self.get_all_runs() results [] for run in runs: params run.data.params metrics run.data.metrics if metric in metrics: results.append({ run_id: run.info.run_id, params: params, metric: metrics[metric] }) results.sort(keylambda x: x[metric], reverseTrue) return results def get_best_run(self, metricval_accuracy): results self.compare_runs(metric) return results[0] if results else None def generate_report(self): best_run self.get_best_run() report f Experiment Report: {self.experiment_name} Best Run: -------- Run ID: {best_run[run_id]} Parameters: {best_run[params]} {metric}: {best_run[metric]:.4f} Total Runs: {len(self.get_all_runs())} return report3. 性能对比3.1 实验追踪工具对比工具易用性可视化模型管理协作功能MLflow高中高中WB高很高中高TensorBoard中高低低Neptune中很高高高3.2 MLflow 组件对比组件功能重要性Tracking记录实验高Projects代码打包中Models模型管理高Registry版本管理高3.3 存储后端对比后端存储方式可扩展性适用场景Local文件系统低单机SQLite数据库中团队PostgreSQL数据库高企业S3对象存储很高云端4. 最佳实践4.1 实验追踪流程def setup_experiment_tracking(config): mlflow.set_tracking_uri(config.get(tracking_uri, mlruns)) if config.get(artifact_location): mlflow.set_artifact_uri(config[artifact_location]) class MLflowWorkflow: def __init__(self, config): setup_experiment_tracking(config) self.experiment MLflowExperiment(config[experiment_name]) def run(self, model_class, params_list, X, y): for i, params in enumerate(params_list): self.experiment.start_run(run_namefrun_{i}) try: model model_class(**params) X_train, X_val, y_train, y_val train_test_split(X, y, test_size0.2) model.fit(X_train, y_train) train_acc accuracy_score(y_train, model.predict(X_train)) val_acc accuracy_score(y_val, model.predict(X_val)) self.experiment.log_params(params) self.experiment.log_metrics({ train_accuracy: train_acc, val_accuracy: val_acc }) self.experiment.log_model(model, model) finally: self.experiment.end_run()4.2 模型版本管理流程class ModelDeploymentWorkflow: def __init__(self, model_name): self.registry ModelRegistry() self.version_manager ModelVersionManager(model_name) def deploy_model(self, model_uri): version self.version_manager.create_version(model_uri) self.version_manager.transition_model_stage( model_nameself.version_manager.model_name, versionversion, stageStaging ) return version def promote_to_production(self, version): self.version_manager.transition_model_stage( model_nameself.version_manager.model_name, versionversion, stageProduction )5. 总结实验追踪是机器学习工程的基础MLflow最流行的开源实验追踪工具模型版本管理确保模型可追溯和可复现实验比较帮助选择最佳模型团队协作支持多人协作开发对比数据如下MLflow 是最全面的开源工具WB 在可视化上表现更好推荐使用 MLflow 进行实验追踪模型注册表是生产环境必需的

EDA工具链演进与低功耗设计验证：从历史新闻看行业技术脉络

1. 行业动态速览：从分销到设计验证的生态涟漪又到了每周梳理行业动态的时候。作为一名在电子设计自动化（EDA）和半导体IP领域摸爬滚打了十几年的工程师，我养成了一个习惯：定期浏览像EE Times这样的行业媒体，…...

2026/5/14 7:32:05 阅读更多 →

为Claude Code配置Taotoken密钥解决访问限制与Token不足

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度为Claude Code配置Taotoken密钥解决访问限制与Token不足应用场景类，针对常遇Claude Code封号或配额紧张的开发者&…...

2026/5/14 7:24:05 阅读更多 →

DeepRTL：基于分层注意力机制的Verilog代码生成模型解析

1. DeepRTL模型架构解析DeepRTL模型基于CodeT5架构进行改进，专门针对Verilog代码的生成和理解任务进行了优化。模型采用encoder-decoder结构，其中encoder负责理解Verilog代码的语义，decoder则用于生成符合硬件设计规范的Verilog代码。1.1 模型…...

2026/5/14 7:23:05 阅读更多 →

4月28日隐喻“鲸鱼开眼”，DeepSeek识图模式灰度上线，迈入图文交互时代！

4月28日，DeepSeek多模态团队研究员推文隐喻“鲸鱼开眼”，次日开启“识图模式”灰度内测，5月初大范围开放。该模式有亮点也有短板，标志其迈入图文交互时代。事件回顾4月28日，DeepSeek多模态团队研究员陈小康在X平台推文…...

2026/5/12 16:00:30 阅读更多 →

AI赋能高能物理：图神经网络与生成式模型在粒子径迹重建与模拟中的应用

1. 项目概述：当AI遇见高能物理的“显微镜”电子离子对撞机（EIC），被誉为探索物质深层结构的下一代“超级显微镜”。它不像我们熟悉的LHC那样让质子对撞，而是让高能电子去轰击质子或重离子，其核心目标是精确“…...

2026/5/11 20:47:18 阅读更多 →

A/B 测试前后的合成控制样本

原文：towardsdatascience.com/synthetic-control-sample-for-before-and-after-a-b-test-683bac36ffc1 简介 A/B 测试非常强大。我喜欢这种实验，因为它让我们能够比较结果，并确定某物是否比另一物表现更好。 A/B 测试有一个特定类型&#x…...

2026/5/12 5:49:54 阅读更多 →