所在位置:首页>公益课堂>检索+

“检索+发明和实用新型”系列微课堂 | 第三十二讲 一种基于迁移学习的磁盘故障预测方法及装置

来源:专利检索咨询中心微信公众号作者:发布时间:2022/10/13 11:07:49

案例介绍

(一)技术问题:

目前,在线磁盘故障预测领域主要存在样本标签不准确问题。按照S.M.A.R.T.(Self Monitoring Analysis and Reporting Technology)标准,我们使用的最近采集到的样本可以被分为“当前运行状态良好”和“当前磁盘发生故障”两种状态,所以最终的模型预测结果只能被解释为预测当前磁盘是否会发生故障,和原始的预测目的不一致。为了解决这一问题,首先需要设定一个“预警时间”,并假设在磁盘实际发生故障之前的这段时间之内磁盘已经预警,这样就得到了新的样本分类标准:“预测磁盘将会发生故障”和“预测磁盘将不会发生故障”。但是,在在线收集数据的过程中我们无法获知磁盘发生故障的具体时间,那么就无法对实时获取的标签信息进行修改,这就为磁盘的在线预测带来了挑战。另一方面,样本标签缺失也是实际应用中的常见问题。因此直接修改实时获取的数据标签的做法并不可行


(二)权利要求1的技术方案:

1.一种基于迁移学习的磁盘故障预测方法,其特征在于,包括如下步骤:

(1)在磁盘存储系统中,调用数据接口,收集一定阶段的磁盘数据(S.M.A.R.T.状态),作为训练数据;

(2)对磁盘历史数据进行预处理;

(3)利用历史数据,基于迁移学习算法对数据缺失标签进行标注,得到磁盘样本集;

(4)磁盘样本集经过数据平衡性模块,使正负样本达到平衡;

(5)基于采样处理后的数据集,利用机器学习算法,训练磁盘故障预测模型;

(6)实时收集磁盘数据,并以不同的频次加入正负样本集,保证样本的平衡性;

(7)利用新样本评估磁盘故障预测模型,如果达到给定阈值,则输出磁盘故障预测模型,否则,利用新加入的样本集优化磁盘故障预测模型。


(三)发明构思


检索过程

(一)跟踪检索

对申请人“上海威固信息技术股份有限公司”进行跟踪检索,了解申请人的专利布局,以及技术发展路线,申请人在中国一共申请了54篇专利(截止检索日2020年08月04日),大部分专利涉及存储系统,但是涉及磁盘故障检测只有两篇,一篇为本申请“一种基于迁移学习的磁盘故障预测方法及装置”,另外一篇为同日申请“一种基于流特征的磁盘故障预测方法及装置”。


(二)语义检索

通过语义检索,寻找与本申请相关度较高的专利文献(以下简称:相关文献),通过阅读相关文献实现以下目的:

(1)深入理解本申请,挖掘本申请的核心发明点。具体如下:将利用实时数据获取磁盘预测模型作为最关键的技术手段;

(2)扩充关键词和分类号,进一步完善基本检索要素表;

(3)判断基本检索要素表中关键词或分类号的准确度。具体如下:由于分类号比较分散,从而将基本检索要素表中的关键词作为检索重点;

(4)了解申请人的布局,判断后续检索优先使用的数据库。具体如下:排名全10的申请人均为中国互联网企业、高校和科研院所,从而确定优先使用中文数据库,同时检索专利数据库以及非专利数据库;


(三)专利数据库以及非专利数据库检索过程

(1)CNABS数据库

(磁盘 w 故障 w 预测) and (在线or 实时) 8篇 (命中备选D1-CN109739739A );

(迁移学习 s 数据 s 标签) and (源and 目标) 69篇(命中D2—CN108960270A);

(磁盘 and 故障 and 预测) and ((更新 or 优化 or 调整) s 参数) 14篇  (命中D3-CN110673997A )。

(2)万方数据库

通过关键词“磁盘 故障 预测 在线”命中D1-基于在线学习的磁盘故障预测技术,华中科技大学硕士学位论文,2018年度。


(四)创造性判断

在对比文件1的基础上,结合对比文件2和对比文件3得到权利要求1所请求保护的技术方案对本领域技术人员而言是显而易见的。因此,权利要求1的技术方案不具有突出的实质性特点和显著的进步,不符合专利法第二十二条第三款的规定,不具备创造性。


结语

 通过语义检索,可以帮助完善基本检索要素表,并确定检索策略,比如,确定优先检索的数据库以及优先使用的检索要素,从而起到事半功倍的效果