数据来源硬盘本身提供了SMART数据

2020-09-10 17:25
adminyb17

浪潮存储智能管理平台的磁盘故障预测技术,磁盘故障预测系统整体架构同典型的AI系统一样,浪潮智能管理平台先对历史数据进行训练,生成AI模型,最后在新的数据到来时形成预测。具体说包括以下五个部分:输入数据、预处理、模型训练、优化集成和预测。对于软件系统来说关键点有:数据来源、算法选择和评估指标。其一,数据来源硬盘本身提供了SMART数据(Self-Monitoring Analysis and Reporting Technology)。SMART是90年代定义的硬盘状态检测和预警系统的规范,提供了磁头、磁盘、电机、电路等硬盘硬件的运行数据。目前几乎所有的硬盘厂商都已经支持了该规范。下表列出了与故障相关的SMART值。

中超比赛竞猜足球真人

中超比赛竞猜足球真人

故障相关的SMART值浪潮存储智能管理平台基于SMART数据进行磁盘故障预测,且都取得了不错的效果。在2020年2月的存储顶会FAST(USENIX Conference on File and Storage Technologies)上发表的最新论文表明,SMART再加上存储性能数据可以进一步提升预测准确率。作者采用了12个磁盘IO性能指标、18个服务器性能指标、4个位置信息,基于CNN和LSTM的AI算法实现了提前10天故障预测误报率0.5%、漏报率5.1%。我们也将着手在浪潮存储平台上能应用最新的技术来进一步提高预测的准确性。其二,算法选择,可用于磁盘故障预测的AI算法有很多,如传统算法决策树、经典的SVM(Support Vector Machine)、在各种竞赛上大放异彩的XGBoost(Gradient Tree Boosting)以及深度学习算法CNN和LSTM。实际效果及顶级会议KDD、ATC、FAST的论文实验结果都表明,XGBoost、CNN、LSTM的效果比传统算法有明显优势。

中超比赛竞猜VIP

中超比赛竞猜VIP

其三,评价指标,在完成了历史数据训练,故障预测之后,我们需要对预测的效果进行评估。如下表格描述了机器学习中标准的评价指标。基于表格中的定义,评价磁盘故障预测的主要有准确率、漏报率和误报率:准确率=:判定正确的盘(含好盘和坏盘)占所有盘的比例,误报率=:好盘被误判成坏盘占所有好盘的比例,漏报率=:没有识别出的坏盘占所有坏盘的比例,准确率高,误报和漏报低,是浪潮存储追求的目标。这相当于我们在发现几乎所有坏盘的同时,没有把好盘误判成坏盘。但是从算法调优的角度看,误报率和漏报率是一对矛盾,误报率的降低会引起漏率报的上升,漏报率的降低会引起误报率的上升。

发表评论

电子邮件地址不会被公开。 必填项已用*标注