乐投体育网站西储大学轴承数据爬虫与预处理

作者: admin 来源: 未知 发布时间:2020-02-04 13:12

  想把这个写成一个系列,“深度学习算法在写paper时的应用过程——从数据到对比实验结果”,但是填坑太累,先分开写吧,最后如果能完成就整理成系列。

  最近有篇关于轴承故障诊断的文章要用到轴承数据,就找到了西储大学这个轴承的公开数据集,关于数据集本身我就不做过多的描述了,主页说的已经很清楚。

  但是问题来了,这个数据集没有提供压缩文件下载!而是用表格的形式列出的很多数据文件的集合,而且还是.mat文件,也就是MATLAB文件。更不方便的一点是文件名都是数字,果手动下载每个文件,需要1.建立不同采样频率(12k&48k)的文件夹。2.分别下载每个分类下的每个文件。3.对每个文件重新命名。

  这可不是个轻松加愉快的事情,本着“需要手工机械重复超过3分钟的工作应该尝试使用自动化脚本实现”这一不知道哪里看来的感觉很有道理的信念,就开始考虑如何自动化实现了。其实最开始思路很简单,程序需要完成至少以下内容:

  整个脚本实现起来应该不难,第1,2部分只是一个简单的获取网页+内容解析,最具有挑战性的地方在于第3步,因为可能要用多线程下载。灵机一动,多线程下载不是有工具嘛,wget,aria2,不能放着这么好用的工具不用。尤其是aria2,经营品牌!多线程下载就是一个参数的事。因此,第3步改为:

  可是运行.sh文件的时候提示aria2c: command not found. 我在官网下载了aria安装了,但是还是不行,不知是不是因为安装的不对?


上一篇:没有了

下一篇:没有了