1
changnet 2023-05-20 12:10:18 +08:00
自己部署运维脚本(也有现成开源的运维系统),监测到有问题就发封邮件,发短信、电话都行。
|
2
sNullp 2023-05-20 12:10:44 +08:00
自己写一个脚本定期 run smart test ,让 smartmontools 自带的 daemon 遇到 test 错误就发邮件。
或者跟我一样用 zfs ,有问题自动发邮件。 |
3
jim9606 2023-05-20 12:13:04 +08:00
smartmontools 可以后台监视,会发通知,应该有用 smtp 发邮件的方法
|
4
ltkun 2023-05-20 12:23:34 +08:00 via Android
zfs mdadmin 天天给我发邮件
|
5
optional 2023-05-20 12:31:15 +08:00 via iPhone
找个 exporter 然后要么 Prometheus 要么自己写个小脚本
|
6
Hardrain 2023-05-20 12:51:10 +08:00
man smartd
|
7
wellerman 2023-05-20 13:11:23 +08:00
群晖之类的 NAS 系统,本来就是缝合怪。缝合了一堆开源工具,就拿出来卖了。
|
8
pollux 2023-05-20 15:22:16 +08:00
用 smart 来监控异常,使用 shell 脚本或 python 胶水语言,调用钉钉或者飞书接口报警
|
9
mingl0280 2023-05-20 15:31:15 +08:00 via Android
smartd(smartmontools)自动监视发邮件,然后 sendmail 和 msmtp 之类的客户端找个能用的 pop3 配置好直接邮件发到手机上。我现在就这么搞的。
|
10
FrankAdler 2023-05-20 16:26:27 +08:00 via iPhone
我是 pve 开了 grafana 和 prometheus ,采集 cpu 、内存啥的,加上 smart 信息应该也不难
|
11
greenskinmonster 2023-05-20 16:37:50 +08:00 via Android
smartctl -H /dev/sda --json 定时检查是不是 passed 状态即可
|
12
raptor 2023-05-20 17:32:57 +08:00
配置一个 smartmontools 监控啊: https://mental.we8log.com/mental/post/400/
|
13
shijingshijing 2023-05-20 17:40:50 +08:00
硬盘本身每那么娇气,真正靠谱的是离线冷备,RAID1 什么的都不如冷备,数据不铭感上传网盘做备份也行。群辉这种很大部分是智商税,他那个硬盘监控很多只要 SMART 数据稍微异常就给你废掉整个盘其实完全没必要,让你多花钱而已,硬盘本身就带有纠错,PList ,GList 等各种措施,只要你不用叠瓦一般都皮实的很,更高级的氦气盘防护措施更多。
你可以看下这个新闻: https://finance.sina.com.cn/tech/2021-02-02/doc-ikftssap2457855.shtml |
14
oneisall8955 2023-05-20 18:14:00 +08:00 via Android
组 RAID 不是备份
|
15
0superx0 2023-05-20 21:20:58 +08:00
折腾过 nas ,个人环境找不出什么使用场景,
要文件共享方案,其实主机开个 smb 完事了, 要科学上网,挂个 clash 跑机场当网关, 除了小姐姐外,个人文件还不如挂个 webdav 网盘来得安全 |
16
azure2023us559 2023-05-20 21:23:49 +08:00 via Android
容灾备份才能算上真正意义上的备份。
|
17
mikewang 2023-05-20 23:07:47 +08:00
我用的成品 NAS ,也不完全信任 NAS 系统自带的自动报警。
自己写了一个 Python 脚本定时调用 smartctl 命令。 举个例子:`smartctl -x /dev/nvme0 -json` 然后解析 json ,自行判断。 |
19
Zhouisme 2023-05-21 03:56:19 +08:00
|
21
laucenmi 2023-05-21 10:53:38 +08:00
@FrankAdler pve 硬盘有故障会自己发送邮件,就是安装的时候填写的 email 地址
|
22
gvdlmjwje 2023-05-21 14:51:19 +08:00 via Android
如果是物理服务器,用 bmc 的硬件告警功能
|
23
FrankAdler 2023-05-22 00:16:17 +08:00
@laucenmi 那还挺好
|