查看: 4536|回复: 21
|
服务器maintenance和health check
[复制链接]
|
|
想问问各位网友,你们如何maintain和在服务器上做health check?通常会检查什么?如何检查?我的OS有Solaris和RHLinux。服务器是Dell,Sun和HP。 |
|
|
|
|
|
|
|
发表于 29-10-2009 10:07 PM
|
显示全部楼层
|
|
|
|
|
|
|
楼主 |
发表于 30-10-2009 02:11 PM
|
显示全部楼层
回复 2# hackintosh 的帖子
谢谢回复。。。
我已经安装了nagios,但是感觉nagios的功能不够全面。。。你是否定期检查服务器的硬盘/Mirror/RAID的状态?Nagios只是检察服务器是否能ssh,文件系统的容量和程序是否在运行。。。能检查风扇和Power supply吗? |
|
|
|
|
|
|
|
发表于 30-10-2009 03:43 PM
|
显示全部楼层
原帖由 leekk8 于 30-10-2009 02:11 PM 发表
谢谢回复。。。
我已经安装了nagios,但是感觉nagios的功能不够全面。。。你是否定期检查服务器的硬盘/Mirror/RAID的状态?Nagios只是检察服务器是否能ssh,文件系统的容量和程序是否在运行。。。能检查风扇和Pow ...
disk usage绝对不是问题。
check UPS也没有问题 http://nagiosplugins.org/man/check_ups
去看documentation吧 |
|
|
|
|
|
|
|
发表于 30-10-2009 03:45 PM
|
显示全部楼层
|
|
|
|
|
|
|
发表于 4-11-2009 01:33 AM
|
显示全部楼层
上面所講的全部是 monitoring, 不是 health check.
health check 的重點不是找出服務器的問題,而是做一個現在和以前的對比,要來預測服務器可能會遇到的問題,進而作 preventive action 和 maintenance. 我給你以下的 example check list.
1. Disk usage
單純的 check 現有的 disk usage 是沒有意思的。
有了現在的數據,你要比較之前的 disk usage, 增長了多少 %, 又沒有必要做一次 house keeping, 又或者需要增加硬碟空間。如果需要以上的 action, 要怎樣做,要怎樣 plan.
2. Log analysis.
翻看整個 log file, 看看有沒有一些不尋常的 caution 和 warning. 如果有, 爲什麽有,原因在哪裡,要怎樣解決。
3. service health
綜合服務器上的 service, 檢查個別 service 的 log, 看看有沒有需要 follow up 的 caution 和 warning.
4. Patch recommendation.
收集 server 上所有的 configuration 和 package version, 在對比 vendor 的 patch list, 看看 server 需不需要 patch 和 update.
如果有 monitoring system, 再和 monitoring system 得數據作對比,看看 load, memory usage, 一類的,看看 server 有沒有 overload, 需不需要增加 resource.
單純的 monitoring 只能實時通知你 server 面前有的問題,但是不會幫你預防問題。
一個好的 health check 能幫助公司預測和鋪排 server 將來需要的 action 和 follow up, 如果一個 health check 不能達到以上的目標,那就不要浪費時間去做。 |
|
|
|
|
|
|
|
发表于 7-11-2009 07:34 PM
|
显示全部楼层
|
|
|
|
|
|
|
发表于 7-12-2009 11:55 AM
|
显示全部楼层
health check 一般上没实际功用,很多事况好端端的server经过health check就出了问题,尤其是M$的。
Log file和security方面一般上都会比较被注重,然而和hardware关系不大。
一架server使用超过三年就开始要做些准备,是因为电子组件寿命期差不多了。其它比较要注意的是Harddisk和Fan,不过这些硬件问题来时就马上来,很少会有症兆的,重要的是和供应商先签好年度合同,都在两千马币以下,还是值得的。 |
|
|
|
|
|
|
|
发表于 1-2-2010 03:28 PM
|
显示全部楼层
回复 6# chinkai80
我要怎么样 check 我的 raid 是否正常呢? |
|
|
|
|
|
|
|
发表于 1-2-2010 03:31 PM
|
显示全部楼层
回复 8# ebook
那天 manager 叫我 做healt check... 我都不知什么来的.... 现在知道一点... 基本上我该注意什么? |
|
|
|
|
|
|
|
发表于 2-2-2010 09:35 AM
|
显示全部楼层
回复 10# wjijie85
一般上只需要检查硬盘空间,空间小就清理Log Files,如果是File Server或Mail Server就再看看用户使用空间。楼上几位说得方法很管用,都可以试试。 |
|
|
|
|
|
|
|
发表于 2-2-2010 09:41 AM
|
显示全部楼层
回复 11# ebook
我要怎么样 check 我的 raid 是否正常呢?
|
|
|
|
|
|
|
|
发表于 2-2-2010 09:58 AM
|
显示全部楼层
本帖最后由 ebook 于 2-2-2010 09:59 AM 编辑
回复 12# wjijie85
如果是hardware raid,HP/DELL 之类的机种都有Raid Diagnostic Tool,多数是Windows Base的软件。
补充一句,一般找不出什麽问题,出了问题一般都直接可以知道。 |
|
|
|
|
|
|
|
发表于 2-2-2010 10:23 AM
|
显示全部楼层
回复 13# ebook
那样说。。。其实 healt check 是没什么用的? |
|
|
|
|
|
|
|
发表于 2-2-2010 12:06 PM
|
显示全部楼层
回复 14# wjijie85
不尽是,理论上是很好的.....,实际上如果给对系统很熟悉的人做可以得到很多讯息,反之用处不大。
经验上告诉我们,系统没问题时别乱动,出了问题自然而然很多要你头痛。preventive check ... 一般上是应酬上司或电脑公司挣钱手法.....这是个人意见。 |
|
|
|
|
|
|
|
发表于 2-2-2010 12:16 PM
|
显示全部楼层
回复 15# ebook
你很有经验...1978 年的... 是学长 ..可以认识你吗? |
|
|
|
|
|
|
|
发表于 2-2-2010 03:11 PM
|
显示全部楼层
1978年......那是注册时乱放的....16年的IT界..该看都看过了,是有点累了。
认识不敢当了,当朋友交流交流知识就好,可以PM我的。 |
|
|
|
|
|
|
|
发表于 4-2-2010 05:05 PM
|
显示全部楼层
其实hor....
可以看 server 前面的 panel lcd, led lights |
|
|
|
|
|
|
|
楼主 |
发表于 14-3-2013 05:41 PM
|
显示全部楼层
伤透了 发表于 4-2-2010 05:05 PM
其实hor....
可以看 server 前面的 panel lcd, led lights
通常我们都是远端操作,要去到服务器那看非常浪费时间,尤其是你管的服务器分布全马。
|
|
|
|
|
|
|
|
发表于 19-3-2016 08:52 AM
|
显示全部楼层
HP 服务器 - 可以安装 HP System Management Homepage
Dell 服务器 - 可以安装 OpenManage Server Administrator
以上是硬体的health检查。
|
评分
-
查看全部评分
|
|
|
|
|
|
| |
本周最热论坛帖子
|