资料编码 使用对象 编写部门 产品线 集成产品部
产品名称 产品版本 资料版本 IBM小型机 V1.0 IBM小型机故障处理指导书
拟 制: 审 核: 审 核: 批 准:
日 期: 日 期: 日 期: 日 期:
华 为 技 术 有 限 公 司
版权所有 侵权必究
华为机密,未经许可不得扩散
IBM小型机故障处理指导书
文档密级:内部公开
修订记录
日期 2005-3-28 修订版本 V1.0 描述 整合HACMP故障处理到文档中 作者 李静 华为机密,未经许可不得扩散
IBM小型机故障处理指导书
文档密级:内部公开
目 录
第1章 故障的定义............................................................................................................... 1 第2章 故障信息的收集........................................................................................................ 1 2.1 2.2 2.3 2.4 2.5 2.6 2.7
收集故障信息对于判断诊断故障原因修复系统非常重要 ............................................ 1 系统故障记录(ERRORLOG)......................................................................................... 1 控制面板上的LED 代码 ........................................................................................... 3 SMS (SYSTEM MANAGEMENT SERVICE) 故障记录....................................................... 4 MAIL ........................................................................................................................ 4 运行故障诊断程序(DIAGNOSTIC) 对系统硬件进行检查和诊断 .................................... 5 其他用于收集系统信息的命令................................................................................... 5
第3章 硬件故障定位方法 .................................................................................................... 8 3.1 3.2 3.3 3.4 3.5 3.6 第4章
IPL 流程 .................................................................................................................. 8 系统的启动顺序:....................................................................................................... 9 系统不能启动 ........................................................................................................... 9 系统停在551555或557 ........................................................................................ 10 CDE图形界面挂死 ................................................................................................. 11 系统DUMP .............................................................................................................. 12 7133-D40SSA磁盘柜的故障定位 ....................................................................... 13
第5章 软件故障定位方法 .................................................................................................. 14 5.1 5.2 5.3 5.4 5.5
文件系统空间不够 .................................................................................................. 14 检查文件系统的完整性 ........................................................................................... 15 查看卷组信息(LSVG-LVG_NAME) .............................................................................. 15 检查内存交换区(PAGINGSPACE)使用率(LSPS-S)........................................................ 15 小型机内存泄漏问题............................................................................................... 15
第6章 常用的系统状态查询命令........................................................................................ 17 第7章 网络故障定位方法 .................................................................................................. 18 7.1 7.2 第8章 8.1
网络不通的诊断过程............................................................................................... 18 网络配置的基本方法............................................................................................... 19 HACMP环境下的排错 ........................................................................................ 19 了解问题的存在...................................................................................................... 19
华为机密,未经许可不得扩散
8.2
IBM小型机故障处理指导书
文档密级:内部公开
判断问题的出处...................................................................................................... 20
第9章 附常用命令列表...................................................................................................... 22
华为机密,未经许可不得扩散
IBM小型机故障处理指导书
文档密级:内部公开
关键词:故障处理 IBM AIX HACMP
摘 要:
缩略语清单:
参考资料清单:
华为机密,未经许可不得扩散
IBM小型机故障处理指导书
文档密级:内部公开
第1章 故障的定义
根据以下这些方面来考虑故障定位: 弄清楚系统发生了什么问题 系统现在能做什么不能做什么 故障什么时候发生的 有没有做平时不同的操作
故障有没有规律定时还是不定时发生的频率有多高 是一台机器出现故障还是多台机器故障故障现象是否相同 最近有没有做改动如安装了新的硬件软件改变了系统的一些设置
第2章 故障信息的收集
2.1 收集故障信息对于判断诊断故障原因修复系统非常重
要
2.2 系统故障记录(errorlog)
errdemon 进程在系统启动时自动运行 记录包括硬件软件及其他操作信息
故障记录文件为/var/adm/ras/errlog 可备份下来或拷贝到别的机器上分析 errpt 命令的使用(普通用户权限也可使用) #errpt |more 列出简短出错信息
ERROR_ID TIMESTAMP T C RESOURCE_NAME ERROR_DESCRIPTION 192AC071 0723100300 T 0 errdemon Error logging turned off
2005-03-21
华为机密,未经许可不得扩散
第1页, 共32页
IBM小型机故障处理指导书
文档密级:内部公开
0E017ED1 0720131000 P H mem2 Memory failure
9DBCFDEE 0701000000 T 0 errdemon Error logging turned on 038F2580 0624131000 U H scdisk0 UNDETERMINED ERROR AA8AB241 0405130900 T O OPERATOR OPERATOR NOTIFICATION TIMESTAMP: MMDDHHMMYY (月日时分年
T 类型: P 永久; T 临时; U 未知永久性的错误应引起重视 C 分类: H 硬件; S 软件; O 用户; U未知 #errpt -d H 列出所有硬件出错信息 #errpt -d S 列出所有软件出错信息 #errpt -aj ERROR_ID 列出详细出错信息
# errpt -aj 0502f666 <--- ERROR_ID用大小写均可 例
LABEL: SCSI_ERR1 ID: 0502F666
Date/Time: Jun 19 22:29:51 Sequence Number: 95 Machine ID: 1234567012 Node ID: host1 Class: H Type: PERM
Resource Name: scsi0 Resource Class: adapter Resource Type: hscsi Location: 00-08
VPD: <--- Virtal Product Data Device Driver Level00
2005-03-21
华为机密,未经许可不得扩散
第2页, 共32页
IBM小型机故障处理指导书
文档密级:内部公开
Diagnostic Level00 Displayable MessageSCSI EC LevelC25928 FRU Number30F8834 ManufacturerIBM97F Part Number59F4566 Serial Number00002849 ROS Level and ID24
Read/Write Register Ptr0120 Description ADAPTER ERROR Probable Causes ADAPTER HARDWARE CABLE CABLE TERMINATOR DEVICE Failure Causes ADAPTER
CABLE LOOSE OR DEFECTIVE Recommended Actions
PERFORM PROBLEM DETERMINATION PROCEDURES CHECK CABLE AND ITS CONNECTIONS Detail Data SENSE DATA
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
2.3 控制面板上的LED 代码
8 位代码通常系统故障灯会同时亮起某些机型还会同时显示故障设备位置代
2005-03-21
华为机密,未经许可不得扩散
第3页, 共32页
码
IBM小型机故障处理指导书
文档密级:内部公开
4 位代码通常是Exxx
3 位代码通常为0yyy 只看后3位
8 位和4位代码可查看系统服务手册(Service Guide)
3 位代码可查看系统诊断手册(Diagnostic Information for Multiple Bus System)
闪动的888, 系统崩溃硬件或软件原因造成按reset 键会显示更多内容 888-102 一般为软件故障888-102-207 例外 系统会产生一个dump
888-102-xxx-0C9 系统正在做dump, 请等待 888-102-xxx-0C0 系统dump完成可关电重启 888-103 或105
硬件故障一般有SRN 代码及位置代码
2.4 SMS (System Management Service) 故障记录
如何进入SMS 菜单
当主控台出现键盘图标后(LED 显示E1F1时)按1键 选择\"Utilities\"
选择\"Error Log\抄下8位故障代码 在SMS 中还可以更改系统启动顺序表
2.5 MAIL
系统会向root用户发mail报告出错信息通常系统出现故障后没有进行检查 修复系统会定时提醒root
2005-03-21
华为机密,未经许可不得扩散
第4页, 共32页
IBM小型机故障处理指导书
文档密级:内部公开
2.6 运行故障诊断程序(Diagnostic) 对系统硬件进行检查和
诊断
当发现有硬件故障时应立即使用diag #diag
> 选高级诊断Advance Diagnostic) > 选问题诊断Problem Determination) 或 选系统检查System Verification) (选PD 会对系统错误记录进行分析)
diag运行后会给出SRN 代码故障设备名称及百分比地址代码等
对于PCI机型应在系统报错7天之内运行diag程序对出错记录里的sense数据进行分析
2.7 其他用于收集系统信息的命令
lsdev -C 系统设备信息 #lsdev -Cc disk
hdisk0 Available 00-06-00-2,0 45 GB 16 Bit SCSI Disk Drive hdisk1 Available 00-06-00-1,0 45 GB 16 Bit SCSI Disk Drive hdisk2 Defined 00-06-00-4,0 16 Bit SCSI Disk Drive lspv 查看物理卷信息 #lspv
hdisk0 0007821160af3d76 rootvg hdisk1 000782117f571294 rootvg hdisk2 0000000045c45bde datavg lsvg 查看卷组信息 #lsvg datavg
2005-03-21
华为机密,未经许可不得扩散
第5页, 共32页
IBM小型机故障处理指导书
文档密级:内部公开
VOLUME GROUP: datavg VG IDENTIFIER: 0000000055e2458b VG STATE: active PP SIZE: 4 megabyte(s)
VG PERMISSION: read/write TOTAL PPs: 2169 (8676 megabyt MAX LVs: 256 FREE PPs: 1 (4 megabytes) LVs: 3 USED PPs: 2168 (8672 megabyt OPEN LVs: 2 QUORUM: 2
TOTAL PVs: 1 VG DESCRIPTORS: 2 STALE PVs: 0 STALE PPs: 0 ACTIVE PVs: 1 AUTO ON: yes MAX PPs per PV: 2032 MAX PVs: 16 #lsvg -l rootvg rootvg:
LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINT hd5 boot 1 1 1 closed/syncd N/A
lv00 jfs 51 102 1 closed/stale /ibmcxx lv01 jfs 1 1 1 open/syncd /cics_regions lv02 jfs 4 4 1 open/syncd /var/mqm lslpp 查看文件组信息 # lslpp -L |grep 23100020
devicespci23100020rte 4327 C IBM PCI 10/100 Ethernet Adapt 看某个文件组是否已安装如以太网卡驱动也用于查询补丁程序的版本 lsattr 查看设备参数设置 # lsattr -El ent2
busio 0x7fffc00 Bus I/O address False
2005-03-21
华为机密,未经许可不得扩散
第6页, 共32页
IBM小型机故障处理指导书
文档密级:内部公开
busintr 9 Bus interrupt level False intr_priority 3 Interrupt priority False tx_que_size 512 TRANSMIT queue size True rx_que_size 256 RECEIVE queue size True
rxbuf_pool_size 384 RECEIVE buffer pool size True media_speed 10_Half_Duplex Media Speed True
use_alt_addr no Enable ALTERNATE ETHERNET address True alt_addr 0x000000000000 ALTERNATE ETHERNET address True ip_gap 96 Inter-Packet Gap True lscfg 查看VPD信息Virtual Product Data) # lscfg -vl ssa1
DEVICE LOCATION DESCRIPTION
ssa1 30-68 IBM SSA Enhanced RAID Adapter (14104500)
Part Number097H05
FRU Number097H05 <-- 备件号 Serial NumberC8217227 EC Level0000F20825 ManufacturerIBM053
ROS Level and ID7201 <-- 微码版本 Loadable Microcode Level04 Device Driver Level00
Displayable MessageSSA-ADAPTER Device Specific(Z0)DRAM=032 Device Specific(Z1)CACHE=0
Device Specific(Z2)000000062955dab2
2005-03-21
华为机密,未经许可不得扩散
第7页, 共32页
IBM小型机故障处理指导书
文档密级:内部公开
Device Specific(YL)P2-I7 <-- 槽号
不同的硬件设备有不同的VPD 所含的格式和信息都不一样通常备件号和微码 版本最有参考价值注FRU(Field Replace Unit)才是真正的备件号
第3章 硬件故障定位方法
IBM 小型机故障定位方法包括小型机I/O柜上的显示面板上的Checkpoints信息Error Code 和SRNs
Checkpoints 检查点是系统加电CMOS初始化程序(initial program load (IPL))运行后显示在I/O柜的显示面板上一系列信息
3.1 IPL 流程
当交流电源接到系统后IPL流程就开始了IPL流程包括四个步骤 Phase 1: Service Processor 的初始化
Phase 1 开始于交流电源接到系统后直到OK显示在I/O柜上的显示面板上为止
在这个步骤会显示8xxx 或9xxx checkpoints代码 Phase2:由ServiceProcessor引导的硬件初始化
Phase2开始于按下I/O柜上的白色电源开关在这个步骤会显示9xxx checkpoints91FF是最后的代码标志着第三步骤的开始 Phase3:系统固件的初始化
在Phase3,一个系统处理器接管控制并继续初始化系统资源在这个步骤会显 示ExxxE105是最后的代码标志着第四步骤AIX启动的开始在这个过程中还会显示各种位置码位置码代表着系统的每一个部分Phase4:AIX启动当AIX开始启动时显示面板上的代码为0xxx同时位置码会出现在第二行当AIX的登录窗口出现在控制台上时第四步骤结束同时显示面板上再无任何信息出现ErrorCode当系统运行有错误发现时一个8位码会显示在显示面板上同时在第二行显示相对应问题硬件的位置码SRNsServicerequestnumbers,服务请求码当系统运行有错误发现时SRNs码会以xxx-xxx的形式显示在显示面板上同时
2005-03-21
华为机密,未经许可不得扩散
第8页, 共32页
IBM小型机故障处理指导书
文档密级:内部公开
在AIX的errorlog中也会有记载以上所有代码都会有相应的步骤解决由于代码繁多请在出现问题后记录下代码并致电IBM服务热线
3.2 系统的启动顺序:
3.3 系统不能启动
系统停在Stage1可能为电源系统板CPU内存等硬件故障记录故障代码通知IBM工程师系统停在Stage2可能是启动顺序表(bootlist)损坏或I/O子系统故障可尝试进入SMS菜单检查启动顺序表并修改若在选择bootlist时没有硬盘设备可选或显示的硬盘信息不正确则可能是硬盘故障若根本没有SCSI设备可选则链路有问题系统停在Stage3可能是硬盘数据损坏系统设置文件出错或I/O子系统故障
2005-03-21
华为机密,未经许可不得扩散
第9页, 共32页
IBM小型机故障处理指导书
文档密级:内部公开
3.4 系统停在551555或557
发生在系统启动的第三阶段(Stage3)可能是 文件系统损坏
文件系统日志(jfslog)损坏 rootvg中有坏硬盘 修复方法
用系统光盘或系统备份带启动必须与硬盘中的操作系统版本一致 启动后选择选项3
\"StartMaintenanceModeforSystemRecovery\" >\"AccessaRootVolumeGroup\"
>\"Accessthisvolumegroupandstartashell beforemountingthefilesystems\" 格式化文件系统日志(jfslog) #/usr/sbin/logform/dev/hd8 检查修复文件系统
#fsck -y/dev/hd1/home文件系统 #fsck -y/dev/hd2/usr文件系统 #fsck -y/dev/hd3/tmp文件系统 #fsck -y/dev/hd4/文件系统 #fsck -y/dev/hd9var/var文件系统
用exit命令退出文件系统会自动mount起来 重建bootimage
#lslv –m hd5找出bootimage所在的硬盘如hdisk0 #bosboot –ad /dev/hdisk0
2005-03-21
华为机密,未经许可不得扩散
第10页, 共32页
IBM小型机故障处理指导书
文档密级:内部公开
#bootlist –m normal/dev/hdisk0重建启动顺序表 重启动系统 #shutdown -Fr 如上述步骤不奏效 用系统备份带恢复系统
如备份带不能恢复用诊断光盘DiagnosticCDROM检查是否坏硬盘
3.5 CDE图形界面挂死
CDE运行时不要更改网络参数如主机名和IP地址
更改网卡设置请先退出CDE图形环境选择命令行方式登录在字符界面下 更改
如CDE已经挂死 远程telnet登录
找出所有dt有关的进程用kill命令杀掉 #ps -ef|grepdt
#killPID 检查当前主机名 #hostname tscf50
查看主机名是否对应有效的IP地址 #netstat -i|greptscf50
tr0*15009180tscf5050604902824700
更改主机名或IP地址使主机名与当前有效的IP地址存在对应关系 #smittytcpip 重新启动CDE界面
2005-03-21
华为机密,未经许可不得扩散
第11页, 共32页
#/etc/rcdt
IBM小型机故障处理指导书
文档密级:内部公开
HACMP环境下可把主机名alias到127001上 #cat /etc/hosts
127001_loopbacklocalhosttscf50#loopback(lo0)name/addressbvg
3.6 系统dump
发生在系统崩溃时AIX会做dump(系统内存的快照) 此时机器会显示闪动的888102xxx0cx代码 0c9系统dump进行中0c9状态可能会维持超过2分钟 不要关电和按reset,等待dump做完 0c0dump成功完成这时可以断电重起 0c2手动启动dump功能
0c4dump设备空间不足只有部分信息保存下来 0c5不明原因导致dump失败
一般dump是由于软件出错引起(888-102-207除外)机器通常可以重启重启 时可能提示用户插入磁带拷贝dump文件不要选择退出这样会丢失重要的故障信息
dump的有关设置
估算系统dump的大小在系统最繁忙时内存使用最多 #sysdumpdev -e
0453-041Estimateddumpsizeinbytes:53477376 #lsps -a
PageSpacePhysicalVolumeVolumeGroupSize%UsedActive paging00hdisk0rootvg480MB1yes hd6hdisk1rootvg4MB1yes 当前的设置
2005-03-21
华为机密,未经许可不得扩散
第12页, 共32页
IBM小型机故障处理指导书
文档密级:内部公开
#sysdumpdev -l
primary /dev/hd6<--dump的主设备 secondary /dev/sysdumpnull
copydirectory /var/adm/ras<--dump拷贝的目录 forced copy flag TRUE always allow dump TRUE hd6应比估算值稍大
/var/adm/ras是默认的dump拷贝目录比较估算值保证/var文件系统有足够的 剩余空间拷贝dump文件否则机器重起时会提示用户插入磁带 dump文件名为vmcore#
对PCI机型如要手动做dump须把\"alwaysallowdump\"先设成true #sysdumpdev -K dump打包
#snap –a -o/dev/rmt#或
#snap –a -c把/tmp/ibmsupt目录做成一个压缩文件 snaptarZ如果/tmp文件系统空间不够 可用-ddirectory参数指定别的目录代 替/tmp/ibmsupt
第4章 7133-D40SSA磁盘柜的故障定位
当SSA磁盘柜出现故障时在磁盘柜前面板的液晶显示屏上会显示相应的SRNs,同时
黄色的显示灯会闪动在AIX的errorlog中也会有记载错误信息如DISK_ERR1 DISK_ERR4SSA_ARRAY_ERROR等请在出现问题后记录下代码并致电IBM服务热 线
2005-03-21
华为机密,未经许可不得扩散
第13页, 共32页
IBM小型机故障处理指导书
文档密级:内部公开
第5章 软件故障定位方法
软件故障情况错综复杂下面列举几个常见案例的故障处理方法
5.1 文件系统空间不够
查看有没有_满_的文件系统特别是//var/tmp不要超过90%文件系统
满可导致系统不能正常工作尤其是AIX的基本文件系统如/(根文件系统)满则 会导致用户不能登录用df_k查看 #df -k(查看AIX的基本文件系统)
Filesystem1024-blocksFree%UsedIused%IusedMountedon /dev/hd424576145295%259922%/ /dev/hd261440028066%2296715%/usr /dev/hd9var81924045%932%/var /dev/hd31679361579686%1%/tmp /dev/hd116384533268%140235%/home
除/usr文件系统其他文件系统都不应太满一般不超过80% 处理方法1删除垃圾文件 #du -sk*|sort -rn|head
查找出当前目录下占空间最大的子目录逐层往下直到找出占空间最大的文件要
区分哪些目录是文件系统的mountpoint哪些是文件系统的子目录删除文件 释放空间有时删除文件后空间并不马上释放这是由于你删除的文件正被某个程
序打开只有当这个程序停止后空间才释放有时甚至需要重起系统 处理方法2增加文件系统大小 #smitty chjfs
2005-03-21
华为机密,未经许可不得扩散
第14页, 共32页
IBM小型机故障处理指导书
文档密级:内部公开
文件系统可以在任何时候加大前提是卷组(VG)中有剩余空间
5.2 检查文件系统的完整性
#umount filesystem_name #fsck –y filesystem_name
注意文件系统必须先umount再做检查和修复否则可导致未 知的后果
5.3 查看卷组信息(lsvg-lvg_name)
有没有\"stale\"状态的逻辑卷若有用syncvg命令修复\"stale\"逻辑卷
5.4 检查内存交换区(pagingspace)使用率(lsps-s)
使用率是否超过70%若有则用chps_sXpgname增加X个PP或用mkps –a -n -sX myvg在myvg上增加一个PP数为X的内存交换区
5.5 小型机内存泄漏问题
小型机出现内存泄漏即系统或应用进程无法将使用过的内存释放使可用内存的容量逐渐减少如果可用内存降到某最小值将造成系统或应用程序无法FORK子进程就会造成系统瘫痪通常我们可以用ps和sar命令来查看小型机内存和CPU占用率的大概情况以及各进程的内存和CPU占用率的发展趋势 (a) ps
#psgv|head-n1;psgv|egrep-v\"RSS\"|sort+6b-7-n-r|head-n5 PIDTTYSTATTIMEPGINSIZERSSLIMTSIZTRS%CPU%MEMCOMMAND 15674pts/11A0:01036108361723276852406240/tctestp 22742pts/11A0:00020748208123276852400140/backups 10256pts/1A0:00015628156923276852400110/tctestp 20-A2:138xx063920040kproc 1806-A0:2001608xx063920040kproc
2005-03-21
华为机密,未经许可不得扩散
第15页, 共32页
IBM小型机故障处理指导书
文档密级:内部公开
SIZE virtual size(in the paging space),in kilobytes,
RSS real-memory (resident set) size in kilobytes of the process 通过不同时间输出的比较就能观察出内存和CPU占用率的基本情况找出其中占用内存数不断变大的进程这个进程可能就已经发生了内存泄漏
(b)sar指令也可以查看CPU占用率但统计的结果不是很准确通常使用sar令 的格式为
#sar –P ALL 2 10
09:29:37cpu%usr%sys%wio%idle 09:29:39000495 110495 -00495
09:29:41002692 134291 -23492
09:29:43031294 122295 -21294
09:29:45022790 145686 -33688
09:29:47011296 112296 -11296
09:29:490000100 101099 -000100
2005-03-21
华为机密,未经许可不得扩散
第16页, 共32页
IBM小型机故障处理指导书
文档密级:内部公开
09:29:51020098 101098 -10098
09:29:53071686 122590 -52588
09:29:550455635 11225532 -845533
09:29:57016814 11591165 -15812 Average0321085 143885 -42985
表示2秒钟输出一次结果总共有10次结果然后平均 目前如果发现内存泄漏最好重新启动系统
第6章 常用的系统状态查询命令
#lsdev –C -sscsi
列出各个SCSI设备的所有相关信息如逻辑单元号硬件地址及设备文件名等 #ps -ef
列出正在运行的所有进程的各种信息如进程号及进程名等 #netstat -rn
2005-03-21
华为机密,未经许可不得扩散
第17页, 共32页
IBM小型机故障处理指导书
文档密级:内部公开
列出网卡状态及路由信息等 #netstat -in
列出网卡状态及网络配置信息 #df -k
列出已加载的逻辑卷及其大小信息 #mount
列出已加载的逻辑卷及其加载位置 #uname -a
列出系统ID号系统名称OS版本等信息 #hostname 列出系统网络名称
#lsvg –l rootvg, lsvg –p rootvg
显示逻辑卷组信息如包含哪些物理盘及逻辑卷等 #lslv -l datalv,lslv -p datalv
显示逻辑卷各种信息如包含哪些盘是否有镜像等
第7章 网络故障定位方法
7.1 网络不通的诊断过程
ifconfig查看网卡是否启动(up) netstat -i查看网卡状态
Ierrs/Ipkts和Oerrs/Opkts是否>1% ping自己网卡地址(ip地址)
ping其它机器地址如不通在其机器上用diag检测网卡是否有问题 在同一网中subnet mask应一致
2005-03-21
华为机密,未经许可不得扩散
第18页, 共32页
IBM小型机故障处理指导书
文档密级:内部公开
7.2 网络配置的基本方法
(1)如需修改网络地址主机名等一定要用chdev命令 #chdev -l inet0 -a hostname=myhost
#chdev –l en0 –a netaddr='9324058' –a netmask=2552552550_ (2)查看网卡状态#lsdev -Cc if (3)确认网络地址#ifconfig en0 (4)启动网卡#ifconfige n0 up (5)_配置路由 有两种方式加入路由 永久路由
#chdev –l inet0-aroute=_104700_,_9324059_ 临时路由
#route add 1047129324059 用命令netstat -rn查看路由表
第8章 HACMP环境下的排错
在一般情况下,HACMP软件很少需要手工干预,但一旦有问题发生,诊断和恢复的技巧是很重要的需要能很快地断定问题然后运用你对HACMP的理解来恢复HACMP的正常运作一般地,HACMP环境下的排错包括:了解问题的存在判断问题的出处 解决问题
8.1 了解问题的存在
您可以通过以下途径了解到一个CLUSTER环境下出现了问题 最终用户的投诉,他们无法访问应用程序 控制台上出现一些HACMP的信息
2005-03-21
华为机密,未经许可不得扩散
第19页, 共32页
IBM小型机故障处理指导书
文档密级:内部公开
应用服务无法访问
最终用户的抱怨通常预示CLUSTER出现了问题他们无法正常执行应用或是无 法登录到系统我们必须采集到详细的信息以判断到底那里出现了问题是否有错误的信息提示?如果可能的话,让用户重复步骤以确定那里是错误的开始您也可以在自己的系统上重复要知道用户应用不可用并不代表HACMP有问题问题可能出现在应用程序本身或是它的启动或终止脚本出现了问题因此应用程序本身的排错也应是HA排错的一部分 2控制台上出现一些HACMP的信息
在HACMP启动,终止或出错时,控制台上会出现一些HACMP的信息,同时也会写 入相应的文件中
8.2 判断问题的出处
当错误出现时,我们应尝试发现错误的所在但我们常常被错误的表面所误导以下的步骤可以使我们得到更详细的信息
1保存好一些LOG文件(/tmp/hacmp.out&/tmp/cm.log)因为它们可能被覆盖 2仔细检查HACMP所产生的LOG文件它们能提供最初的判断线索 3用HACMP的工具和AIX的命令来检查HACMP的部件是否正常 4打开HACMP的跟踪工具来产生更详细的信息
HACMP的LOG文件:以下文件都是文本文件,可以用VI来看每个日志文件都含有 每个信息的产生时间
/usr/adm/cluster.log:记录了HACMP的状态,由HA的守护进程所产生 /tmp/hacmp.out:记录了HA的详细脚本
/usr/sbin/cluster/history/cluster.mmdd:记录了HA的各个事件的发生 /tmp/cm.log:由clstrmgr进程产生,每次HA重起时会被覆盖 HACMPFORAIX的结构 应用层 HACMP软件层
2005-03-21
华为机密,未经许可不得扩散
第20页, 共32页
LVM&TCPIP层 AIX层 物理网络层 物理硬盘层 硬件层
IBM小型机故障处理指导书
文档密级:内部公开
在物理网络层,物理硬盘层,硬件层,LVM&TCPIP层,AIX层我们可以用AIX 系统命令来看是否硬件和系统出现了问题一般地,在用errpt命令来看没有类型为PH的错误,lsvg -o来看我们所须的VG已varyon,mount来看我们所须的文件系统已安装,netstat -i来看我们所须的serviceIP是UP的状态(或用ifconfig en*),cluster node之间的service与serviceIP,standby与standby IP互相可以ping通在各个节点上执行stty<在第一时间保存好相关的日志文件,特别是那些会被覆盖的文件 尝试去重复问题的出现不要被用户所反映的问题迷惑
渐进地去重复问题,如果有多个可能导致问题的出现,一个一个地去重复,而不要一
次重复多个可能
不要凭经验来判断问题,而是要在各种测试后,由结果来判断 隔离问题的来源,根据我们上面所叙述的层次关系,至顶向下地诊断 由简到繁地做测试,我们先从一个简单的环境来做测试,不要尝试在一个复杂的环境中测试
一次做一次改动,否则我们无法知道是那个改动解决了问题
不要忽略各种可能,因小可失大,留心系统的每一个细节,包括电源,插头,连线等保持各种测试的记录以及解决的步骤,用做将来排错的参考
拨打IBM服务热线,将问题现象和您所做的测试结果告诉IBM的工程师,他们将在CALLCENTER的测试中心重复试验,必要时会派工程师到场解决问题
2005-03-21
华为机密,未经许可不得扩散
第21页, 共32页
IBM小型机故障处理指导书
文档密级:内部公开
第9章 附常用命令列表
2005-03-21
华为机密,未经许可不得扩散
第22页, 共32页
IBM小型机故障处理指导书
文档密级:内部公开
2005-03-21
华为机密,未经许可不得扩散
第23页, 共32
页IBM小型机故障处理指导书
文档密级:内部公开
2005-03-21
华为机密,未经许可不得扩散
第24页, 共32
页
IBM小型机故障处理指导书
文档密级:内部公开
2005-03-21
华为机密,未经许可不得扩散
第25页, 共32页
IBM小型机故障处理指导书
文档密级:内部公开
2005-03-21
华为机密,未经许可不得扩散
第26页, 共32页
IBM小型机故障处理指导书
文档密级:内部公开
2005-03-21
华为机密,未经许可不得扩散
第27页, 共32页
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- xiaozhentang.com 版权所有 湘ICP备2023022495号-4
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务