系统简介
一、服务器数量与用途
二、 运维管理范围与职责
管理范围
本平台内所有架构,运维部负责公司业务系统运行维护工作。
职责
保障公司游戏服务器的正常运行、网络的畅通。 严格岗位制度、明确工作职责,规范工作流程。范化,制度化,加强文档管理力度。
三、 组织结构
根据运维工作的范围和性质,下设三个小组: 系统维护组 应用维护组 技术值班组
四、 服务维护
系统维护
1•检查安全日志 2. 检查系统日志 3. 检查应用日志
4. 记录并核对各系统磁盘容量 5. 记录并核对各磁盘文件数量 6. 记录并核对系统账户 7. 记录并核对系统服务
8. 记录并核对系统进程 CPU内存PID线程数 9. 查询系统更新
应用维护
1. 检查各应用程序状态 2. 记录并核对各应用程序配置 3. 记录并核对应用系统文件
工作规 4. 记录并核对应用系统文件 MD5
5•测试各应用系统功能
6•记录并核对各应用系统 CPU内存PID线程数 7•检查应用程序更新
网络维护
1•检查服务器连接数量 2•检查上行下行带宽记录值 3•检查网络损耗峰值 4•检查并记录各服务通信端口 5•检查并记录通信延迟 6•分析带宽负荷 7•分析访问量
硬件维护
1•检测并记录各硬件温度 2•检查驱动状态 3•检查各硬件状态
数据库维护
1•检查备份文件 2•核对备份时间 3•核对备份内容 4•查询并记录锁定 5•查询并记录SQL效率 6•对比数据内容
7•交进行日志数据库备份 8•实时检查日志数据库
五、 服务器实时监控
1. 磁盘文件增减监控 2. 通信效率监控 3・服务器使用率监控 4・服务器性能监控 5. 网络上行下行带宽监控 6. 数据库操作监控 7・硬件温度监控
六、 工作内容
1. 设备管理:对网络设备、服务器设备、操作系统运行状况进行监控和管理。
2. 应用/服务管理:对各种应用支持软件如数据库、中继、 CDN以及各种通信或特定 服务的监控管理,如DNS、Web等的监控与管理。
3•数据/存储/容灾管理:对系统和业务数据进行统一存储、备份和恢复。 4•数据管理:包含对公司自身核心数据系统的运行情况的监控与管理 理,主要关注该数据系统的消耗与增长。
5.内部系统管理:该部分主要对于本公司需要统一发布或因人定制的内容管理和对 公共信息的管理,如客服系统、推广系统。
6•资产管理:管理本公司服务系统的资产情况,是逻辑存在的,并能够与本公司财务部 门进行数据核对。
7•信息安全管理:目前信息安全管理主要依据的是企业安全组织方式、 员安全、物理与环境安全、通信与运营安全、访问控制、数据连续性管理等。 8•日常工作管理:该部分主要用于规范和明确运维人员的岗位职责和工作安排、 运维日志报表、提供解决经验与知识的积累与共享手段。
提供
资产控制、人 ,对于数据的管
应急预案 一、预警机制
预警级别 警报内容 网络流量升高 系统资源升高 数据备份出现异常 热备份出现异常 监控软件出现故障 预警级别介绍 一级预警表示系统出 现故障,但不影响运 维系统的正常运转。 一级预警 二级预警表示系统出 现故超过系统资源 超过网络资源 网络中断或网络异障,影响运维系 统的正常二级预警 常 防御资源内的攻击 操作系统出现异常 应用运转,但运 维工程师可以系统出现异常 数据库相关异常 在短时 间内进行故障排除。 三级预警 超过防御资源的攻击 硬件物理损坏 操作系统出现不可恢复性故障 数据库无法正常使用 三级预警表示系统出 现故障,影响运维系 统的正常运转,运维 工程师不能在短时间 内进行故障排除。 四级预警 ISP IDC机房故障 受到不可抗力或自然灾害的破坏。 四级预警表示系统出 现故障,运维系统中 断,运维工程师无法 排除。 二、预警上报处理流程
运维过程中出现重要故障或紧急情况时,
按以下规定流程进行处理及汇报。
在遇到
故障时,及时汇报上级领导并采取措施及时解决,具体汇报流程如下:
一级预警
1•当通过监控或得知系统出现故障时,首先在最短的时间查看故障点状态,并分析 故障原因。 2•运维工程师在排查出故障后,立即着手解决。
3•在故障排除后,通知组长并对所发生故障的设备进行事后跟踪。 4•在故障排除后,运维工程师应对故障原因及解决办法进行详细说明。
二级预警
1•当通过监控或得知系统出现故障时,首先在最短的时间查看故障点状态,并分析 故障原因。 2•运维工程师在排查出故障后,如能够立即解决,则立刻解决故障,如需要相关技 术人员到现场,应立即拨打技术工程师联系电话,请求立即到现场进行故障排除。
3•立即报告运维中心主管人员,主管人员应通过电话或当面把故障报告给相关技术 部门。 4•在故障排除后,运维工程师应对故障原因及解决办法进行详细说明。
三级预警
1•当通过监控或得知系统出现故障时,首先在最短的时间查看故障点状态,并分析 故障原因。 2•运维工程师在排查出故障后,如能够立即解决,则立刻解决故障,如需要相关技 术人员到现场,应立即拨打技术工程师或第三方技术部门联系电话, 进行故障排除。
3•立即报告给运维中心主管人员,
主管人员应通过电话或当面把故障报告给相关领
。
请求立即协调
导部门,在故障完全排查清楚后以书面形式递交“故障报告单” 4•在故障排除后,运维工程师应对故障原因及解决办法进行详细说明。
四级预警
1•当通过监控或得知系统出现故障时,重复分析并确认故障原因。
2.立即报告给运维中心主管人员,主管人员应通过电话或当面把故障报告给相关 领。 3•在故障排除后,运维工程师应对故障原因及解决办法进行详细说明。
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- xiaozhentang.com 版权所有 湘ICP备2023022495号-4
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务