博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
linux服务器集群运维经验
阅读量:6534 次
发布时间:2019-06-24

本文共 1309 字,大约阅读时间需要 4 分钟。

公司大概有5000+以上的服务器节点,包括各种应用,我和同事共同维护大约2500+的服务器,主要包括一些视频cdn,直播视频cdn,webcdn和p2p服务器。

 以下是自己在运维工作中的一点经验和看法,希望对大家有所帮助
  1.       服务器型号的区分,为以后的统一化和标准化作硬件上的准备,很多人忽视这一点,其实如果这一点做得好会使后面的运维工作轻松很多,根据应用我们主要把服务器分为3中,cpu密集型,主要用于大量计算应用,比如p2p;内存密集型,用于cache类应用,比如squid,varnish缓存服务器;磁盘密集型,用于大存储类应用,比如视频存储服务器,hadoop日志存储集群。
2.       系统的的自动安装,主要有kickstart和cobbler
3.       统一的yum源和定制化的rpm包, 并集成至yum源站,为后续的环境初始化做软件上的准备
4.       构建专属于自己的内网DNS
5.       标准化的统一的命名方式(标准化基础),便于使用puppet管理,并且减少操作的错误,如果每个机器的hostname都为localhost,那将是一个多么可怕的事。。。在我们的生产环境中主要使用下面这种命名方式
机房-主业务-应用程序-IP后两位-公司域名,这样一眼就可以看出是哪台服务器,应用于什么业务,报警也可以直接定位。
 
6.自动化的配置管理和环境部署工具:puppet,puppet的模块编写要尽量减少模块直接的耦合度,并使用class继承的方式来减少运维的工作量,定制化的facter变量会使软件的配置环境更加灵活,由于puppet暂时不支持群集,所以在实际应用中需要部署多套,根据经验,1500台左右的server时puppet会出现性能问题。
 
7.       强大有效的监控系统,在生产环境中我们使用了zabbix proxy+zabbix master的群集结构,zabbix可以实现有效的系统和应用级别的监控,应用监控同时也使用了ppmon来实现多点监控。
选择zabbix有一个最大的好处,就是监控数据是存放在数据库中的,这样就可以利用数据库中的数据做很多操作,比如可以分析一段时间内服务器的各个性能指标,查看服务器的资源利用率,可以对数据进行聚合操作,从而分析全网的指标,比如总的流量,总的http code分布情况。
 
8.       日志收集服务器群集 和qos分析系统,构建 有效的日志收集系统可以有效地对用户的访问数据进行整合和分析,可以快速的分析qos,对应重要的节点我们采用本地分析并导入mongodb,最后导入zabbix的方式,非重要节点则直接将日志打包压缩,通过ftp上传至hadoop数据仓库集群中。
9.       构建冗余的结构,消除单点,在生成环境中对于一些重要节点都采用keepalived-ha的方案来提高冗余度。对于resin,php等应用服务器则在前端使用nginx做反向代理,同时nginx使用keepalived-ha
  10.   自动化的代码分发系统,主要是controltier + svn的使用,可以方便快速地部署代码。 
以上是自己的一点经验,欢迎大家来拍砖。
本文出自 “ ” 博客,请务必保留此出处

转载地址:http://ziwdo.baihongyu.com/

你可能感兴趣的文章
55、Android网络图片 加载缓存处理库的使用
查看>>
svn文件提交时强制写注释
查看>>
【转载】千万级规模高性能、高并发的网络架构经验分享
查看>>
jsp字段判空
查看>>
OC基础--OC中的类方法和对象方法
查看>>
ubuntu samba服务器多用户配置【转】
查看>>
母线的种类与作用是什么(转)
查看>>
【Xamarin 挖墙脚系列:IOS 开发界面的3种方式】
查看>>
Atitit.工作流系统的本质是dsl 图形化的dsl 4gl
查看>>
I.MX6 Android USB Touch eGTouchA.ini文件存放
查看>>
4-5-创建索引表-串-第4章-《数据结构》课本源码-严蔚敏吴伟民版
查看>>
java 操作 RabbitMQ 发送、接受消息
查看>>
go run main.go undefined? golang main包那点事
查看>>
前端进阶(13) - 搭建自己的前端脚手架
查看>>
数据挖掘(二):认识数据
查看>>
从零开始写一个npm包,一键生成react组件(偷懒==提高效率)
查看>>
Golang中的路由
查看>>
【期末考试季】JAVA进阶复习提纲
查看>>
Volley(二)—— 基本Request对象 & RequestQueue&请求取消
查看>>
2017中国系统架构师大会“盛装”来袭
查看>>