信息化 频道

运维工具大宝典之开源平台篇

  监控宝

  推荐星级:★★★★★

  监控宝是云智慧为用户提供IT性能监控(IT Performance Monitoring)的SaaS产品,包含网站监控、服务器监控、中间件监控、数据库监控、应用监控、API监控和页面性能监控等功能。包含免费版、畅享版和企业版,目前用户约40万,监控宝app也是国内知名提供移动监控服务的产品。

  用户群:覆盖电子商务、移动互联网、广告传媒、在线游戏、教育医疗等行业的几十万用户,小米、陌陌、高德、用友、金山、途牛、聚美优品、陆金所、中国平安、建行信用卡中心、春雨医生、畅游、国家电网、中国电信、滴滴打车、春秋航空、凤凰网等各行业领先企业和中国互联网百强企业超过30%在使用监控宝。

运维工具大宝典之开源平台篇

  优点:

  1、 作为国内最早提供基于SaaS服务的网络监控平台,监控宝不但为初级用户提供免费的标准服务,企业用户还可以按需购买所需的监控、告警资源,最大限度的节省企业运维成本;

  2、 监控宝通过遍布全球的300多个分布式监测节点,对网络进行稳定性和可用性的主动监控和实时分析,支持http(https)、ftp、ping、udp、tcp、smtp、traceroute等多种协议,测量CDN效果及DNS状态,全网全地域性能趋势分析。

  3、 实时捕捉服务器深层性能指标,支持Linux/Unix/Windows系统及云平台,支持CPU使用率、CPU平均负载、内存使用比例、磁盘IO、磁盘空间使用率、网络流量和系统进程数统计等物理指标及30多种应用服务,云主机监控端一键开启,无需复杂配置。对于应用服务的监控,监控宝已经支持常见的应用类型包括:Apache、Lighttpd、Nginx、Tomcat、IIS、Memcache和Redis,存储层监控支持Hadoop、MySQL、MongoDB、SQLServer、Oracle的健康状态及性能监控。

  4、 监控宝是国内目前唯一支持API监控的网络监控产品,通过API接口调用模拟用户使用过程,支持对get、post、put、delete、head、options六种请求方式进行实时监控;支持JSON、XML、Text、Response Status验证及Postman脚本导入。

  5、 Docker监控也是监控宝的独家功能,能够实时监控Docker容器的CPU、内存、网络流量及Swap状态,让开发者和运维人员在使用Docker时清晰掌握其资源消耗状况。

  6、 监控宝提供页面性能管理,基于国际标准制定页面性能指数,识别加载元素的状态及正确性,对全网全用户加载响应时间分析,同时准确定位问题元素及优化建议。

  7、 及时有效的告警通知对运维来说至关重要,监控宝可以根据SLA设置告警阈值,第一时间发送告警通知。监控宝覆盖最全面的告警通知方式:电子邮件、短信、电话语音、URL回调通知、App Push等。另外监控宝提供分级告警通知,能够根据告警事件的不同等级将不同的告警推送给不同的人员,支持企业分层管理!

  8、 监控宝目前对其Smart Agent进行了开源,用户可以根据业务需求定制化开发Agent,同时用户的数据安全得到保障。

  9、 监控宝提供私有化部署解决方案,满足政企、金融行业专有网络监控的需求。

  10、 来自Compuware、CA、IBM等企业IT服务资深专家,超过5年的本土化企业级SaaS服务经验,以及超过百人的技术服务团队,为用户提供非常好的的服务保障。

  缺点:免费版只支持6个监控点,每月免费短信100条,监控频率为30分钟。

  Open-falcon

  推荐星级:★★★☆☆

  Open-falcon是小米运维团队从互联网公司的需求出发,根据多年的运维经验,结合SRE、SA、DEVS的使用经验和反馈,开发的一套面向互联网的企业级开源监控产品。

运维工具大宝典之开源平台篇

  Open-falcon架构

  用户群:在2015年5月份发布并且形成了一个数百人的交流群,目前有几十家企业用户不同程度使用。

  优点:

  1. 强大灵活的数据采集:自动发现,支持falcon-agent、snmp、支持用户主动push、用户自定义插件支持、opentsdb data model like(timestamp、endpoint、metric、key-value tags)

  2. 水平扩展能力:支持每个周期上亿次的数据采集、告警判定、历史数据存储和查询

  3. 高效率的告警策略管理:高效的portal、支持策略模板、模板继承和覆盖、多种告警方式、支持callback调用

  4. 人性化的告警设置:最大告警次数、告警级别、告警恢复通知、告警暂停、不同时段不同阈值、支持维护周期

  5. 高效率的graph组件:单机支撑200万metric的上报、归档、存储(周期为1分钟)

  6. 高效的历史数据query组件:采用rrdtool的数据归档策略,秒级返回上百个metric一年的历史数据

  7. dashboard:多维度的数据展示,用户自定义Screen

  8. 高可用:系统无核心单点,易运维,易部署,可水平扩展;

  9. 插件式监控框架,通过各种插件目前支持Linux主机监控(指标更多)、Windows主机监控、Mysql监控、Redis监控、Memache监控、RabbitMQ监控和交换机监控。

  缺点:由于小米公司的知名度、其运维水平能力很高,open-falcon的功能相对完整、开放性及免费特点,相信在未来会在国内监控运维领域占据一个很大很高的地位。不过由于其发布时间较短,很多基础的服务监控插件(如Tomcat、apache等)还不支持,很多功能还在不断完善中,另外由于缺少专门的支持,虽然有开放社区,但是解决问题的效率相对较低。

  OWL

  推荐星级:★★☆☆☆

  OWL 是大数据公司Talkingdata运维部开发的一款分布式企业级监控解决方案。既能监控IT基础资源,又支持其他数据的监控,融合了运维人员喜闻乐见的语言和技术(如Python,Shell等),还能服务于开发人员,方便灵活地放入更多的业务监控指标。

运维工具大宝典之开源平台篇

  OWL 体系架构

  由于Talkingdata是做大数据分析的公司,因此在设计OWL 时,充分考虑了各种大数据算法及分布式存储,使得监控报警更加灵活,数据分析更加丰富,业务监控也比较方便。

  用户群:Talkingdata自用,预计在年底开源,已有不少运维开始关注。

  优点:

  1. 基于复杂算法的浮动报警规则:OWL 不仅支持固定报警阈值,也支持浮动报警。即在到达预设的阀值后,自动追加阀值,这样一定程度上可以降低信息的发送量,在系统恢复正常之后,OWL 监控系统也能自动恢复到之前的阀值;

  2. 灵活方便的用户自定义报表:监控系统的每个用户(如网络工程师,系统工程师,DBA,DevOps等)都可以定制自己的图表工作台;

  3. 真正可视化的资产管理:OWL 最新版保持了先前的特色-模拟机柜图,现实资产的同时显示主机的监控状态,位置和状态一目了然;

  4. 部署方便的Agent ,支持进程守护:OWL 的监控Agent 不依赖OS,方便部署,可支持多种插件,并借助于双生机制,实现了进程守护;

  5. 可平行扩展的底层数据存储:选择了平行扩展性好的hbase,上层使用tsdb封装。这虽然丧失了灵活数据查询形式,但是对于数据存储,可以做到比较好的透明化;

  缺点:由于产品尚未公开发布,所以只能从介绍信息判断,目前产品还不是很成熟,功能主要围绕Talkingdata自身的运维需求,包括可视化资产管理的内容。其它功能除了告警可能会更深入之外,与open-falcon比较类似。

  以上是云智慧对国内流行的开源运维监控工具的对比评测,开源产品虽然拥有初始投入少、使用灵活等特点,但在管理成本、学习曲线和安全性方面很难得到大型企业和高速成长的互联网企业的认可,所以商用运维产品在国内企业级市场中仍占有很大比重,在后续文章《运维工具大宝典之商用软件篇》中,我们将为您对比分析商用运维工具的优劣。


0
相关文章