博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
webcdn故障处理一例
阅读量:7020 次
发布时间:2019-06-28

本文共 2556 字,大约阅读时间需要 8 分钟。

一段时间之前处理的webcdn故障一例,写下来记录下。

 

大规模计算网络WebCDN用于解决大网互连互通,降低源站复杂性及压力,性能方面,提高大用户访问量的网页速度体验方面,有非常好的效果.WebCDN本身的稳定性也决定了大用户请求网页的. 然而加速网页中某1-2个网页设计不合理或加速某个源站中某个元素缺失的,也很可能形成WebCDN雪崩产生,进来全面影响WebCDN整体加速的.本文以最近发生的WebCDN流量及QOS异常为例,分享一下故障排查过程,RC等经验.

现象:
QOS第三方监测数据发现:网站首页首屏时间 ,网站首页总下载时间飚升;
WebCDN流量及QOS异常故障RC查找与经验分享0
监控系统发现:WEBCDN流量大涨及连接数飚升;
WebCDN流量及QOS异常故障RC查找与经验分享
取某个WEBCDN节点的机器,分析其上6.1-6.6号的nginx日志:
 
总体请求数:
 
for i in `find . -type f -name "*-20-05.log.gz"`;do a=`zcat $i|wc -l`;echo "$i $a";done|sort
 
./2012-06-01-20-05.log.gz 635220
./2012-06-02-20-05.log.gz 562762
./2012-06-03-20-05.log.gz 584111
./2012-06-04-20-05.log.gz 609735
./2012-06-05-20-05.log.gz 682701
./2012-06-06-20-05.log.gz 1011371
 
整体请求数有所上升
WebCDN流量及QOS异常故障RC查找与经验分享1
 
查看集中的url访问:
for i in `find . -type f -name "*-20-05.log.gz"`;do echo "$i `zcat $i| '{a[$2]++}END{for(i in a) print i,a[i],a[i]/NR}'|sort -k2 -nr|head -1`";done|sort
 
./2012-06-01-20-05.log.gz img1.5iops.com 157730 0.248308
./2012-06-02-20-05.log.gz img1.5iops.com 133432 0.237102
./2012-06-03-20-05.log.gz img1.5iops.com 130054 0.222653
./2012-06-04-20-05.log.gz img1.5iops.com 130020 0.21324
./2012-06-05-20-05.log.gz img1.5iops.com 177065 0.25936
./2012-06-06-20-05.log.gz focus.5iops.com 335022 0.331255  #focus的域名访问暂所有请求的33%
 
分析1号—6号的focus的访问情况,发现6.6号访问的比例较之前增加了30倍。
 
for i in `find . -type f -name "*-20-05.log.gz"`;do echo "$i `zcat $i|sed 's/"//g'| '{if($2=="focus.5iops.com")a++}END{print a/NR}'`";done|sort
./2012-06-01-20-05.log.gz 0.0223383
./2012-06-02-20-05.log.gz 0.0173695
./2012-06-03-20-05.log.gz 0.0175429
./2012-06-04-20-05.log.gz 0.0200989
./2012-06-05-20-05.log.gz 0.0186056
./2012-06-06-20-05.log.gz 0.332346
 
而这些focus的访问中499和404占了很多:
zcat 2012-06-06-20-05.log.gz |awk '{if($2=="focus.5iops.com") print $0}'|awk '{a[$9]++}END{for(i in a)print i,a[i]}'
408 15
200 11605
400 84
500 628
502 5
304 1
404 54957
504 4
499 273572
 
其中30W的访问集中在两个图片上,这个是由于源站程序存在问题导致。
 
zcat 2012-06-06-20-05.log.gz |awk '{if($2=="focus.5iops.com") print $7}'|sort |uniq -c|sort -nr
 190259 /subject/meirong120606new/img/nav_a.png
 103553 /subject/meirong120606new/img/nav_b.png
  18748 /subject/meirong120606old/img/nav_a.png
  16682 /subject/meirong120606old/img/nav_b.png
 
 
大量的4xx的访问导致squid不能正常缓存,而尝试去backup server,造成另外的机器incoming的流量增加
WebCDN流量及QOS异常故障RC查找与经验分享2
当尝试失败后,又去源站进行请求,由于一直不能正常缓存,造成大量的重复的链接不能正常释放,造成ss的连接数大量上升,同时squid的命中率下降
Ss 结果
WebCDN流量及QOS异常故障RC查找与经验分享3
Mem命中率:
WebCDN流量及QOS异常故障RC查找与经验分享4
 
查看页面的调用情况:
在页面的代码调用中,有个css样式(.Nav)调用了这2个不存在的图片,而调用这个样式图片的是<li>标签,单个页面中存在多<li>标签及循环调用,即每1次对此页面请求会产生大量对WEBCDN的非缓存的404请求。
 
 
WebCDN流量及QOS异常故障RC查找与经验分享5
 
 
WebCDN流量及QOS异常故障RC查找与经验分享6
 
WebCDN流量及QOS异常故障RC查找与经验分享
 
 
在21:30左右修复了这个问题,同时webcdn恢复正常
 
总结:
1.利用好webcdn的状态码和增加报警
2.源站要尽可能保证元素正确且存在,非正常的状态码在webcdn不能被缓存,就会造成重复的回源,影响webcdn性能。

本文转自菜菜光 51CTO博客,原文链接:http://blog.51cto.com/caiguangguang/932346,如需转载请自行联系原作者

你可能感兴趣的文章
Android自动测试工具MonkeyRunner之一:基础知识
查看>>
magic框架完成爬取文字数据
查看>>
JAVA学习日记2——foreach的常用用法
查看>>
OpenSSL 创建私有CA及客户端请求证书
查看>>
Linux 之 shell 比较运算符
查看>>
window 7 下 将asp.net core程序部署在docker 上运行
查看>>
Linux下的高级文件权限ACL
查看>>
Linux下semop等待信号时出现Interrupted System Call错误(EINTR)
查看>>
SpringCloud(第 031 篇)配置客户端ConfigClient链接经过对称加解密的配置微服务
查看>>
一道 Python 类的笔试题详解
查看>>
sysctl优化linux网络
查看>>
如何压缩 Outlook PST 和 OST 文件
查看>>
UIScrollView中的UITableView接收不到点击事件
查看>>
(12)Struts2中的Action
查看>>
基于jeasyframe框架进行开发项目实例
查看>>
WebRobot v1.5.3
查看>>
jquery构造函数分析
查看>>
手机输入法初始界面整理
查看>>
c/c++ 中的文件路径表示
查看>>
搭建Web服务器之Step8:CentOS6.3安装MySQL5.5
查看>>