“网络医院”的故事,Fluke网络测试手记
2003-09-11      
打印自: 安恒公司
地址: HTTP://50312.anheng.com.cn/news/article.php?articleid=68
“网络医院”的故事,Fluke网络测试手记

[本文感谢Fluke高级技术工程师尹岗先生的多年努力的成果,是非常有价值的参考资料] 

网络医院的故事

(小康巡诊日记)

[引言]网络正以空前的速度走进我们每个人的生活。网络的规模越来越大,结构越来越复杂,新的设备越来越多。一个正常工作的网络给人们带来方便和快捷是不言而喻的,但一个带病工作的网络也常常给人带来无穷的烦恼甚至是巨大的损失。网络世界中最忙乱、心里最感底气不足的人恐怕要数网络管理人员和运行维护人员了。他们时时刻刻都在为他们的网络担心,病毒、黑客、速度变慢、网络崩溃....

[小康档案]:三年前负责管理Coneill公司,一家快速成长的公司的网络,曾自认为是NT和Novell、Unix等平台以及Oracle方面的专家,擅长协议分析和网管软件的使用,每天忙于安装设置不断加入网络的设备和系统,应付不断增加的各种意外事件、报警和陷井,处理网络设备经常性的增加、删除、更改和系统设置、连接等方面的故障和问题。至于如何提高网络的运行效率、如何合理调整网络流量并配置网络设备、如何防止网络问题的发生、如何采用宽带网络设备组网及应用等则基本上无暇顾及。一年前,小康从网络健康学院毕业后到网络医院就职,负责网络的体检(测试)和故障诊断,专门为哪些网络发生严重问题的“病人”提供帮助。现在他已经是一位经验丰富的网络健康维护的医生,巡诊故事多多。

 

第一部:网络经脉篇

[故事之一]三类线仿冒5类线,加上网卡出错,升级后比升级前速度反而慢

[症状]今天是我第一次巡诊,病人抱怨他的大多数站点上网连接速度比系统升级前还慢,有的站点时断时续,有的则根本不能上网。原来用的是10M以太网,工作非常稳定,性能优良。升级后全部更换为100M系统,出现上述症状。用户总数未有增加,也没有启用大型软件或多媒体应用软件。重装系统软件、应用软件,重新设置服务器和网站,查杀病毒,Reset所有联网设备均不奏效。其中,有两台机器换到另一地点后能基本正常工作。用笔记本连接到这两个不正常链路的集线器端口上网,也能正常工作。更换这两根网线后现象依旧。将机器还原到原位置,更换网卡(原卡商标为3COM卡)后恢复正常,不知何故。由于以太网大多数用户不能工作,只好暂时退回到10M以太网系统。

[诊断过程]从10M系统的网管上观察,网络的平均流量为3%,低于40%,由于未运行大型软件和多媒体软件,应该不会感到任何速度上的“折扣”。将FLUKE的F683网络测试仪接入Hub端口,测试网络流量为35%。碰撞率为23%,远远高于5%的健康标准。报告的错误类型有:延迟碰撞、FCS帧错误、少量本地错误。基本可以断定是布线系统的严重问题。遂对线缆进行测试,结果显示除了测试点的两根电缆线外,其余所有布线链路的衰减和近端串扰均不合格,用3类标准测试这些电缆则显示全部合格。查看线缆外包装上印有Lucent Cat5的字样,可以断定是仿冒产品。测试

两台工作站的链路长度分别为78米和86米,测试其网卡端口,显示网卡发射能力(信号幅度)不足,并且仪器上没有内置的3COM厂商标记显示。

[诊断点评]用3类线外覆5类线产品标记在假冒伪劣产品中为数不少。用户在10M以太网环境中不会出现应用上的问题,一旦升级到100M环境在只有少数短链路能勉强使用。对于两台更换地点后能正常工作的网站,查明链路长度只有3米,且为标准的5类线(平时此站点用于临时测试)。原地点测试长度为45米和37米,由于网卡发射能力弱,信号在100M系统衰减大,造成上网困难。改在3米链路连接时,衰减的影响小,故可以正常上网。网卡测试显示为仿冒卡。

[后记]一个月后,“病人”打电话告述我,重新布线后网络工作完全正常,即使跑一些多媒体软件也丝毫没有停顿的感觉。不好的消息是,原来的系统集成商已不知去向,无法索赔了。

 

[故事之二]UPS电源滤波质量下降,接地通路故障,谐波大量涌入系统,导致网络变慢、数据出错

[症状]今天的病人是一家著名的证券公司。上午9:45,用户来电请求紧急救援,说大户室中的一群声称遭受巨额无端损失的愤怒的股民们正聚集在营业部计算中心的机房门前,质问为什么实时交易的动态信息显示屏幕出现大片空白,数据刷新和交易的速度都极慢,且经常中断,根本无法进行交易。扬言如果不立即恢复交易,将砸掉证券交易所的计算机。交易大厅的散户门也开始向机房云集,如果不及时处理,情绪激动的股民们很可能真的会将营业部计算中心的网络设备砸个希巴烂。放下电话直立即直奔该营业部,途中继续用移动电话了解得知,该网络为10M以太网,用户数为230个。从卫星接收广播的行情数据,并回传交易信息。由于从卫星接收机监测口观察接收数据完全正常,故网管人员初步判定是网络系统的问题。两个月前就开始有传输数据错误的现象出现,有时数据更新出现空白,数据更新速度偶尔变慢,有时出现断续。虽用网管和协议分析仪检查过,但因这种“症状”并不连续出现,且对网络的速度和股民的交易基本没有影响,故一直心存侥幸,没有彻底查找真正的故障根源。前天参加“第二轮证券系统Y2K统一认证测试”,顺利通过。利用剩余时间对硬件设备进行了检测和维护,之后进行联网检查,网络表现正常。不料今天开市就出现严重问题。

[诊断过程]用F683网络测试仪监测网络30秒,观察网络流量为81%(但网管报告为0.2%),错误帧97.6%。错误类型为Ghosts(占93%)、FCS错误(又称CRC错误)和Jabber,即幻象干扰、帧校验错误和超长帧,这表明网络中有大量的非法数据包存在。此类症状一般以电磁干扰和接地回路方面的问题居多。为了确定干扰源的准确位置,将大部分与工作站相连的集线器组电源关断,服务器继续工作,观察错误率降为87%,仍然很高。重新打开集线器组电源,用F43电源谐波测试仪观察,发现谐波含量严重超标(最高970mV)。该网络用一台大型UPS电源给所有网络设备供电,测试UPS输入电源谐波,约为输出电源谐波含量的30%,明显低于输出端的指标,断定为内谐波含量超标。启动小型备用UPS后,网络恢复正常工作(为减少负荷,网络设备分批轮换接入),但网络测试仪显示仍有错误存在,错误率(幻象干扰)下降为1.3%。再次关断集线器组的电源,类型为Ghosts的幻象干扰错误率下降为0.8%,证实仍存在由接地回路串入的幻象干扰,且应该是从主通道进入。摇动卫星接收机的数据输出电缆,幻象干扰时有时无,拔下电缆则干扰消失。网管人员回忆前日维护机器时曾动过该电缆。由此造成连接不良。为使股民能继续交易,稳定情绪,在更换电缆后又将原UPS启动继续工作提供服务。收市后再更换大型UPS,故障彻底排除。

[诊断点评]故障原因有二,一是UPS对电源的净化能力下降,网络外谐波容易从电源系统串入网络系统,为重大故障的发生提供了基础,但只是累积的内谐波超标还不足以引发致命问题。二是接地回路问题,给大量的内谐波串入网络提供了通道。内谐波是指从电源净化设备的输出端比如UPS的输出端测得的谐波功率,由各种用电设备产生(网络设备绝大多数都采用开关电源,本身就是一个较大的谐波源)。本案中,大量的内谐波功率叠加后从卫星接收机数据输出电缆串入交易网络,一方面以幻象干扰的形式侵蚀网络带宽(此时网络测试仪监测到的错误类型即为Ghosts),当以太网的网络总流量高于80%时,会导致绝大多数的网络瘫痪;另一方面,串入的内谐波将干扰正常数据传输(与正常的卫星广播数据叠加,表现为FCS帧错误和少量长帧),使卫星接收机接收到的数据出错,显示屏出现大片空白或不能实时更新数据。本故障为累积故障,两个月前因UPS性能下降就开始出现少量干扰超标,不过这没有引起网管人员的足够重视。前天维护设备后又增加了电缆接地回路的干扰问题。但因当时未将卫星接收机连入网络,网管人员仅检查了网络部分的工作状况,所以此时的网络表现肯定是正常的。直到今天临近股市开市,当接通卫星广播数据的输入通道时,问题才爆发出来。此时内谐波干扰信号大举入侵网络,几乎造成网络瘫痪。

关断集线器组电源,内谐波总功率下降,干扰信号强度减弱,错误率自然有所下降。更换UPS电源后,错误率大幅下降(理论上应降为零)。但因接地回路问题使50Hz电源及其高次谐波感应信号仍能进入网络形成较小数量的错误帧。需要注意的一点是,一般人在更换UPS后看到网络恢复正常工作即认为故障已经排除,因此很容易忽视仪器监测指示仍存在的少量错误(1.3%),这可能使“接地回路问题”这一重大故障隐患得以长期存在下去。

此故障的诊断网管系统基本上无能为力。

[建议]电源谐波功率含量和网络错误率要定期测试,当发现错误帧时一定不要掉以轻心。另外,一路电源能带动的工作站建议不要超过30台,否则应象划分网段那样重新划定供电区域。以免内谐波功率累积过大,超过设备的容许范围。如果您的网络可靠性要求很高,或者您的网络对您来说非常重要,那么建议您将主要的网络设备如服务器、路由器等,在网络规划设计时就选择由单独的UPS供电。

 

[故事之三]光纤链路造侵蚀损坏

[症状]周末,要下班了,我正在计划如何安排假期,接某银行来电,报告该行某支行下辖的西区营业部网络瘫痪,营业部所管理的33台ATM取款机也全部不能提供取款服务,用户反响强烈。已经两天了,解决都没有问题,要求网络医院立即派人帮助排除。

西区营业部和支行在同一个大院的两幢大楼内,之间用一对90米的光纤将营业部的网络与支行的网络连接起来,路由器、服务器等都设在支行计算中心(100BaseT以太网)。营业部的网络结构为10BaseT以太网,五天前发现网络速度变慢,用户抱怨ATM取款机等待时间太长。由于营业部没有配备任何网络测试和维护的工具,为了定位故障,请支行计算中心的网管人员协助检查。从支行一端的网络监测显示,一切正常。从计算中心打开营业部交换器的Mib,观察流量正常,为5%,发现只有很少量CRC/FCS错误,没有发现严重异常,用协议分析仪捕捉数据包观察,也未发现严重的问题,遂怀疑是病毒侵害营业部子网。昨日夜间进行了查杀病毒,重装系统,恢复数据等工作,症状大大减轻。但未能经受住昨夜暴风雨的考验(本周天气除昨天下午间晴外,连续降雨),最终于今晨“死网”。

为便于观察,支行网管人员在计算中心将连接营业部的交换机用集线器暂时取代,结果导致支行网络速度也变慢。检查营业部内的交换数据无障碍,断定是传输通道的问题。拔下光纤,支行速度恢复正常,插上光纤则上述现象重新出现。进一部测试光纤链路,连接和衰减均符合要求。故障排除工作陷于停顿。

[诊断过程]据网管人员介绍的上述情况,光纤和交换机已经过了网管人员初步检测,基本正常。可以初步判定问题出在链路通道上。将F683网络测试仪接入营业部交换机,观察网络基本正常。进行通道测试,检测营业部到支行的ICMP Ping测试结果,成功率约0.8%,路由追踪支行服务器,成功率约0.5%。从支行集线器上观察,流量18%,属正常范围,但发现大量“幻象干扰”错误“Gosts”(16%),拔除光纤,则错误为0%,至此可以肯定错误与营业部网络及其通道有关。将营业部与支行连接的交换机接口串入一个4端口的集线器,用F683网络测试仪观察网络,流量5%,发现大量幻象干扰(97%),拔除光纤,错误消失。寻找光纤接线箱,发现支行一侧的接线箱外包装已被撞击变形、破损(据说是半年前安装空调时被吊车臂碰坏),雨水已将3号接头完全浸蚀(3号接头用于连接营业部)。清洁接线箱内的所有光纤接头,用电吹风加热干燥光纤的插头插座,重新更换并密封接线箱,故障彻底消失。

[诊断评点]光纤链路经常被忽视。本故障中,光纤接头因雨水侵蚀和污染,从营业部送来的信号被大量反射,此时若只测试光纤链路的物理性能是合格的。但由于此段光纤只有90米,强反射信号经过较少的衰减后与正常信号叠加,破坏了数据的结构(包括数据帧帧头信号格式),网络测试仪即认为这是幻象干扰信号而不是正常的数据信号。此时只有少数信号可能侥幸通过。由于集线器和交换器不具备前期碰撞的识别能力,所以从网管上只能观察到数据帧后半部分被破坏后所表现出来的少量FCS/CRC类型的错误,此错误往往被人忽视。

昨天重装系统后因天气转晴,光纤接头性能有所好转,症状减轻。昨夜暴雨又使网络陷入灾难境地。加上今天测试光纤链路显示正常,致使故障排除陷于停顿,束手无策。

[建议]交换器对均衡网络负荷、隔离故障网段对网络的影响有很好的效果,但也因此经常成为网管系统监测中的“黑洞”。用网络测试仪定期监测网络可以将故障消灭在萌芽状态之中。定期测试分很多种,我们将在以后的连载中陆续介绍。本故障如不及时处理,其它光纤接头连接的网络也会陆续出现严重问题。

 

[故事之四]水晶头损坏引起大型网络故障

[症状]某大公司IT经理黄先生是我的朋友,新年将近,喜事却不多。今天来电要求帮忙查找“元凶”。

事情是这样的,公司规模发展很快,两周前对网络实施了一次比较大的扩容工程,新增加了200台工作站(为新员工配备),网络规模由2000个站点增加到2200个站点,全部在一个网段中。该公司采用100BaseT以太网结构,用两个路由器实现与生产基地和开发基地的连接(新换2个155ATM骨干),以前我曾建议他们将网段划分小一些,以便管理和隔离故障,但因网络未出现什么大的故障,加上黄先生本人的丰富经验和自信以及维护经费未落实等原因,网络一直保持了这种大型网段的“危险结构”。这次扩容同时将两条广域网骨干链路升级到155ATM,但网段结构仍然未作根本调整,计划留待下期工程时再作打算。本周内网络已多次出现阻塞现象,每天至少两次,每次阻塞时间10~30分钟不等。逐个仔细检查了新安装的200台工作站,没有发现任何问题。由于故障不是持续存在,Boss催得又紧,故令黄先生颇有些“精疲力尽”的感觉。

[诊断过程]上午10:00,打开路由器的MIB库,记录的参数基本正常,网络平均流量13%。其中有约1.5%左右的碰撞,表明网络结构的绝大部分构件是好的。给新增加的200台工作站Share一个软件,然后每40台一组同时下载并操作该软件,结果证明200台工作站工作基本正常。将F683网络测试仪接入网络,同时将F693网络流量分析仪也接入网络进行监测。下午14:21分,网络阻塞现象出现,持续时间15分钟,F693流量分析仪监测的流量正常,平均流量从9%上升到13%,一分钟后下降为8%,但F683网络测试仪的流量报告为84%左右,其中碰撞帧占82%~87%,少量FCS损坏帧(约2%~4%左右)。记录该时间前后的Protocol Matrix协议对话图谱,发现在15分钟阻塞时间内共有137个工作站曾发送或接收过数据,其中4个工作站一直在持续收发数据,有一个工作站发送的数据包流量一直占其它工作站流量总和的15倍左右。幸好黄先生以前对站点的Mac地址做过文档备案,依据仪器显示的Mac地址我们立即确定了这4个工作站的使用者(流量最大者是财务科陈小姐的地址)。随即询问他们最近有无更动过硬件和网线,有无增删或调整过软件,回答均是“没有”。询问陈小姐刚才在使用何种软件与生产基地的小张联络 (Protocol Matrix协议矩阵指示为小张的工作站)。回答是“机器一直就连在网上,但刚才没有使用计算机”。将网络测试仪连接到陈小姐的台式机网卡接口上,模拟发送流量,结果碰撞随流量的增加而大幅增加。测试该链路的网卡和网线,显示插头为3类插头,链路近端串扰超差比较多。重新更换5类插头后,网络恢复正常。

经过私下再三询问原因,陈小姐才道出了实情。

[诊断评点]本故障是由更换不适当的3类插头引起的。新员工小张是陈小姐的多年不见的同学,也是个网虫。此次与陈小姐在新公司相遇,自然倍感亲切。一周前小张在帮陈小姐安装新声卡时不慎将插头损坏,随意用一个3类插头更换之。临近新年,陈小姐在小张的指点下从网上陆续下载了不少大容量的贺年卡,均为动态电影格式,可以在网络上实时传送播放并加上双方对话,非常有趣。该站点平时使用的财务软件无论是传输速度和数据量都很小(3k左右),对整个网络系统影响不大。但在向小张放送解压后的动态电影贺年卡时数据流量约在3~4Mbps左右。由于网线问题,事后推算传输的数据帧约有13%是有效的,其余均被反射和串绕所破坏须重新发送,表现为网络上大量的碰撞帧和少量的FCS帧。

[建议]大型网络不划分网段既不便于管理又很难隔离网络故障,此种结构是非常少见的,同时也是非常危险的。该公司网络大部分采用的是集线器,只有很少几台交换机,这对故障隔离也是不利的。另外,一定要对员工进行上机前教育,不能随意增删、更改软件和网络设置。所幸的是黄先生本人经验非常丰富,平时已将文档备案工作做得很细致(国内多数网络在文档备案时不将网卡的Mac地址备案),否则是不可能在半小时内查出本故障,一般来讲,可能会耗费1~3天左右的时间才行。

[后记]黄先生经过此次“洗礼”,也悟出一点当好IT经理经理的绝招。至少他已不再认为仅凭经验就可以“打遍天下无敌手”。网络维护是一门艺术,更是一门科学或工程,没有适用的工具和科学的方法是达不到这最高的“艺术境界”的。至于陈小姐,我们还是愿意善意地再为她,也为小张保守一段时间的“秘密”。

 

[故事之五] 雏菊链效应引起得网络不能进行数据交换

[症状]下午某市工商局信息中心来电,其下辖的某县工商局今晨与市局的联网出现问题,速度与往常相比速度慢了许多。其中与该县工商大厦七楼的计算机基本上不能进行数据交换。而与其它楼层的计算机通信虽然速度较慢但还基本上能维持正常的数据交流。由于该市在规划计算机网络广域联网方案时没有考虑将来自身维护的问题,只是简单地在工程合同中将维护工作交给工程承包商负责,自己没有配备专门的工具和培训专门的人员来维护网络。该工程承包商当时负责此项工程的人员早已离开这家公司,故对今日的故障只能表示爱莫能助。经人介绍找到了网络医院。

[诊断过程]我们当晚即乘火车抵达该市并连夜开始查找故障。该市网络规模挺大,下辖7县6区87个工商所,市县局之间用64K的DDN链路连接,工商所与县区局之间用电话线连接。从市局向故障的县局用F683网测试仪作通道测试,速度4K时就上不去了,响应时间804ms,ICMP Ping显示县局路由器连接成功率在1/7左右。将县局网下挂的所有网络设备断电并拔下所有与路由器相连的联线插头,只留下路由器和一台集线器、一台笔记本电脑与之相连,再作通道测试速度为54k,响应时间46ms,ICMP Ping成功率100%。由此证明故障不在DDN链路,而在县局网络本身。

驱车前往县局工商大楼,恢复大楼网络设备的供电,插上全部线缆插头,然后将Fluke公司的F683网络测试仪接入网络进行网段扫描,30秒后显示双路由器IP地址错误,伴随少量FCS类型帧错误。显然,故障与地址设重的这台路由器有直接关系,但网管人员不知道这另一台路由器来自何方,查机器文档备案资料也无此路由器的资料。经再三询问网络管理人员,才想起原来有一个废弃的备份路由器,半年前就早已经不工作了。虽未从早期不用机架上拆下来,但一直未让其上电工作(电缆联线也未摘下)。我们检查该路由器时却发现它正在上电工作!!,系何人所为暂且不查,立即将电源插头拔下另路由器断电,一分钟后市局来电网络速度恢复正常。此时F683网络测试仪虽然显示双重地址消失,但仍然有少量FCS类型帧错误,这说明网络还存在问题,而且主要是布线及链路设备的问题。联系七楼数据交换比其它楼层困难的故障现象,用F683向各楼层的计算机定点发送流量,结果发现与一楼、二楼和市局的定点数据发送FCS帧错误明显增高,其它楼层正常。基本可以断定是由于雏菊链效应造成的典型故障。据网络管理人员介绍,本网络平时就感觉七楼与市局和一楼、二楼的网络连接速度有时变慢,偶尔会有中断现象。查工程图纸,上面只标有一到五楼的布线及网络设备的分布图。六楼七楼的设备由于是半年前该局自己增加的,所以没有标示。无赖我们只得沿集线器布线方向查找网络连接结构。简单的计数就可以知道,七楼的设备与一楼、二楼的设备(路由器在二楼)集线器总数为5个,这很容易引起数据包的延迟碰撞(在10Base-T网络中则表现为FCS类型错误帧)。

[诊断评点]雏菊链效应是指局域网(10M网)内任何两个站点之间的集线器数量超过4个后引起的数据传输时间超长而引发的网络错误现象。本案中七楼、六楼为后来增加的网络,网络管理人员没有规划网络就想当然地将集线器按级连方式连接起来,结果出现雏菊链效应。如果不是有人昨天将备份路由器偶然接入网络造成广域网故障,雏菊链效应还将作为一隐患长期潜伏下来。

一般来讲,路由地址竞争将引发严重的路由瓶颈问题,另外路由与服务器、交换器等地址竞争也同样会引起严重的带宽平衡问题。路由与工作站地址竞争情况会好一点。

该市工商局的网络维护和管理可以说基本上处于空白状态,这也是国内许多网络维护管理的典型现状。如果说前几年主要精力放在了网络的建设上,那么现在该是将网络的健康维护工作提到议事日程上来的时候了。否则随着网络规模、速度和复杂性的增加将会后患无穷。

[诊断建议]改变六楼、七楼的集线器连接方式,或者重新做正规布线;指定专人妥善管理备份路由器;培训网络维护和管理人员,配备适当的维护工具,对网络的工作状态做一些必要的定期测试和登记。另外,网络的文档备案工作非常重要,一定要仔细做好这项日常工作,硬件备案时一定要将机器的Mac地址一一对应备案。

[后记]三周后该市工商局对全局系统的网络作了一次全面清理,我们随后应邀对其网络进行了一次抽查,情况基本良好。至于上次的“备份路由器上电案”一直没有人“承认”之。

 

[故事之六]网线制作不标准,引起干扰,发生错误

[症状]某证券公司求诊,要求查找错误源。近日股市火爆,新增不少用户,但一周内已经三次出现交易数据错误,数据恢复也进行了三次。虽然涉及的金额不大,与证券交易所的资料核对不上,昨晚对历史记录和当日交易记录进行了比较,发现在同一时刻往往有几个用户的交易数据出错。怀疑存在病毒或恶意用户捣乱的可能,用多套软件查杀病毒,并重新安装系统,恢复备份的数据。不料今日故障现象依旧出现。

[诊断过程]该网络99年2月进行了改扩建,全部采用NT平台。最近又新增家50个站点。根据一般经验,先对新增加的工作站极其联网系统的状况进行常规检查。由于现在已经休市,网上错误无法观察。用流量发生器模拟网上流量进行体能检查,结果如下:正常数据帧下限帧长64Byte各类型帧体能检查,网络致瘫流量为99%,上限帧长1518Byte的致瘫流量为99.5%,错误帧50Byte短帧致瘫流量为90%,错误帧4000Byte超长帧致瘫流量为97%,碰撞最高时为6.4%,略偏高。无新的错误类型出现。从交换机处测试只发现少数传输延迟数据包,以上数据说明,被检查的网络是一个“身体素质”相当好的证券网络。仔细研究发生错误的工作站,发现是在同一个新增用户的集线器组当中,该网段通过一交换机接口与服务器相连。除了对交易服务器和行情服务器分别进行体能检查外,对该网段内的工作站也进行体能检查,各站表现正常。各工作站模拟流量和交易也都正常。可以基本判定,该网络是一个承受能力很强的优秀网络。由此我们怀疑可能存在“恶意用户”(注:恶意用户是指在工作站上安装自备软硬件或将工作站网卡插头拔下并将自带笔记本电脑私自接入的用户,其目的叵测)。为了跟踪数据出错的情况,将F683网络测试仪接入该网段作长期监测。第二天故障现象没有出现。第三天下午开始后10分钟,即13:10分,网络测试仪监测到该网段大量错误出现,其中FCS帧错误占15%,幻象干扰占85%,约持续了1分钟。FCS帧涉及本网段的3个用户。该证券系统装备有CCTV闭路视频监控系统,从长时录像机中可以发现故障对应时刻13:10有一个用户使用了手机,仔细辨别图像画面发现其使用的是对讲机。

无风不起浪,对讲机的功率比微蜂窝手机的功率要大得多,使用频率也更接近网络基带传输的频带,容易对网络造成近距离辐射干扰。但是,一个合格的、完整的UTP电缆系统在5米外还完全能抵抗不超过5W的辐射功率。从故障现象推断,本网络的电缆或接地系统可能有一些问题。随即决定查找本网段50个站点的布线系统(扩容时没有经过认证测试),用Fluke的DSP2000电缆测试仪进行测试,测试结果全部通过。只在中心集线器与交换机端口的插头发现接头线做得很差,外包皮与接头之间有15厘米的缺失,线缆散开排列,双绞关系被破坏。交换机的物理位置离用户仅隔一面玻璃幕墙,直线距离1.5米左右。可以基本断定,对讲机发出的较大功率的辐射信号就是由此处串入系统的。

重新按TIA568B标准的要求打线,连接好系统。

[诊断评点]出问题的网线接头是扩容施工时的最后一根遗漏的网线,为本部工作人员自己临时增补上的。他们不了解TIA568B所要求的打线标准,乃随意为之。系统中串入干扰的途径有多种,比如大动力线与网线并行距离太近或干脆就在同一个走线槽内;与某些辐射源(包括日光灯、电焊机、对讲机、移动电台等)距离太近;系统设备的接地回路不良等等。本案是由散列的网线接头引入近距离的辐射干扰造成。由于对讲机用户比较特殊,他们的干扰是短时的,查找时有时需要“守株待兔”。当然,如果网线全部经过严格的测试,应该不会出现本例故障。

[诊断建议]建议按标准化的布线环境来设计布线系统,更改系统结构后一定要测试电缆。合格的UTP电缆系统抵抗辐射干扰的能力是很强的,但要求电缆系统必须经过严格的测试(事实上多数布线系统只测试过物理连通性,未做严格认证测试,存在着大量的隐患)。大量的问题都出在不起眼的接头上。建议年检时将布线系统作为年检内容全部检查一遍(也可以以一年或两年为周期平时进行轮测,测试标准可选用北美标准TIA568A/568B或ISO11801等)。营业室内最好禁止使用大功率对讲机,部分大功率模拟手机也要列入禁用清单。

故障检测中,应重点检查最近动过的或变更过的设备,此为经验之谈。不过,一个有趣的现象是,当你向某个事后证明他确实更改过设置的用户询问时,经常得到的答复却是:没有动过任何东西。

[后记]按约定时间接到了该证券公司的通报,系统已稳定地工作了两周,没有再出现同类问题。施放干扰的用户是一位具有合法使用对讲机权利的公务人员(在此不便披露具体细节),利用工作之便业余炒股,每天会到股市“例行巡查”一番,已接受劝告。

 

[故事之七]插头故障

[症状]某电信移动计费中心,用户反映,近三个月移动用户总数增加了近30%,但移动计费的营业收入却只增加了5%,怀疑计费系统是不是有问题。从计费服务器查看收费记录,没有发现什么问题。检查计费服务器软件,工作正常。从路由器另一侧的财务服务器检查,内部的财务服务器显示的计费数据与计费服务器的数据没有差错。查找电话局局端记录,发现记录次数超出移动计费的记录次数。最后作实地测试,用移动电话拨打50次,记录次数45次,记录时间与实际通话时间一致的次数为30次。历时一周,还不能确定故障位置。

[诊断过程]计费服务器连接到一台16端口交换机Bay28115的第一插槽5号端口。第6号端口下挂一个100Mbps的以太网,网管机HP Open View也设置在此。打开网管系统,准备观察5号端口的工作情况,这时才发现无法打开5号端口的工作表数据记录。询问网络管理人员,告知3个月前因交换机故障自行更换过备用的Bay28115交换机,更换后系统工作很正常。查看维护工作记录登记和日志,没有任何关于Bay18115的维护说明,也没有关于网络工作参数的记录(记录上显示的还是系统开通时的原始数据)。询问网管人员为何不设置并打开交换机工作表的Mib。答曰网管系统是一年前安装的,平时只用来看看系统设备是否连接以及是否有报警信号,更多的功能也不会用。前任网络管理员已调任工作岗位,实际上现在已没有人会使用和设置网管系统。由于系统开通是有系统承包商负责的,自行更换交换机后没有发现什么问题,也没再 仔细检查。

用网络测试仪的协议对话分析功能从网管机所在网段观察计费服务器的工作情况,发现服务器对约有1/3的数据包没有回应。为了不影响系统工作,于凌晨3:00在移动用户使用率底的时候用F683网络测试仪模拟服务器测试5号端口,显示链路工作于10Mbps速率(原始记录显示此端口的速度应该是100Mbps)。由于交换机没有启动SNMP支持功能,故临时在5号端口安装了一只10Mbps的集线器与服务器连接,用网络测试仪从这个集线器的任意端口对计费服务器发送数据并观察服务器数据流工作情况。发现大量碰撞和错误的FCS帧,当流量为30%时,碰撞及错误流量占21%。用电缆测试仪检查服务器电缆,发现靠交换器一端的插头处近端串扰NEXT严重超差。重新更换插头并正确打线,碰撞率下降为0.5%,错误率为0%。去掉临时集线器,重新启动交换器的SNMP功能,从交换器某空闲端口向服务器发送流量,用网管系统观察5号计费服务器端口,当流量为40Mbps时,碰撞率、错误率、广播率等参数均表现优良。服务器自适应恢复为100Mbps链路速度。

重新进行两组各50次实际拨打测试,计费数据完全正确。可以基本肯定计费功能已全部恢复正常。

[诊断评点]本次故障的原因非常简单(一个插头问题),但表现出来的现象则稍微复杂一些。该服务器使用的是一个10/100Mbps的自适应以太网卡,设计链路速度为100Mbps。网管人员在更换交换器时曾不小心将插头拉坏,随即更换了接头,但确留下隐患,不过,维护人员并未及时发现速度方面异常。服务器链路此时的实际工作速度已经下降为10Mbps。新交换器没有启动SNMP支持功能,网管系统也就不能观察计费服务器的端口工作状态。在平时的维护工作中,该计费中心的维护人员基本上不用网管系统定期观测并记录网络的工作参数,当故障出现时就不能觉察到服务器工作速度的变化。有趣的是,如果电缆没有问题,即使将链路速度设置为10Mbps,计费服务器应该还是能正常工作的(计费信息的网络流量一般不高)。在本故障中,计费服务器繁忙时由于碰撞率和错误率太高,服务器无法处理一部分数据包,其中已经被“挂号”的部分数据包将被丢弃,造成计费数据不准确。

[诊断建议]布线系统平时要定期轮测(一至两年轮测意义遍)。更换链路元件后一定要对链路进行测试(尤其是100Mbps链路,必须用电缆测试仪测试)。网管系统要指定专人进行维护使用,一般来讲,网管系统可以覆盖约35%左右的网络故障,因此强烈建议重要的网络要安装支持SNMP或RMON协议(多数网络设备都支持SNMP协议,部分支持RMON),启动已有SNMP、RMON等功能的网络设备,否则网管系统将形同虚设。维护工作要求有及时完整的记录,这对提高处理故障的速度是非常必要的。

[后记]经过一个月的运行,收费系统“贡献”了35%的收入额,大喜。初步尝到了甜头,计费中心上周决定派两名维护人员到“网络学院”参加为期一周的“网络维护及故障诊断技术”培训课程。

 

[故事之八]5类线Cat5勉强运行千兆以太网

[症状]某期货交易所,网络改造为千兆以太网后只有1个网段能正常工作,其它12个网段工作均不正常,数据时有出错,连接经常会莫名其妙地中断。每个网段用千兆以太网连接起来,下挂的网段均是100Mbps用户端口。起初怀疑是系统运行的平台或者软件有问题,经过多次重新安装和设置仍不能解决问题,而且同样的系统在其它地方的交易网络中应用是正常的。因而转向怀疑是否是布线系统的问题,比如电缆不合格或是有干扰信号串入以及接地系统等方面的问题。每个网段均利用升级前铺设的电缆系统连接起来,未作大的更改。由于计算机网络的布线系统采用的是标准的5类线方案,根据千兆网的设计标准,采用4对线全双工工作,5电平编码,占用的信号物理带宽正好是100MHz,故5类线应该是完全可以胜任的,况且一般情况下期货交易网络现有的流量水平远不能达到满载运行的程度,流量很低。重新用专业电缆测试仪作过严格的认证测试,显示参数合格并且不存在脉冲噪声干扰或接地方面的问题。

所谓能工作的那一个网段是因为行情和交易服务器都安装在该网段中,本网段内的工作站与服务器除了个别站点外都可以上网连接工作,进行行情浏览和交易割接。其它网段内的服务器对内连接时除了个别工作站外也基本正常,共同特点都是不能与行情服务器和交易服务器所在网段实现良好连接。系统升级时原布线电缆全部保留不动,经过测试也全部合格,不知原因何在?

[诊断过程]不能连接的因素很多,象网络硬件设备的功能设置问题、布线系统的问题、操作平台的安装设置问题、应用软件的安装设置和软件冲突方面的问题等等。从用户所反映的情况分析,各个网段内的站点基本上全部能工作,网段之间的连接比较困难,可以初步确定故障出现在网络设备设置和布线系统性能等方面的可能性大一些。

将网络测试仪F68X接入能连接服务器和交易服务器的网段(100Mbps),观察网络流量5分钟平均为12%,FCS帧校验错误帧约11%,碰撞率1.7%(正常范围)。显然FCS帧校验错误比例偏高,查看错误源,显示为其它网段站点产生FCS帧错误的比例占错误帧总量的97%。各网段的错误帧比例差别不大。由于有大量的FCS帧普遍存在,所以各网段内的各站点同时出问题的可能性很小,用F683向各网段内的服务器或站点发送流量,FCS帧错误随流量增高而迅速增加,各站点或服务器反映基本一致。启动网络测试仪的ICMP Ping功能,统计对各网段内选定的站点和交换机、路由器等的测试结果,表现基本一致,即:ICMP Ping断层约96%,ICMP Monitor显示目标不可达占91%。

改在其它网段内作同样内容的测试,对行情服务器和交易服务器所在网段的路由器和交换机结果基本与前项测试相同。所不同的一点是,对其它网段内的交换机和路由器等网络设备的测试结果显示是正常的,数值为:ICMP Ping断层为0%,全部可以通达,ICMP Monitor目标不可达为0%。基本可以肯定,故障出在行情服务器网段与其它网段的连接链路上。用FLUKE公司的DSP-4000电缆认证测试仪选用TIA Cat5n Channel UTP100标准测试,显示长度为25米,链路测试不合格。其中,回波损耗RL和衰减串扰比ACR等参数超差。改用同样长度的一根超5类线Cat5e代用之,启动系统,除了各网段内个别站点外,整个网络恢复正常。监测高峰时的流量,服务器所在网段最高时平均流量为3%,可见故障时12%的流量主要都来自大量的重发帧流量。

[诊断评点]千兆以太网可以满足网络用户对大带宽应用的“贪婪”胃口,无疑是网络下一步的重点发展方向。千兆以太网的设计者在选用电缆类型时对5类线Cat5已经存在的应用规模考虑比较多,所以选择的物理带宽为100MHz。这样,原则上5类线是可以运行千兆以太网的。但实际的统计结果表明,仍有1%~5%的用户不能上网或连接出现断续和困难。也就是说,千兆以太网对5类线的参数要求更严格一些。只要用户对5类线布线系统进行过严格的认证测试,可以保证绝大多数的站点是可以联网工作的。少数站点因为某些参数余量小可能有上网困难的现象。影响比较大的参数有综合近端串扰PS NEXT、综合远端串扰PS FEXT、等效远端串扰ELFEXT、综合等效远端串扰PS ELFEXT、回波损耗RL、衰减串扰比ACR等。此时需要对5类线进行Cat5n标准测试,该标准是专为用5类线运行千兆以太网的用户准备的,如果依循该标准测试都合格,则可以放心地用5类线系统运行千兆以太网。新的Cat5n标准中,回波损耗对系统的影响比较大,并且,由于电缆匹配方面的阻抗不连续问题,越短的电缆链路反而越容易出问题。本例中,由于电缆长度为25米,虽然衰减串扰比ACR参数也不合格,但,回波损耗引起本故障的可能性要大些。

[诊断建议]对5类线的认证测试可以适当考虑选用Cat5n标准进行测试,这样可保运行千兆以太网网时不出问题。如果选用超5类线Cat5e进行布线,则一般不会有不能运行千兆以太网之虞。对用Cat5n标准诊断出来有问题的5类线链路,为了以最小的成本换来网络性能的提高,一个最简单的办法就是用超5类线Cat5e代换参数不良的个别链路。注意,联结模块最好一并更换,以保证链路的安装质量。

[后记]遵循我们的建议,两周后该期货交易所将全部的安装链路用DSP-4000电缆测试仪选用TIACat5n标准进行了测试,全部站点数为1300个,不合格链路21个。对不合格的链路改用超5类电缆后所有站点均工作正常,网络状态保持优良(该网络平均流量高峰时才3%)。

 

[故事之九]电缆超长,LAN可用,WAN不可用

[症状]今天的病人是某进出口公司,开通DDN专线后部分用户抱怨数据交换的速度变慢,且经常有联结中断的现象。网络支持人员虽经多方查找仍不得要领,故请求网络医院出诊援救。

该公司的网络结构原先是单纯的局域网,分布在三层楼面中,共有300个站点,每个楼层有100个左右的用户。配线间设在最上面一层的楼层中,用交换机将各楼层共分成三个网段。以前员工均使用拨号上网方式实现与Internet的联结,自我感觉网络速度还比较快,工作一直很正常。新近增加了路由设备,并申请开通了DDN专线。每个楼层用集线器将用户联结起来,结果最低楼层的员工反映有时速度很慢,并常有莫名其妙的中断现象。由于该公司没有配备任何网络监测工具,且在局域网内传输数据不受影响,只在上Internet网时才有麻烦,故直到工程竣工两周后才向网络医院求援。

[诊断过程]该公司的网络为10Base-T局域网,此次只增加了DDN设备和路由器,其它配置基本不变。故将网络测试仪F68X从最低楼层的某个用户端接入网络进行观察,平均流量为1.2%,未发现异常。改用流量发送功能作流量逐级递增的体能测试,也未发现任何异常。表面上看,该网段似乎没有什么问题。为快速定位网络故障,将流量发送到其它网段,同时观察网络状况。随着发送流量的增加,1分钟后发现错误帧,帧类型为FCS错误帧,并指示FCS帧来自第二层的某个用户。显然,只据此现象就判断故障原因为该工作站的网卡损坏或网卡驱动程序错误,似乎显得“证据不足”,因为整个楼层的用户反映的故障现象是相同的。继续观察到5分钟,发现FCS错误帧数量增加为10个用户左右,由此可以断定不是某个工作站的问题。为此,令其它楼层多个用户与故障楼层用户交换数据(比如拷贝文件),结果发现多个FCS帧错误。打开交换机端口工作表观察,本楼层的记录中也显示FCS帧错误,而其它的交换机端口工作表中没有FCS错误记录(交换机为非切发型交换机),这说明是本网段内存在者线缆超长的链路。再试着向Internet某个已知用户发送流量,并且进行ICMP Ping测试,结果发现损失率为90%左右。由于刚才本网段内的体能测试未发现异常,所以只能是集线器与交换机联结的单条链路有问题。测试该电缆,长度指示为175米!超长。

[诊断评点]根据网络规范,以太网为碰撞侦听共享介质方式工作的。每个工作站到集线器的网线长度应不超过100米,方可保障无延迟碰撞(同轴电缆)或FCS帧错误。由于175米超常链路在集线器和交换机之间,所以本网段内的用户在交换数据时可以顺利进行。但与其它网段的用户交换数据时就可能处问题。但由于网络平均流量低,虽然在整个局域网内存在FCS帧错误影响,对低流量局域网内的数据交换而言,其对速度的影响甚微。当同时有多个用户通过DDN进行WAN数据交换时,FCS帧错误将导致64K的出口流量浪费加大。这是因为64K比10Mbps的速度要低得多,流量中错误帧的比例较高,进入WAN链路时可能要经过多次重发才能实现远程数据交换,感觉网络速度明显变慢。且由于经常有FCS错误帧,较容易引起WAN链路联结时因错误而中断,综合表现为故障楼层的所有用户都抱怨速度变慢且常中断。

[诊断建议]网络速度低时很多故障现象都将被掩盖起来。建议网络拥有者在新的网络工程结束时应该进行两项验收:网络布线系统现场认证测试和网络验收测试(最起码要作体能测试和加载条件下的逐个工作站的模拟上网测试)。

[后记]一周后该公司重新划分网段施工结束,用户来电报告一切正常。

 

[故事之十]线缆连接错误,误用3类插头,致使网络升级到100BaseTX网络后无法上网

[症状]某船运公司,为满足日益增长的业务需求,三周前开始网络升级改造工程,按设计规划将10BaseT网络全部升级为100BaseTX以太网,电缆系统不作任何改动。昨天设备安装调试工程全部结束,今天凌晨开始网络割接作业。所有工作站更换100BaseTX以网太网卡,然后分批接入网络。此时工程人员发现一些奇怪现象,比如:有些工作站不能联入网络;有些工作站第一次可以联入网络,过一段时间再次连接则无法进入;有的工作站开始时能联入网络并且工作很正常,但过一段时间后则出现连接断续或数据出错的现象。集成商起先以为是网络平台安装不当,遂将系统平台重新清理并安装了一次,出问题的工作站系统软件和应用软件也进行了重新安装,结果毫无改善。“折腾”了将近一整天,也无法为用户提供服务,业务基本中断。

[诊断过程]接到报告后立即赶到“出事地点”,启动包括故障工作站在内的全部系统成员进入网络运行。用F683网络“万用表”对故障网络首先作常规健康测试,一分钟后测试结果如下:网络利用率1.3%(此时员工已经全部下班),碰撞率8%,错误率11%,广播9%。显然网络碰撞率和错误率比较高,打开错误诊断定位功能,显示FCS帧错误、本地碰撞、碎帧等错误计数。这说明网络可能存在网卡工作失常、电缆系统故障、干扰或接地回路等方面的问题。查看具体的FCS错误帧测试结果,发现有许多工作站发出错误的FCS数据帧。一般来将,同时存在多个网卡失效的故障是不大可能的,此时的FCS帧错误多数由电缆问题尤其是有超长链路的电缆问题所引起而不是由网卡所引起。但为慎重起见,我们先随机抽查其中两张网卡进行测试,结果正常,再测试对应的集线器端口,其物理参数结果正常,工作协议匹配无异。由此则可以有把握地确定故障的原因是由电缆系统的问题引起的。

用户告知,本系统采用的是五类线,共有270台工作站,划分为6个网段,有一个专网路由器和一个公网路由器,升级前一直工作在10BaseT以太网状态,整个系统除了业务一部经常反映网络速度偏慢和偶尔的连接断续外,其它部门使用状况一直很正常(业务一部工作量最大)。

今天开始升级工作后部分工作站出现上面提到的各种故障现象,涉及范围大约有近三分之一的工作站。询问用户以前是否对布线系统进行过测试,答曰:“只测试过通断,因为在10BaseT以太网一直能上网,所以布线系统应该不会有问题。”

为快速定位故障,随机抽取了其中10条有问题的链路进行测试,结果为:一分二插座故障8个,3类线连接模块3个,综合近端串扰PS NEXT参数不合格4个。检测结论:该系统布线工程存在严重问题。

[诊断评点]网络布线工程的低劣质量一直是综合布线工程中的一个让人担心的严重问题。目前虽然有成熟的测试标准和方法,但多数用户并不知悉或不要求按标准进行现场认证测试。本系统的电缆故障存在多种原因,均是由于工程设计、施工和验收不规范造成。现分述如下:

a)一分二插座故障:系由接线错误所至。用户在设计时没有考虑到扩容的需要,所以在新增用户时采用了这种不规范的一分二插座,一个插座可以连接2个PC机。从原理上讲这种用法是基本上可行的,这种接法要求将1-2/3-6两线对联接一台PC机,而将4-5/7-8两线对联接到另一台PC机上。但实际的测试结果却发现线对接法是1-2/3-6和4-5/3-6,用户把3-6线对当成了直接的“共享媒体检测总线”!!在10BaseT网络中这种错误接法可以勉强工作。虽然这会造成全部网络流量中的数据帧会存在不少错误,但由于多数现存网络的利用率(流量)不高,用户是难于察觉布线中程中的此种异常情况的。

100BaseTX网络对阻抗不匹配和近端串扰比较敏感,升级后这种错误接法会导致上网困难;(注:同轴电缆可以用三通匹配连接器将工作站接入网络,此时阻抗仍保持连续,但双绞线不可以直接并联,否则阻抗异常。)

b)该系统在用户数增加,网线数量不敷使用时网管人员进行了自行扩容,不幸的是他们选用的是假冒的5类插头(实际上是3类插头)。在10BaseT网络3类插头不会影响网络正常运行,但升级后近端串扰NEXT等参数将严重影响工作站与网络连接并经常导致数据出错。不经测试,此3类插头将会长期潜伏而不被发现。

c)由于采用一分二插座,测试电缆的近端串扰指标时必须考虑其它线对的综合影响(非一分二接头的链路多数只使用两对线的网卡),因此,在数据流量大时,综合近端串扰PS NEXT等参数不合格的链路有可能出错或导致工作站连接困难。

[诊断建议]网络投入运行前,布线系统(电缆、光缆)要首先进行认证测试,用户可以选择的标准很多,目前多建议选用TSB-67或ISO11801等国际流行标准进行测试。只测试物理通断后就认

为链路肯定可用,这一认识是非常片面的也是非常有害的。采用一分二插座的链路一定要测试综合近端串扰、综合远端串扰等高端参数,最好选择Cat5n标准进行认证测试。为此,我们建议船运公司将全部布线链路连夜进行测试和清理,并对清理后PS NEXT等高端参数仍不合格的链路进行最后标记,以便日后进行更换。

[后记]第二天清晨,测试工作全部结束,共发现连接错误的一分二插座88个(全部接错),误用3类插头54个。在纠正了所有插座故障和误用的3类线插头后,除了少数几条链路外,所有工作站均能投入正常运行。中午时分,中断了一天多的各项业务终于得以全面恢复。随后进行的网络性能评测也基本合格。

对于个别高端参数不合格的链路,我们建议网管人员随后更换链路或先暂时取消一分二的连接方式,以保证数据传输的正确性。

 

[故事之十一]网线共用,升级100Mbps后干扰服务器

[症状]今天的“病人”是某移动电话公司计费中心。据该中心的网络主管人员介绍,为了缓解移动电话用户解交电话费难的问题,该中心三个月前投巨资对原计费中心的网络进行了调整和升级。与四家被委托代收手机费的银行之间的网络连接速度从标准的64Kbps速率DDN专线全部扩展为E1(2.048Mbps)速率,计费中心网络从10Mbps以太网全部升级为以交换机为主的100Mbps以太网。升级前各委托收费银行经常反映网络连接时常莫名其妙地中断,但一般能迅速恢复,业务妨碍不算大。升级后网络速度提高了很多,但其下辖的各营业网点(共计120个)在为手机用户办理交费收费手续时计算机屏幕上常会提示“网络远端故障,无法提供数据”或“数据传输不稳定,请检查网络”,此时营业网点的收费服务会暂停,用户意见很大。有时虽然还能提供服务,不过数据处理速度明显变慢,最差的时候处理一笔业务查询竟然需要反反覆覆操作5、6分钟(正常时一般在10秒钟以内)。比网络设备升级前反而要慢得多。

此故障每星期都要出现1到2次,每次从1小时到2小时不等。

由于一直没有查明升级前网络时常中断的真正故障原因,网络管理人员在做此次网络升级规划时曾心存侥幸地寄希望于通过设备升级来彻底排除这些遗留网络故障。遗憾的是,他们的运气实在太差,非但老问题没有解决,反而惹出了更大的新问题。遂向网络医院“挂号”求诊。

[诊断过程]由于银行网和电信计费网不在同一个地方,出了“网络医院”我们需要决定先去哪里?从上述的故障现象初步分析,银行络网和移动通信公司计费中心网络以及其连接的链路都有可能存在问题。计费中心的网络设备和路由设备大部分在此次升级时都更换过,升级后故障依旧存在且表现更严重,基本可以排除新入网设备存在严重问题的可能性。网络测试可以从银行网络和计费网络同时着手。途中从银行各营业厅网络使用者处了解到,手机收费出现“麻烦”时银行的其它业务流程均保持正常,并不受此影响(此时电信计费中心网络的用户也没有反映网络异常)。这说明银行网络存在问题的可能性要比计费网络及其连接链路存在问题的可能性低。而问题出现在手机计费网络和与银行网络的路由设备范围内的可能性比较大,故我们决定先前往设在移动通信公司机房的手机计费网络进行检查测试,首先检查计费网络及其连接链路。

第一次网络测试是在网络没有出现故障时进行的,结果显示各项测试指标都显示网络工作完全正常。将F683网络测试仪接入计费网络的交换路由器,监测网络的工作状况,显示路由器利用率为1%(相当于E1链路中有20Kbps左右的业务流量),错误统计为0%,与网管系统观察的数据完全一致,将F683网络测试仪改为与计费服务器并联的方式监测,测试结果相同,这表明此时网络工作很正常。在与计费网络所在地的局域网使用和维护人员交谈中了解到,网络工作人员从来没有感觉到他们的LAN有异常情况,虽然他们也知道手机用户在经常抱怨,但从计费LAN处检查不出什么实质问题,计费服务器表现也正常。故障出现时从网管系统上观察,路由器、交换机、计费服务器都没有问题。用OneTouch网络助理(即网络故障一点通)仿真用户流量对银行的路由器、银行网业务转接服务器(以上测试在银行进行)、移动通信公司的计费网络与银行网络的连接路由器、网络通道上的交换机、计费服务器等进行2分钟80%持续流量冲击测试(上述测试在计费中心),用F683网络测试仪监测移动监测各关键设备,结果基本相同,利用率为均80%,无错误出现,除了计费服务器处的碰撞率2%外,其它各处均为0%;ICMP Ping测试均在3ms以内,ICMP监测测试无拥塞、数据不可达、重定向、数据参数错误等显示,这说明,网络的通道测试结果是比较好的。

在这种情况下,一般可以采用两种测试方法继续检查故障,一种是被动监测法,即将网络测试仪、流量分析仪、网管等监测设备启动,对网络实施不间断监测,等待问题的重新出现;另一种是主动测试法,即将所有涉及到的网络设备和终端设备及其业务均启动或进行人为地仿真模拟,然后监测网络的工作状态,进行故障定位。为了尽快定位故障,经与计费网、银行网网络管理人员商定,我们决定采用第二种方法进行监测和测试(注意,此测试方案需要动用很多的人力和物力),即将所有有关的网络设备网络终端设备启动,并安排人员进行业务流程模拟操作。

第二次测试在当天业务结束后进行。在启动所有网络设备5分钟后,预期的故障现象果然出现。从网管系统上观察,计费网和银行网的连接路由器流量上升为3%,交换机流量增加1倍,计费服务器流量减少70%,网络没有发现异常情况。用F683网络测试仪对整个计费通道的有关链路和设备进行移动监测,结果显示:路由器和交换机的数据与网管系统的观察结果一致,而计费服务器的流量为68%,正常数据7%,错误数据61%(幻象干扰Ghosts、FCS错误碎帧等)。很显然,计费服务器与交换机之间的这条链路很可能有问题。

暂停业务,从计费服务器网卡上拔下电缆插头进行电缆测试,结果显示只有1-2和3-6两对电缆,4-5和7-8线对没有连接。网管人员解释,升级后除了新增加的布线外,电缆系统多数没有变动,只有少数链路进行了调整。进一步检查发现4-5和7-8线对连接到了另一台备份服务器上,该服务器用于每周两次人工对各种关键数据进行审查、备份并上报局有关单位。恢复业务,启动备份服务器进行数据备份和传输,结果故障现象出现。将备份服务器临时用一条新链路单独连接,故障彻底消失。对换下的电缆进行测试,近端串扰NEXT不合格(超差-2dB,综合近端串扰PSNEXT-8dB)

[诊断评点]网络电缆内含4对(8根)细电缆线,一般的10Base-T和100Base-Tx网络只使用其中的1-2和3-6线对,4-5和7-8线对不用,在10Base-T网络中曾流行将4-5或7-8线对用来传输电话,或者用4-5和7-8线对用来连接另一台电脑。在100Base-Tx以太网中,由于网络工作频率和数据率很高,串扰量很大,故这类用法是不被允许的。计费网络升级前有部分站点用一条电缆连接两台计算机,升级后这部分电缆没有变动,由于离新增加的交换机比较近,故将备份服务器接入了并用电缆。备份服务器平时虽然基本不用,但连接脉冲仍然会对计费服务器造成干扰,只是干扰量很少而已,这就是我们在交换机链路中观察到2%碰撞率记录的产生原因。由于该电缆的综合近端串扰PSNEXT不合格,数据备份服务器在工作时对计费服务器会产生很大干扰,破坏传输数据,使得同一个数据包不得不多次重传和多次重新处理,真实流量急剧上升到68%,重处理流量由0%上升到6.98%。由于服务器使用的是价格便宜的工作组交换机,所以网管系统无法从交换机端口发现链路中存在的严重问题。

升级前业务偶然有中断的现象,这也是由于并用线缆串扰造成的,由于当时是10Base-T网络,速度低,所以这种影响比较小,往往只是偶尔且是瞬间的影响。

[诊断建议]在10Base-T以太网中存在着大量的非标准化布线以及大量不合格的布线链路,由于10Base-T网络工作速度低,这些严重质量问题往往被掩盖起来。直到升级到100Base-Tx以太网后这些问题才会明显地暴露出来。10Base-T网络布线系统中表现不明显的问题同时也给集成商、工程商和广大用户造成一种错觉,认为布线系统只要是物理上联通的就不会有问题,从而忽视了影响链路质量的布线产品品质问题、施工工艺问题对网络造成的严重影响。

建议网络设计者首先采用标准化的设计方案,且只有工程商和用户在签订建造网络的合同时选用标准化的施工工艺和标准化的现场认证测试方案,才能初步保证综合布线系统的质量。

《网络测试和维护方案》中一般建议每年(必要时每半年)对布线系统轮测一遍,以保证布线系统的性能合格,排除因布局变动、用户数量增删和人为调整等原因对布线系统造成的损害。另外,网络的业务工作和故障情况要有比较准确完整的记录,这样才能有助于故障的查找。如果“病人”对自己网络的业务流程比较熟悉,则可以避免动用众多人员加班配合排除故障。

[后记]一周后电话回访该“病人”,得知已经全部将并用链路更换为单独的合格链路,计费网络工作非常良好,手机用户再没有“交费难”的抱怨了。

 

[故事之十二]电梯动力线干扰,占用带宽,整个楼层速度降低

[症状]某大型家电制造企业计算机中心主任,今天极其沮丧地了报告了该公司的一起顽固的网络故障。该故障表现虽奇特但比较有规律,具体表现是:公司主办公楼的网络在员工上班的时候运行速度会变得很慢,下班后速度回升,有时基本上能回复到往常水平。故障时间大约三个月,准确“发病”的日期已无从记起。每天上午8:00左右开始发作,症状范围是三楼的整个楼层,现象是速度突然变慢,无论是从互联网上下载文件、收发电子邮件都很慢且经常中断和出错。本楼层中的用户之间在传输文件时、与其它楼层的用户传送文件时或是其它楼层的用户与本楼层的用户交换文件时都要用很长时间,但其它楼层的用户之间互相交换文件则不受影响。第一此发作,故障一直持续了三天我们也没有查明原因。由于三楼是公司设计开发部门,每日都要使用网络环境进行大量的数据交换、资料查询等工作,为了不影响新产品开发进度,当时将研发部的工作时间暂时推迟到下午6:00上班。两周后情况仍未见好转,故障仍然存在。不得以公司决定将研发部与二楼的行政管理部门临时对调,以保证已经开始习惯于上“夜班”研发部员工正常的作息时间。谁知一“临时”就是三个月之久。网管人员将布线系统、网络平台、所有主机和服务器、路由器都彻底检查或互换过,一直未能查出故障琐在。听某知名系统集成商介绍可能是电缆系统的问题,随即将布线系统进行了一次认证测试。结果还真的查出了不少严重问题。比如,原来的5类线系统全部不合格,系采用假冒伪劣的5类线,现场测试只能通过三类线指标。为正宗的“假货”。接插件和模块也大部分不能通过5类线标准测试。进一步对整个大楼的布线进行检查,发现与三楼的情况相同。公司网络基本上还是10Mbps系统,工作一直正常。由于布线工程是三年前做的,现在已经无法联系上当时的系统集成商。公司董事会责成计算机中心将整个布线系统全部更新。经过一个月的紧张施工,工程于前天结束,满心

责任编辑: admin