《编辑案头》

| | | | 成为粉丝 | | 转寄

信望爱电脑系统的风险管理

文章索引 | « 上一篇 | 下一篇 »

  没有人可以保证电脑系统永远正常运作,唯有「常备份」、「多备援」才能让 资料的损失减到最低,才能由电脑系统的危机中复原过来。特别是在 SARS 疫情 严重的时候,谁也不知道技术人员何时不幸染病被隔离。所以电脑系统的风险管 理是很重要的课题。

  信望爱站为了让电脑系统维持正常运作,从以前到现在逐步地形成一套风险 管理体系。好比早期的信望爱站因为技术人员无法常常接触到机器,大都远方遥 控机器,系统出问题时必须做到尽速由备份中复原资料,所以那时是采用硬碟配 合网路备份的方式来保护系统资料。

  当初的策略如下:「信望爱母站」架设外,还有「彼得分站」做备源。万一 母站阵亡,还有分站起来。而两台机器系统的硬碟中存放昨天与前天的备份资 料,每天四点钟(透过系统的纪录,我们知道每天晚上三点到早上七点系统使用 率最低)启动备份程式(使用 Linux 内附的 GNU tar) 来压缩备份系统资料, 并移除前天的资料。整个硬碟备份的工作大约在早上六点左右可以完成。而在工 作硬碟中的两份备份资料则由三位技术同工在周一、周四,周二、周五,周三 、 周六的六点半,透过网路下载到自己电脑里的备份硬碟中保存。整个网路备份, 大约在早上九点以前会完成。我们很长一段时间满足于这样的备份方法,也很有 效的解除几次「误杀」或系统损坏的危机。

  信望爱站迁出学术网路之后,信望爱站迁至高雄,从两台机器变成三台机 器,WWW 主机、Life 主机和 Tech 主机。第三台 Tech 主机是供给技术人员测 试新技术用,并且也是当作前面两台的备援机器。万一前面两台机器有一台坏掉, tech 就可以马上取代。至于备份方式,我们改用磁带备份,以取代早期的备份 硬碟与网路备份配套的备份策略。后来又因为磁带机损坏,改采 DVD+RW 来备份。 详细的备份策略说明如下:

  因为离开学术网路后技术同工可以常常直接接触到机器,而且因为速度增 快的关系,有许多身在国外的网友也会进入信望爱站,因此不太适宜让整个备 份的过程太长,以免影响国外网友的使用。并且也考虑保留比较长时间的备份 量,于是我们选用外接式 HP 的 DDS-2 DAT 机器(一卷磁带可以备份 4-8GB) 来当备份设备,我们一共利用十一卷磁带,做到三台机器三个月的备份量。因 为要一次备份三台机器的资料,所以还是得要透过网路备份的方式来完成整个 备份工作。

  至于备份软体,经过了许多评估,起初我们是选择了不要钱的 GNU tar 配 合 NFS 系统来作系统备份。不过 NFS 系统本身是相当容易被入侵的网路服 务,而且 Linux 系统有一段时间 NFS 常常出问题,因此后来就改用 tar 配合 rdist 的方式来进行网路备份,最后当我们对 OpenSSH 掌握比较好之后,我们就 用 openssh 来取代 rdist,以加强系统的安全性。

  每天凌晨开始,WWW 主机、Life 主机和 Tech 主机各自依序把档案透过 tar 与 openssh 压缩 存放至 tech 机器上的磁带中,而每部机器备份的开始时间 必须控制在前一部机器备份结束之后。 这整个程序大约在六点半之前会结束, 这样就完成了一天的备份工作。技术同工在每天早上八点以前就会换上新磁带, 以备明天的备份工作。

  这十一卷磁带,其中五卷各备份周二到周六凌晨的使用者资料。有三卷备份 每个月前三个礼拜 的使用者资料(在周日凌晨备份),有两卷备份前两个月的使 用者资料(在第四个礼拜的周日凌晨 备份)。最后一卷在每周一的凌晨用来备份 系统设定的资料。于是透过十一卷磁带,我们就可以备份三个月的使用者资料与 一个礼拜前的系统设定资料(系统设定资料比较没有历史性的价值)。而每一卷 磁带可以备份 100 次以上(亦即以目前一个礼拜使用一次,可以供两年以上的 备份使用)。

  后来磁带机损坏,重新购买的话价格高昂,于是我们改用 DVD+RW 配合 IDE 硬碟来备份。备份原理跟磁带差不多,只是不直接放入备份媒体中,而先放入 一个 60G 的 IDE 硬碟,直到周日再烧录出来。烧录出来的 DVD+RW 片,则送到离主机 三、四公里远的另一位同工家,以确保资料的安全。目前随着系统资料量的增加 ,我们也在评估 USB 2.0 硬碟外接盒来当备份媒体的可行性。

  除了高雄原本的三台机器外,信望爱也在北部借用怀恩堂的一间房间,设立 分站机房(有两台机器),北部也有一群技术组同工。万一高雄水灾,台北的机 器还可以正常运作。万一台北地震,高雄的机器也可以正常运作。在北高两地的 机房,其网路专线也是做到双线路(各两条双向 512K ADSL)。万一一边线路不 通,另外一边还可以通。

  如今因应 SARS,信望爱站亦重新将义工人力编组,万一一个义工不幸染病 住院,还有下一个义工可以承接其事工。在这多重人力备源编制下,以确保信望 爱站在各种天灾人祸都能正常运作。以上是信望爱资讯中心简单的风险管理措施 分享,希望能对一些教会机构有所帮助。当然最终一切,还是要仰望上帝。只有 他才是一切正常运作的最终保证。

信望爱负责人 tjm