全銀ネット障害、二重化の2系統の同時更新作業に疑問…切り戻しせず改修続行

全銀ネット障害、二重化の2系統の同時更新作業に疑問…切り戻しせず改修続行の画像1
全銀ネットの公式サイトより

 10日に発生した銀行間送金システム「全国銀行データ通信システム(全銀システム)」の障害は2日にわたり続き、12日朝までに復旧したが、影響を受けた取引は約506万件にも上った。同システムと各金融機関のシステムを接続するリレーコンピュータ(中継コンピュータ)の更新作業中に不具合が生じたことが原因だが、各銀行ごとにリレーコンピュータは2系統(東京の全銀システム接続分と大阪の同システム接続分)あり、障害時に備えて相互に補完し合う設計になっていたものの、今回は2系統のリレーコンピュータで同時に更新作業を行っていたことがわかり、「あり得ない」との指摘が相次いでいる。さらに、リレーコンピュータのプログラムで不具合が発生した後、プログラムを更新前の状態に戻すのではなく、プログラムの修正を行ったことで、復旧までに時間を要する結果となったのでないかとも指摘されている。果たして作業手順、そして復旧手順は適切だったのか。専門家の見解も交え検証してみたい。

 全国銀行資金決済ネットワーク(全銀ネット)が運営する同システムは、1000以上の金融機関が接続し、企業や個人間の送金に使われる基盤。7~9日の3連休中に14の金融機関で同システムと各金融機関のシステムを接続するリレーコンピュータの更新作業を実施していたが、10の金融機関で銀行間手数料をチェックする機能に不具合が発生。その結果、10の金融機関から他行宛ての振り込み、および、これらの金融機関への他行からの振り込みができなくなった。

 障害発生の原因は前述のとおりリレーコンピュータ更新作業での不具合だが、大手ベンダSEはいう。

「リレーコンピュータを2系統設けることで、例えば東京の全銀システムとの接続系統で障害が発生した場合は大阪のシステムに接続し、業務を停止しないで済む。一方がもう一方のバックアップシステムとなるよう設計されていたわけだが、2つの系統を同時に更新作業して、もし同時にコケれば、このバックアップは成立しなくなる。なので、通常は時間をずらして一系統ずつ更新作業を行うはずだが、そのあたりのことを熟知しているはずのNTTデータが、なぜそのような作業手順を踏んだのかが疑問」

 ITジャーナリストの山口健太氏はいう。

「たしかにシステムを二重化することで障害発生時でも処理を続行できるという意味では、同時に更新するのは不可解に思えるかもしれません。ただ、全銀システムの二重化はハードウェア障害や自然災害に備えたもので、その場合は2つの系統をなるべく同じ状態に維持しておくのが一般的です。ソフトウェアの障害はあらかじめテストで排除することで、同時に更新しても問題はないと判断したのでしょう」

復旧手順

 また、復旧手順にも疑問の声があがっている。リレーコンピュータのプログラムで不具合が生じた後、いったん更新前の状態に戻すのではなく、プログラムの修正作業を行ったことで障害が長引いたのではないかという見方が出ているのだ。

「更新前の状態に戻し、いったんそこで作業を中止して後日改めてリトライすることになると、次の連休まで待たなければならなくなる可能性もある。今回のリレーコンピュータの更新作業は、何回にも段階を分けて2029年までにすべてを完了させる大がかりなスケジュールだということなので、後ろのスケジュールに遅れが生じることを懸念したのかもしれない。不具合が出た際にその場でプログラムの修正作業に入るケースは普通にあるので、イレギュラーな対応だったというわけではない。更新作業は7~9日の3連休を使って行われ、現場としてはプログラム修正しても10日朝の稼働までには間に合うという算段だったのだろうし、正しく修正したと思われたプログラムがいざ本番を迎えると正常に作動しなかったのかもしれない」(大手ベンダSE)