東証システム障害はどのようなものだったのかを想像してみる

10月１日、東京証券取引所のアローヘッドと呼ばれるシステムにて障害が発生し、取引が終日停止するという事態になりました。次の日には、通常の取引ができるようになっていました。

１０月５日には、障害の原因が特定されたことが東証のプレスリリースで発表されています。

arrowhead の障害に関する原因と対策について | 日本取引所グループhttps://www.jpx.co.jp/corporate/news/news-releases/0060/20201005-01.html

障害の発生した日が木曜日でしたが、金曜日は人がシステムを監視して何とか稼働させたようです。

土日に障害の原因特定と対策をとり、同様の障害が起こったとしてもシステムが止まらない事を確認し、１０月５日の月曜日からの営業に持ってきたものとみられます。

関係者の皆様は大変な週末だったでしょう。

東京証券取引所の最も重要な業務である株の取引きですが、終日止めたのは取引に間違いがあってはならないという慎重な判断がなされたものと想像します。

いろいろな障害のケースを想定して、それでも業務が継続できるようにシステムを設計していたはずです。システムを設計し、構築、運用している方々の日々のご苦労は想像に難くありません。

それでもシステム障害が起きてしまうのは避けられない事です。システムベンダーと東証が協力して業務を再開できるように大変な労力な費やされています。

障害の原因は、ディスク装置のメモリ障害

プレスリリースによると、障害の原因は共有ディスクのメモリが、ハードウェア障害を起こしたようです。こういった大きなシステムの共有ディスク、どういうものだと思われるでしょうか。筆者の経験から通常使われる装置として考えられるものを、想像してみます。

共有ディスクといっても、たくさんのディスク装置を積んだ大きなコンピューターだと思っていただければよろしいかと思います。

中身は、巨大なホストコンピュータやサーバーとほぼ同じなのですが、ディスク装置として特化したOSとソフトウェアを搭載しています。

ハードディスク（または半導体メモリ）を山ほど積んでいるというか、積むことができる大型コンピューターです。

ディスクが1個くらい壊れても、システム自体は何事もなかったかのように動き、データの欠損は起きないように構成されています。電源も当然二重化しています。

そのような装置が二台構成で、どちらかが壊れても片方が動いて業務は継続できる設計だったはずです。このような仕組みをフェイルオーバーといいます。

何かしらの障害が出て、業務に営業が出たとしても、本来であればどうにかして途中から取引再開を目指したと思います。でも、終日止めたという事は、結構ややこしいトラブルであったのではないかと私は想像します。

朝の時点で障害が起きた時に、安全策をとって終日取引を停止することは決断していたのかもしれません。

最終的には東証の判断ですし、事実はわかりません。
東証のシステムの内情は、なかなか外に漏れ伝わらないと言われています。以前はどこのベンダーが請け負っているかさえわからなかったそうです。

システムを導入運用している会社の社長が謝るという事態になったのは、最近では珍しいのではないかなと思います。

これからが損害賠償とか、再発防止の対応とかでまた大変だと思います。

関係者の皆様、くれぐれも体を壊さないように、頑張ってください。

では＾＾