とあるIT屋の独白

ITや経営について主に書きます

システム運用保守の今後・SREについて

新年が明けて2018年になりました。2018年もIT業界は慌ただしく動くような気がしていますが、何とか波に乗り遅れないようにしたいです。さて、今日はシステム運用保守の関連トピックで最近話題になっているSREについて取り上げてみます。

SREは、「Site Reliability Engineering」の略で、日本語にそのまま直訳するとサイト信頼性エンジニア、という雰囲気はなんとなく伝わってくるけど何が目新しい概念であるかパッとは分かりにくいと思います。一般的に言われるインフラエンジニアと何が違うのか、下記の記事に概要が書かれています。

 

Googleが提唱した「Site Reliability Engineering(SRE)」とは】

https://furien.jp/columns/327/

 

重要なポイントとしては、信頼性向上のためにアプリケーションのソースも変更するという手段も、選択肢として与えられているということです。下記のミクシィの事例をみるとイメージがわきやすいのですが、改善のためにDBのシャーディングやアプリから呼び出すライブラリの改修とかも行っています。

 

【物理マシン約1,400台が稼働する、モンスターストライクの運用を支えるSREのミッション【夏サミ2017】】

https://codezine.jp/article/detail/10368

 

つまり、どういう仕組みでシステムが動いているか把握した上で、どのような手段が信頼性向上を実現する上でベストか考えることがSREの仕事になるかなと感じます。決まった運用の下ではなく、課題解決のためにいかに対応方法が考えられるかというのが、求められてきます。

 

【特集:情シスに求められる「SRE」という新たな役割】

http://www.atmarkit.co.jp/ait/series/4503/spv/

 

従来型の保守運用と異なる点は、原因究明や暫定対応のみではなく根本対応やそもそもの仕組みの見直しを含めて、あるべき姿を追求していくという役割になるのかなと感じています。