スカイアーチネットワークスにて、運用自動化 責任者を名乗らせて頂いております。
神津と申します。
2015年3月27日に弊社が加入している日本MSP協会が主催するオペレーションカンファレンスの「運用ツール大全集 セッション」に参加させて頂きました。
参加者の控室から始まり、懇親会まで非常に内容の濃いお話を各所で頂きとても勉強になりました。
中でも、考えさせられたキーワード/課題/気付きとしては下記のようなものが有りました。
※後日、MSPJ事務局より動画公開される予定との事でした
- MSPの価値とは/誰が生き残るかチキンレーススタート!
テコラス株式会社 伊勢様 - 何を目的に自動化するか/運用でカバーがダメな理由
運用設計ラボ 波田野様 - 旧来の運用を続ける..みんな倒れてしまう
クリエーションライン 前佛様 - オーダメイドでインフラ・運用を作り上げる事は本当に最善なのか?
TIS株式会社 松井様 - システム運用開始前のプリプロファイリング/予測技術アルゴリズム
アイレット株式会社 廣瀬様 (デプロイ王子)
当日は濃い内容にも関わらず時間が限られていた事もあり
事前に用意していた内容を下記に公開させて頂きます。
監視・モニタリング ツールについて
理想と現実
現実では
レガシーなシステムでは監視を Nagios + モニタリングを Cacti で行っております。
しかし登録を行う際に手動設定ではどうしてもミスが出る事があります。
理想に近づけるために
上記を受け、新規運用パッケージではZabbixを利用してAPI経由で半自動登録を行っています。
監視対象/モニタリング対象をボタンで選べるイメージです。
また、一部をCloudWatch等で行いその他はZabbixより取得しています。
冗長化については、監視サーバのバックアップシステムが稼働しています
インシデント管理について
理想と現実
現実では
基本的には MLで完結させています
ITIL準拠のシステム!と入れてみたものの長続きしないケースが多かったため
過去のシステムからデータを吸い出し、自社システムへ統合を行いました。
お客様ご指定や社内プロジェクトでは Redmine/Backlog/OTRSを利用中です。
理想に近づけるために
現在自社開発ツールに移行中です。
メール取り込み→小チケットの作成→担当者をアサイン→ログを追記→時間と進捗が記録されトラック出来る
現在はメールを経由してシステムに取り込みですが
将来的にはZabbix等と連携する予定です。
ネタとして
RaspberryPiを利用して携帯電話ショップの受付待ち件数表示のような感じで
7セグLEDにインシデントチケット件数やアラート対応時間を表示し見える化する予定です。
http://www.skyarch.net/blog/?p=3139
ジョブスケジューラについて
理想と現実
現実では
ほぼCronで完結させています。
クリティカルなジョブに関しては 実行結果確認画面を自前ツールで持っているためそちらで確認
再実行はマニュアルに沿って手動で実施しています。
一部API連携の出来る物は専用の管理画面を自前で作成して再実行が出来るように作りこんでおります。
理想に近づけるために
Zabbixとの組み合わせを考慮しSOS JobScuedlerを検証中ですが、Rubyで作成しているツールが多いため
SDKがPHPだけでちょっと悲しい感じです。
プロビジョニングについて
理想と現実
現実では
Chefを利用しています
選定理由は、3年程前にお客様よりChefのCookbook作成依頼を頂いた事でノウハウが溜まったためです。
基本的に社内のサーバ構築は chef の omnibus installer を参考に
自前Rubyや自前RPMパッケージ+Chefにてサーバ構築を行っております。
これによりかなりの構築工数短縮と品質向上を実現する事が出来ました。
http://www.skyarch.net/blog/?p=1529
自動テストの実施
新しいOSのバージョンやリポジトリ内容/稀にデフォルトの設定値を誤ったPushがなされCookbookが動作しなくなってしまうケースがあります。
このため、自社Cookbookの正常性を確認するため、毎晩クラウド上にインスタンスを
作成しCookbook実行がエラー無く終了する事、及びServerSpecによる結果確認をJenkinsで実施しております。
理想に近づけるために
運用までをどんどんコード化して実例を増やしていきます。
弊社ではSkyHopperというOSSを発表しましたがこちらを社内でも利用しており
作成したシステムについて、Chefで正しい姿をコード化した物をサーバに適用する体制を取っております。
http://www.skyarch.net/blog/?p=2709
テストについて
理想と現実
現実では
プロセス状態/ポートListen状態/ファイルが存在するか等、一部ServerSpecにてテストを実施しておりますが
監視設定やPaaSサービスの設定等を目視確認している部分が非常に多いです。
理想に近づけるために
サーバ設計書/仕様書を完全に電子化し、ServerSpecルール等を自動生成等を出来るようにして行きます。
インベントリ管理について
理想と現実
現実では
一部の環境を除き、自作のサーバ情報収集システムにて運用しております。
2014年度脆弱性対応でミドルウェアバージョンや特定コマンドの実行結果をリストアップ/対応状況を可視化する必要があるため
サーバ情報収集システムにて一括で情報取得→エクセルに一覧表として落とし込み対応状況管理をしておりますが、Webアプリケーション化したいです。
理想に近づけるために
理想は構成管理データベースが自動的に最新の情報を表示/全文検索出来る状態を目指しております。
現在は全文検索できるが、最新の情報ではないため
一部の環境を除き、Chefのohaiに乗り換え検討しております。