Japan VMUG local meeting October (with Intel)

10 月の Japan VMUG Local Meeting は中小規模向け仮想化部会・仮想インフラ部会の合同企画として,Intel さまとのコラボで開催しました! Intel 山田さん,写真提供ありがとうございます! f:id:tcpninja:20191014120938j:plain

Autumn Usercon(旧名称:中間合同部会)の参加者は 39 人でしたが,今回は台風 19 号が近く中,Local Meeting にもかかわらず 30 人超のメンバーが集い,改めて VMUG がメンバーのボランティア精神に支えられている事を実感しました.いよいよ Global VMUG へ統合する 2020 年は Japan VMUG にとって大きな転機の年となります.まだまだ手探りの部分も多く,みなさんにご協力いただかなければいけない面も多々ありますが,引き続き Japan VMUG を宜しくお願いします.

今回の Local Meeting はサポーターの Intel さま・VMware さまのセッションに加え,VMUG からも発表者 9 名と内容盛り沢山となりました.Meeting のテーマは「おすすめツール」.この Post では私の超 LT の内容,2019 年春に Optane cache で構築した vSAN の性能を可視化できる vSAN Performance Monitor

flings.vmware.com

を紹介します.

vSAN Performance Monitor は時系列 DB の InfluxDB, コレクターの Telegraf と可視化ツールの Grafana で構成されています.Flings で OVA で提供されており,Photon ベースで docker container として動きます.


1.OVA の Deploy

User Manual には「vSphere Client に Login して...」とありますが,私は検証で使っている単体の ESXi のHost Client で Deploy しました.OVA の Deploy 手順はマニュアル通り(ストレージ選択,ライセンス条項の同意,ネットワーク選択,root パスワード決定)に進めて,Ready to complete の画面で Finish をクリックするだけ.簡単です!

f:id:tcpninja:20191009133332p:plain
OVA の Deploy

2.telegraf.conf の編集

Deploy した仮想マシンが起動したら,root ユーザで ssh して,/root/telegraf.conf を編集します. 必須なのは vCenter credential と証明書関係の部分で,あとはとりあえず Default でも動きます.

・vCenter credential

 vCenter の IP(もしくは FQDN)と,接続用のユーザ名,パスワードを設定します.

  # update vCenter credential here
  vcenters = [ "https://IP_ADDR_of_Your_vCenter/sdk"]
  username = "接続用ユーザ名"
  password = "パスワード"

・証明書

 今回は検証なので,スキップするように設定します.

  # provide CA certificate or skip verify
  insecure_skip_verify = true
  #ssl_ca = "/path/to/ca"

他にもコレクターのインターバルや収集する Metrics の変更等ができますので,詳細は User Manual を参照してください.証明書の設定方法等もUser Manual に記載されています.)

3. 起動してみましょう!

docker-compose で起動します.

root@photon-machine [ ~ ]# docker-compose up -d
Creating network "root_default" with the default driver
Creating root_influxdb_1 ... 
Creating root_influxdb_1 ... done
Creating root_telegraf_1 ... 
Creating root_grafana_1 ... 
Creating root_grafana_1
Creating root_grafana_1 ... done

grafana, teregraf, influxdb が起動します.

root@photon-machine [ ~ ]# docker ps
CONTAINER ID        IMAGE                               COMMAND                  CREATED             STATUS              PORTS                          NAMES
2c6163bfab77        grafana/grafana:6.1.6               "/run.sh"                4 days ago          Up 4 days           0.0.0.0:3000->3000/tcp         root_grafana_1
e47c9787d379        vsananalytics/telegraf-vsan:0.0.6   "/entrypoint.sh tele…"   4 days ago          Up 4 days           8092/udp, 8125/udp, 8094/tcp   root_telegraf_1
595e21396716        influxdb:1.7                        "/entrypoint.sh infl…"   4 days ago          Up 4 days           0.0.0.0:8086->8086/tcp         root_influxdb_1

正しく起動しない場合は docker logs で原因を特定しましょう.

root@photon-machine [ ~ ]# docker logs e47c9787d379  
2019-10-05T03:30:33Z I! Starting Telegraf 
2019-10-05T03:30:33Z I! Using config file: /etc/telegraf/telegraf.conf
2019-10-05T03:30:33Z I! Loaded inputs: vsphere vsphere
2019-10-05T03:30:33Z I! Loaded aggregators: 
2019-10-05T03:30:33Z I! Loaded processors: 
2019-10-05T03:30:33Z I! Loaded outputs: influxdb
2019-10-05T03:30:33Z I! Tags enabled: host=e47c9787d379
2019-10-05T03:30:33Z I! [agent] Config: Interval:10s, Quiet:false, Hostname:"e47c9787d379", Flush Interval:10s
2019-10-05T03:30:33Z D! [agent] Initializing plugins
2019-10-05T03:30:33Z D! [agent] Connecting outputs
2019-10-05T03:30:33Z D! [agent] Attempting connection to output: influxdb
2019-10-05T03:30:33Z D! [agent] Successfully connected to output: influxdb
2019-10-05T03:30:33Z D! [agent] Starting service inputs
...

4.いよいよ接続

仮想マシンに設定した IP の 3000 番ポートに接続し,admin ユーザでログインします. f:id:tcpninja:20191009142833p:plain

ログインすると Home Dashboard の画面が表示されるので,「Dashboard」-> 「Manage」から参照したい Dashboard を選択します. f:id:tcpninja:20191009144231p:plain

例えば, vSAN Overview を選択するとこんな感じ↓です. f:id:tcpninja:20191009144342p:plain

CMMDS, DOM, LSOM, PCPU 等々の Dashboard が用意されていますが,今回は Optane cache がどれだけ低遅延なのか興味があるので,LSOM : Cache Disk を確認してみます. vSAN ユーザにはお馴染みかと思いますが,LSOM は vSAN のソフトウェアコンポーネントの 1 つで,物理ディスクのレベルで作用し,VM ストレージオブジェクトや設定情報等のコンポーネントを扱っており,ブロックがキャッシュにあるのか,キャパシティから読み出すのかを決定するのも LSOM です.詳しくは是非 VMware vSAN 6.7 U1 Deep Dive を読んでみてください.

さて,EULA の関係で数値の公表は伏せますが,デバイスの Throughtput, latency や Write Buffer 使用率をグラフで参照することができます.

f:id:tcpninja:20191009151850p:plain
LSOM: Cache Disk Dashboard (Hybrid vSAN)

5.Optane !

くどい様ですが,この Post は EULA を侵害するようなベンチマーク公表ではありません.あくまで vSAN Performance Monitor 動かしたらこんな風に情報が見えますという意図で書いています(笑). 例えば,手元に Hybrid, AFF (NAND), AFF ( Optane + NAND ) の vSAN 環境があったとします.そこで川満さんが紹介している HCIbench kwmtlog.blogspot.com

を動かしてみたりすると,Latency の桁に驚くことになります.(ちょっとここではこれ以上書けません.)

Persistent Memory との組み合わせで,さらに興味深い仮想化基盤を構築することができそうなので,Optane への期待は高まるばかりです!