erniogi

2023.09.14

Future Stack Tokyo 2023に参加しました


2022年新卒のerniogiです。弊社プロダクトLetroのSREをやっています。New Relic社のイベントFuture Stack Tokyoに参加してきました。

参加目的はNew Relic活用促進に繋がる事例や、他社さんでSREをやる上での苦労や施策を知ることでした。

Future Stack Tokyo概要

New Relicが主催するオフラインイベントで、東京でオフラインで開催されるのは2019年3月より4年ぶりだそうです。目算数百人程度の方が参加しており非常に賑っていました。私は今回New Relicからの基調及び企業の事例のメインセッションおよび一部のTech Expoに参加していました。内容の一部を報告します。

日本のDXとオブザーバビリティのこれから

まずNew Relic Inc CEO Bill Staples氏から、続いてNew Relic 株式会社代表取締役社長 小西 真一朗氏から基調講演がありました。お二方のコメントをそれぞれ抜粋します。

CEO Bill Staple氏

  • Public Cloud市場は毎年拡大しており、2022→2032で$0.5Tから$2.5Tへの投資増加が予想される。
  • Observabilityの重要性を示す数値として、現状のDown Timeの平均や、80%顧客がたった数分以内のDTで離脱し、このようなDTによる顧客の機会損失は$700B程度に上るとの試算もある。
  • そのため早期復旧が求められるものの、日本企業の事例では89%の企業が5つのObservabilityツールを利用しているとの調査もあり、各チーム/プロダクトで異なるツールを利用していることが障害対応を困難にさせている。
  • New Relicはこの状況を改善し、Infra・Application・Browser等複数のEventを収集して一元化するツールである。

代表取締役社長 小西 真一朗氏

  • New Relicはこの状況を改善し、Infra・Application・Browser等複数のEventを収集して一元化するツールである。
  • New Relicはサポートにも力を入れており、学習資源の提供や日本語対応が行われるだけでなく、各企業に専属の担当者が付いている。
  • さらに利用者同士の交流を促進するようなUser Group(New Relic User Group, NRUG)や技術コミュニティへの技術提供やスポンサーシップも行っている。

お話しの通り、実際弊社でもNew Relicの方からには質問対応から定期勉強会まで手厚いサポートを受けており、まだまだこれからではありますが日々New Relicの活用や知見の共有が進んでいます。

各企業のNew Relic利用事例

メインセッションでは各企業のNew Relic導入の背景や効果、今後の課題などを聞きました。弊社での今後のNew Relic活用を考える上でとても興味深かった内容を報告します。

イオンのデジタルシフト戦略を支えるNew Relicプラットフォームの導入と効果

イオングループのひとつ、AEON Smart Technologyさんです。イオンが抱える技術的負債およびNew Relicを活用した負債解消についての講演でした。ポイントシステムの乱立、大量のルーチン業務等が解決すべき課題としてあげられており、ポイントシステムの統合やApp開発によるルーチンワークの自動化を行っているそうです。システム統合で触れられたことの中で、特に開発チーム全体でNew Relic活用を推進するための諸々の取り組みは非常に参考になり、すぐにでも行いたい内容でした。

SREチームと組織構造

  • SREチームはインフラチームよりはじまり、Team TopologyのEnablerやPlatformerを目指して組織された。
  • チーム構造として、各プロダクト群の下に運用保守・SRE・QA・Tech Leadチームがあり、これら4つはプロダクトを超えた範囲を見ている。

チームとしては、各プロダクトのチームごとにSREが入る(Embedded SRE)のではなく、複数プロダクトをひとつのSREチームが見ているようです。The Many Shapes of Site Reliability EngineeringでのThe Google Modelでしょうか。当日会場で私が話を聞く限り、SREチーム立ち上げ期にはこちらのパターンのが多そうでした。特にイオンさんのように複数のマイクロサービスを統合するプロジェクトが走っているときは、統合後を見据えた組織体制のがSRE Practiceの諸々をすすめる上で都合が良いのかもしれません。
弊社でもプロダクトの垣根を超えた知見共有をすすめており、特にNew Relicについては2週に1回の頻度で定期的に話しています。

続いてNew Relicの具体的な利用例をお聞きました。

  • New Relic Dashboardを中心に障害対応時だけでなく、日頃からNew Relicを活用している
  • New Relic側の力も借り、New Relicの利用を推進するための勉強会を開催している

アスクルの大規模システム統合TrylionにおけるNew Relic活用方法〜開発段階での導入から運用段階での利用とその先について〜

アスクルさんの講演では、システム統合プロジェクトにおける初期段階からのNew Relicの活用方法について聞きました。導入効果といて開発速度の向上・運用の効率化をあげられていました。

開発段階でのNew Relic活用

  • 開発中からNew Relicを利用し、不具合の早期発見を行っている
  • ログを一元化することで、開発者がログを探す手間を省いている
  • Distributed Tracingを利用し、複数サービス間のトレースを行っている
  • 担当外のComponentでもNew Relicを共通言語として利用している

弊社プロダクトLetroでも2022年から2023年春にかけて、大規模なシステムのメジャーアップデートを行いました。正直なところメジャーアップデート前まではNew Relicは有効に活用できていない状態であり、もし適切に運用できていたとしたら、LogsやDistributed Tracing、Browser Agent等で発見できた問題がありました。開発者同士でも担当箇所が異なる場合、社歴が長く開発プロジェクトに関わった期間が長い一部の人に負荷が集中してしまうことがありました。New Relicを用いてシステムへの共通認識を持ち、俗人化の解消を行いたいですね。


運用段階でのNew Relic活用と効果
  • 主に監視関連でリリースやアラートのための開発から、New Relic上での設定変更による対応
  • Dashboardを活用したパフォーマンス把握

アスクルさんのDashboardを見ると、フロント応答時間・画面やUA別のアクセス数・アプリ別の平均応答時間・アプリ別リクエスト数合計・RDSクラスタ別CPU平均使用率等が可視化されておりました。弊社では以前Safari環境で苦しんだことがあり、環境別の死活・状態監視はぜひとも参考にしたい内容です。

感想

今回さまざまなスピーカーの方々の経験談や苦労話を伺い、とても勉強になりました。特にSREチームの組織構造や動き方、New Relicの活用方法については、弊社でも参考にしたいと思いました。弊社でもより多くの人にNew Relicを利用してもらい、開発や運用の省力化を目指したいです。

New Relic活用の具体的な取り組みとしてはアスクルさんの事例が印象的でした。障害対応で有用な情報や、プロダクトの品質を把握するための情報をNew Relic Dashboard上に可視化することは、New Relicの利用を推進する上でとても参考になりました。弊社でもいかに多くの人にNew Relic Dashboardを日頃から見てもらうか、またそのために、まずはどのようなDashboardを作成するかを考えていきたいと思います。

適切に運用されるDashboardの利点として、プロダクトの品質を近似したものを視覚的に提供できることがあります。システム/ビジネスで異なるKPIを設定してバラバラにプロダクトを運用するのではなく、システムの品質もKPIに含められるような可視化を目指したいです。