「うちの会社、データがバラバラすぎてどこに何があるかわからない……」って困ったことない?売上データは営業部のExcel、顧客情報はシステム部のDB、マーケの分析結果はまた別の場所——みたいな状態、あるあるだよね。そんなバラバラなデータをひとつにまとめて、「すぐ使える状態」にしておく仕組みがデータウェアハウスなんだ。この記事を読めば、データウェアハウスが何なのか・なぜ必要なのか・どう使われているのかが、スッキリわかるよ。
- データウェアハウスとは、会社中のバラバラなデータを集めて整理した 分析専用の「データ倉庫」 のこと
- 日々の業務をこなす普通のDBとは役割が違い、過去のデータをまとめて分析・集計する ために使われる
- 大量データを扱う企業が経営判断や戦略立案に活かすための、意思決定を支える基盤 として広く普及している
もうちょっと詳しく
データウェアハウス(略してDWH)は、社内のあちこちにある「販売システム」「在庫管理システム」「顧客管理システム」といった複数のシステムから定期的にデータを集めてくる仕組みを持ってるんだ。この「データを集めて整える作業」のことをETL(つまり・抽出→変換→読み込みの3ステップのこと)って呼ぶよ。集まったデータは何年分もまとめて保存されるから、「3年前と比べて売上はどう変わった?」みたいな時系列の分析も得意。BIツール(つまり・グラフや表でデータを見えやすくするソフトのこと)と組み合わせることで、経営者や現場担当者が画面を見るだけでサクッと分析できるようになるのが最大のメリットだよ。クラウド時代になった今は、Amazon RedshiftやGoogle BigQueryのようなクラウド型のデータウェアハウスも主流になってきてるんだ。
DWHはデータを「読む専用」の倉庫。書き換えより分析スピードを優先した設計になってるよ!
⚠️ よくある勘違い
→ バックアップはあくまで「元に戻すため」に保存するもの。データウェアハウスはバックアップとは目的が全然違うよ。
→ 単なる保存じゃなく「いつでも素早く分析できる状態」に整えてあるのがポイント。バックアップと違って積極的に活用するために使うものだよ。
[toc]
データウェアハウスとは何か——「データ倉庫」の基本をおさえよう
そもそも「ウェアハウス」って何?
データウェアハウスの「ウェアハウス(Warehouse)」は英語で「倉庫」という意味だよ。物の倉庫といえば、いろんな場所から集めた商品を整理して棚に並べ、必要なときにすぐ取り出せるようにしておく場所だよね。データウェアハウスもまったく同じイメージで、会社のあちこちに散らばったデータを一か所に集めて整理し、いつでも素早く取り出して分析できる状態にしておく仕組みのことなんだ。
正式な定義でいうと、データウェアハウスとは「意思決定を支援するために、複数の情報源から集めたデータを統合・整理して蓄積する、大規模なデータベースの仕組み」のことだよ。少し難しく聞こえるかもしれないけど、要するに「会社中のデータを集めて整えた、分析専用の大きなデータの保管場所」だと思ってもらえばOK。
どんなデータが入っているの?
たとえばスーパーマーケットチェーンを例に考えてみよう。このスーパーには毎日、こんなデータが生まれるよ。
- レジで打ち込まれた商品の販売データ(何が・何個・いくらで売れたか)
- 倉庫にある在庫の残り数のデータ
- 会員カードを持つお客さんの購買履歴データ
- 各店舗の従業員の勤怠データ
- 仕入れ先ごとの発注・受け取りデータ
これらのデータはそれぞれ別のシステムで管理されていることが多い。データウェアハウスはこれら全部を「ひとつの場所」に集めて、「今年の夏と去年の夏で、どの商品の売上がどれくらい変わったか」みたいな横断的な分析をできるようにしてくれるんだよ。
普通のデータベースとどう違うの?——目的の違いを理解しよう
「業務用DB」と「分析用DWH」の違い
普通のデータベース(DBと略すよ)は、日々の業務をスムーズに動かすために使うものだよ。たとえばコンビニのレジで商品をスキャンしたとき、そのデータは瞬時に在庫DBに書き込まれて在庫数が減る。この「今この瞬間の処理」を高速にこなすのが普通のDBの得意なことなんだ。こういう使い方をOLTP(つまり・日常の業務取引をリアルタイムで処理する仕組みのこと)って呼ぶよ。
一方、データウェアハウスはOLAP(つまり・大量の過去データをまとめて集計・分析する仕組みのこと)という使い方のために設計されているんだ。「過去3年間の全店舗・全商品の売上データを集計して、季節ごとのトレンドを出す」なんて処理は、普通の業務DBではとても時間がかかってしまう。データウェアハウスはこういった「大量データを一気に読んで分析する」ことに特化した設計になっているから、同じような分析をずっと速くこなせるんだよ。
図書館の「カウンター」と「閲覧室」で考えよう
図書館を思い浮かべてみて。貸し借りの手続きをする「貸出カウンター」と、じっくり本を読む「閲覧室」は分かれているよね。もし閲覧室で100冊の本を同時に参照しながら調べ物をしようとしたら、カウンターは大混乱になってしまう。業務DBとデータウェアハウスを分けるのも同じ理由なんだ。「今この瞬間の処理(カウンター)」と「大量データの分析(閲覧室)」を別の場所で行うことで、どちらもスムーズに動けるというわけだよ。
データウェアハウスの仕組み——データはどうやって集まるの?
ETLという3ステップのプロセス
データウェアハウスにデータを集める方法をETL(イーティーエル)と呼ぶよ。ETLは3つの英単語の頭文字で、こんな流れのことなんだ。
- Extract(抽出)——販売システム・在庫システム・顧客システムなど、いろんなシステムからデータを引っ張ってくる
- Transform(変換)——バラバラなフォーマットや表記のゆれを統一する(たとえば「東京都」と「東京」が混在している場合は統一するなど)
- Load(読み込み)——整えたデータをデータウェアハウスに流し込む
このETLの処理は、ふつう毎日夜中に自動で動いているんだ。だから朝出社したときには昨日のデータが全部きれいにまとまっている、という状態が作れるよ。スーパーの例でいえば、全国数百店舗のレジデータが毎晩自動でデータウェアハウスに集約されて、翌朝には本部の担当者がパソコン一台で全店舗の昨日の売上をチェックできる——という感じだよ。
データはどんな形で整理されているの?
データウェアハウスの中では、データが「スター型スキーマ」や「スノーフレーク型スキーマ」という形(つまり・分析しやすいように整理されたデータの構造のこと)で整理されていることが多い。難しそうな名前だけど、要するに「分析するときに結びつけやすい形に整えてある」ということだよ。たとえば「売上の数字(ファクトテーブル)」を中心に置いて、「商品情報」「店舗情報」「日付情報」をそれぞれ星の光のように結びつける——それがスター型スキーマのイメージだよ。
データウェアハウスの活用例——実際どう使われているの?
小売業:何をいつ仕入れるかを判断する
コンビニチェーンや大手スーパーは、データウェアハウスを使った分析で商品の発注量を最適化しているよ。「この地域のこの店舗では、梅雨明けの週にアイスの売上が例年20%増える」という過去のデータのパターンを分析して、自動的に発注量を増やす——みたいな使い方だよ。データがバラバラだったらこういう「何年分もの傾向」を読み取ることはできないから、データウェアハウスが欠かせないんだ。
金融業:不正を素早く見つける
銀行やクレジットカード会社は、データウェアハウスに蓄積された過去の取引データをもとに「いつもと違うパターンの取引」を見つけ出す不正検知に使っているよ。「この人はいつも日本国内でしか使っていないのに、突然海外で大きな金額の決済がある」といった異常を見つけるには、過去の大量データと照らし合わせる必要があるんだ。
製造業:品質改善に役立てる
自動車や電子機器の製造工場では、製造ラインの機械が出すセンサーデータを何年分もデータウェアハウスに蓄積して、「この機械がこういうデータを出し始めると3か月以内に故障する」というパターンを分析することで、故障が起きる前にメンテナンスができるようになっているよ。これを予知保全(つまり・壊れる前に修理して止まるのを防ぐ仕組みのこと)って呼ぶんだ。
クラウド時代のデータウェアハウス——最近のトレンドを知ろう
昔は「自社に大きなサーバー」が必要だった
10〜20年前は、データウェアハウスを作るためには会社の中に大きくて高価なサーバーを置く必要があって、導入コストが数千万〜数億円かかることも珍しくなかったんだ。だから使えるのは大企業だけ、という時代が長く続いたよ。
今はクラウドで手軽に使える
最近はクラウド型のデータウェアハウスサービスが充実してきて、初期投資なしに「使った分だけ払う」スタイルで利用できるようになったんだ。代表的なものとしては、こんなサービスがあるよ。
- Google BigQuery——Googleが提供するクラウド型DWH。超大量のデータでも数秒で集計できるのが特徴
- Amazon Redshift——AWSが提供するDWH。AmazonのECサイト自身も使っているほど信頼性が高い
- Snowflake——DWH専業のクラウドサービス。複数のクラウドをまたいで使えることで人気急上昇中
クラウド型のおかげで、中小企業やスタートアップでもデータウェアハウスを活用できるようになってきた。最近は「データドリブン経営(つまり・勘や経験ではなくデータにもとづいて経営判断を行うこと)」という考え方がビジネスの世界で広まっていて、データウェアハウスはその基盤として欠かせないツールになっているんだよ。
データレイクやデータマートとの違いも知っておこう
データ系の用語で「データレイク」や「データマート」という言葉も聞くことがあるかもしれないけど、それぞれ役割が違うんだ。データレイク(つまり・生のデータをそのままドカッと保管しておく広大な「湖」のような場所のこと)はとにかく何でも突っ込んでおく場所で、整理はあとからする前提だよ。一方データマート(つまり・データウェアハウスの中から特定の部署や用途に必要なデータだけを切り出した小さな集まりのこと)は、たとえば「営業部専用の分析データセット」「マーケ部専用のデータセット」みたいに、部署ごとに使いやすい形に絞ったものだよ。データウェアハウスはちょうどその中間——生データよりは整理されていて、全社横断的に使えるのがポイントなんだ。
