データレイクって何?わかりやすく解説

「データ活用って大事だよって言われるけど、そもそもデータってどこに保存してるの?」って思ったことない?会社の中にはアプリのログ、売上記録、SNSの投稿データ、センサーの数値……いろんな種類のデータがバラバラに存在してるんだよね。それを全部まとめて貯めておける場所、それが「データレイク」なんだ。この記事を読めば、データレイクがどんなものでなぜ必要なのか、すっきりわかるよ。

データレイクって名前、なんか聞いたことあるけど……湖と関係あるの?

よく気づいたね!「レイク」は英語で「湖」のことだよ。データレイクっていうのは、いろんな種類のデータをそのままの形で大量に貯めておける「巨大な湖」みたいな保管場所のことなんだ。川からいろんな水が流れ込んで湖に集まるように、いろんなシステムからデータがどんどん流れ込んでくるイメージだよ。
「そのままの形で」っていうのはどういうこと?整理しないで入れるってこと?

そう、まさにそれ!たとえば写真・動画・エクセルのような表・文章・センサーの数字……これって全部フォーマットが違うよね。普通のデータベースは「きれいな表の形のデータしか受け付けない」んだけど、データレイクは生データ(つまり加工していない元の状態のデータ)を何でもそのままポンポン入れられるんだよ。後で必要になったときに整理すればいい、っていう考え方なんだ。
じゃあ普通のデータベースとどう違うの?どっちも「データを保存する場所」じゃないの?

いい質問!普通のデータベースは「本棚」みたいなもので、本(データ)を決まったサイズ・決まった向きで並べる必要があるんだ。でもデータレイクは「倉庫」みたいなイメージで、本も段ボールも自転車も、とにかく何でもドンドン入れられる。データウェアハウス(つまり整理済みデータを分析用に保存する専用の倉庫)と比べると、データレイクはもっと「ざっくり・なんでもあり」で「量がとにかく多い」のが特徴なんだよ。
実際に何のために使われてるの?なんとなくすごそうなのはわかったけど…

たとえばAmazonみたいなECサイトを想像してみて。「どのページを何秒見たか」「何を検索したか」「どの商品をクリックしたか」「購入した時間帯は?」……こういうデータが毎秒何百万件も発生するよね。これを全部データレイクに貯めておいて、後からAI(機械学習、つまりコンピュータが自分でデータから法則を学ぶ仕組み)に食わせて「あなたへのおすすめ商品」を作ったりするんだ。データレイクがあるから、大量のデータを捨てずに活かせるんだよ。
📝 3行でまとめると
  1. データレイクは、あらゆる種類のデータを そのままの生の状態 で大量に保存できる巨大なデータの貯め場所だよ。
  2. 普通のデータベースと違って フォーマットを問わない から、画像・動画・ログ・センサーデータなど何でも入れられるのが強みだよ。
  3. 貯めたデータは後でAIや分析ツールに使われて、 ビジネスの意思決定やサービス改善 に役立てられるんだよ。
目次

もうちょっと詳しく

データレイクが生まれた背景には「ビッグデータ時代の到来」があるよ。2010年代に入ってスマートフォンが普及して、SNS・IoTセンサー・動画配信サービスが爆発的に増えた結果、世界中で生み出されるデータの量がとんでもないことになったんだ。従来のデータウェアハウス(整理された分析用倉庫)では「入れる前にデータを綺麗に整形しないといけない」という制約があって、処理が追いつかなかったり、整形の段階で必要なデータを捨ててしまったりする問題があったんだよ。そこで「まず全部そのまま入れておいて、必要になったら取り出して使う」という発想で登場したのがデータレイクなんだ。AWSのS3やGoogle Cloud Storage、Azure Data Lake Storageなどのクラウドサービスが代表的な実装例として使われているよ。

💡 ポイント
「先に整理」じゃなくて「先に全部貯めて後で使う」が、データレイクの核心的な発想だよ!

⚠️ よくある勘違い

❌ 「データレイクはデータウェアハウスの上位版だから、どっちかあれば十分」
→ 役割が違うのに「どちらか一方でOK」と思って導入設計を誤るケースが多いんだ。
⭕ 「データレイクとデータウェアハウスは補い合う存在で、目的に応じて使い分けるもの」
→ データレイクは「生データを大量に貯める場所」、データウェアハウスは「分析しやすいよう整理されたデータを置く場所」。実際には両方を組み合わせたアーキテクチャ(設計構造)が多いよ。
なるほど〜、あーそういうことか!

[toc]

データレイクって何?湖に例えてみると一発でわかる

「レイク=湖」というネーミングの意味

「データレイク(Data Lake)」という名前は、直訳すると「データの湖」だよ。これはただのオシャレな名前じゃなくて、実際の仕組みをうまく表してるんだ。

湖を想像してみてほしい。山から流れてくる川、雨水、地下から湧き出る水……いろんな「源」からの水が一箇所に集まって、大きな湖ができるよね。データレイクも同じで、社内のいろんなシステムから生まれるデータが一箇所に流れ込んでくる場所なんだ。

で、湖の水って「この川から来た水はこっちに分けて、あの山から来た雨水はあっちに分けて」なんてやらないよね?全部一緒に湖に溜まる。データレイクも同じで、つまりデータの種類やフォーマット(形式)を問わず、何でも一緒くたに放り込める場所ということなんだよ。

実際に入るデータってどんなもの?

データレイクに入るデータの種類は大きく3つに分けられるよ。

  • 構造化データ:つまり、エクセルや表のように行と列が決まったデータのこと。売上記録・顧客名簿・在庫数など。
  • 半構造化データ:つまり、完全に表じゃないけどある程度ルールがあるデータのこと。JSONやXMLといったファイル形式が代表例で、アプリのログなどが多い。
  • 非構造化データ:つまり、決まった形がない自由なデータのこと。画像・動画・音声・SNSの投稿文などがここに当たる。

普通のデータベースは構造化データしか扱えないことが多いけど、データレイクはこの3つ全部を受け入れられるんだ。これが最大の特徴だよ。

データウェアハウスと何が違うの?整理して比べてみよう

データウェアハウスは「整理された図書館」

データウェアハウス(Data Warehouse)っていうのは、つまり「分析用に整えられたデータの倉庫」のことだよ。図書館に例えると、本が全部ジャンル別・著者別にきちんと並んでいて、「SF小説の棚はここ」「参考書はこっち」ってすぐ見つけられる状態のことだ。

すごく便利な反面、本を入れるときに「ちゃんと分類してラベルを貼ってから棚に入れてね」というルールが厳しいんだよ。このプロセスをETL(つまりデータを抽出→変換→格納する一連の作業)って呼ぶんだけど、これが結構手間なんだ。

データレイクは「なんでも入る倉庫」

一方のデータレイクは、さっきの例えで言うと「とにかく入れておく倉庫」だよ。本でも段ボールでも自転車でも、とりあえず全部放り込んでおける。整理は後でいい、という考え方なんだ。

この「後で整理する」アプローチをELT(つまり抽出→格納してから変換する順番)って呼ぶよ。先に全部入れておいて、必要なデータを取り出すときに必要な形に変換するんだ。

比べてみるとこんな感じ:

  • データウェアハウス:入れる前に整理が必要・高速に分析できる・保存コストは高め
  • データレイク:何でもそのまま入れられる・柔軟性が高い・保存コストは低め・取り出すときに一手間かかる

だから現実の企業では「両方使う」ことが多いんだよ。生データをまずデータレイクに全部貯めて、分析に必要なものだけデータウェアハウスに移して整理する、という二段構えの使い方が定番だよ。

データレイクが必要になった理由——ビッグデータ時代の話

データの量が爆発した2010年代

少し前まで、企業が扱うデータといえば「売上の表」「顧客の住所録」くらいだったんだよ。これくらいなら普通のデータベースで十分だった。

でも2010年代にスマホが普及してからが大変。毎分どれくらいのデータが生まれてるか知ってる?YouTubeには毎分500時間分の動画がアップロードされて、Twitterは毎分50万件のツイートが投稿されて、Amazonでは毎分何百万件もの商品ページが見られてる。こういうデータをビッグデータ(つまり従来のデータベースでは処理しきれないくらい巨大で多様なデータのこと)って呼ぶんだよ。

「捨てたくない」という気持ちがデータレイクを生んだ

従来のデータウェアハウスに入れるには「整形」が必要で、整形の途中で「この情報はいらないかな」って判断してデータを捨ててたんだよ。でもそれって実はもったいないことで、後になって「あのデータ、AIの学習に使えたのに……」ってなることが多かったんだ。

だから「とにかく全部取っておこう。必要かどうかは後で考えよう」という発想でデータレイクが生まれたわけなんだよ。今でこそAI・機械学習が当たり前になったけど、その裏側にはデータレイクみたいな「大量の生データをそのまま貯めておける仕組み」があるんだよね。

データレイクの仕組みと代表的なサービス

クラウドが支えるデータレイク

データレイクって、どこに作るの?って思うよね。答えは「クラウド(インターネット上のコンピュータサービス)」がほとんどだよ。自前でサーバーを買うより、必要な分だけ使って費用を払えるクラウドの方が、圧倒的に便利でコスパがいいんだ。

代表的なクラウドのデータレイクサービスはこれだよ:

  • Amazon S3(AWS):AmazonのクラウドサービスAWSが提供するストレージ。世界一使われてるデータレイクの保存場所で、つまりインターネット上の超巨大なハードディスクのこと。
  • Google Cloud Storage(GCP):Googleのクラウドが提供する同じような仕組み。BigQueryというデータ分析ツールと組み合わせて使われることが多い。
  • Azure Data Lake Storage(Microsoft):Microsoftのクラウド「Azure」が提供するデータレイク専用サービス。大企業での採用が多いよ。

データレイクを使うときの流れ

実際にデータレイクを使うときの流れはこんな感じだよ:

  • ① 各システム(アプリ・センサー・SNS連携など)からデータがインジェスト(つまりデータを取り込むこと)される
  • ② データレイクに生データがそのまま保存される(ここでは何も加工しない)
  • ③ データサイエンティストやエンジニアが必要なデータを取り出す
  • ④ 取り出したデータを分析・加工して、AIのトレーニングやビジネスレポートに使う

ポイントは、②の時点では何もしないこと。「後で使うかもしれないから全部とっておく」という考え方が徹底されてるんだよ。

データレイクのメリット・デメリットと、向いている使い方

メリット:とにかく柔軟で安くて大量に貯められる

データレイクの一番の強みはこの3つだよ:

  • 何でも入れられる柔軟性:フォーマットを問わないから、「このデータはここに入れられない」問題が起きない。
  • コストが安い:クラウドのオブジェクトストレージ(つまり大量のファイルを安く保存できるサービス)はデータウェアハウスに比べてはるかに安い。1テラバイトあたり月数百円台で保存できるよ。
  • AIや機械学習との相性が抜群:AIの学習には「大量の生データ」が必要だから、整形前のデータをそのまま使えるデータレイクは超相性がいいんだ。

デメリット:管理が難しい「データの沼」になりやすい

一方でデメリットもあるよ。「何でも入れられる」ということは、管理しないとカオスになるということでもあるんだ。これを失敗した状態をデータスワンプ(つまりデータの沼・泥沼状態のこと)って呼ぶよ。

  • 「どこに何のデータがあるかわからない」状態になりやすい
  • 誰でも入れられるからデータの品質がバラバラになる
  • 個人情報が混入していてもわかりにくい

だから実際の運用ではデータカタログ(つまりどこに何のデータがあるか一覧にした目録)を整備したり、誰がどのデータにアクセスできるかルールを決めたりすることがセットで必要なんだよ。

こんな会社・こんな場面に向いている

データレイクが特に活きる場面はこれだよ:

  • AIや機械学習の開発をしたい会社(大量の学習データが必要)
  • センサーデータや動画など非構造化データが多い会社(製造業・メディア・ヘルスケアなど)
  • 「将来何に使うかわからないけどとりあえずデータは全部取っておきたい」という戦略の会社

逆に「きれいに整理された売上データを素早く分析したい」だけなら、データウェアハウスの方が向いてるよ。目的に合わせて選ぶことが大事なんだよね。

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人

大人になってから「これ知らなかった…」と恥ずかしい思いをした経験から、このサイトを作りました。お金・仕事・社会のしくみって、学校で教えてくれないのに知らないと損することだらけ。むずかしい言葉を「あーそういうことか!」って思えるまでかみ砕いて説明するのが得意です。主に経済・法律・税金・ライフイベント周りの用語を毎日更新中。

目次