「データ活用って大事だよって言われるけど、そもそもデータってどこに保存してるの?」って思ったことない?会社の中にはアプリのログ、売上記録、SNSの投稿データ、センサーの数値……いろんな種類のデータがバラバラに存在してるんだよね。それを全部まとめて貯めておける場所、それが「データレイク」なんだ。この記事を読めば、データレイクがどんなものでなぜ必要なのか、すっきりわかるよ。
- データレイクは、あらゆる種類のデータを そのままの生の状態 で大量に保存できる巨大なデータの貯め場所だよ。
- 普通のデータベースと違って フォーマットを問わない から、画像・動画・ログ・センサーデータなど何でも入れられるのが強みだよ。
- 貯めたデータは後でAIや分析ツールに使われて、 ビジネスの意思決定やサービス改善 に役立てられるんだよ。
もうちょっと詳しく
データレイクが生まれた背景には「ビッグデータ時代の到来」があるよ。2010年代に入ってスマートフォンが普及して、SNS・IoTセンサー・動画配信サービスが爆発的に増えた結果、世界中で生み出されるデータの量がとんでもないことになったんだ。従来のデータウェアハウス(整理された分析用倉庫)では「入れる前にデータを綺麗に整形しないといけない」という制約があって、処理が追いつかなかったり、整形の段階で必要なデータを捨ててしまったりする問題があったんだよ。そこで「まず全部そのまま入れておいて、必要になったら取り出して使う」という発想で登場したのがデータレイクなんだ。AWSのS3やGoogle Cloud Storage、Azure Data Lake Storageなどのクラウドサービスが代表的な実装例として使われているよ。
「先に整理」じゃなくて「先に全部貯めて後で使う」が、データレイクの核心的な発想だよ!
⚠️ よくある勘違い
→ 役割が違うのに「どちらか一方でOK」と思って導入設計を誤るケースが多いんだ。
→ データレイクは「生データを大量に貯める場所」、データウェアハウスは「分析しやすいよう整理されたデータを置く場所」。実際には両方を組み合わせたアーキテクチャ(設計構造)が多いよ。
[toc]
データレイクって何?湖に例えてみると一発でわかる
「レイク=湖」というネーミングの意味
「データレイク(Data Lake)」という名前は、直訳すると「データの湖」だよ。これはただのオシャレな名前じゃなくて、実際の仕組みをうまく表してるんだ。
湖を想像してみてほしい。山から流れてくる川、雨水、地下から湧き出る水……いろんな「源」からの水が一箇所に集まって、大きな湖ができるよね。データレイクも同じで、社内のいろんなシステムから生まれるデータが一箇所に流れ込んでくる場所なんだ。
で、湖の水って「この川から来た水はこっちに分けて、あの山から来た雨水はあっちに分けて」なんてやらないよね?全部一緒に湖に溜まる。データレイクも同じで、つまりデータの種類やフォーマット(形式)を問わず、何でも一緒くたに放り込める場所ということなんだよ。
実際に入るデータってどんなもの?
データレイクに入るデータの種類は大きく3つに分けられるよ。
- 構造化データ:つまり、エクセルや表のように行と列が決まったデータのこと。売上記録・顧客名簿・在庫数など。
- 半構造化データ:つまり、完全に表じゃないけどある程度ルールがあるデータのこと。JSONやXMLといったファイル形式が代表例で、アプリのログなどが多い。
- 非構造化データ:つまり、決まった形がない自由なデータのこと。画像・動画・音声・SNSの投稿文などがここに当たる。
普通のデータベースは構造化データしか扱えないことが多いけど、データレイクはこの3つ全部を受け入れられるんだ。これが最大の特徴だよ。
データウェアハウスと何が違うの?整理して比べてみよう
データウェアハウスは「整理された図書館」
データウェアハウス(Data Warehouse)っていうのは、つまり「分析用に整えられたデータの倉庫」のことだよ。図書館に例えると、本が全部ジャンル別・著者別にきちんと並んでいて、「SF小説の棚はここ」「参考書はこっち」ってすぐ見つけられる状態のことだ。
すごく便利な反面、本を入れるときに「ちゃんと分類してラベルを貼ってから棚に入れてね」というルールが厳しいんだよ。このプロセスをETL(つまりデータを抽出→変換→格納する一連の作業)って呼ぶんだけど、これが結構手間なんだ。
データレイクは「なんでも入る倉庫」
一方のデータレイクは、さっきの例えで言うと「とにかく入れておく倉庫」だよ。本でも段ボールでも自転車でも、とりあえず全部放り込んでおける。整理は後でいい、という考え方なんだ。
この「後で整理する」アプローチをELT(つまり抽出→格納してから変換する順番)って呼ぶよ。先に全部入れておいて、必要なデータを取り出すときに必要な形に変換するんだ。
比べてみるとこんな感じ:
- データウェアハウス:入れる前に整理が必要・高速に分析できる・保存コストは高め
- データレイク:何でもそのまま入れられる・柔軟性が高い・保存コストは低め・取り出すときに一手間かかる
だから現実の企業では「両方使う」ことが多いんだよ。生データをまずデータレイクに全部貯めて、分析に必要なものだけデータウェアハウスに移して整理する、という二段構えの使い方が定番だよ。
データレイクが必要になった理由——ビッグデータ時代の話
データの量が爆発した2010年代
少し前まで、企業が扱うデータといえば「売上の表」「顧客の住所録」くらいだったんだよ。これくらいなら普通のデータベースで十分だった。
でも2010年代にスマホが普及してからが大変。毎分どれくらいのデータが生まれてるか知ってる?YouTubeには毎分500時間分の動画がアップロードされて、Twitterは毎分50万件のツイートが投稿されて、Amazonでは毎分何百万件もの商品ページが見られてる。こういうデータをビッグデータ(つまり従来のデータベースでは処理しきれないくらい巨大で多様なデータのこと)って呼ぶんだよ。
「捨てたくない」という気持ちがデータレイクを生んだ
従来のデータウェアハウスに入れるには「整形」が必要で、整形の途中で「この情報はいらないかな」って判断してデータを捨ててたんだよ。でもそれって実はもったいないことで、後になって「あのデータ、AIの学習に使えたのに……」ってなることが多かったんだ。
だから「とにかく全部取っておこう。必要かどうかは後で考えよう」という発想でデータレイクが生まれたわけなんだよ。今でこそAI・機械学習が当たり前になったけど、その裏側にはデータレイクみたいな「大量の生データをそのまま貯めておける仕組み」があるんだよね。
データレイクの仕組みと代表的なサービス
クラウドが支えるデータレイク
データレイクって、どこに作るの?って思うよね。答えは「クラウド(インターネット上のコンピュータサービス)」がほとんどだよ。自前でサーバーを買うより、必要な分だけ使って費用を払えるクラウドの方が、圧倒的に便利でコスパがいいんだ。
代表的なクラウドのデータレイクサービスはこれだよ:
- Amazon S3(AWS):AmazonのクラウドサービスAWSが提供するストレージ。世界一使われてるデータレイクの保存場所で、つまりインターネット上の超巨大なハードディスクのこと。
- Google Cloud Storage(GCP):Googleのクラウドが提供する同じような仕組み。BigQueryというデータ分析ツールと組み合わせて使われることが多い。
- Azure Data Lake Storage(Microsoft):Microsoftのクラウド「Azure」が提供するデータレイク専用サービス。大企業での採用が多いよ。
データレイクを使うときの流れ
実際にデータレイクを使うときの流れはこんな感じだよ:
- ① 各システム(アプリ・センサー・SNS連携など)からデータがインジェスト(つまりデータを取り込むこと)される
- ② データレイクに生データがそのまま保存される(ここでは何も加工しない)
- ③ データサイエンティストやエンジニアが必要なデータを取り出す
- ④ 取り出したデータを分析・加工して、AIのトレーニングやビジネスレポートに使う
ポイントは、②の時点では何もしないこと。「後で使うかもしれないから全部とっておく」という考え方が徹底されてるんだよ。
データレイクのメリット・デメリットと、向いている使い方
メリット:とにかく柔軟で安くて大量に貯められる
データレイクの一番の強みはこの3つだよ:
- 何でも入れられる柔軟性:フォーマットを問わないから、「このデータはここに入れられない」問題が起きない。
- コストが安い:クラウドのオブジェクトストレージ(つまり大量のファイルを安く保存できるサービス)はデータウェアハウスに比べてはるかに安い。1テラバイトあたり月数百円台で保存できるよ。
- AIや機械学習との相性が抜群:AIの学習には「大量の生データ」が必要だから、整形前のデータをそのまま使えるデータレイクは超相性がいいんだ。
デメリット:管理が難しい「データの沼」になりやすい
一方でデメリットもあるよ。「何でも入れられる」ということは、管理しないとカオスになるということでもあるんだ。これを失敗した状態をデータスワンプ(つまりデータの沼・泥沼状態のこと)って呼ぶよ。
- 「どこに何のデータがあるかわからない」状態になりやすい
- 誰でも入れられるからデータの品質がバラバラになる
- 個人情報が混入していてもわかりにくい
だから実際の運用ではデータカタログ(つまりどこに何のデータがあるか一覧にした目録)を整備したり、誰がどのデータにアクセスできるかルールを決めたりすることがセットで必要なんだよ。
こんな会社・こんな場面に向いている
データレイクが特に活きる場面はこれだよ:
- AIや機械学習の開発をしたい会社(大量の学習データが必要)
- センサーデータや動画など非構造化データが多い会社(製造業・メディア・ヘルスケアなど)
- 「将来何に使うかわからないけどとりあえずデータは全部取っておきたい」という戦略の会社
逆に「きれいに整理された売上データを素早く分析したい」だけなら、データウェアハウスの方が向いてるよ。目的に合わせて選ぶことが大事なんだよね。
