Hadoop

数据库無料トラ电子词典アル

Hadoopとは

“Hadoop”とは何を意味するのでしょうか。“Hadoop”とは何の略なのでしょうか?Hadoopは、High Availability Distributed Object Oriented Platform の略です。そして、これこそが Hadoop テクノロジーが開発者に提供するものです。オブジェクト指向タスクの並列分散による高可用性を実現します。

Apache Hadoopとは,オープンソースのJavaベースのソフトウェアプラットフォームで,ビッグデータアプリケーションのデータ処理とストレージを管理します。プラットフォームは,コンピューティングクラスタ内のノード間でHadoopビッグデータセットと分析ジョブを分散させ,並列実行できる小さなワークロードに分割します。

また,構造化データと非構造化データの両方を処理し,1台のサーバーから数千台のマシンまで,確実にスケールアップします。

Apache Hadoopロゴ

Hadoopプログラミングとは?

Hadoopフレームワークでは,コードのほとんどはJavaで書かれていますが,Cベースのネイティブコードもあります。HadoopMapReduceでは、Java が最もよく使われますが、Hadoop streaming などのモジュールを通じて、ユーザーは自分の好きなプログラミング言語を使って、マップとリデュースの機能を実装することができます。

Hadoopデ,タベ,スとは?

Hadoopは,データストレージやリレーショナルデータベースのためのソリューションではありません。その代わり,オープンソースのフレームワークとして,大量のデータを同時にリアルタイムに処理することを目的としています。

データはHDFSに格納されますが,これは非構造化データベースとみなされ,リレーショナルデータベースには該当しません。実際,Hadoopでは,デ,タは非構造化,半構造化,構造化のいずれの形でも保存できます。これにより,企業は自社のビジネスニーズやその先にあるものに合わせて,より柔軟にビッグデータを処理することができるようになります。

Hadoopはどのようなデ,タベ,スなのですか?

技術的には,Hadoopはそれ自体がSQLやRDBMSのようなデータベースの一種ではありません。その代わり,Hadoopのフレームワークは,幅広い種類のデータベースに対する処理ソリューションをユーザーに提供します。

Hadoopは,企業が膨大な量のデータを短時間で処理できるようにするためのソフトウェアエコシステムです。これは,大規模なコンピュ,タの並列処理を容易にすることで実現されています。ApacheHBase などの各種データベースは、数百台、数千台のコモディティサーバに搭載されたデータノードクラスタに分散させることができます。

Hadoopはい発明されたのですか?

Apache Hadoopは,雅虎や谷歌などの検索エンジンのスタートアップ企業が軌道に乗り始めた頃,急増するビッグデータの処理やWeb検索結果を迅速に提供する必要性から生まれました。

アプリケーションを小さな端数に分割して異なるノードで実行するプログラミングモデルである谷歌のMapReduceにインスパイアされ,ダグ・カッティング(Doug Cutting)氏とマイク・カファレラ(Mike Cafarella)氏により,彼らがApache Nutchプロジェクトに取り組んでいた2002年に,Hadoopは開発されました。ニューヨークタイムズの記事によると,Hadoopの名前は,ダグ・カッティング氏の息子のおもちゃの象にちなんで名づけられました。

その数年後,HadoopはNutchから独立し,Webクローラーの部分がNutchとして残され,分散コンピューティングおよび処理の部分がHadoopになりました。雅虎はカッティング氏の入社2年後の2008年に,Hadoopをオープンソースプロジェクトとして公開し,Apacheソフトウェア財団(ASF)は,2012年11月に,Hadoopを“Apache Hadoopとして一般公開しました。

Hadoopのvmwareンパクト

Hadoopは,ビッグデ,タ分野に飛躍的な発展を巻き起こしました。実際に,近代的なクラウドデ,タレ,クの基盤となったといわれています。Hadoopはコンピューティング能力を民主化し、企業は無料のオープンソースソフトウェアや安価な既存のハードウェアを使用して、ビッグデータセットをスケーラブルに分析やクエリ実行できるようになりました。

これまで業務時間の大半を費やしていた独自のデ,タウェアハウス(DW)ソリューションやクローズドなデータ形式に代わる実行可能な代替手段を提供したという点で,これは重要な発展でした。

Hadoopは,膨大な量のデータの保存および処理能力,コンピューティングの向上,フォールトトレラント,データ管理の柔軟性,データウェアハウスよりも低いコスト,ノードを追加し続ける高いスケーラビリティなど,企業に数々のメリットを提供します。最終的にHadoopは,Apache火花の導入など,ビッグデータ分析における将来の発展への道を切り開きました。

Hadoopは何に使われているのですか?

Hadoopの場合,可能なユ,スケ,スはほぼ無限大です。

小売·消費財

大規模な組織では,これまで以上に多くの顧客デ,タを手元に置くことができるようになりました。しかし,一見無関係に見える大量のデ,タの間に,ながりを持たせるのは難しい場合が多いのです。▪▪▪▪▪▪▪▪▪▪▪▪▪▪▪▪▪▪▪▪▪▪▪▪▪▪▪▪Cloudera企业を導入したとき,その結果には大きな感銘を受けたそうです。

Clouderaは,データの管理・処理にHadoopベースのサポートとサービスを使用しています。M&Sは,クラウドベースのプラットフォームを導入して間もなく,データをうまく活用し,予測分析を大幅に改善できることに気づきました。

これにより,ウェアハウスの効率的な利用が可能になり,“想定外“の需要ピーク時の在庫切れを防ぎ,競合他社に対して大きなアドバンテージを獲得することができたのです。

ファ@ @ナンス

Hadoopは,おそらく他のどの分野よりも金融分野に適していると思います。当初,このソフトウェアフレームワークは,リスクモデリングに関連する高度なアルゴリズムを扱うための主要な用途として,すぐに採用されました。まさに,2008年の景気後退を招いたクレジットスワップの災禍を回避するためのリスク管理です。

銀行は,この同じロジックが顧客ポ,トフォリオのリスク管理にも適用されることに気づきました。現在,金融機関では,顧客の資産の安全性とパフォーマンスをより適切に管理するためにHadoopを導入することが一般的になっています。摩根大通は,世界中の指数関数的に増加する顧客データを管理するためにHadoopを使用している数多くの業界大手の一社にすぎません。

医療·ヘルスケア

国営·民営を問わず,医療機関はその規模を問わず,膨大な量のデ,タや顧客情報を扱っています。Hadoopフレームワークにより、医師、看護師、介護士は必要な時に必要な情報に簡単にアクセスできるようになり、また、実用的な洞察をもたらすデータの集約も簡単にできるようになりました。これは、公衆衛生、診断の向上、治療法の改善などに適用されます。

学術·研究機関もHadoopのフレ,ムワ,クを活用することで,取り組みを強化することができます。例えば,がんを含む遺伝病の分野などです。私たはヒトゲノムをマッピングしていますが,全部で30億近い塩基対があります。理論的には,あらゆる病気を治すものが目の前にあるのです。

しかし,複雑な関係を特定するためには,このような大量の情報を処理するHadoopのようなシステムが必要になります。

セキュリティと法執行

Hadoopは,国家や地域の安全保障の有効性を高めるのにも役立ます。複数の地域にまたがる関連犯罪を解決する場合,Hadoopフレームワークを使用すると,一見孤立した2つの事件を結びつけて,法執行機関のプロセスを合理化することができます。事件の関連付けにかかる時間を短縮することで,他の機関や一般市民にできるだけ早く警告を発することができるようになります。

2013年、国家安全保障局(nsa)は,オープンソースのHadoopソフトウェアが,それまで導入していた高価な代替品よりも優れていると結論付けました。現在では,テロやサバ犯罪などの脅威を検知するために,このフレムワクを使用しています。

Hadoopはどのように機能するのか?

Hadoopは,巨大なデータセットをコモディティハードウェアのクラスタに分散して配置することを可能にするフレームワークです。Hadoopの処理は,同時に複数のサ,バ,で並列に行われます。

クラアントはHadoopにデタやプログラムを投入します。簡単に言うとHDFS (Hadoopのコアコンポーネント)がメタデータと分散ファイルシステムを処理します。次に,Hadoop MapReduceが入出力デ,タの処理と変換を行います。最後に,纱线がクラスタ間でタスクを分割します。

Hadoopを利用することで,お客様はコモディティリソースをより効率的に利用することができ,高可用性と内蔵の障害点検知機能を期待することができます。また,接続された業務システムに対して問い合わせを行う際にも,迅速なレスポンスが期待できます。

Hadoopは,ビッグデ,タの活用を目指す企業にとって,比較的容易なソリュ,ションといえます。

Hadoopはどのような言語で書かれているのですか?

Hadoopのフレ,ムワ,ク自体は,ほとんどがJavaで構築されています。その他のプログラミング言語としては,C言語のネイティブコードやコマンドライン用のシェルスクリプトがいくつかあります。しかし,Hadoopのプログラムは,Pythonやc++など,他の多くの言語で書くことができます。そのため,プログラマ,は自分が最も慣れ親しんだ,ルを使って柔軟に作業することができます。

Hadoopの使い方

これまで触れてきたように,Hadoopはビッグデータを管理する必要がある組織にとって,簡単なソリューションを生み出します。しかし,だからといって,常にわかりやすい使い方ができるわけではありません。上記のユースケースから分かるように,Hadoopフレームワークをどのように実装するかはかなり柔軟性があります。

ビジネスアナリスト,データサイエンティスト,開発者がどのようにHadoopを使用するかは,全て組織とその目標によって決まります。

Hadoopは全ての企業に適しているわけではありませんが,ほとんどの企業はHadoopとの関係を再評価する必要があります。。ビジネスがコアプロセスの一部として大量のデータを扱う場合,Hadoopはニーズに合った,柔軟でスケーラブルかつ手頃な価格のソリューションを提供します。ここから先は,あなたとあなたのチ,ムの想像力と技術力次第です。

Hadoopクエリ,の例

ここでは,Hadoopへの問い合わせの例をいくか紹介します。

Apache蜂巢

Apache Hiveは,HadoopでSQLをクエリする方法にいての初期の解決策でした。このモジュールは,プログラミングを簡単にするために,MySQLの動作,構文,インターフェイスをエミュレートしています。組み込みのJava APIとJDBCドライバが付属しているので,既にJavaアプリケーションを多用している場合には最適なオプションです。蜂巢は開発者に迅速で簡単なソリューションを提供しますが,ソフトウェアがかなり遅く,読み取り専用であるため,かなり制限されています。

IBM BigSQL

IBMが提供する本製品は,Hadoop向けの高性能な超並列処理(MPP)SQLエンジンです。そのクエリソリュ,ションは,安定したセキュアな環境での容易さを必要とする企業向けに提供されました。HDFSのデータにアクセスするだけでなく、RDBMS、NoSQL データベース、WebHDFSな どのデータソースから引き出すことも可能です。

Hadoopエコシステムとは

Hadoopは,次のいずれかを指す一般的な用語です。

  • Hadoopエコシステム全般:コアモジュ,ルと関連するサブモジュ,ルの両方を含みます。
  • Hadoopのコアモジュール:HDFS™(Hadoop分散ファイルシステム),纱线(もう一つのリソース調整機能),Hadoop MapReduce,常见(後述)を含みます。これらは,典型的なHadoopデプロvmwareメントの基本的な構成要素です。
  • Hadoop関連のサブモジュ,ルで,以下のものがあります。Apache蜂巢, Apache黑斑羚, Apache,以及Apache动物园管理员, Apache Flume等などです。これらの関連ソフトウェアは,Hadoopのコア機能をカスタマイズ,改善,拡張するために使用することができます。

Hadoopのコアモジュ,ルとは

  • HDFS:Hadoop分散ファeconpルシステム。HDFSはJavaベースのシステムで,クラスタ内のノード間で,フォールトトレラント方式で大規模なデータセットを格納できます。
  • :纱线は,另一个资源谈判代表(もう一つのリソースネゴシエーター)。纱は、Hadoop 上で実行されるクラスタリソース管理、タスクの計画、およびジョブのスケジューリングに使用されます。
  • MapReduceMapReduceは,大規模なデータセットの並列処理に使用されるプログラミングモデルおよびビッグデータ処理エンジンです。もともと,Hadoop MapReduceはで利用可能な唯一の実行エンジンでしたが,その後,HadoopはApache特斯Apache火花を含む他のシステムのサポ,トも追加しています。
  • Hadoop常见: Hadoop共同はライブラリやユーティリティにまたがるサービスを提供し,他のHadoopモジュールをサポートします。

Hadoopエコシステムの構成要素とは?

Hadoopのエコシステムは,いくかのコアコンポネントで構成されています。

HDFS

Hadoop分散ファルシステムは,全てのデタストレジの始まりと終わりの場所です。このコンポーネントは,さまざまな構造化および非構造化データノードにまたがる大規模なデータセットを管理します。同時に,ログファ。HDFSには、NameNode と DataNode という 2 つの副次的なコンポーネントがあります。

NameNode

Hadoop HDFSのマスタ,DaemonはNameNodeです。このコンポーネントは,ファイルシステムの名前空間を維持し,当該ファイルへのクライアントアクセスを制御します。マスタ,ノ,ドとも呼ばれ,ブロック数や位置などの元数据を保存します。主にファイルとディレクトリで構成され,ファイルの命名,クローズ,オープンなどのファイルシステム実行を行います。

DataNode

2 . Daemon, DataNode。このHDFSコンポーネントは,クライアントから要求された読み取りと書き込みの機能を実行しながら,実際のデータまたはブロックを保存します。つまり,DataNodeもマスターNameNodeの指示に従い,レプリカの作成,削除,レプリケーションを担当します。

DataNodeは,データ用とブロックメタデータ記録用の2つのシステムファイルから構成されています。アプリケーションが起動すると,マスターとスレーブのデーモン間でハンドシェイクが行われ,ネームスペースとソフトウェアバージョンが確認されます。不一致があると,DataNodeは自動的に停止します。

MapReduce

Hadoop MapReduceは,Hadoopエコシステムの中核となる処理コンポ,ネントです。このソフトウェアは,大量の構造化および非構造化データを扱う際に,アプリケーションを書くための簡単なフレームワークを提供します。これは主に,コモディティハードウェア上のさまざまなノードでデータの並列処理を促進することで実現されています。

MapReduceは,クラ。ユ,ザ,から依頼されたタスクは,独立したタスクとプロセスに分けられます。次に,これらのMapReduceジョブは,コモディティサーバー全体のクラスタやノードでサブタスクに分化されます。

映射フェ,ズと,还原フェ,ズの2,のフェ,ズで実現されます。地图フェ,ズでは,デ,タセットがキ,と値のペアに分解された別のデ,タセットに変換されます。次に,减少フェーズでは,InputFormatクラスを通じてプログラマーが指定したとおりの出力に変換されます。

プログラマはMapReduceにおいて,主に2の機能を指定します。地图関数は,デ,タを処理するためのビジネスロジックです。还原関数は,映射関数の中間デ,タ出力の要約と集計を行い,最終的な出力を生成します。

簡単に言うと,Hadoop MapReduce纱线はをより新しく,より改良したバージョンということになります。しかし,それは完全に正確な。というのも,纱线はスケジュ,リングや処理,ジョブシ,ケンスの実行にも使用されるからです。しかし,纱はHadoopのリソース管理レイヤーであり,各ジョブは個別のJavaアプリケーションとしてデータ上で実行されます。

纱线はフレームワークのOSとして,バッチ処理やFデータなどを単一のプラットフォームで処理することを可能にします。MapReduceの機能を大幅に上回る YARN は、プログラマがインタラクティブでリアルタイムのストリーミングアプリケーションを構築することを可能にします。

纱を使えば,プログラマーは同じクラスタ上で必要なだけのアプリケーションを実行することができます。

主要なHadoop関連のソフトウェアの例

その他,厳密にはコアHadoopモジュールの一部ではありませんが,組み合わせて頻繁に使用される以下のような一般的なパッケージがあります。

  • Apache蜂巢: Hadoopで実行され,ユーザーがHiveQLと呼ばれるSQLのようなクエリ言語を使用してHDFSのデータを操作できるようにするデータウェアハウスソフトウェア。
  • Apache黑斑羚:Apache Hadoopのためのオプンソスでネティブな分析デタベス。
  • Apache猪: MapReduceの抽象化としてHadoopで使用され,データフローの大規模なデータセットを分析するツール。猪は,結合,フィルタ,ソ,ト,ロ,ドなどの操作を可能にします。
  • Apache管理员:信頼性の高い分散処理を実現するための集中型サ,ビス。
  • Apache SqoopApache Hadoopとリレーショナルデータベースなどの構造化データストア間でバルクデータを効率的に転送するために設計されたツール。
  • Apache Oozie:Apache Hadoopのジョブを管理するためのワ,クフロ,スケジュ,ラ,システム。Oozieワークフローのジョブは,アクションの順番を指定する有向非巡回グラフ(DAG图指导非周期性):で実行されます。

Hadoopエコシステムにいて詳しく見る

Hadoopを分析に利用する方法

データソースや組織のニーズに応じて,Hadoopフレームワークを分析に利用する方法は大きく3つに分かれます。

お客様のデ,タセンタ,への導入

これは,必要な既存のリソースを持つ企業にとって,時間的・経済的に有効なオプションであることが多いのです。そうでなければ,技術的な機器や它スタッフを準備する必要があり,金銭的にもチーム的にも過大な負担となる可能性があります。このオプションにより、企業はデ、タのセキュリティとプラ、バシ、をより詳細に管理することができます。

クラウドを選択する

より迅速な導入,初期コストの削減,メンテナンスの軽減を望む企業は,クラウドベースのサービスを活用することをお勧めします。クラウドプロバイダーの場合,データと分析はクラウド上に存在するコモディティハードウェア上で実行されます。このようなサビスは,手頃な価格でビッグデタの処理を効率化しますが,いくかの欠点があります。

第一に,公共のンタネット上にあるものは,ハッカなどにとって公平なゲムです。次に,インターネットやネットワークプロバイダーのサービス停止は,ビジネスシステムを停止させる可能性があります。既存のフレ,ムワ,クのユ,ザ,にとっては,Hadoopからレaapl . Hadoopからレaapl . Hadoopクハウスアが必要になるといったことがあるかもしれません。

オンプレミス型プロバダ

より優れたアップタイム,プライバシー,セキュリティを求めるのであれば,オンプレミスのHadoopプロバイダーでその3つを実現することができます。これらのベンダ,は,両者の長所を兼ね備えています。機器,ソフトウェア,サ,ビスを全て提供することで,プロセスを合理化することができます。しかし,インフラはオンプレミスなので,大企業がデータセンターを持つことで得られるようなメリットは全て享受できます。

Hadoopのメリット

  • スケ,ラビリティ: Hadoopは従来のシステムのようなデータストレージの制限がなく,分散環境で動作するため,スケーラブルです。初期のデタレクがHadoop上に構築された理由は,この特長にありました。詳しくはデタレクの歴史と進化をご覧ください。
  • レジリエンス:Hadoop分散ファaapl . exeルシステム(HDFS)は基本的に復元力が備わっています。Hadoopクラスタの任意のノードに格納されたデータは、ハードウェアまたはソフトウェアの障害の可能性に備えて、クラスタの他のノードにもレプリケートされます。この意図的に冗長な設計により、フォールトトレランスが保証され、1 つのノードがダウンしても、クラスタ内で利用可能なデータのバックアップが常に存在します。
  • 柔軟性:従来のリレーショナルデータベース管理システムとは異なり,Hadoopを使用する場合は,半構造化形式や非構造化形式を含む任意の形式でデータを格納できます。Hadoopを使用することで,新しいデータソースに簡単にアクセスしてさまざまな種類のデータを活用できます。

Hadoopア,キテクチャの課題

  • 複雑さ: Hadoopは,低レベルのJavaベースのフレームワークであり,エンドユーザーが作業するには複雑で困難です。Hadoopアーキテクチャには、セットアップ、保守、およびアップグレードに関する重要な専門知識とリソースが必要になる場合もあります。
  • パフォ,マンス:Hadoopは,ディスクに対する頻繁な読み取りと書き込みを使用して計算を実行します。これはApache火花などの可能な限りメモリ内にデータを格納して処理することを目的とするフレームワークと比較すると,時間がかかり非効率です。
  • 長期的な実現性:Hadoopを取り巻く環境は2019年に大きく変わりました。谷歌は,2004年にMapReduceに関する論文を発表し,Apache Hadoopの開発を支えてきましたが,谷歌テクニカルインフラストラクチャ担当高级のウルス・ヘルツル(乌)氏がツイートで,MapReduceの使用を全面的に中止したことを投稿しました。また,Hadoopの世界では,極めて注目度の高い合併買収が行われました。Hadoopの大手プロバイダは、Hadoopを技術ではなく哲学とみなすようになり,2020年にはHadoop中心の製品群からの転換を図っています。そして,2021年はさらなる変化の年となりました。4月にasfによるHadoopエコシステムの10のプロジェクトの終了の発表があり,同年の6月に,Clouderaが非公開化に合意しています。この決定がHadoopユーザーに与える影響は未だ不明ですが,増加する懸念事項と加速するデジタル化の必要性により,多くの企業がHadoopの利用を見直しています。

どのような企業がHadoopを利用しているのか?

Hadoopの採用は,成功を収めている多国籍企業やエンタープライズ企業のスタンダードになりつつあります。現在,Hadoopを活用している企業は以下の通りです。

  • Adobe:ソフトウェアおよびサービスプロバイダーは,データストレージなどにApache HadoopとHBaseを使用しています。
  • 易趣:検索エンジンの最適化とリサ,チのためのフレ,ムワ,クを使用します。
  • A9:アマゾンの子会社で,検索エンジンや検索関連広告に関連する技術を担当。
  • LinkedIn:最も人気のあるソーシャルプロフェッショナルネットワーキングサイトの1つとして,同社はHadoop,蜂巢,卡夫卡,Avro, DataFuなど多くのApacheモジュールを使用しています。
  • Spotify:スウェーデンの音楽ストリーミング大手は,分析およびレポート作成,コンテンツ生成,視聴推奨にHadoopフレームワークを使用しました。
  • 脸谱网:ソーシャルメディアの巨人は,世界最大のHadoopクラスタを維持しており,1日あたり1/2 PBのデータセットが増加すると報告されています。
  • InMobi:モバイルマーケティングプラットフォームは,分析,データサイエンス,機械学習を含むHDFSとApache猪/ MRUnitタスクを利用しています。

Hadoopの価格は?

Hadoopフレムワク自体は,オプンソスのJavaベスのアプリケションである。まり,他のビッグデ,タの代替品とは異なり,無料で利用できるのです。もろん,必要なコモディティソフトウェアのコストは,どのような規模かによって異なります。

Hadoopフレムワクを実装するサビスに関しては,いくかの価格オプションがあります。

  1. ノド毎—最も一般的
  2. TBあたり
  3. フリ,ミアム製品で,サブスクリプションのみの技術サポ,トがあるものとないもの
  4. 全てのハドウェアとソフトウェアを含むオルンワンパッケジ。
  5. クラウドベースのサービスには,独自の価格設定オプションがあり,基本的に必要な分だけ支払うことができます。

Hadoopの課題と最新のデタプラットフォムへのシフトにいては,当社のブログ記事をご覧ください。

额外的资源

回到术语表