用語集

データベースやデータストレージシステムにおけるトランザクションとは,1つの作業単位として扱われるあらゆる操作のことです。トランザクションは,完全に実行される,もしくは全く実行されないかのいずれかで,ストレージシステムを一貫した状態に保ちます。{. .}
機械学習や深層学習における最適化のための最も一般的なアルゴリズムの1つに,勾配降下法があります。勾配降下法は機械学習モデルのトレ,ニングに使用されます。勾配降下法の種類には,{. .}
オルタナティブデータ(代替データとも呼ばれる)とは,従来のソースではなく,他のユーザーによって使用されていない代替データソースから収集されたデータ情報です。オルタナティブデータを分析に活用することで,業界標準のデータソースでは得ることができない洞察を取得することが可能です。{. .}
アノマリ検知とは,定常状態とは統計的に異なる不審なベントや観測値を特定する手法です。異常検知とも呼ばれます。このような”異常“な挙動は,多くの場合に,クレジットカードの不正使用,マシンの故障,サイバー攻撃といった問題の存在を意味します。{. .}
Apache蜂巢は,Apache Hadoop分散ファイルシステム(HDFS)から抽出された大規模なデータセットの読み取り,書き込み,および管理を行うために設計されたオープンソースのデータウェアハウスソフトウェアで,より規模の大きいHadoopエコシステムの側面も持ち合わせています。{. .}
Apache捻角羚とは,Apache Hadoop向けに開発された無料のオープンソースの列指向ストレージシステムです。造化データ用エンジンで,各行への低レイテンシでランダムなミリ秒スケールのアクセスに加えて,優れたアクセスパターン分析もサポートします。{. .}
Apache麒麟とは,ビッグデータの対話型分析のための分散型オープンソースのオンライン分析処理(OLAP)エンジンです。Apache麒麟は Hadoop や Spark で SQL インターフェイスと多次元分析(OLAP)を提供するよう設計されています。{. .}
Apache火花とは,ビッグデータのワークロードに使用するオープンソースの分析エンジンです。リアルタム分析とデタ処理のワクロドに加えて,両方のバッチ処理が可能です。Apache火花は 2009 年にカリフォルニア大学バークレー校の研究プロジェクトとして開発されました。{. .}
サ,ビスとしてのApache Spark(Apache Spark as Spark-as-a- service)とは?Apache火花は、大規模なデータの高速リアルタイム処理を実現するオープンソースのクラスタコンピューティングフレームワークです。Spark は、カリフォルニア大学バークレー校の AMPLab で 2009年に研究が開始されて以来、目覚ましい発展を遂げてきました。{. .}
人工ニューロンネットワーク(安)とは,人間の脳のニューロンの動作を模したコンピューティングシステムです。人工ニュ,ラルネットワ,クの仕組みは?安は,階層で構成される重み付き有向グラフにするとわかりやすく,{. .}
自動化バesc escアスとは,自動化支援システムや意思決定支援システムに過度に依存することを意味します。自動化された意思決定支援システムの利用可能性は高まっており,集中治療室や航空機のコックピットなど重大な影響を及ぼす意思決定が必要な状況下での利用も一般的になりつつあります。{. .}
ベイジアンニューラルネットワーク(BNN)とは,過学習の制御を目的として,事後確率推定により標準ネットワークを拡張することを指します。広い視点からみると,ベイジアン手法は統計的方法論を使用して,モデルパラメータ(ニューラルネットワークの重みとバイアス)を含む,あらゆるものがそれに付随する確率分布を持つようにすることです。{. .}
Hadoopが開発される以前は,最新のストレージと計算システムの基盤となる技術には限りがあり,企業での分析は”スモールデータ”に制限されていました。{. .}
バイオインフォマティクスは,膨大な生物学のデータのコレクションから知識を抽出するために計算を使用する研究分野です。{. .}
Catalystオプティマaapl . exeザとは,Spark SQLで主要な役割を果たす最適化機能です。Scalaのパターンマッチングや準クォートなどの高度なプログラミング言語の機能を斬新な方法で利用し,拡張可能なクエリオプティマイザを構築します。催化剂はScalaの関数型プログラミング構造に基づいており,次の2つの主要な目的を想定して設計されています。{. .}
複合イベント処理(CEP)とは,イベント処理,ストリーム処理,あるいはイベントストリーム処理とも呼ばれ,データベースにデータを格納する前か,場合によっては格納せずに,データを照会する技術を使用した処理です。{. .}
連続実行アプリケーションとは,データにリアルタイムで反応するエンドツーエンドのアプリケーションです。特に開発者は,このアプリケーションを活用することで,単一のプログラミングインターフェイスを使用して,クエリの提供やバッチジョブとの対話など,現在別々のシステムで処理されている連続実行アプリケーションの側面をサポートすることができます。{. .}
深層学習において,畳み込みニューラルネットワーク(CNNまたは事先)はディープニューラルネットワークの1つの手法です。画像内のパターン認識に通常使用されますが,空間データ分析,コンピュータビジョン,自然言語処理,信号処理などさまざまな用途に対する導入事例もあります。{. .}
データ分析プラットフォームとは,膨大で複雑な動的データの分析に必要なサービスとテクノロジーのエコシステムです。企業が所有する各種ソ,スからのデ,タの取得,結合,連動,検索,視覚化を可能にします。{. .}
データガバナンスとは,データがビジネス戦略に沿った価値をもたらすよう,組織内のデータを統制することを意味します。単なるツールやプロセスにとどまらず,人,プロセス,技術,データを包括するフレームワークを用いてデータを統制し,ビジネスの目標達成を支援するものです。{. .}
デタレクハウスとは?デタレクハウスとは、データレイクの柔軟性、経済性、スケーラビリティとデータウェアハウスのデータ管理や ACID トランザクションの機能を取り入れたオープンで新たなデータ管理アーキテクチャです。{. .}
デ,タマ,トとは,テ,ブルのセットを含むキュレ,トされたデ,タベ,スです。単一のデータチームやコミュニティ,マーケティングやエンジニアリング部門といった基幹業務の特定のニーズに対応できるよう設計されています。デ,タマ,トは通常,デ,タウェアハウスよりも小規模で,特定の目的に特化しています。{. .}
デ,タ共有とは,同じデ,タを複数のユ,ザ,で利用できるようにすることです。増加し続けるデ,タは,あらゆる企業にとって重要な戦略的資産です。組織内外におけるデ,タ共有は,新たなビジネスチャンスを生み出すカギとなる技術です。{. .}
データボルトとは,エンタープライズ規模の分析のためのデータウェアハウスの構築に使用されるデータモデリングのデザインパターンです。デタボルトには,ハブ,リンク,サテラトの3種類のエンティティがあります。{. .}
データウェアハウスとは,複数のソースから得られた最新データや履歴データをビジネスに適した形で蓄積し,知見の取得やレポート作成を容易にするデータ管理システムです。主に,ビジネスンテリジェンス(bi),レポト作成,デタ分析に使用されます。{. .}
砖ランタイムは,データブリックスが管理するマシンのクラスタ上で実行されるソフトウェアアーティファクトのセットです。火花はもちろん,ビッグデータ分析の操作性やパフォーマンス,セキュリティなどを大幅に向上させるコンポーネントや更新プログラムも数多く追加されています。Databricksランタaapl . exeムが他のランタaapl . exeムよりも優れている点は次のとおりです。{. .}
DataFrameとは,データをスプレッドシートのような行と列の2次元テーブルに編成するデータ構造のことです。DataFrameは、柔軟かつ直感的にデータの保存や操作ができるため、最新のデータ分析で最も一般的に使用されるデータ構造の 1 つです。{. .}
数据集とは,JavaおよびScala用のタイプセーフな火花の構造化APIです。PythonおよびRは動的型付け言語であるため,このAPIの使用はできませんが,ScalaやJavaで大規模なアプリケーションを作成するための強力なツールです。数据帧は,行型のオブジェクトの分散型コレクションであり,{. .}
深層学習とは,人間の脳の構造と機能にインスパイアされたアルゴリズムを用いて膨大なデータを扱う機械学習のサブセットです。そのため,深層学習モデルはディ,プニュ,ラルネットワ,クと呼ばれます。{. .}
需要予測とは,消費者の重要(すなわ将来の収益)を予測するプロセスです。具体的には,定量的および定性的デ,タを使用して,消費者が購入する商品の品揃えを予測します。{. .}
高密度テンソルとは,全ての値が示される連続したメモリのブロックに値を格納する幾何概念です。テンソルまたは多次元配列は,多様な多次元デ,タ分析アプリケ,ションで使用されます。テンソル計算を実行できるソフトウェア製品は数多くあります。{. .}
デジタルツインとはIBMによると,デジタルツインの従来の定義は,“物理オブジェクトを正確に反映するように設計された仮想モデル”です。{. .}
DNAシーケンスとは,DNA(デオキシリボ核酸)のヌクレオチドの正確な配列を決定するプロセスです。塩基としても知られる4つの化学構成要素(アデニン,グアニン,シトシン,チミン)の順序のDNAシーケンシングは,DNA分子内で発生します。{. .}
ゲノミクスとは,生物のゲノムのシ,ケンシングと分析に関する遺伝学の一分野です。その主な役割は,DNAのシーケンス全体,またはDNAを構成する原子の組成,およびDNA原子間の化学結合を決定することです。ゲノミクスの分野は,{. .}
Hadoopクラスタとは?Apache Hadoopとは,オープンソースのJavaベースのソフトウェアフレームワークで,並列データ処理エンジンです。アルゴリズム(MapReduceアルゴリズムなど)を使用してビッグデータ分析処理タスクを並列実行できる小さなタスクに分割し,{. .}
HDFS (Hadoop分散ファイルシステム)は,Hadoopアプリケーションで使用される主要なストレージシステムです。このオ,プンソ,スのフレ,ムワ,クは,ノ,ド間のデ,タ転送を高速に行うことで動作します。ビッグデ,タを取り扱い,保存する必要のある企業でよく利用されています。{. .}
Apache Hadoopエコシステムとは,Apache Hadoopソフトウェアライブラリのさまざまなコンポーネントを指します。オプンソスプロジェクトだけでなく,補足ルの全てが含まれます。{. .}
コンピューティングにおけるハッシュテーブル[ハッシュマップ]とは,キー[一意の文字列または整数]に基づいてオブジェクトに事実上直接アクセスできるデータ構造です。ハッシュテーブルは,バケットやスロットの配列にインデックス計算を行うために,ハッシュ関数を使用し,そこから目的の値をみつけます。{. .}
ハereplicationブ日付関数とは?Hiveでは,デタの処理や照会を行う際に役立多くの組み込み関数を提供しています。これらの関数が提供する機能には,文字列操作,日付操作,型変換,条件演算子,数学関数などがあります。{. .}
ホスト型のSparkとは?Apache火花とは2009年にUCバークレーで,高速性,使いやすさ,高度な分析を中心として構築されたビッグデータ用の高速で汎用的なクラスタコンピューティングシステムです。Apache Sparkは,Scala, Java, Python, Rの高レベルAPIと,{. .}
Jupyter笔记本はオープンソースで提供されたWebアプリケーションであり,プログラムや数式,その他のマルチメディアリソースを含むドキュメントを作成・共有する目的で,主にデータサイエンティストに利用されます。{. .}
Kerasモデルとは?Kerasとは,TheanoとTensorflow上に構築された深層学習のためのハイレベルのライブラリです。Kerasは,Pythonで記述され,深層学習モデルの範囲を作成するためのクリーンで便利な方法を提供します。{. .}
リテル向けレクハウスは,Databricks初の,業界特化型レクハウスです。ソリュ,ションアクセラレ,タ、データ共有のケイパビリティ、パートナーエコシステムを通じて、小売業者の迅速な業務遂行を支援します。{. .}
ラムダア,キテクチャとは,膨大なデ,タ“ビッグデ,タ”を処理するアプロ,チです。ハイブリッドアプローチを使用してバッチ処理やストリーム処理メソッドへのアクセスを提供し,任意の関数を計算する問題を解決するために使用されます。{. .}
Apache火花の機械学習ライブラリ(MLlib)とは,シンプルでスケーラビリティが高く,他のツールと容易に統合できるように設計された,機械学習を実装するためのツールです。火花のスケーラビリティ,言語の互換性,高速性により,データサイエンティストは,分散データを取り巻く複雑さ(インフラストラクチャ,構成など)の解決ではなく,データの問題とモデルに集中できます。{. .}
機械学習モデルとは,未知のデータセットからパターンを発見したり,判断を導き出すプログラムのことです。例えば,自然言語処理では,機械学習モデルにより,これまで聞き取れなかった文章や単語の組み合わせの背後にある意図を解析し,正しく認識できます。{. .}
マネージド火花とは,マネージド引发は,バッチ処理,クエリ,ストリーミング,機械学習などのオープンソースのデータツールを利用できるマネージドサービスです。ユ,ザ,は,このような自動化を使用することで,オンデマンドでクラスタの迅速な作成や管理を容易し,{. .}
Apache Hadoop MapReduceは,エコシステムの一部であり,Javaベースの分散実行フレームワークです。開発者が実装する地图処理と减少処理の2つの処理ステップを公開することで,分散プログラミングの複雑さを解消します。{. .}
メダリオンアーキテクチャとは,レイクハウスのデータを論理的に整理するために用いられるデータ設計パターンのことです。データがアーキテクチャの3つのレイヤー(ブロンズ⇒シルバー⇒ゴールドのテーブル)を流れる際に,データの構造と品質を増分的かつ漸進的に向上させることを目的としています。{. .}
通常,機械学習アルゴリズムを実行する際には,前処理,特徴抽出,モデル適合,検証など一連のステージのタスクが含まれます。例えば,テキスト文書を分類する場合,テキストのセグメンテーションやクリーニング,特徴量の抽出,交差検証での分類モデルのトレーニングなどがあります。{. .}
MLOpsは,机器学习操作(機械学習オペレーション)の略語です。機械学習エンジニアリングの中核となる MLOps は、機械学習モデルを本番環境に移行し、維持・監視のプロセスを効率化することに重点を置いています。{. .}
モデルリスク管理とは,モデルの誤りまたは誤用に基づく意思決定によって生じる潜在的な悪影響がもたらすリスクを管理することです。モデルリスク管理は、モデルリスク、すなわちモデルの誤りや誤用の可能性を特定、測定、軽減する技術や手法を取り入れることを目的にしています。{. .}
ニューラルネットワークとは,層状構造が人間の脳内にあるニューロンのネットワーク構造に類似した数理モデルです。ニュ,ロンと呼ばれる相互に結合する処理要素を特徴としており,出力機能を生成します。{. .}
オープンバンキングとは,消費者の事前同意のもとに,消費者の金融データへのアクセスをセキュアに共有する方法です²。規制や技術革新,競争の力に後押しされ,オープンバンキングは,銀行以外の第三者や消費者などが顧客データをさらに活用できるよう,顧客データの民主化を呼びかけています。{. .}
オーケストレーションとは複数のコンピュータシステム,アプリケーション,サービスを調整および管理し,大規模なワークフローやプロセスを実行するために複数タスクをつなぎ合わせることです。これらのプロセスは,自動化された複数タスクで構成され,複数のシステムにまたがることもあります。{. .}
設備総合効率(OEE)は製造におけるオペレーションが,予定されている期間中に,その潜在的な能力(設備,時間,材料)に対して,どれだけ利用されているかを示す指標です。{. .}
データサイエンスに関していうと,熊猫DataFrameを使いこなすことで,ビジネスのあり方そのものを変革できるといっても過言ではありません。ただし,そのためには適切なデ,タ構造が必要です。{. .}
Apache铺とは,効率的なデータの保存と検索のために設計された,オープンソースの列指向データファイル形式です。複雑なデータを一括処理するための効率的なデータ圧縮と符号化方式を提供し,パフォーマンスを向上させます。{. .}
金融商品やサービスのコモディティ化が進み,メディアや小売業界がパーソナライズされた体験を好むようになったことで,消費者の目は肥えてきています。消費者から求められるものが日々変化していく中で,銀行がこれからも必要とされ続けるためには,{. .}
予測分析とは,新しいデータと過去のデータを活用してパターンを見つけ出し,将来の結果や傾向を予測する高度な分析手法です。予測分析では,{. .}
予測型メンテナンスとは予測型メンテナンスとは,一言でいうと,予め定められたスケジュールだけでなく,設備の実際の状態や状況に基づき,いつ頃,具体的にどのようなメンテナンスを行うべきかを判断し,設備の稼働時間と生産性を最大化するためのものです。{. .}
PyCharmとは,コンピュ,タプログラミングで使用される統合開発環境(IDE)です。プログラミング言語Python用に作成されています。PyCharmをデータブリックスで使用する場合、デフォルトでは PyCharm は Python の仮想環境を作成しますが、Conda 環境の作成や既存環境の使用設定が可能です。{. .}
PySparkとは?Apache Sparkは,Scalaプログラミング言語。PySparkとは,Sparkを実行するためのPython APIです。Apache火花と Python のコラボレーションをサポートするためにリリースされました。PySpark は、Apache Spark とプログラミング言語 Python での Resilient Distributed Dataset(RDD)との、{. .}
小売業におけるリアルタムデタとは,デタへのリアルタムなアクセスを意味します。バッチ式のアクセス,分析,コンピューティングから,リアルタイムアクセスに移行することで,データは常時稼働の状態となり,正確でタイムリーな意思決定とビジネスインテリジェンスの推進が可能になります。{. .}
レジリエントな分散データセット(抽样)とは,火花のリリース以降,火花の最も基本的なユーザー向けAPIです。コアとなるRDDは,クラスタ内のノ,ド間で分割されたデ,タ要素の不変の分散コレクションで,{. .}
スノーフレークスキーマとは,スタースキーマを拡張した多次元データモデルで,ディメンションテーブルがサブディメンションテーブルに細分化されたものです。{. .}
火花にはDataFrame,数据集,耐障害性分散データセット(抽样)の3種のAPIがあります。耐障害性分散デタセット(rdd)は,分散コンピュティングを用いたレコドの集合体です。フォ,ルトトレラントで不変な性質を有しています。{. .}
火花アプリケーションとは,ドライバプロセスと一連のエグゼキュータプロセスで構成されるアプリケーションプログラムです。ドライバプロセスは,主要()関数を実行し,クラスタのノード上で動作します。また,3の役割があり{. .}
Elasticsearchとは,ドキュメント指向および半構造化データを格納,取得,管理するNoSQL分散データベースです。GitHubのオープンソースであるElasticsearchは,Apache Luceneをベースに構築され,Apacheライセンスの条件下でリリースされたRESTfulな検索エンジンでもあります。{. .}
多くのデータサイエンティスト,アナリスト,一般的なビジネスインテリジェンスユーザーは,データの解析に対話型のSQLクエリに活用しています。Spark SQLは,構造化デ,タ処理のためのSparkモジュ,ルです。数据框架と呼ばれるプログラミングの抽象化が可能で,{. .}
Apache火花ストリーミングは,Apache火花の前世代ストリーミングエンジンです。Sparkストリ,ミングの今後の更新はなく,レガシ,プロジェクトとなります。Apache火花には、「構造化ストリーミング」と呼ばれる新しくて使いやすいストリーミングエンジンがあります。Spark 構造化ストリーミングをご使用ください。{. .}
火花パフォーマンスチューニングとは,システムが使用するメモリやコア,インスタンスなどを記録するための設定を調整する処理のことです。この処理により,Sparkは優れた性能を発揮し,リソ,スのボトルネックの防止も可能になります。{. .}
SparklyrとはR言語とApache火花間のインターフェースを提供するオープンソースのパッケージです。火花では,分散データを低レイテンシで扱えるため,火花の機能を最新のR環境で活用することができるようになりました。{. .}
SparkRとは,R言語をSpark上で動作させるためのルです。Sparkの他の言語バescンディングと同じ原理に基づいています。SparkRを使用するには、環境にインポートしてコードを実行するだけです。Python ではなく R 言語の構文に従っていることを除けば、Python API と非常に類似しています。{. .}
Pythonには,NumPy多次元配列を操作する。PyTensorラ,NumPyを使用することが第一の要件となります。{. .}
スタースキーマとは,データベース内のデータを整理することで理解・分析しやすくなった多次元データモデルで,データウェアハウスやデータベース,データマート,その他のツールに適用できます。{. .}
ストリーミング分析の仕組み:ストリーミング分析(イベントストリーム処理とも呼ばれる)とは,イベントストリームという連続クエリを使用して,現在のデータと移動中のデータの膨大なデータプールを分析することです。このベントストリムは,金融取引,設備故障,ソシャルメディアへの投稿{. .}
構造化ストリ,ミングとは,ストリ,ミングデ,タを処理するための高レベルAPIです。Spark 2.2で実運用が可能になりました。構造化ストリ,ミングでは、Spark の構造化 API を使用してバッチモードで実行するのと同じ操作が、ストリーミング形式で実行可能です。これにより、レイテンシの短縮、{. .}
谷歌は,2015年11月に機械学習のためのフレームワークをオープンソースで公開し,TensorFlowと名付けました。CPU、GPU GPUクラスタでの深層学習,ニューラルネットワーク,一般的な数値計算をサポートしています。{. .}
估计は,完全な高位モデルを表しますが,多くのユーザーにとって直観的ではないようです。估计APIとは,モデルを訓練して,その精度を評価し,推論を作成するためのメソッドを提供する高レベルAPIです。{. .}
トランスフォーメーションとは:火花では,コアとなるデータ構造は不変であり,一度作成したデータ構造は変更できないため,実際に使用する際に,最初はこの概念に疑問を抱くかもしれません。SparkでDataFrameを変更するためには,{. .}
钨は,Apache火花の実行エンジンを変更する包括プロジェクトのコードネームです。火花アプリケーション向けのメモリとCPUの効率を大幅に向上させることに重点を置き,性能を最新のハードウェアの限界に近づけます。{. .}
統合人工知能(可用)は開発者カンファレンス“F8でFacebookによって発表されました。可用はFacebook主導で開発された,PyTorchと咖啡の2つの深層学習フレームワークを統合したもので,PyTorchは大規模なコンピューティングリソースへのアクセスを想定したリサーチに焦点を当て,牛奶は,Androidや覆盆子πデバイスのモデル展開に焦点を当てています。{. .}
統合デ,タ分析とは,デ,タ処理をai技術と統合する新しいカテゴリのソリュ,ションです。企業組織にとってのaiの実現可能性を格段に高め,aiへの取り組みを加速化させます。統合デ,タ分析により、企業におけるサイロ化されたデータストレージシステム間でのデータパイプラインの構築や、{. .}
データブリックスの統合データ分析プラットフォームは,データサイエンスをエンジニアリングとビジネスに統合し,組織のイノベーションを加速させます。データブリックスを統合データ分析プラットフォームとして使用することで,大規模なデータを制限なく迅速に準備し,クリーンアップすることができます。
{. .}
統合データウェアハウス(エンタープライズデータウェアハウスとも呼ばれる)は,業務に関わるあらゆるデータを保持し,エンタープライズ全体でのアクセスが可能な統合データベースです。今日,多くの企業においてデ,タはサ,ロ化されています。{. .}
Apache Hadoop是一个开源的、bob下载地址基于java的软件平台,用于管理大数据应用程序的数据处理和存储。bob体育客户端下载该平台的bob体育客户端下载工作原理是将Hadoop大数据和分析作业分布到计算集群中的节点上,将它们分解为可以在pa中运行的更小的工作负载{. .}