Apache火花

Apache Spark ist eine blitzschnellebob体育亚洲版统一的分析引擎,大数据和机器学习的研究。2009年加州大学伯克利分校的引擎框架。

Das größte open - source - project in der Geschichte der Datenverarbeitung

Seit ihrer Freigabe hat die统bob体育亚洲版一分析引擎Apache的火花,艾因扎格在《未到的地方》中。Online-Riesen, wie Netflix, Yahoo和eBay, haben Spark在Umfang进行了大规模的收购。Gemeinschaftlich haben sie bereits mehere Petabyte an Daten auf群集mit mehr als 8 000 Knoten verarbeitet。Rasch hat sich das Projekt zur größten开源社区im大数据- berich entwickert - mit über 1.000 aktiv beitrenden Entwicklern aus mehr als 250 Unternehmen und organisen。
Spark - Apache Spark

Dasselbe团队,dass das Forschungsprojekt ursprünglich in Leben gerufen hatte, gründete 2013 Databricks。

Apache Spark ist zu 100 Prozent开bob下载地址源。Gehostet wid es bei der anbieterunabhängigen Apache软件基金会。数据库setzt sich für die Aufrechterhaltung dieses offenen Entwicklungsmodells in。Gemeinsam mit der Spark-Community leistet Databricks deshalb auch weiterhin einen großen Beitrag zum Apache Spark-Projekt。


Das Ökosystem von Apache Spark

Spark SQL + DataFrames

Strukturierte Daten: Spark SQL

数据科学家,数据分析师和Nutzer geschäftlicher Daten verlassen sich für Datenuntersuchungen auf interaktive SQL-Abfragen。Spark SQL ist in Spark- module zur Verarbeitung von strukturierten Daten。SQL-Abfrage-Engine verwendet werden数据库框架和数据库概要。所以können unveränderte Hadoop Hive-Abfragen auf vorhandenen Bereitstellungen und Daten bis zu 100-mal schneller ausgeführt werden。Außerdem ist sie gut in das übrige Spark-Ökosystem integrert (so kann sie die Verarbeitung von SQL-Abfragen in Machine Learning integreren)。

流媒体

Streaming- analysen: Spark Streaming

Viele Anwendungen müssen nicht nur批处理数据verarbeiten and analysieren können, sondern auch流处理数据- in Echtzeit。Spark Streaming läuft auf Spark und ermöglicht leistungsstarke interaktive und analytische Anwendungen, sowohl für Streaming-Daten als auch für historische Daten。大不werden die and wenderfreundhen and fehlertolerten Eigenschaften von Spark bebehalten。Die Lösung lässt sich leicht in eine Vielzahl von beliebten Datenquellen integreren, wie HDFS, Flume, Kafka oder Twitter。

MLlib机器学习

机器学习:MLlib

机器学习系统大数据系统prozessfähiger Erkenntnisse。MLlib basiert auf Spark und ist eine skalierbare机器学习- bibliothek, die neben qualitativ hochwertigen算法(zum Beispiel mehere Durchläufe, um eine höhere Genauigkeit zu erzielen) auch eine erhebliche Geschwindigkeit bietet (bis zu 100-mal schneller als MapReduce)。Die Bibliothek kann在Java, Scala和Python als Teil von Spark-Anwendungen genutzt werden, sodass sie在komplette工作流程eingefügt werden kann。

GraphXDiagramm-berechnung

Diagrammberechnung: GraphX

GraphX ist eine Spark-basierte Engine zur Diagrammberechnung, die ihren Anwendern die Möglichkeit bietet, interaktiv strukturierte Diagrammdaten in großem Umfang zu erstellen, umzuwandeln und auszuwerten。模具引擎enthält eine Bibliothek mit häufig verwendeten算法。

火花核心api

Allgemeine Ausführung: Spark Core

Spark Core ist die der Spark- platform zugrunde liegende Engine, auf der alle anderen Funktionen aufbauen。Die Engine bietet In-Memory-Berechnungsmöglichkeiten für mehr Geschwindigkeit, ein allgemeines Ausführungsmodell zur Unterstützung einer Vielzahl unterschiedlicher Anwendungen, sowie Java-, Scala-, und Python-APIs um Die Entwicklung zu vereinfachen。

R
SQL
Python
Scala
Java

它是Apache Spark吗?- Vorteile von Apache Spark

Geschwindigkeit

火花wurde entwickelt,嗯eine möglichst gute性能gewährleisten zu können。Selbst riesige Datenmengen könnenmit der Engine 100-mal schneller verarbeitet werden, als mit Hadoop。Dafür sorgen In-Memory-Berechnungen and weitere Optimierungen。火花在那里,在那一天的节日里。Derzeit hält es den Weltrekord im Sortieren von umfangreichen Datenmengen auf Festplatten。

Anwenderfreundlichkeit

Spark beitzt anwenderfreundliche api für den Betrieb umfangreicher Datenmengen。Hierzu zählt auh eine Sammlung aus über 100 Operatoren für die Umwandlung von Daten und bekannten数据框架- api zur Bearbeitung von半strukturierten Daten。

Eine einheitliche Engine

Spark wid mit vielen höherrangigen Bibliotheken geliefert, darunter支持für SQL-Abfragen, Streaming-Daten,机器学习和Diagrammverarbeitung。Diese标准书目steigern die Produktivität der Entwickler und können nahtlos kombiniert werden, um complexe工作流程zu erstellen。

在数据库云中测试Apache Spark kostenlos

Die Databricks统bob体育亚洲版一分析-平台bietet Die 5-fache性能开源-变体von Spark, gemeinschaftlbob下载地址ich nutzbare笔记本,集成工作流和Sicherheit auf Enterprise-Niveau - dies alles, auf einer vollständig verwalteten云平台。

砖testen

Das开源apache Spark-Projekt kann海尔heruntergeladen