Apache Spark是一个用于大规模数据处理的快速通用引擎,它拥有Hadoop MapReduce所具有的优点,但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
1、高速:运行程序的速度在存储器中比Hadoop MapReduce快上百倍,在磁盘中比Hadoop MapReduce快数十倍。
Spark 拥有一个先进的DAG执行引擎,支持循环数据流和内存计算。
2、易用:编写Java、Scala、Python、R程序快速高效。
Spark提供超过80个易于构建并行应用程序的高阶运算符,你也可以在Scala、 Python和R shells中对它进行交互使用。
3、通用:可结合SQL、流媒体和复杂的分析。
Spark支持一系列元件库堆栈,包括SQL与 DataFrames,用于机器学习的MLlib ,GraphX,Spark Streaming。你可以在同一个应用程序无缝地结合这些元件库。
4、无处不在:Spark可以运行在Hadoop、Mesos、standalone以及云端。它可以访问包括 HDFS、 Cassandra、 HBase和S3在内的不同数据源。
你可以使用其独立集群模式来运行Spark,运行在 EC2、 Hadoop YARN还是Apache Mesos都不是问题。它可以访问HDFS、Cassandra、HBase、Hive、Tachyon等任意的Hadoop数据源。
开发环境 / 21.4 MB
开发环境 / 29.13 MB
开发环境 / 214.26 MB
开发环境 / 53.7 MB
开发环境 / 523.4 MB
软件评论
请自觉遵守互联网相关政策法规,评论内容只代表网友观点,与本站立场无关!
2016-08-05 17:12 支持(4) 回复