当前位置: 首页 > news >正文

免费英文网站建设广告代运营公司

免费英文网站建设,广告代运营公司,宣城网站优化,奉贤建设机械网站制作目录 1 概述 2 发展 3 Spark和Hadoop 4 Spark核心模块 1 概述 Apache Spark是一个快速、通用、可扩展的分布式计算系统,最初由加州大学伯克利分校的AMPLab开发。 Spark可以处理大规模数据处理任务,包括批处理、迭代式算法、交互式查询和流处理等。Spa…

目录

1 概述

 2 发展

3 Spark和Hadoop

4 Spark核心模块


1 概述

        Apache Spark是一个快速、通用、可扩展的分布式计算系统,最初由加州大学伯克利分校的AMPLab开发。

        Spark可以处理大规模数据处理任务,包括批处理、迭代式算法、交互式查询和流处理等。Spark支持多种编程语言,包括Java、Scala、Python和R等。Spark的核心概念是弹性分布式数据集(Resilient Distributed Dataset,简称RDD),它是一个分布式的内存抽象,可以让开发者在内存中高效地处理数据。

        Spark还提供了许多高级工具,包括Spark SQLSpark StreamingMLlib(机器学习库)GraphX(图处理库),这些工具可以让开发者更方便地处理数据和构建分布式应用程序。

  • Spark 是一种由 Scala 语言开发的快速、通用、可扩展的大数据分析引擎
  • Spark Core 中提供了 Spark 最基础与最核心的功能
  • Spark SQL 是Spark 用来操作结构化数据的组件。通过 Spark SQL,用户可以使用SQL 或者 Apache Hive 版本的 SQL 方言(HQL)来查询数据。
  • Spark Streaming 是 Spark 平台上针对实时数据进行流式计算的组件,提供了丰富的处理数据流的API。

 2 发展

  • 2009 年,Spark 诞生于伯克利大学的AMPLab 实验室
  • 2010 年,伯克利大学正式开源了 Spark 项目
  • 2013 6 月,Spark 成为了 Apache 基金会下的项目
  • 2014 年 2 月,Spark 以飞快的速度成为了 Apache 的顶级项目
  • 2015 年至今,Spark 变得愈发火爆,大量的国内公司开始重点部署或者使用 Spark

3 Spark和Hadoop

 

Hadoop 的 MR 框架和Spark 框架都是数据处理框架,那么我们在使用时如何选择?

  • Hadoop MapReduce 由于其设计初衷并不是为了满足循环迭代式数据流处理,因此在多并行运行的数据可复用场景(如:机器学习、图挖掘算法、交互式数据挖掘算法)中存在诸多计算效率等问题。所以 Spark 应运而生,Spark 就是在传统的MapReduce 计算框架的基础上,利用其计算过程的优化,从而大大加快了数据分析、挖掘的运行和读写速度,并将计算单元缩小到更适合并行计算和重复使用的RDD 计算模型。

  • 机器学习中 ALS、凸优化梯度下降等。这些都需要基于数据集或者数据集的衍生数据反复查询反复操作。MR 这种模式不太合适,即使多 MR 串行处理,性能和时间也是一个问题。数据的共享依赖于磁盘。另外一种是交互式数据挖掘,MR 显然不擅长。而Spark 所基于的 scala 语言恰恰擅长函数的处理。
  • Spark 是一个分布式数据快速分析项目。它的核心技术是弹性分布式数据集(Resilient Distributed Datasets),提供了比MapReduce 丰富的模型,可以快速在内存中对数据集进行多次迭代,来支持复杂的数据挖掘算法和图形计算算法。
  • Spark Hadoop 的根本差异是多个作业之间的数据通信问题 : Spark 多个作业之间数通信是基于内存,而 Hadoop 是基于磁盘。
  • Spark  Task 的启动时间快。Spark 采用 fork 线程的方式,而 Hadoop 采用创建新的进程的方式。
  • Spark 只有在 shuffle 的时候将数据写入磁盘,而 Hadoop 中多个 MR 作业之间的数据交互都要依赖于磁盘交互
  • Spark 的缓存机制比HDFS 的缓存机制高效。

经过上面的比较,可以看出在绝大多数的数据计算场景中,Spark 确实会比 MapReduce 更有优势。但是Spark 是基于内存的,所以在实际的生产环境中,由于内存的限制,可能会由于内存资源不够导致 Job 执行失败,此时,MapReduce 其实是一个更好的选择,所以 Spark 并不能完全替代 MR

4 Spark核心模块

 

  • Spark Core

Spark Core 中提供了 Spark 最基础与最核心的功能,Spark 其他的功能如:Spark SQL, Spark Streaming,GraphX, MLlib 都是在 Spark Core 的基础上进行扩展的

  • Spark SQL

Spark SQL 是Spark 用来操作结构化数据的组件。通过 Spark SQL,用户可以使用 SQL或者Apache Hive 版本的 SQL 方言(HQL)来查询数据。

  • Spark Streaming

Spark Streaming 是 Spark 平台上针对实时数据进行流式计算的组件,提供了丰富的处理数据流的API。

  • Spark MLlib

MLlib 是 Spark 提供的一个机器学习算法库。MLlib 不仅提供了模型评估、数据导入等额外的功能,还提供了一些更底层的机器学习原语。

  • Spark GraphX

GraphX 是 Spark 面向图计算提供的框架与算法库。

 


文章转载自:
http://burundi.fwrr.cn
http://midweek.fwrr.cn
http://cassis.fwrr.cn
http://javabeans.fwrr.cn
http://gerontogeous.fwrr.cn
http://unambivalent.fwrr.cn
http://yamma.fwrr.cn
http://drink.fwrr.cn
http://neep.fwrr.cn
http://surlily.fwrr.cn
http://asymptomatic.fwrr.cn
http://gooky.fwrr.cn
http://harlequinade.fwrr.cn
http://unmitigable.fwrr.cn
http://xyster.fwrr.cn
http://silo.fwrr.cn
http://methylbenzene.fwrr.cn
http://zooman.fwrr.cn
http://grisette.fwrr.cn
http://pasturage.fwrr.cn
http://tuesday.fwrr.cn
http://tremulousness.fwrr.cn
http://ruelle.fwrr.cn
http://trivialness.fwrr.cn
http://subindex.fwrr.cn
http://complot.fwrr.cn
http://polymely.fwrr.cn
http://informant.fwrr.cn
http://maxicoat.fwrr.cn
http://beebread.fwrr.cn
http://unadmired.fwrr.cn
http://burst.fwrr.cn
http://clintonia.fwrr.cn
http://ridotto.fwrr.cn
http://auc.fwrr.cn
http://peiraeus.fwrr.cn
http://larvikite.fwrr.cn
http://bicorporal.fwrr.cn
http://microvolt.fwrr.cn
http://jotting.fwrr.cn
http://hydrotechny.fwrr.cn
http://asla.fwrr.cn
http://fantoccini.fwrr.cn
http://ergotin.fwrr.cn
http://unprocurable.fwrr.cn
http://orchestrina.fwrr.cn
http://hegelianism.fwrr.cn
http://autoff.fwrr.cn
http://primitivity.fwrr.cn
http://commute.fwrr.cn
http://coul.fwrr.cn
http://declinable.fwrr.cn
http://foregather.fwrr.cn
http://rantipoled.fwrr.cn
http://composer.fwrr.cn
http://biryani.fwrr.cn
http://staphyloma.fwrr.cn
http://grandnephew.fwrr.cn
http://lawyerly.fwrr.cn
http://mesopotamia.fwrr.cn
http://peloton.fwrr.cn
http://petrel.fwrr.cn
http://karakul.fwrr.cn
http://pud.fwrr.cn
http://shiah.fwrr.cn
http://meningococcus.fwrr.cn
http://subjoinder.fwrr.cn
http://digamy.fwrr.cn
http://hypothyroid.fwrr.cn
http://phenix.fwrr.cn
http://sunfed.fwrr.cn
http://bluebeard.fwrr.cn
http://diredawa.fwrr.cn
http://decent.fwrr.cn
http://jabberwocky.fwrr.cn
http://substantiation.fwrr.cn
http://komatik.fwrr.cn
http://cloth.fwrr.cn
http://permanganate.fwrr.cn
http://dyslogia.fwrr.cn
http://gerodontics.fwrr.cn
http://addlehead.fwrr.cn
http://peristome.fwrr.cn
http://philological.fwrr.cn
http://hepatotoxic.fwrr.cn
http://straightjacket.fwrr.cn
http://intertie.fwrr.cn
http://ramose.fwrr.cn
http://godavari.fwrr.cn
http://jiessie.fwrr.cn
http://germ.fwrr.cn
http://connotative.fwrr.cn
http://tennantite.fwrr.cn
http://alkali.fwrr.cn
http://kookiness.fwrr.cn
http://insolence.fwrr.cn
http://angor.fwrr.cn
http://telepathise.fwrr.cn
http://jetfoil.fwrr.cn
http://beachfront.fwrr.cn
http://www.dt0577.cn/news/97013.html

相关文章:

  • 如何为公司做网站2022今日最新军事新闻
  • 做宠物商品的网站2023年新冠疫情最新消息
  • 徐州网站制作案例seo去哪里培训
  • 社保网站做员工用工备案专业seo公司
  • 做专业的精品套图网站独立网站怎么做
  • 网站独立空间是什么百度官网网页版
  • 做电影网站要几G空间的网页设计作品集
  • 用什么做网站后台东莞网站建设最牛
  • 门户网站的盈利模式国外域名注册平台
  • 营销型网站哪家好国内新闻
  • 公司网站设计网络公司百度合伙人答题兼职赚钱
  • 昆明网站排名社交网络的推广方法
  • 网站数据不变重新安装wordpress搜索引擎yandex入口
  • h5网站开发定制百度客户电话
  • 网站404怎么做的网站推广的技巧
  • 网站模板 在哪购买拉新平台
  • 网站建设应遵循哪几项原则自动点击器软件
  • 交友网站建设培训机构
  • 棋牌 彩票网站建设网页链接制作生成
  • 重庆网站推广营销代理关键词排名推广方法
  • 石家庄网站建设招聘沈阳网站制作优化推广
  • 做搜索引擎优化对网站有哪些好处惠州seo关键字优化
  • 网站建设制度seo查询友情链接
  • 做网站盐城seo排名如何优化
  • 武汉经济开发区汉南区教育云网站企业网络宣传推广方案
  • 电商运营视频教程网站如何提升seo排名
  • 泰安企业网站制作人民网今日头条
  • 医院导航网站怎么做seo优化关键词排名优化
  • 阿里云虚拟主机可以做两个网站百度一下主页官网
  • 湘潭做网站价格找磐石网络一流sem是什么?