失效链接处理 |
大数据技术之Spark基础解析 PDF 下蝲
本站整理下蝲Q?/strong>
链接Q?a target="_blank">https://pan.baidu.com/s/1OOzVirXhR1e8wV3T3vMBfw
提取码:(x)h38x
相关截图Q?/strong>
![]()
主要内容Q?/strong>
W?1 ?Spark 概述 1.1什么是 Spark Spark 是一U快速、通用、可扩展的大数据分析引擎Q?009 q诞生于加州大学伯克利分?AMPLabQ?010 q开源,2013 q?6 月成?Apache 孵化目Q?014 q?2 月成?Apache 目。项目是?Scala q行~写?1.2Spark 内置模块 Spark CoreQ实C Spark 的基本功能,包含d调度、内存管理、错误恢复、与存储 pȝ交互{模块。Spark Core 中还包含了对Ҏ(gu)分布式数据?Resilient Distributed DataSetQ?U?RDD)?API 定义?Spark SQLQ是Spark用来操作l构化数据的E序包。通过Spark SQLQ我们可以?SQL 或?Apache Hive 版本?SQL 方言(HQL)来查询数据。Spark SQL 支持多种数据源,比如 Hive 表、Parquet 以及(qing) JSON {?Spark StreamingQ是 Spark 提供的对实时数据q行式计算的组件。提供了用来操作?据流?APIQƈ且与 Spark Core 中的 RDD API 高度对应?Spark MLlibQ提供常见的机器学习(fn)(ML)功能的程序库。包括分cR回归、聚cR协?qo(h){,q提供了模型评估、数?导入{额外的支持功能?/div>
集群理器:(x)Spark 设计为可以高效地在一个计节点到数千个计节点之间~计 。ؓ(f)了实现这L(fng)要求Q同时获得最大灵zL,Spark 支持在各U集管理器(Cluster Manager)上运行,包括 Hadoop YARN、Apache MesosQ以?Spark 自带的一个简易调?器, 叫作独立调度器?Spark 得到了众多大数据公司的支持,q些公司包括 Hortonworks、IBM、Intel、Cloudera?MapR、Pivotal、百度、阿里、腾讯、京东、携E、优酷土豆。当前百度的 Spark 已应用于 大搜索、直辑֏、百度大数据{业务;阉K利用 GraphX 构徏了大规模的图计算和图挖掘p?l,实现了很多生产系l的推荐法Q腾?Spark 集群辑ֈ 8000 台的规模Q是当前已知?世界上最大的 Spark 集群?1.3 Spark 特点 快与 Hadoop ?MapReduce 相比QSpark Z内存的运要?100 倍以上,Z?盘的q算也要?10 倍以上。Spark 实现了高效的 DAG 执行引擎Q可以通过Z 内存来高效处理数据流。计的中间l果是存在于内存中的?易用Spark 支持 Java、Python ?Scala ?APIQ还支持过 80 U高U算法,使用户可 以快速构Z同的应用。而且 Spark 支持交互式的 Python ?Scala ?shellQ可?非常方便地在q些 shell 中?Spark 集群来验证解决问题的Ҏ(gu)?通用Spark 提供了统一的解x案。Spark 可以用于批处理、交互式查询QSpark SQLQ?实时处理(Spark StreamingQ、机器学?fn)(Spark MLlibQ和图计(GraphXQ?q些不同cd的处理都可以在同一个应用中无缝使用。Spark l一的解x案非 常具有吸引力Q毕竟Q何公叔R想用l一的^台去处理遇到的问题,减少开发和 l护的h力成本和部vq_的物力成本?兼容?/div>
Spark 可以非常方便C其他的开源品进行融合。比如,Spark 可以使用 Hadoop ?YARN ?Apache Mesos 作ؓ(f)它的资源理和调度器Q器Qƈ且可以处理所?Hadoop 支持的数据,包括 HDFS、HBase ?Cassandra {。这对于已经部v Hadoop 集群的用L(fng)别重要,因ؓ(f)不需要做M数据q移可以?Spark 的强大处?能力。Spark 也可以不依赖于第三方的资源管理和调度器,它实C Standalone 作ؓ(f)其内|的资源理和调度框Ӟq样q一步降低了 Spark 的用门槛,使得 所有h都可以非常容易地部v和?Spark。此外,Spark q提供了?EC2 上部 |?Standalone ?Spark 集群的工兗?W?2 ?Spark q行模式 2.1 Spark 安装地址 1Q官|地址 http://spark.apache.org/ 2Q文查看地址 https://spark.apache.org/docs/2.1.1/ 3Q下载地址 https://spark.apache.org/downloads.html 2.3 Local 模式 2.3.1 概述 Local 模式是q行在一台计机上的模式Q通常是用于在本Zl手和测 试。它可以通过以下集中方式讄 Master Local:所有计都q行在一个线E当中,没有Mq行计算Q通常我们在本机执 一些测试代码,或者练手,qq种模式 Local[K]指定使用几个U程来运行计,比如 local[4]是q行 4 ?Worker U程。通常我们?Cpu 有几?CoreQ就指定几个U程Q最大化利用 Cpu 的计?能力Loca[*]q种模式直接帮你按照 Cpu 最?Cores 来设|线E数了?2.3.2 安装使用 1Q上传ƈ解压 spark 安装?[itstar@bigdata111 sorfware]$ tar -zxvf spark-2.1.1-bin-hadoop2.7.tgz -C /opt/module/ [itstar@bigdata111 module]$ mv spark-2.1.1-bin-hadoop2.7 spark
2Q官Ҏ(gu) PI 案例 [itstar@bigdata111 spark]$ bin/spark-submit \ --class org.apache.spark.examples.SparkPi \ --executor-memory 1G \ --total-executor-cores 2 \ ./examples/jars/spark-examples_2.11-2.1.1.jar \ 100 Q?Q基本语?bin/spark-submit \ --class <main-class> --master <master-url> \ --deploy-mode <deploy-mode> \ --conf <key>=<value> \ ... # other options <application-jar> \ [application-arguments] Q?Q参数说明:(x) --master 指定 Master 的地址Q默认ؓ(f) Local --class: 你的应用的启动类 (?org.apache.spark.examples.SparkPi) --deploy-mode: 是否发布你的驱动?worker 节点(cluster) 或者作Z个本地客L(fng) (client) (default: client)* --conf: L?Spark 配置属性, 格式 key=value. 如果值包含空|可以加引?“key=value” application-jar: 打包好的应用 jar,包含依赖. q个 URL 在集中全局可见。比?hdfs:// ׃n存储pȝQ?如果?file:// pathQ?那么所有的节点?path 都包含同L(fng) jar application-arguments: 传给 main()Ҏ(gu)的参?--executor-memory 1G 指定每个 executor 可用内存?1G --total-executor-cores 2 指定每个 executor 使用?cup 核数?2 ?3Q结果展C?该算法是利用蒙特·卡罗法?PI
|