失效链接处理 |
Spark大数据分析核?j)概忉|术及(qing)实践 PDF 下蝲
转蝲自:(x)https://www.jb51.net/books/628498.html
本站整理下蝲Q?/strong>
版权归出版社和原作者所有,链接已删除,误买正?/b>
用户下蝲说明Q?/strong>
?sh)子版仅供预览,下蝲?4时内务必删除,支持正版Q喜Ƣ的误买正版书c:(x)
http://product.dangdang.com/25079964.html
相关截图Q?br />
![]() 资料介:(x) 本书是关于大数据和Spark的一个简明手册。它?yu)助你学习(fn)如何用Spark来完成很多大数据分析dQ其中覆盖了(jin)高效利用Spark所需要知道的重要主题Q如何用SparkShellq行交互式数据分析、如何编写Spark应用、如何在Spark中对大规模数据进行交互分析、如何用SparkStreaming处理高速数据流、如何用Sparkq行机器学习(fn)、如何用Sparkq行囑֤理、如何用集管理员部vSpark、如何监控Spark应用{。本书还对其他配合Spark一起用的大数据技术进行了(jin)介绍Q包括HDFS、Avro、Parquet、Kafka、Cassandra、HBase、Mesos{。本书也Ҏ(gu)器学?fn)和囄概念q行?jin)介l?/span> 资料目录Q?/strong> 译者序 前言 致谢 W?章 大数据技术一? 1.1 Hadoop2 1.1.1 HDFS3 1.1.2 MapReduce5 1.1.3 Hive5 1.2 数据序列? 1.2.1 Avro6 1.2.2 Thrift6 1.2.3 Protocol Buffers7 1.2.4 SequenceFile7 1.3 列存? 1.3.1 RCFile8 1.3.2 ORC8 1.3.3 Parquet9 1.4 消息pȝ9 1.4.1 Kafka10 1.4.2 ZeroMQ11 1.5 NoSQL12 1.5.1 Cassandra13 1.5.2 HBase13 1.6 分布式SQL查询引擎14 1.6.1 Impala14 1.6.2 Presto14 1.6.3 Apache Drill15 1.7 ȝ15 W?章 Scala~程16 2.1 函数式编E?6 2.1.1 函数17 2.1.2 不可变数据结?8 2.1.3 一切皆表达?9 2.2 Scala基础19 2.2.1 h20 2.2.2 基础cd20 2.2.3 变量21 2.2.4 函数21 2.2.5 c?4 2.2.6 单例24 2.2.7 hc?5 2.2.8 模式匚w25 2.2.9 操作W?6 2.2.10 特质26 2.2.11 元组27 2.2.12 Optioncd27 2.2.13 集合28 2.3 一个单独的Scala应用E序32 2.4 ȝ32 W?章 Spark Core33 3.1 概述33 3.1.1 主要特点33 3.1.2 理想的应用程?6 3.2 M架构37 3.2.1 worker37 3.2.2 集群理?8 3.2.3 驱动E序38 3.2.4 执行?8 3.2.5 d38 3.3 应用q行38 3.3.1 术语38 3.3.2 应用q行q程39 3.4 数据?9 3.5 API40 3.5.1 SparkContext40 3.5.2 RDD41 3.5.3 创徏RDD42 3.5.4 RDD操作43 3.5.5 保存RDD52 3.6 惰性操?3 3.7 ~存54 3.7.1 RDD的缓存方?5 3.7.2 RDD~存是可定w?6 3.7.3 ~存内存理56 3.8 Spark作业56 3.9 ׃n变量57 3.9.1 q播变量57 3.9.2 累加?8 3.10 ȝ59 W?章 使用Spark shellq行交互式数据分?0 4.1 h60 4.1.1 下蝲60 4.1.2 解压61 4.1.3 q行61 4.2 REPL命o(h)62 4.3 把Spark shell当成Scala shell使用62 4.4 数值分?3 4.5 日志分析64 4.6 ȝ68 W?章 ~写Spark应用69 5.1 Spark中的Hello World69 5.2 ~译q运行应?2 5.2.1 sbt72 5.2.2 ~译代码73 5.2.3 q行应用73 5.3 监控应用75 5.4 调试应用75 5.5 ȝ76 W?章 Spark Streaming77 6.1 Spark Streaming?8 6.1.1 Spark Streaming是一个Sparkcd78 6.1.2 M架构78 6.1.3 数据来?8 6.1.4 接收?9 6.1.5 目的?9 6.2 API79 6.2.1 StreamingContext80 6.2.2 Spark Streaming应用基本l构82 6.2.3 DStream82 6.2.4 创徏DStream83 6.2.5 处理数据?4 6.2.6 输出操作88 6.2.7 H口操作91 6.3 一个完整的Spark Streaming应用93 6.4 ȝ98 W?章 Spark SQL99 7.1 Spark SQL?9 7.1.1 和其他Spark库集?00 7.1.2 可用?00 7.1.3 数据?00 7.1.4 数据处理接口100 7.1.5 与Hive的互操作?01 7.2 性能101 7.2.1 盘I(y)/O101 7.2.2 分区102 7.2.3 列存?02 7.2.4 内存中的列式~存102 7.2.5 行蟩q?02 7.2.6 谓词下推102 7.2.7 查询优化103 7.3 应用104 7.3.1 ETL104 7.3.2 数据可视?04 7.3.3 分布式JDBC/ODBC SQL查询引擎105 7.3.4 数据仓库105 7.4 API106 7.4.1 关键抽象106 7.4.2 创徏DataFrame109 7.4.3 在程序中使用SQL/HiveQL处理数据114 7.4.4 使用DataFrame API处理数据115 7.4.5 保存DataFrame131 7.5 内置函数133 7.5.1 聚合操作134 7.5.2 集合操作134 7.5.3 日期/旉134 7.5.4 数学135 7.5.5 字符?35 7.5.6 H口135 7.6 UDF和UDAF135 7.7 一个交互式分析的例?35 7.8 使用Spark SQL JDBC服务器进行交互式分析142 7.9 ȝ145 W?章 使用Sparkq行机器学习(fn)146 8.1 机器学习(fn)?46 8.1.1 特征147 8.1.2 标签147 8.1.3 模型148 8.1.4 训练数据148 8.1.5 试数据149 8.1.6 机器学习(fn)应用149 8.1.7 机器学习(fn)法151 8.1.8 参?60 8.1.9 模型评h(hun)160 8.1.10 机器学习(fn)的主要步?62 8.2 Spark机器学习(fn)?62 8.3 MLlib概览163 8.3.1 与其他Spark库集?63 8.3.2 l计工具163 8.3.3 机器学习(fn)法163 8.4 MLlib API164 8.4.1 数据cd164 8.4.2 法和模?66 8.4.3 模型评h(hun)181 8.5 MLlibCZ应用184 8.5.1 数据?84 8.5.2 目标184 8.5.3 代码184 8.6 Spark ML186 8.6.1 ML数据?87 8.6.2 Transformer187 8.6.3 Estimator187 8.6.4 Pipeline188 8.6.5 PipelineModel188 8.6.6 Evaluator188 8.6.7 |格搜烦(ch)189 8.6.8 CrossValidator189 8.7 Spark MLCZ应用189 8.7.1 数据?90 8.7.2 目标190 8.7.3 代码190 8.8 ȝ195 W?章 使用Sparkq行囑֤?96 9.1 囄?96 9.1.1 无向?97 9.1.2 有向?97 9.1.3 有向多边?97 9.1.4 属性图197 9.2 GraphX?98 9.3 GraphX API199 9.3.1 数据抽象199 9.3.2 创徏?00 9.3.3 囑ֱ?02 9.3.4 图操作符204 9.4 ȝ217 W?0章 集群理?18 |