失效链接处理 |
Spark大数据分析实?PDF 下蝲
转蝲自:(x)https://www.jb51.net/books/626015.html
本站整理下蝲Q?/strong>
版权归出版社和原作者所有,链接已删除,误买正?/b>
用户下蝲说明Q?/strong>
?sh)子版仅供预览,下蝲?4时内务必删除,支持正版Q喜Ƣ的误买正版书c:(x)
http://e.dangdang.com/products/1900542881.html
相关截图Q?br />
![]() 资料介:(x) q是一本根据应用场景讲解如何通过Sparkq行大数据分析与应用构徏的著作,以实战ؓ(f)导向。作者结合典型应用场景,抽象出通用与简化后的模型,以便于读者能举一反三Q直接应用。本书首先从技术层面讲解了Spark的机制、生态系l与开发相关的内容Q然后从应用角度讲解了日志分析、推荐系l、情感分析、协同过滤、搜索引擎、社交网l分析、新L据分析等多个常见的大数据场景下的数据分析。在每个场景中,首先是对场景q行抽象与概括,然后Spark融入其中构徏数据分析法与应用,最后结合其他开源系l或工具构徏更ؓ(f)丰富的数据分析流水线?q是一本根据应用场景讲解如何通过Spark行大数据分析与应用构建的著作Q以实战为导向。作者结合典型应用场景,抽象出通用与简化后的模型,以便于读者能举一反三Q直应用?/span> 本书首先从技术层面讲解了Spark的机制、生态系l与发相关的内容Q然后从应用角度讲解了日志分析、推荐系l、情感分析、协同过滤、搜索引擎、社交网l分析、新L据分析等多个常见的大数据场景下的数据分析。在每个场景中,首先是对场景行抽象与概括Q然后将Spark融其中构建数据分析算法与应用Q最后结合其他源pȝ或工h建更Z富的数据分析水Uѝ?/span> 资料目录Q?/strong> 前言 W??Spark?/p> 1.1 初识Spark 1.2 Spark生态系lBDAS 1.3 Spark架构与运行逻辑 1.4 Ҏ(gu)分布式数据?/p> 1.4.1 RDD?/p> 1.4.2 RDD子分类 1.5 本章结 W??Spark开发与环境配置 2.1 Spark应用开发环境配|?/p> 2.1.1 使用Intellij开发SparkE序 2.1.2 使用SparkShellq行交互式数据分?/p> 2.2 q程调试SparkE序 2.3 Spark~译 2.4 配置Spark源码阅读环境 2.5 本章结 W??BDAS?/p> 3.1 SQL on Spark 3.1.1 Z么用Spark SQL 3.1.2 Spark SQL架构分析 3.2 Spark Streaming 3.2.1 Spark Streaming?/p> 3.2.2 Spark Streaming架构 3.2.3 Spark Streaming原理剖析 3.3 GraphX 3.3.1 GraphX?/p> 3.3.2 GraphX的用简?/p> 3.3.3 GraphX体系l构 3.4 MLlib 3.4.1 MLlib?/p> 3.4.2 MLlib中的聚类和分c?/p> 3.5 本章结 W??Lamda架构日志分析水U?/p> 4.1 日志分析概述 4.2 日志分析指标 4.3 Lamda架构 4.4 构徏日志分析数据水U?/p> 4.4.1 用Flumeq行日志采集 4.4.2 用Kafka日志汇?/p> 4.4.3 用Spark Streamingq行实时日志分析 4.4.4 Spark SQLȝ日志分析 4.4.5 用Flask日志KPI可视?/p> 4.5 本章结 W??Z云^台和用户日志的推荐系l?/p> 5.1 Azure云^台简?/p> 5.1.1 Azure|站模型 5.1.2 Azure数据存储 5.1.3 Azure Queue消息传?/p> 5.2 pȝ架构 5.3 构徏Node.js应用 5.3.1 创徏Azure Web应用 5.3.2 构徏本地Node.js|站 5.3.3 发布应用Cq_ 5.4 数据攉与预处理 5.4.1 通过JS攉用户行ؓ(f)日志 5.4.2 用户实时行ؓ(f)回传到Azure Queue 5.5 Spark Streaming实时分析用户日志 5.5.1 构徏Azure Queue的Spark Streaming Receiver 5.5.2 Spark Streaming实时处理Azure Queue日志 5.5.3 Spark Streaming数据存储于Azure Table 5.6 MLlibȝ训练模型 5.6.1 加蝲训练数据 5.6.2 使用rating RDD训练ALS模型 5.6.3 使用ALS模型q行?sh)媄推?/p> 5.6.4 评估模型的均方差 5.7 本章结 W??Twitter情感分析 6.1 pȝ架构 6.2 Twitter数据攉 6.2.1 讄 6.2.2 Spark Streaming接收q输出Tweet 6.3 数据预处理与Cassandra存储 6.3.1 dSBT依赖 6.3.2 创徏Cassandra Schema 6.3.3 数据存储于Cassandra 6.4 Spark Streaming热点Twitter分析 6.5 Spark Streaming在线情感分析 6.6 Spark SQLq行Twitter分析 6.6.1 dCassandra数据 6.6.2 查看JSON数据模式 6.6.3 Spark SQL分析Twitter 6.7 Twitter可视?/p> 6.8 本章结 W??热点新闻分析pȝ 7.1 新闻数据分析 7.2 pȝ架构 7.3 爬虫抓取|络信息 7.3.1 Scrapy?/p> 7.3.2 创徏ZScrapy的新ȝ?/p> 7.3.3 爬虫分布式化 7.4 新闻文本数据预处?/p> 7.5 新闻聚类 7.5.1 数据转换为向量(向量I间模型VSMQ?/p> 7.5.2 新闻聚类 7.5.3 词向量同义词查询 7.5.4 实时热点新闻分析 7.6 Spark Elastic Search构徏全文索引?/p> 7.6.1 部vElastic Search 7.6.2 用Elastic Search索引MongoDB数据 7.6.3 通过Elastic Search索数?/p> 7.7 本章结 W??构徏分布式的协同qo(h)推荐pȝ 8.1 推荐pȝ?/p> 8.2 协同qo(h)介绍 8.2.1 Z用户的协同过滤算法User-based CF 8.2.2 Z目的协同过滤算法Item-based CF 8.2.3 Z模型的协同过滤推荐Model-based CF 8.3 ZSpark的矩阵运实现协同过滤算?/p> 8.3.1 Spark中的矩阵cd 8.3.2 Spark中的矩阵q算 8.3.3 实现User-based协同qo(h)的示?/p> 8.3.4 实现Item-based协同qo(h)的示?/p> 8.3.5 Z奇异值分解实现Model-based协同qo(h)的示?/p> 8.4 ZSpark的MLlib实现协同qo(h)法 8.4.1 MLlib的推荐算法工?/p> 8.4.2 MLlib协同qo(h)推荐CZ 8.5 案例Q用MLlib协同qo(h)实现?sh)媄推?/p> 8.5.1 MovieLens数据?/p> 8.5.2 定最佳的协同qo(h)模型参数 8.5.3 利用最x型进行电(sh)影推?/p> 8.6 本章结 W??ZSpark的社交网l分?/p> 9.1 C交|络介绍 9.1.1 C交|络的类?/p> 9.1.2 C交|络的相x?/p> 9.2 C交|络中社团挖掘算?/p> 9.2.1 聚类分析和K均值算法简?/p> 9.2.2 C֛挖掘的衡量指?/p> 9.2.3 ZpcȝC֛挖掘法 9.3 Spark中的K均值算?/p> 9.3.1 Spark中与K均值有关的 对象和方?/p> 9.3.2 Spark下K均值算法示?/p> 9.4 案例Q基于Spark的FacebookC֛挖掘 9.4.1 SNAPC交|络数据?介绍 9.4.2 ZSpark的社团挖掘实?/p> 9.5 C交|络中的链\预测法 9.5.1 分类学习(fn)?/p> 9.5.2 分类器的评h(hun)指标 9.5.3 ZLogistic回归的链路预算?/p> 9.6 Spark MLlib中的Logistic回归 9.6.1 分类器相兛_?/p> 9.6.2 模型验证对象 9.6.3 ZSpark的Logistic回归CZ 9.7 案例Q基于Spark的链路预算?/p> 9.7.1 SNAPW号C交|络 Epinions数据?/p> 9.7.2 ZSpark的链路预算?/p> 9.8 本章结 W?0?ZSpark的大规模新闻主题分析 10.1 主题模型?/p> 10.2 主题模型LDA 10.2.1 LDA模型介绍 10.2.2 LDA的训l算?/p> 10.3 Spark中的LDA模型 10.3.1 MLlib对LDA的支?/p> 10.3.2 Spark中LDA模型训练CZ 10.4 案例QNewsgroups新闻的主题分?/p> 10.4.1 Newsgroups数据集介l?/p> 10.4.2 交叉验证估计新闻的主题个?/p> 10.4.3 Z主题模型的文本聚cȝ?/p> 10.4.4 Z主题模型的文本分cȝ?/p> 10.5 本章结 W?1?构徏分布式的搜烦引擎 11.1 搜烦引擎?/p> 11.2 搜烦排序概述 11.3 查询无关模型PageRank 11.4 ZSpark的分布式PageRank实现 11.4.1 PageRank的MapReduce 实现 11.4.2 Spark的分布式图模型GraphX 11.4.3 ZGraphX的PageRank实现 11.5 案例QGoogleWeb Graph的PageRank计算 11.6 查询相关模型Ranking SVM 11.7 Spark中支持向量机的实?/p> 11.7.1 Spark中的支持向量?模型 11.7.2 使用Spark试数据演示支持向量机的训练 11.8 案例Q基于MSLR数据集的查询排序 11.8.1 Microsoft Learning to Rank 数据集介l?/p> 11.8.2 ZSpark的Ranking SVM实现
11.9 本章结 |