失效链接处理 |
Spark高数据分析 PDF 下蝲
转蝲自:(x)http://download.csdn.net/detail/oshiqu123/9742911
本站整理下蝲Q?/strong>
版权归出版社和原作者所有,链接已删除,误买正?/b>
用户下蝲说明Q?/strong>
?sh)子版仅供预览,下蝲?4时内务必删除,支持正版Q喜Ƣ的误买正版书c:(x)
http://product.dangdang.com/25286914.html
相关截图Q?br />
![]() 资料介:(x) 本书是用Sparkq行大规模数据分析的实战宝典Q由知名数据U学家撰写。本书在W?版的基础上,针对Sparkq年来的发展Q对样例代码和所使用的资料进行了(jin)大量更新。新版Spark使用?jin)全新的核?j)APIQMLlib和Spark SQL两个子项目也发生?jin)较大变化,本书为关注Spark发展势的读者提供了(jin)与时p的资料,例如Dataset和DataFrame的用,以及(qing)与DataFrame API高度集成的Spark ML API?/span> 资料目录Q?/strong> 推荐?ix 译者序 xi ?xiii 前言 xv W?1?大数据分?1 1.1 数据U学面(f)的挑?2 1.2 认识Apache Spark 4 1.3 关于本书 5 1.4 W?2版说?6 W?2?用Scala 和Spark q行数据分析 8 2.1 数据U学家的Scala 9 2.2 Spark~程模型 10 2.3 记录兌问题 10 2.4 试牛刀QSpark shell和SparkContext 11 2.5 把数据从集群上获取到客户?16 2.6 把代码从客户端发送到集群 19 2.7 从RDD到DataFrame 20 2.8 用DataFrame API来分析数?23 2.9 DataFrame的统计信?27 2.10 DataFrame的{|和重塑 29 2.11 DataFrame的连接和特征选择 32 2.12 为生产环境准备模?33 2.13 评估模型 35 2.14 结 36 W??音乐推荐和Audioscrobbler数据?37 3.1 数据?38 3.2 交替最二乘推荐算?39 3.3 准备数据 41 3.4 构徏W?一个模?44 3.5 逐个(g)查推荐结?47 3.6 评h(hun)推荐质量 50 3.7 计算AUC 51 3.8 选择参?53 3.9 产生推荐 55 3.10 结 56 W??用决{树(wi)法预测林植被 58 4.1 回归?59 4.2 向量和特?59 4.3 h训练 60 4.4 决策?wi)和决策?61 4.5 Covtype数据?63 4.6 准备数据 64 4.7 W?一决{树(wi) 66 4.8 决策?wi)的参?72 4.9 决策?wi)调?73 4.10 重谈cd型特?77 4.11 随机决策林 79 4.12 q行预测 81 4.13 结 82 W??ZK均Dcȝ|络量异常(g)?84 5.1 异常(g)?85 5.2 K均Dc?85 5.3 |络入R 86 5.4 KDD Cup 1999数据?86 5.5 初步试聚类 87 5.6 k的选择 90 5.7 ZSparkR 的可视化 92 5.8 特征的规范化 96 5.9 cd型变?98 5.10 利用标号的熵信息 99 5.11 聚类实战 100 5.12 结 102 W??Z潜在语义分析法分析l基癄 104 6.1 文Q词矩?105 6.2 获取数据 106 6.3 分析和准备数?107 6.4 词Ş归ƈ 109 6.5 计算TF-IDF 110 6.6 奇异值分?111 6.7 扑և重要的概?113 6.8 Z低维q似的查询和评分 117 6.9 词项Q词相兛_ 117 6.10 文Q文相兛_ 119 6.11 文档Q词相兛_ 121 6.12 多词Ҏ(gu)?122 6.13 结 123 W??用GraphX分析伴生|络 124 7.1 对MEDLINE文献引用索引的网l分?125 7.2 获取数据 126 7.3 用Scala XML工具解析XML文 128 7.4 分析MeSH主要主题?qing)其伴生关?130 7.5 用GraphX来徏立一个伴生网l?132 7.6 理解|络l构 135 7.6.1 q通组?136 7.6.2 度的分布 138 7.7 qo(h)噪声?140 7.7.1 处理EdgeTriplet 141 7.7.2 分析L噪声边的子图 142 7.8 世界网l?144 7.8.1 pd聚类pL 144 7.8.2 用Pregel计算q_路径长度 145 7.9 结 150 W??U约出租车轨q的I间和时间数据分?151 8.1 数据的获?152 8.2 ZSpark的第三方库分?153 8.3 ZEsri Geometry API和Spray的地理空间数据处?153 8.3.1 认识Esri Geometry API 154 8.3.2 GeoJSON?155 8.4 U约?jng)出UR客运数据的预处理 157 8.4.1 大规模数据中的非法记录处?159 8.4.2 地理I间分析 162 8.5 ZSpark的会(x)话分?165 8.6 结 168 W??Z蒙特卡罗模拟的金融风险评?170 9.1 术语 171 9.2 VaR计算Ҏ(gu) 172 9.2.1 方差Q协方差?172 9.2.2 历史模拟?172 9.2.3 蒙特卡罗模拟?172 9.3 我们的模?173 9.4 获取数据 173 9.5 数据预处?174 9.6 定?jng)场因素的权?177 9.7 采样 179 9.8 q行试验 182 9.9 回报分布的可视化 185 9.10 l果的评?186 9.11 结 188 W?10?基因数据分析和BDG目 190 10.1 分离存储与模?191 10.2 用ADAM CLI导入基因学数?193 10.3 从ENCODE数据预测转录因子l合位点 201 10.4 查询1000 Genomes目中的基因?207 10.5 结 210 W?11?ZPySpark和Thunder的神l图像数据分?211 11.1 PySpark?212 11.2 Thunder工具包概况和安装 215 11.3 用Thunder加蝲数据 215 11.4 用Thunder对神l元q行分类 221 11.5 结 225 作者介l?226 面介绍 226 |