失效链接处理 |
《Hadoop权威指南(W??》PDF 下蝲
转蝲自:(x)https://download.csdn.net/download/qq_41455420/10195408
版权归出版社和原作者所有,链接已删除,误买正?/b>
图书介:(x) 本书从Hadoop的缘起开始,由浅入深Q结合理论和实践Q全方位ClHadoopq一高性能处理量数据集的理想工具。全书共16章,3个附录,涉及(qing)的主题包括:(x)Haddoop介;MapReduce介;Hadoop分布式文件系l;Hadoop的I/O、MapReduce应用E序开发;MapReduce的工作机ӞMapReduce的类型和格式QMapReduce的特性;如何构徏Hadoop集群Q如何管理HadoopQPig介;Hbase介;Hive介;ZooKeeper介;开源工具SqoopQ最后还提供?jin)丰富的案例分析?/span> 本书是Hadoop权威参考,E序员可从中探烦(ch)如何分析量数据集,理员可以从中了(jin)解如何安装与q行Hadoop集群?/span> 相关截图Q?br /> ![]() 图书目录Q?/span> W??nbsp; 初识Hadoop 数据Q数据! 数据存储与分?/span> 与其他系l相?/span> 关系型数据库理pȝ |格计算 志愿计算 1.3.4 Hadoop 发展?/span> Apache Hadoop和Hadoop生态圈 W??nbsp; 关于MapReduce 一个气象数据集 数据的格?/span> 使用Unix工具q行数据分析 使用Hadoop分析数据 map阶段和reduce阶段 横向扩展 合ƈ函数 q行一个分布式的MapReduce作业 Hadoop的Streaming Ruby版本 Python版本 Hadoop Pipes ~译q行 W??nbsp; Hadoop分布式文件系l?/span> HDFS的设?/span> HDFS的概?/span> 数据?/span> namenode和datanode 命o(h)行接?/span> 基本文gpȝ操作 Hadoop文gpȝ 接口 Java接口 从Hadoop URL中读取数?/span> 通过FileSystem APId数据 写入数据 目录 查询文gpȝ 删除数据 数据?/span> 文gd剖析 文g写入剖析 一致模?/span> 通过 distcpq行拯 保持 HDFS 集群的均?/span> Hadoop的归文?/span> 使用Hadoop归文g 不 W??nbsp; Hadoop I/O 数据完整?/span> HDFS的数据完整?/span> LocalFileSystem ChecksumFileSystem 压羃 codec 压羃和输入切?/span> 在MapReduce中用压~?/span> 序列?/span> Writable接口 Writablec?/span> 实现定制的Writablecd 序列化框?/span> Avro 依据文g的数据结?/span> 写入SequenceFile MapFile W??nbsp; MapReduce应用开?/span> 配置API 合ƈ多个源文?/span> 可变的扩?/span> 配置开发环?/span> 配置理 辅助cGenericOptionsParserQTool和ToolRunner ~写单元试 mapper reducer 本地q行试数据 在本C业运行器上运行作?/span> 试驱动E序 在集上q行 打包 启动作业 MapReduce的Web界面 获取l果 作业调试 使用q程调试?/span> 作业调优 分析d MapReduce的工作流 问题分解成MapReduce作业 q行独立的作?/span> W??nbsp; MapReduce的工作机?/span> 剖析MapReduce作业q行机制 作业的提?/span> 作业的初始化 d的分?/span> d的执?/span> q度和状态的更新 作业的完?/span> p| dp| tasktrackerp| jobtrackerp| 作业的调?/span> Fair Scheduler Capacity Scheduler shuffle和排?/span> map?/span> reduce?/span> 配置的调?/span> d的执?/span> 推测式执?/span> 重用JVM 跌坏记?/span> d执行环境 W??nbsp; MapReduce的类型与格式 MapReduce的类?/span> 默认的MapReduce作业 输入格式 输入分片与记?/span> 文本输入 二进制输?/span> 多种输入 数据库输?和输? 输出格式 文本输出 二进制输?/span> 多个输出 延迟输出 数据库输?/span> W??nbsp; MapReduce的特?/span> 计数?/span> 内置计数?/span> 用户定义的Java计数?/span> 用户定义的Streaming计数?/span> 排序 准备 部分排序 L?/span> 二次排序 联接 map端联?/span> reduce端联?/span> Ҏ(gu)据分?/span> 利用JobConf来配|作?/span> 分布式缓?/span> MapReduce库类 W??nbsp; 构徏Hadoop集群 集群规范 |络拓扑 集群的构建和安装 安装Java 创徏Hadoop用户 安装Hadoop 试安装 SSH配置 Hadoop配置 配置理 环境讄 Hadoop守护q程的关键属?/span> Hadoop守护q程的地址和端?/span> Hadoop的其他属?/span> 创徏用户帐号 安全?/span> Kerberos和Hadoop 委托令牌 其他安全性改q?/span> 利用基准试E序试Hadoop集群 Hadoop基准试E序 用户的作?/span> 云上的Hadoop Amazon EC2上的Hadoop W?0?nbsp; 理Hadoop HDFS 怹性数据结?/span> 安全模式 日志审计 工具 监控 日志 度量 Java理扩展(JMX) l护 日常理q程 委Q节点和解除节?/span> 升 W?1?nbsp; Pig?/span> 安装与运行Pig 执行cd q行PigE序 Grunt Pig Latin~辑?/span> CZ 生成CZ 与数据库比较 PigLatin l构 语句 表达?/span> 1.4.4 cd 模式 函数 用户自定义函?/span> qo(h)UDF 计算UDF 加蝲UDF 数据处理操作 加蝲和存储数?/span> qo(h)数据 分组与连接数?/span> Ҏ(gu)据进行排?/span> l合和分割数?/span> Pig实战 q行处理 参数代换 W?2?nbsp; Hive 1.1 安装Hive 1.1.1 Hive外壳环境 1.2 CZ 1.3 q行Hive 1.3.1 配置Hive 1.3.2 Hive服务 1.3.3 Metastore 1.4 和传l数据库q行比较 1.4.1 L模式(Schema on Read)vs.写时模式(Schema onWrite) 1.4.2 更新、事务和索引 1.5 HiveQL 1.5.1 数据cd 1.5.2 操作和函?/span> 1.6 ?/span> 1.6.1 托管?Managed Tables)和外部表(External Tables) 1.6.2 分区(Partitions)和桶(Buckets) 1.6.3 存储格式 1.6.4 导入数据 1.6.5 表的修改 1.6.6 表的丢弃 1.7 查询数据 1.7.1 排序(Sorting)和聚?Aggregating) 1.7.2 MapReduce脚本 1.7.3 q接 1.7.4 子查?/span> 1.7.5 视图(view) 1.8 用户定义函数(User-Defined Functions) 1.8.1 ~写UDF 1.8.2 ~写UDAF W?3?nbsp; HBase 2.1 HBasics 2.1.1 背景 2.2 概念 2.2.1 数据模型?ldquo;旋风之旅” 2.2.2 实现 2.3 安装 2.3.1 试驱动 2.4 客户?/span> 2.4.1 Java 2.4.2 AvroQRESTQ以?qing)Thrift 2.5 CZ 2.5.1 模式 2.5.2 加蝲数据 2.5.3 Web查询 2.6 HBase和RDBMS的比?/span> 2.6.1 成功的服?/span> 2.6.2 HBase 2.6.3 实例QHBase在Streamy.com的?/span> 2.7 Praxis 2.7.1 版本 2.7.2 HDFS 2.7.3 用户接口(UI) 2.7.4 度量(metrics) 2.7.5 模式设计 2.7.6 计数?/span> 2.7.7 扚w加蝲(bulkloading) W?4?nbsp; ZooKeeper 安装和运行ZooKeeper CZ ZooKeeper中的l成员关p?/span> 创徏l?/span> 加入l?/span> 列出l成?/span> ZooKeeper服务 数据模型 操作 实现 一致?/span> ?x)?/span> 状?/span> 使用ZooKeeper来构建应?/span> 配置服务 h可恢复性的ZooKeeper应用 锁服?/span> 生环境中的ZooKeeper 可恢复性和性能 配置 W?5?nbsp; 开源工具Sqoop 获取Sqoop 一个导入的例子 生成代码 其他序列化系l?/span> 深入?jin)解数据库导?/span> 导入控制 导入和一致?/span> 直接模式导入 使用导入的数?/span> 导入的数据与Hive 导入大对?/span> 执行导出 深入?jin)解导?/span> 导出与事?/span> 导出和SequenceFile W?6?nbsp; 实例分析 Hadoop 在Last.fm的应?/span> Last.fmQ社?x)音乐史上的革?/span> Hadoop a Last.fm 用Hadoop产生图表 Track StatisticsE序 ȝ Hadoop和Hive在Facebook的应?/span> 概要介绍 Hadoop a Facebook 假想的用情冉|?/span> Hive 问题与未来工作计?/span> Nutch 搜烦(ch)引擎 背景介绍 数据l构 Nutchpȝ利用Hadoopq行数据处理的精选实?/span> ȝ Rackspace的日志处?/span> ?/span> 选择Hadoop 攉和存?/span> 日志的MapReduce模型 关于Cascading 字段、元l和道 操作 Tapc,Scheme对象和Flow对象 Cascading实战 灉|?/span> Hadoop和Cascading在ShareThis的应?/span> ȝ 在Apache Hadoop上的TB字节数量U排?/span> 使用Pig和W(xu)ukong来探?0亿数量边的 |络?/span> 量C 每个人都在和我说话:(x)Twitter回复关系?/span> degree(? 对称链接 C提取 附录A 安装Apache Hadoop 先决条g 安装 配置 本机模式 伪分布模?/span> 全分布模?/span> 附录B Cloudera’s Distribution for Hadoop 附录C 准备NCDC天气数据 |