Spark大型项目实战:电子商务用户行为分析大数据平台(高端大数据项目实战课程)_北风网http:// ** .ibeifeng.com/goods-582.html
本项目主要解释了一套应用于互联网电子商务企业的应用Java、Spark大数据统计分析平台等技术开发,对电子商务网站的各种用户行为(访问行为、页面跳转行为、购物行为、广告点击行为等)进行复杂分析。使用统计分析的数据来协助公司PM(产品经理)、数据分析师以及管理人员分析现有产品的情况,并根据用户行为分析结果持续改进产品的设计,以及调整公司的战略和业务。最终达到用大数据技术来帮助提升公司的业绩、营业额以及市场占有率的目标。
1.课程研发环境开发工具: EclipseLinux:CentOS 6.4Spark: 1.5.1Hadoop: hadoop-2.5.0-cdh5.3.6Hive: hive-0.13.1-cdh5.3.6ZooKeeper: zookeeper-3.4.5-cdh5.3.6Kafka: 2.9.2-0.8.1其他工具:flume-ng-1.5.0-cdh5.3.6、SecureCRT、WinSCP、VirtualBox等
2.内容简介项目主要采用大数据领域最流行、最流行的技术——Spark,具有普通项目无法比拟的技术前瞻性和尖端性。本项目采用Spark技术生态栈中最常用的三个技术框架,Spark Core、Spark SQL和Spark Streaming,开发离线计算和实时计算业务模块。实现了用户访问session分析、页面单跳转换率统计、热门商品离线统计、广告点击流量实时统计四个业务模块。项目中的所有业务功能模块都直接从实际的企业项目中提取,业务复杂性绝对没有缩水,只是为了更好地接近大数据实践课程的需要,进行了一定程度的技术整合和业务整合。该项目的真实性、业务复杂性和实际战斗类型绝对不是市场上现有的几个小时Demo可以比较等级的大数据项目。
项目完全覆盖Spark Core、Spark SQL和Spark Streaming在这三个技术框架中,几乎所有的功能点、知识点和性能优化点。只有一个项目可以充分掌握Spark技术如何在实际项目中实现各种业务需求!在项目中,重点关注实际企业项目中积累的宝贵性能优化troubleshooting以及数据倾斜解决方案等知识和技术,几乎所有的知识和技术都是整个网络中唯一的,是任何其他视频课程和书籍中没有包含的宝贵经验的积累!同时,通过对企业大数据项目开发过程的解释,涵盖了项目开发的整个过程,包括需求分析、方案设计、数据设计、编码实现、测试和性能调整,全面恢复了真实大数据项目的开发过程。该项目的整体商业价值绝对超过100万元!
注1:关于《Spark从入门到精通(Scala编程、案例实战、高级特点Spark内核源码分析,Hadoop如果你学习了第一套课程,高端)与这套课程的关系Spark技术课程可以在整合的情况下达到12年Spark开发经验水平;如果你完成了第一套学习Spark同时完成第二套课程Spark项目课程,并且融会贯通的情况下,那么可以达到23年的Spark发展经验的水平已经成为Spark高级/高级开发工程师。
在真正复杂的大型项目中,可能是Spark此时可能需要管理大量的组件Spring框架;复杂的数据库操作可能需要执行,此时需要执行ORM类框架,如MyBatis;可能需要与Redis、Kafka、ZooKeeper此时需要集成使用Java Client API;以上需求都是Scala不能满足Scala很可能导致项目的多语言混合,大大降低了可维护性和可扩展性。(注意,为了降低学习难度,这套项目课程侧重于Spark上面,没有使用上述任何技术,只有纯粹Java基础编程与Spark但这并不意味着你在真正的工作中不会遇到上述情况)
大量全网唯一的高端技术:自定义Accumulator、算法按时间比例随机抽取,二次排序,分组取topN、页面切片生成和页面流匹配算法Hive与MySQL异构数据源,RDD转换为DataFrame、临时表的注册和使用,自定义UDAF聚合函数(group_concat_distinct)、自定义get_json_object等等Spark SQL高级内置函数(if与case when等),开窗函数(ROW_NUMBER)、动态黑名单机制,transform、updateStateByKey、transform与Spark SQL整合、window滑动窗口、高性能数据库等。
//1.大数据集群建设第一讲-第二课程介绍-课程环境建设:CentOS 6.4集群建设第三讲-课程环境建设:hadoop-2.5.0-cdh5.3.6集群建设第四讲-课程环境建设:hive-0.13.1-cdh5.3.6安装第5讲-课程环境建设:zookeeper-3.4.5-cdh5.3.6集群建设第六讲-课程环境建设:kafka_2.9.2-0.8.1集群建设第七讲-课程环境建设:flume-ng-1.5.0-cdh5.3.6安装第8讲-课程环境建设:离线日志采集流程介绍第9讲-课程环境建设:实时数据采集流程介绍第10讲-课程环境建设:Spark 1.5.1安装和基于客户端YARN2.用户访问session分析:第11讲-用户访问session分析:模块介绍第12讲:-用户访问session分析:介绍基础数据结构和大数据平台架构-用户访问session分析:需求分析第14讲:-用户访问session分析:技术方案设计第15讲:-用户访问session分析:数据表设计第16讲:-用户访问session分析:Eclipse工程建设及工具描述第17讲-用户访问session分析:开发配置管理组件第18讲-用户访问session分析:JDBC原理介绍及增删改查示范第19讲-用户访问session分析:数据库连接池原理第20讲-用户访问session分析:单例设计模式第21讲-用户访问session分析:内部类和匿名内部类第22讲-用户访问session分析:开发JDBC辅助组件(上)第23讲-用户访问session分析:开发JDBC辅助组件(下)第24讲-用户访问session分析:JavaBean第25讲概念讲解-用户访问session分析:DAO模型解释和TaskDAO开发第26讲-用户访问session分析:工厂模型解释和DAOFactory开发第27讲-用户访问session分析:JSON解释数据格式和fastjson介绍第28讲-用户访问session分析:Spark上下文构建和模拟数据生成第29讲-用户访问session分析:【按session粒度进行数据聚合】第30讲-用户访问session分析:根据筛选参数对session过滤粒度聚合数据第31讲-用户访问session分析:session自定义聚合统计Accumulator第32讲-用户访问session分析:session聚合统计重构实现思想与重构session聚合第33讲-用户访问session分析:session聚合统计重构过滤统计第34讲-用户访问session分析:session计算统计结果算统计结果并写入MySQL】第35讲-用户访问session分析:session聚合统计本地测试第36讲-用户访问session分析:session使用聚合统计Scala实现自定义Accumulator】第37讲-用户访问session分析:session随机抽取实现思维分析第38讲-用户访问session分析:session随机抽取计算每天每小时session数量】第39讲-用户访问session分析:session按时间比例随机抽取算法实现第40讲-用户访问session分析:session根据随机索引随机抽取第41讲-用户访问session分析:session随机抽取获取抽取session第42讲明细数据-用户访问session分析:session随机抽取本地测试第43讲-用户访问session分析:top10回顾热门品类的需求,实现思路分析第44讲-用户访问session分析:top10获取热门品类session所有的所有类别第45讲-用户访问session分析:top10第46讲【计算各类点击、下单、付款次数】-用户访问session分析:top10热门品类之join点击订单支付次数第47类-用户访问session分析:top10热门品类自定义二次排序key第48讲-用户访问session分析:top10热门品类二次排名第49讲-用户访问session分析:top10【获取热门品类top10品类并写入MySQL第50讲-用户访问session分析:top10热门品类本地测试第51讲-用户访问session分析:top10使用热门品类Scala第52讲实现二次排名-用户访问session分析:top10活跃session开发准备和top10品类RDD生成第53讲-用户访问session分析:top10活跃session之计算top10品类被各sessoin点击次数第54讲-用户访问session分析:top10活跃session之分组取TopN算法获取top10活跃session第55讲-用户访问session分析:top10活跃session本地测试及阶段总结三、企业级性能调整troubleshooting经验和数据倾斜解决方案-用户访问session分析:性能调优之在实际项目中分配更多资源第57讲-用户访问session分析:实际项目调整性能调优并行度第58讲-用户访问session分析:在实际项目中重构性能调整RDD架构以及RDD持久化第59讲-用户访问session分析:实际项目广播大变量第60讲性能调优-用户访问session分析:在实际项目中使用性能调优Kryo序列化第61讲-用户访问session分析:在实际项目中使用性能调优fastutil优化数据格式第62讲座-用户访问session分析:在实际项目中调整数据本地化据本地化等待时间-用户访问session分析:JVM调整的原理概述和减少cache操作内存占第 ** 讲-用户访问session分析:JVM调优之调节executor堆外内存和连接等待时间第65讲-用户访问session分析:Shuffle调整原理概述第66讲-用户访问session分析:Shuffle调整合并 ** p端输出文件第67讲-用户访问session分析:Shuffle调整 ** p端内存缓冲和reduce端内存占第68讲-用户访问session分析:Shuffle调优之HashShuffleManager与SortShuffleManager第69讲-用户访问session分析:算子调优MapPartitions提升Map类操作性能第70讲-用户访问session分析:算子调优filter过后使用coalesce减少分区数量第71讲-用户访问session分析:算子调优使用foreachPartition优化写数据库性能第72讲座-用户访问session分析:算子调优使用repartition解决Spark SQL低并行性能问题73-用户访问session分析:算子调优reduceByKey本地聚合介绍第74讲座-用户访问session分析:troubleshooting之控制shuffle reduce避免端缓冲大小OOM第75讲-用户访问session分析:troubleshooting之解决JVM GC导致的shuffle文件拉失败第76讲-用户访问session分析:troubleshooting之解决YARN队列资源不足导致的application直接失败第77讲-用户访问session分析:troubleshooting之解决各种序列化导致的报错第78讲-用户访问session分析:troubleshooting之解决算子函数返回NULL导致的问题第79讲-用户访问session分析:troubleshooting之解决yarn-client模式导致的网卡流量激增问题第80讲-用户访问session分析:troubleshooting之解决yarn-cluster模式的JVM栈内存溢出问题第81讲-用户访问session分析:troubleshooting之错误的持久化方式以及checkpoint的使用第82讲-用户访问session分析:数据倾斜解决方案之原理以及现象分析第83讲-用户访问session分析:数据倾斜解决方案之聚合源数据以及过滤导致倾斜的key第84讲-用户访问session分析:数据倾斜解决方案之提高shuffle操作reduce并行度第85讲-用户访问session分析:数据倾斜解决方案之使用随机key实现双重聚合第86讲-用户访问session分析:数据倾斜解决方案之将reduce join转换为 ** p join第87讲-用户访问session分析:数据倾斜解决方案之sample采样倾斜key单独进行join第88讲-用户访问session分析:数据倾斜解决方案之使用随机数以及扩容表进行join四、页面单跳转化率统计:第89讲-页面单跳转化率:模块介绍第90讲-页面单跳转化率:需求分析、技术方案设计、数据表设计第91讲-页面单跳转化率:编写基础代码第92讲-页面单跳转化率:页面切片生成以及页面流匹配算法实现第93讲-页面单跳转化率:计算页面流起始页面的pv第94讲-页面单跳转化率:计算页面切片的转化率第95讲-页面单跳转化率:将页面切片转化率写入MySQL第96讲-页面单跳转化率:本地测试第97讲-页面单跳转化率:生产环境测试第98讲-用户访问session分析:生产环境测试五、各区域热门商品统计:第99讲-各区域热门商品统计:模块介绍第100讲-各区域热门商品统计:需求分析、技术方案设计以及数据设计第101讲-各区域热门商品统计:查询用户指定日期范围内的点击行为数据第102讲-各区域热门商品统计:异构数据源之从MySQL中查询城市数据第103讲-各区域热门商品统计:关联城市信息以及RDD转换为DataFrame后注册临时表第104讲-各区域热门商品统计:开发自定义UDAF聚合函数之group_concat_distinct()第105讲-各区域热门商品统计:查询各区域各商品的点击次数并拼接城市列表第106讲-各区域热门商品统计:关联商品信息并使用自定义get_json_object函数和内置if函数标记经营类型第106讲-各区域热门商品统计:使用【开窗函数统计各区域的top3热门商品】第107讲-各区域热门商品统计:使用内置case when函数给各个区域打上级别标记第108讲-各区域热门商品统计:将结果数据写入MySQL中第109讲-各区域热门商品统计:Spark SQL数据倾斜解决方案第110讲-各区域热门商品统计:生产环境测试六、广告点击流量实时统计:第111讲-广告点击流量实时统计:需求分析、技术方案设计以及数据设计第112讲-广告点击流量实时统计:为【动态黑名单】实时计算每天各用户对各广告的点击次数第113讲-广告点击流量实时统计:使用高性能方式将实时计算结果写入MySQL中第114讲-广告点击流量实时统计:过滤出每个batch中的黑名单用户以生成动态黑名单第115讲-广告点击流量实时统计:基于动态黑名单进行点击行为过滤第116讲-广告点击流量实时统计:计算每天【各省各城市各广告的点击量】第117讲-广告点击流量实时统计:计算每天【各省的top3】热门广告第118讲-广告点击流量实时统计:计算每天各广告最近1小时滑动窗口内的点击趋势第119讲-广告点击流量实时统计:实现实时计算程序的HA高可用性第120讲-广告点击流量实时统计:对实时计算程序进行性能调优第121讲-广告点击流量实时统计:生产环境测试第122讲-课程总结:都学到了什么?
//
(新升级)Spark 2.0从入门到精通:Scala编程、大数据开发、上百个实战案例、内核源码深度剖析_北风网http:// ** .ibeifeng.com/goods-560.html
扫码咨询与免费使用
申请免费使用