Spark大数据分析实战【1.2】

张开发

• 2026/6/22 7:48:22 • 15 分钟阅读

分享文章

第4章 Lamda架构日志分析流水线4.1 日志分析概述随着互联网的发展，在互联网上产生了大量的Web日志或移动应用日志，日志包含用户最重要的信息，通过日志分析，用户可以获取到网站或应用的访问量，哪个网页访问人数最多，哪个网页最有价值、用户的特征、用户的兴趣等。一般中型的网站（10万的PV[1]以上），每天会产生1GB以上Web日志文件。大型或超大型的网站，可能每小时就会产生500GB~1TB的数据量。对于日志的这种规模的数据，通过Spark进行大规模日志分析与日志处理，能够达到很好的效果。Web日志由Web服务器产生，现在互联网公司使用的主流的服务器可能是Nginx、Apache、Tomcat等。从Web日志中，我们可以获取网站每类页面的PV值（页面浏览）、UV（独立IP数）。更复杂一些的，可以计算得出用户所检索的关键词排行榜、用户停留时间最高的页面等。更为复杂的，构建广告点击模型、分析用户行为特征等。1.日志格式目前常见的Web日志格式主要由两类：一种日志格式是Apache的NCSA日志格式，另一种日志格式是IIS的W3C日志格式。下面以Nginx日志格式为例进行讲解。Nginx日志示例格式：222.68.172.111 - - [18/Sep/2013:06:49:57 +0000]"GET /images/my.jpg HTTP/1.1" 200 19939"http://www.angularjs.cn/A00n" "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/29.0.1547.66 Safari/537.36"以下是本例中涉及的一些要素。·remote_addr：记录客户端的IP地址。本例为222.68.172.111。·remote_user：记录客户端用户名称，本例--表示为空。·time_local：记录访问时间与时区，本例为[18/Sep/2013：06：49：57+0000]。·request：记录请求的URL与HTTP协议，本例为GET/images/my.jpg HTTP/1.1。·status：记录请求状态，成功是200。·body_bytes_sent：记录发送给客户端文件主体内容大小，本例中为19939。·http_referer：用来记录从哪个页面链接访问过来的，http://www.angularjs.cn/A00n。·http_user_agent：记录客户浏览器的相关信息，本例中为Mozilla/5.0（Windows NT 6.1）AppleWebKit/537.36（KHTML，like Gecko）Chrome/29.0.1547.66 Safari/537.36。注意如果用户想要更多的信息，则要用其他手段去获取，通过JS代码单独

更多文章

前端开发 2026/6/22 7:38:33

从‘能检测’到‘能匹配’：手把手拆解R2D2论文中那个精巧的AP损失函数设计

从‘能检测’到‘能匹配’：R2D2论文中AP损失函数的工程化解读当我们在手机相册里搜索"埃菲尔铁塔"时，系统如何在数万张照片中瞬间找到目标？这背后是特征点匹配技术数十年的演进。2019年NeurIPS大会上亮相的R2D2算法，通…

张开发

前端开发 2026/6/22 7:40:08

华硕笔记本性能解放神器：G-Helper轻量级控制工具完全指南

华硕笔记本性能解放神器：G-Helper轻量级控制工具完全指南【免费下载链接】g-helper Lightweight, open-source control tool for ASUS laptops and ROG Ally. Manage performance modes, fans, GPU, battery, and RGB lighting across Zephyrus, Flow, TUF, Strix,…

张开发

前端开发 2026/6/22 7:48:13

深度解析：ComfyUI-AnimateDiff-Evolved动画生成进阶实战指南

深度解析：ComfyUI-AnimateDiff-Evolved动画生成进阶实战指南【免费下载链接】ComfyUI-AnimateDiff-Evolved Improved AnimateDiff for ComfyUI and Advanced Sampling Support 项目地址: https://gitcode.com/gh_mirrors/co/ComfyUI-AnimateDiff-Evolved Co…

张开发

前端开发 2026/6/19 1:38:06

从Transformer到因果语言建模，AGI理解力进阶全图谱，深度拆解LLM-2024基准测试TOP3架构差异

第一章：AGI语言理解与生成能力的范式跃迁 2026奇点智能技术大会(https://ml-summit.org) 传统语言模型依赖统计共现与上下文窗口内模式匹配，而新一代AGI系统正突破这一局限，转向基于世界模型驱动的语义推演与跨模态因果推理。其核心跃迁体现…

张开发

前端开发 2026/6/19 1:37:43

OpenClaw 看着风光，其实处境尴尬：Hermes 正在成为一个巨大的挑战

OpenClaw 看着风光，其实处境尴尬：Hermes 正在成为一个巨大的挑战表面上，OpenClaw 的创始人刚刚登上了 TED 讲台，用 18 分钟讲述了自己如何"创造了突破性的 AI Agent"。台下掌声热烈，社区帖子刷屏。但如果…

张开发

前端开发 2026/6/19 1:38:29

给你的Cerebro管理界面加把锁：Nginx反向代理+基础认证配置实战指南

企业级Cerebro安全接入方案：Nginx反向代理与基础认证深度实践在Elasticsearch集群管理工具中，Cerebro以其轻量级和高效性赢得了众多运维团队的青睐。但当我们将这个强大的管理界面直接暴露在公网时，就像把金库钥匙挂在门口——9000端口的开放…

张开发

前端开发 2026/6/19 1:37:24

Python 3.12 Special Attribute - 28 - __match_args__

Python 3.12 Special Attribute - __match_args____match_args__ 是 Python 3.10 引入的一个类属性 ，用于支持结构模式匹配（Structural Pattern Matching） 中的类模式。它定义了类实例在 match 语句中按位置解构时，属性与…

张开发

前端开发 2026/6/19 1:37:49

简单园区实验拓扑

实验要求配置过程[sw1]vlan batch 2 3 20 30 [sw1]interface Eth-Trunk 0 [sw1-Eth-Trunk0]trunkport GigabitEthernet 0/0/1 to 0/0/2 （链路聚合） [sw1-Eth-Trunk0]p l t [sw1-Eth-Trunk0]p t a v 2 3 20 30 [sw1-Eth-Trunk0]q [sw1]int g 0/0/3 [sw1-G…

张开发