数据库管理-第332期 大数据已死,那什么当立?(20250602)

article/2025/7/13 13:55:51

数据库管理332期 2025-06-02

  • 数据库管理-第332期 大数据已死,那什么当立?(20250602)
    • 1 概念还是技术
    • 2 必然的大数据量
    • 3 离线到实时
    • 4 未来
    • 总结

数据库管理-第332期 大数据已死,那什么当立?(20250602)

作者:胖头鱼的鱼缸(尹海文)
Oracle ACE Pro: Database
PostgreSQL ACE Partner10年数据库行业经验
拥有OCM 11g/12c/19c、MySQL 8.0 OCP、Exadata、CDP等认证
墨天轮MVP,ITPUB认证专家
圈内拥有“总监”称号,非著名社恐(社交恐怖分子)公众号:胖头鱼的鱼缸
CSDN:胖头鱼的鱼缸(尹海文)
墨天轮:胖头鱼的鱼缸
ITPUB:yhw1809。
除授权转载并标明出处外,均为“非法”抄袭

3498ff20bcec87e9052f961f06737f3.png
前两天在数据库圈历史学家司马辽太杰的朋友圈看到一段话“每隔一段时间,就有人传大数据已死的话题…”,确实好像每隔一段时间都会有人提出这个论点,更有甚者,会有人提出没有数据库该承载那么大的数据,今天我也提出下我的一些观点。

1 概念还是技术

首先,大数据到底是一种概念还是技术,也许在曾几何时,大数据就等同于Hadoop,在那段实践中大数据被看做一种技术,利用Hadoop的大数据量存放与处理能力来解决大规模数据的复杂分析需求。
但是随着软件的发展,比如搜索与数据分析引擎、列式存储数据库、分布式等技术的扩充;加上硬件的发展,计算(CPU)、缓存(内存)、IO(SSD)的巨大进步。使得实现大数据量的分析计算可以不再需要复杂臃肿的Hadoop了。
回到本小节题目,我认为大数据,在当下的大数据是一种概念,或者说是一种场景需求,简单来说就是从海量数据中获取需要的分析结果。

2 必然的大数据量

为什么有人不相信可能出现那么大的数据量,无外乎有以下一些原因:

  • 所在的公司/企业业务量就那么大,想象不出什么样的业务会带来那么大的数据量
  • 认为历史数据没有价值,仅保留很短时间内的活动数据,整体数据就很小了
  • 业务拆分的比较细,每部分业务的数据量都不大,自己也只负责这部分数据
  • 自认为自己研发能力出众,不会产生那么多冗余数据

我在类互联网公司干过,也在传统行业摸爬滚打过,我来说说对上面这些原因自己的见解:

  • 确实有业务,光是基础数据的数据量就能超出你的想象,而且这些数据还有不少是需要频繁变更的,更别说基于这些基础数据构建起来的整体业务的数据量
  • 历史数据是宝贝,先不说可以用于审计溯源,还可以通过分析得出一些很有价值的东西,比如趋势预测、反诈、构建知识库、模型训练等等
  • 无论业务拆的多细,我们最终的分析需求是需要把所有数据串联起来,这样整体的数据量就不会小
  • 菜是原罪,而且世界是个巨大的草台班子,不是每个人都那么的优秀

3 离线到实时

这里还是举个例子,以前家里宽带不能上网了,打运营商电话报障投诉,很大概率是不能立马给你说出故障原因并给出解决时限的,有些故障处理个十天半个月也不是问题,甚至有时候运营商的客服和故障处理人员态度还不大好。但现在不一样,很多时候在你电话报障的时候,就能直接给你说出故障原因,同时网络维护人员会很快给你打电话并同步故障处理进度,态度非常好。为什么会有这种变化,其主要原因一是上级通信主管单位的要求,运营商必须保证网络连通性;二是现在投诉可以直接电话到工信部,这样的投诉再下放到本地,带来的影响可会被放大很多。
运营商的数据就是上一节说到的基础数据都是海量且实时变化的,排障就是在这些海量基础数据之上结合其他相关大规模流转数据找到故障点并反馈一线快速处置,这就是一个典型的HTAP场景了。如果还是用以前相对臃肿的Hadoop来解决类似的问题,那么ETL的过程所耗费的时间往往就已经让故障工单超时了。

4 未来

其实大数据的近实时在线分析和离线分析两种场景并不是有你无他的,两种场景根据需求不同是同时存在的,只不过如前一节所说的一样,只不过很多原来没有时间要求的计算分析现在实时性要求越来越高了。依托软硬件的发展与合理的应用与数据层架构设计,可以非常便捷的实现HTAP的场景需求,另一方面我觉得以后离线大数据分析中ETL的部分完全可以交给AI来做,不仅性能更好,还能敏捷的变更需求,如果再将数据排布一并交给AI,那么离线大数据分析的性能会有一个质的提升。

总结

大数据是数据量越来越大,实时性要求越来越高环境下的一种概念或者场景需求。
老规矩,知道写了些啥。


http://www.hkcw.cn/article/KQVxkPHxiv.shtml

相关文章

Java Netty 中处理粘包和半包问题的解决方案 | TCP消息完整性校验(XOR )

文章目录 引言I 处理TCP粘包和半包问题背景粘包问题的产生原因解决方案WebSocket中的粘包和半包问题及解决方案II Java Netty 中处理粘包和半包问题粘包和半包问题可以通过以下几种方式解决:使用分隔符解码器基于长度字段的解码器实现自定义解码器III TCP常见封装处理消息接收…

鸿蒙next系统以后会取代安卓吗?

点击上方关注 “终端研发部” 设为“星标”,和你一起掌握更多数据库知识 官方可没说过取代谁谁,三足鼎立不好吗?三分天下,并立共存。 鸿蒙基于Linux,有人说套壳;ios/macos基于Unix,说它ios开源了…

排便不是一件可以随意“延后”的事:长期便秘->直肠敏感性降低->功能性便秘->大便失禁

文章目录 引言知识扩展: 快乐排便的黄金姿势I 便秘并不是一种单一成因的疾病便秘成因临床治疗II 总是压抑排便,身体会发生的变化III 排便不是一件可以随意“延后”的事引言 排便是一种复杂的反射行为: 由“直肠充盈—产生便意—括约肌协调—排出”的完整生理链条完成的。 …

基于Spring Boot 电商书城平台系统设计与实现(源码+文档+部署讲解)

技术范围:SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等设计与开发。 主要内容:免费功能设计、开题报告、任务书、中期检查PPT、系统功能实现、代码编写、论文编写和辅导、论文…

Golang——5、函数详解、time包及日期函数

函数详解、time包及日期函数 1、函数1.1、函数定义1.2、函数参数1.3、函数返回值1.4、函数类型与变量1.5、函数作参数和返回值1.6、匿名函数、函数递归和闭包1.7、defer语句1.8、panic和recover 2、time包以及日期函数2.1、time.Now()获取当前时间2.2、Format方法格式化输出日期…

HTTP详解

使用的工具:fiddler 一、请求和响应报文的结构 1.请求 ⾸⾏: [⽅法] [url] [版本]Header: 请求的属性, 冒号分割的键值对;每组属性之间使⽤\n分隔;遇到空⾏表⽰Header部分结束Body: 空⾏后⾯的内容都是Body. Body允许为空字符串. 如果Body存在, 则在Header中会有…

解决:install via Git URL失败的问题

为解决install via Git URL失败的问题,修改安全等级security_level的config.ini文件,路径如下: 还要重启: 1.reset 2.F5刷新页面 3.关机服务器,再开机(你也可以省略,试试) 4.Wind…

【小工具开发】通过Java实现批量修改文件名小工具

1. 创建Project(使用Gradle) 2.安装Gradle 修改 distributionUrlhttps\://mirrors.cloud.tencent.com/gradle/gradle-8.12-bin.zip 修改 distributionUrlhttps\://mirrors.cloud.tencent.com/gradle/gradle-8.12-all.zip 阅读了以下博客,发…

【AI智能体】Spring AI MCP 从使用到操作实战详解

目录 一、前言 二、MCP 介绍 2.1 什么是MCP 2.2 MCP 核心特点 2.3 MCP 核心价值 2.4 MCP 与Function Calling 区别 三、Spring AI MCP 架构介绍 3.1 整体架构 3.1.1 三层架构实现说明 3.2 服务端与客户端 3.2.1 MCP 服务端 3.2.1 MCP 客户端 3.3 MCP中SSE和STDIO区…

Python打卡DAY43

复习日 作业: kaggle找到一个图像数据集,用cnn网络进行训练并且用grad-cam做可视化 进阶:并拆分成多个文件 我选择ouIntel Image Classification | Kagglezz,该数据集分为六类,包含建筑、森林、冰川、山脉、海洋和街道…

香橙派3B学习笔记5:Linux文件系统分区_A/B系统分区

经过之前的多次分区失败导致系统重启无法进入,这次调整思路重新分区 ssh : orangepi本地ip 密码 : orangepi 操作系统发行版: 基于 Ubuntu 20.04.6 LTS(Focal Fossa)的定制版本,专门为 Orange …

第16讲、Odoo 18 序号(Sequence)详解

目录 序号系统概述底层实现原理常见序号规则使用方法与最佳实践案例分析:客户工单管理系统常见问题与解决方案总结 序号系统概述 Odoo 中的序号(Sequence)系统是一个用于生成唯一标识符的核心机制,主要用于为业务单据&#xff…

内存管理--《Hello C++ Wrold!》(8)--(C/C++)--深入剖析new和delete的使用和底层实现

文章目录 前言C/C内存分布new和deletenew和delete的底层定位new表达式 内存泄漏作业部分 前言 在C/C编程中,内存管理是理解程序运行机制的核心基础,也是开发高效、稳定程序的关键。无论是局部变量的存储、动态内存的分配,还是对象生命周期的…

Linux之进程间通信

目录 一、进程间通信介绍 1.1、进程间通信目的 1.2、进程间通信发展 1.3、进程间通讯分类 二、管道 三、匿名管道 3.1、示例代码 完整重定向问题: 3.2、⽤ fork 来共享管道原理 3.3、站在⽂件描述符⻆度-深度理解管道 3.4、站在内核⻆度-管道本质 3.5、…

京东轨迹验证码识别代码

一、简介 这个是最新的京东轨迹验证码,需要用户根据轨迹画出对应的曲线。这个和传统的验证码有较大的差异,有非常大的难度。经过长时间的研究,现在终于解决了它的识别问题。 这个是识别效果,和真实轨迹基本上重合,所以…

【Godot】如何导出 Release 版本的安卓项目

在使用 Godot 引擎开发安卓游戏或应用时,发布到应用市场(如 Google Play、华为应用市场等)通常需要生成一个 Release 版本的 .apk 包,而非 Debug 版本。本文将详细介绍如何将 Godot 项目导出为 Release 版本的安卓项目&#xff0c…

哈喽,我是钓鱼的肝

我嘛,一个五年级的小猴子,哦不,小孩子,给大家看看我长什么样子 呃,放错了 别想了,等你关注我再说 我写博客的缘由就是想让大家一起见证我的进步,二是把我的学习成果让更多人看见,三…

【Linux】网络--网络层--IP协议

个人主页~ 网络--网络层--IP协议 一、基本概念二、IP报头格式三、网络划分四、私有IP和公网IP五、路由路由表 六、与数据链路层之间的协议 一、基本概念 IP 协议是用于在互联网上进行数据传输的一种网络层协议,它为不同网络中的设备提供了一种统一的方式来交换数据…

MCP (模型上下文协议):AI界的“USB-C”标准,开启大模型应用新纪元

今天我们来聊聊一个可能深刻改变 AI 应用开发模式的新技术——MCP (Model Context Protocol,模型上下文协议)。这是由 Anthropic 公司(旗下拥有知名大模型 Claude)提出的一项旨在统一大模型与外部世界交互方式的“万能接口”。不妨把它想象成…

Python数学可视化——显函数、隐函数及复杂曲线的交互式绘图技术

Python数学可视化——显函数、隐函数及复杂曲线的交互式绘图技术 一、引言 在科学计算和数据分析中,函数与方程的可视化是理解数学关系和物理现象的重要工具。本文基于Python的Tkinter和Matplotlib库,实现一个功能完善的函数与方程可视化工具&#xff…