AWS之数据分析

article/2025/8/11 12:46:04

目录

数据分析产品对比

1. Amazon Athena

3. AWS Lake Formation

4. AWS Glue

5. Amazon OpenSearch Service

6. Amazon Kinesis Data Analytics

7. Amazon Redshift

8.Amazon Redshift Spectrum

搜索服务对比

核心功能与定位对比

适用场景

关键差异总结

注意事项

实时流数据源对比

核心区别总结

选择建议

关键结论

  关键区别总结

  协同使用案例

    如何选择?


数据分析产品对比

以下是 Amazon Athena、Amazon QuickSight、AWS Lake Formation、AWS Glue、Amazon OpenSearch Service(原 Elasticsearch Service)、Amazon Kinesis Data Analytics 和 Amazon Redshift  Spectrum的核心区别及典型使用场景的对比分析:


1. Amazon Athena

核心功能:无服务器交互式查询服务,支持使用标准 SQL 直接分析 Amazon S3 中的原始数据,无需预置基础设施。

• 特点:

• 按查询数据量计费,适合低频临时分析。

• 支持 Parquet、JSON、CSV 等多种格式,与 AWS Glue 元数据目录集成。

• 使用场景:

• 日志分析:例如分析存储在 S3 中的 Web 服务器日志,替代传统 Elasticsearch 的高成本存储方案。

• 数据探索:快速验证数据质量或执行临时查询。


2. Amazon QuickSight

核心功能:云端商业智能(BI)工具,提供数据可视化、自然语言查询(集成 Amazon Q)和交互式仪表盘。

• 特点:

• 支持与 Redshift、Athena、S3 等数据源集成。

• 生成式 AI 功能可自动生成分析报告、PPT 和关键洞察。

• 使用场景:

• 业务报表:为管理层提供实时销售、运营数据的可视化仪表盘。

• 自助分析:非技术人员通过自然语言提问(如“各区域销售额对比”)生成图表。


3. AWS Lake Formation

核心功能:数据湖治理工具,集中管理数据权限、元数据目录和跨源数据整合。

• 特点:

• 统一 S3 数据湖的权限控制(库/表/列级)。

• 自动爬取数据源元数据并构建目录。

• 使用场景:

• 多源数据整合:将 S3、RDS、DynamoDB 等数据统一到数据湖。

• 合规管理:满足 GDPR 等法规要求,控制敏感数据访问权限。

AWS 云端数据湖指南

https://d1.awsstatic.com/whitepapers/architecture/AWS-HPC-Lens.pdf?did=wp_card&trk=wp_card


4. AWS Glue

核心功能:无服务器 ETL(数据提取、转换、加载)服务,自动化生成数据处理脚本。

• 特点:

• 支持数据清洗、格式转换(如 CSV 转 Parquet)。

• 与 Lake Formation 共享元数据目录,提供图形化工作流设计。

• 使用场景:

• 数据湖构建:将原始数据转换为分析友好格式后存储到 S3。

• 批处理作业:例如每天定时处理订单数据并加载到 Redshift。


5. Amazon OpenSearch Service

核心功能:托管式搜索与分析引擎,支持全文检索、日志分析和实时可视化。

• 特点:

• 集成 Kibana 仪表盘,适合日志和点击流分析。

• 提供近实时数据处理能力。

• 使用场景:

• 日志监控:分析应用日志中的错误模式。

• 电商搜索:构建商品标题和描述的快速检索系统。


6. Amazon Kinesis Data Analytics

核心功能:实时流数据处理服务,支持 SQL 或 Apache Flink 进行流计算。

• 特点:

• 低延迟(毫秒级响应),自动扩展计算资源。

• 集成 Kinesis Data Streams 和 Firehose。

• 使用场景:

• 实时指标计算:例如滚动时间窗口内的网站访问量统计。

• 异常检测:监控 IoT 设备传感器数据并触发报警。


7. Amazon Redshift

核心功能:云数据仓库,专为复杂 OLAP 查询设计,支持 PB 级数据分析。

• 特点:

• 列式存储和高级查询优化,性能是标准 Spark 的 3 倍以上。

• 支持物化视图、数据共享和机器学习集成(Redshift MLÿ


http://www.hkcw.cn/article/lFRTxTKyAj.shtml

相关文章

Linux进程间通信----简易进程池实现

进程池的模拟实现 1.进程池的原理: 是什么 进程池是一种多进程编程模式,核心思想是先创建好一定数量的子进程用作当作资源,这些进程可以帮助完成任务并且重复利用,避免频繁的进程的创建和销毁的开销。 下面我们举例子来帮助理…

【Oracle】安装单实例

个人主页:Guiat 归属专栏:Oracle 文章目录 1. 安装前的准备工作1.1 硬件和系统要求1.2 检查系统环境1.3 下载Oracle软件 2. 系统配置2.1 创建Oracle用户和组2.2 配置内核参数2.3 配置用户资源限制2.4 安装必要的软件包 3. 目录结构和环境变量3.1 创建Ora…

Pyecharts 库的概念与函数

基本概念 Pyecharts 是一个基于 ECharts 的 Python 数据可视化库,具有以下特点: 基于 ECharts:底层使用百度开源的 ECharts 图表库 多种图表类型:支持折线图、柱状图、饼图、散点图、地图等多种图表 交互式:生成的图…

【深入详解】C语言内存函数:memcpy、memmove的使用和模拟实现,memset、memcmp函数的使用

目录 一、memcpy、memmove使用和模拟实现 (一)memcpy的使用和模拟实现 1、代码演示: (1)memcpy拷贝整型 (2)memcpy拷贝浮点型 2、模拟实现 (二)memmove的使用和模…

设计模式——责任链设计模式(行为型)

摘要 责任链设计模式是一种行为型设计模式,旨在将请求的发送者与接收者解耦,通过多个处理器对象按链式结构依次处理请求,直到某个处理器处理为止。它包含抽象处理者、具体处理者和客户端等核心角色。该模式适用于多个对象可能处理请求的场景…

软件的兼容性如何思考与分析?

软件功能的兼容性是指软件在实现功能的时候,能够与其他软件、硬件、系统环境以及数据格式等相互协作、互不冲突,并且能够正确处理不同来源或不同版本的数据、接口和功能模块的能力。它确保软件在多种环境下能够正常运行,同时与其他系统和用户…

C++ —— STL容器——string类

1. 前言 本篇博客将会介绍 string 中的一些常用的函数,在使用 string 中的函数时,需要加上头文件 string。 2. string 中的常见成员函数 2.1 初始化函数 string 类中的常用的初始化函数有以下几种: 1. string() …

DFS每日刷题

目录 P1605 迷宫 P1451 求细胞数量 P1219 [USACO1.5] 八皇后 Checker Challenge P1605 迷宫 #include <iostream> using namespace std; int n, m, t; int a[20][20]; int startx, starty, endx, endy; bool vis[20][20]; int res; int dx[] {0, 1, 0, -1}; int dy[]…

USART 串口通信全解析:原理、结构与代码实战

文章目录 USARTUSART简介USART框图USART基本结构数据帧起始位侦测数据采样波特率发生器串口发送数据 主要代码串口接收数据与发送数据主要代码 USART USART简介 一、USART 的全称与基本定义 英文全称 USART&#xff1a;Universal Synchronous Asynchronous Receiver Transmi…

C# winform 教程(一)

一、安装方法 官网下载社区免费版&#xff0c;在线下载安装 VS2022官网下载地址 下载后双击启动&#xff0c;选择需要模块&#xff08;net桌面开发&#xff0c;通用window平台开发&#xff0c;或者其他自己想使用的模块&#xff0c;后期可以修改&#xff09;&#xff0c;选择…

ZLG ZCANPro,ECU刷新,bug分享

文章目录 摘要 📋问题的起因bug分享 ✨思考&反思 🤔摘要 📋 ZCANPro想必大家都不陌生,买ZLG的CAN卡,必须要用的上位机软件。在汽车行业中,有ECU软件升级的需求,通常都通过UDS协议实现程序的更新,满足UDS升级的上位机要么自己开发,要么用CANoe或者VFlash,最近…

Matlab作图之 subplot

1. subplot(m, n, p) 将当前图形划分为m*n的网格&#xff0c;在 p 指定的位置创建坐标轴 matlab 按照行号对子图的位置进行编号 第一个子图是第一行第一列&#xff0c;第二个子图是第二行第二列......... 如果指定 p 位置存在坐标轴&#xff0c; 此命令会将已存在的坐标轴设…

【STM32F1标准库】理论——外部中断

目录 一、中断介绍 二、外部引脚EXTI申请的中断 三、外部中断的适用场景 四、其他注意事项 一、中断介绍 STM32可以触发中断的外设有外部引脚(EXTI)、定时器、ADC、DMA、串口、I2C、SPI等 中断同一由NVIC管理 n表示一个外设可能同时占用多个中断通道 优先级的值越小优先…

SAP学习笔记 - 开发18 - 前端Fiori开发 应用描述符(manifest.json)的用途

上一章讲了 Component配置&#xff08;组件化&#xff09;。 本章继续讲Fiori的知识。 目录 1&#xff0c;应用描述符(Descriptor for Applications) 1&#xff09;&#xff0c; manifest.json 2&#xff09;&#xff0c;index.html 3&#xff09;&#xff0c;Component.…

定时任务:springboot集成xxl-job-core(一)

springboot:2.7.2 xxl-job-core: 2.3.0 一、集成xxl-job 1. 在gitee上下载xxl-job项目 git clone https://gitee.com/xuxueli0323/xxl-job.git 2. 执行以下目录下的sql /xxl-job-2.3.0/doc/db/tables_xxl_job.sql 3. 在xxl-job-admin的项目中配置数据库信息 ### xxl-job, data…

【STM32开发板】接口部分

一、USB接口 可以看到USBP和USBN与PA12,PA11引脚相接,根据协议&#xff0c;需要添加上拉电阻 二、ADC和DAC 根据原理图找到可以作为ADC和DAC的引脚 ADC和DAC属于模拟部分的&#xff0c;所以要接模拟地 三、指示灯电路 找几个通用的引脚&#xff0c;因为单片机的灌电流比拉电流…

阻塞队列BlockingQueue解析

阻塞队列是一个支持两个附加操作的队列。这两个附加的操作支持阻塞的插入和移除的方法。 阻塞插入&#xff1a;当队列满的时候&#xff0c;队列会阻塞插入元素的线程&#xff0c;直到队列不满。 阻塞移除&#xff1a;当队列空的时候&#xff0c;队列会阻塞移除元素的线程&…

[Redis] Redis命令在Pycharm中的使用

初次学习&#xff0c;如有错误还请指正 目录 String命令 Hash命令 List命令 set命令 SortedSet命令 连接pycharm的过程见&#xff1a;[Redis] 在Linux中安装Redis并连接桌面客户端或Pycharm-CSDN博客 redis命令的使用见&#xff1a;[Redis] Redis命令&#xff08;1&#xf…

车载控制器的“机电一体化”深度集成

我是穿拖鞋的汉子&#xff0c;魔都中坚持长期主义的汽车电子工程师。 老规矩&#xff0c;分享一段喜欢的文字&#xff0c;避免自己成为高知识低文化的工程师&#xff1a; 所谓鸡汤&#xff0c;要么蛊惑你认命&#xff0c;要么怂恿你拼命&#xff0c;但都是回避问题的根源&…

PINN模型相关原理

PINN模型相关原理 目录 PINN模型相关原理原本的物理界的利用神经网络的参数估计PINN 的原理介绍一、基本思想二、PINN 的损失函数三、自动微分&#xff08;Autodiff&#xff09;四、PINN 的优势与挑战 原本的物理界的利用神经网络的参数估计 原本物理界需要确定一个三维流体&a…