Microsoft Fabric - 尝试一下Data Factory一些新的特性(2025年5月)

article/2025/8/13 20:40:37

1.简单介绍

Microsoft Fabric是微软提供的一个数据管理和分析的统一平台,感觉最近的新特性也挺多的。

        

Data Factory是Microsoft Fabric的一个功能模块,也是一个cloud service。Data Factory可以和多种数据源进行连接,同时提供了data movement, data orchestration, data transformation的功能。有点类似以前的数据ETL工具的功能。       

这边主要尝试一下Data Factory的一些比较新的特性

2.具体说明

2.1 SharePoint作为存储目标

当前Microsoft Fabric中的Dataflow Gen2允许将数据存储到SharePoint library中,

1) 创建一个类型为Dataflow Gen2的dataflow,上传一个excel文件作为数据源,点击Next按钮,

        

 2) 选择一张table作为数据源,点击Create按钮创建dataflow,

        

3) 在dataflow编辑界面中,点击Add data destination下拉框,选择SharePoint选项,

        

4) 输入SharePoint站点的URL同时设定一些相关的配置,然后点击Next按钮,

         

5)  在Choose destination target窗口的左侧目录视图中,选择保存的文档库,还可以设定一下file name,最后点击Next按钮,

         

6) 保存并运行dataflow,最后在SharePoint站点的特定文档库中会发现有个csv文件生成了,

        

2.2 Dataflow转换

 假定已经创建了一个Dataflow Gen1

        

当前Microsoft Fabric增加了一个新特性,可以将Dataflow Gen1升级成Dataflow Gen2,

1) 点击DataflowGen1右侧的...,在下拉选项中选择Save as Dataflow Gen2即可,

        

 2) 在弹出的Save as Dataflow Gen(Preview)窗口中,输入Dataflow的名字,点击Create按钮,

        

3) 最后就多了一个Dataflow Gen2的dataflow了,

        

2.3 Variable library

Microsoft Fabric中多了Variable Library配置项

2.3.1 创建variable library 

1) 点击workspace中的New Item按钮,

        

2) 在New item面板中,点击Variable library的选项(当前处于preview阶段)

        

3) 可以创建一个如下图所示的variable library,

如下图datapath是变量名,当前的值为new_sales, 

        

还可以为变量datapath设定两个候选值,一个是new_sales_test,另外一个是new_sales_prod

        

创建的variable library最后是下面这个样子的,

        

2.3.2 应用variable library

假定已经创建了一个Data pipeline,主要功能是从一个网站下载sales数据到Microsoft Fabric的lakehouse中,

        

下载到lakehouse的sales.csv如下图所示,

        

下面Microsoft Fabric workspace中创建的Data pipeline, Lakehouse和Variable library, 

        

1) 在创建的data pipeline中,发现新增了一个Library variables(preview)的tab,可以添加一个变量和之前创建的variable library进行关联,配置如下图所示,

        

2) 可以配置Copy data action的File Path值来自variable library,如下图所示,

        

         

2.3.3 运行pipeline

假定当前变量datapath值为new_sales,

        

1) 现在点击下图中的Set as active选项将值new_sales_test变成active状态,

        

        

2) 点击pipeline界面上边的Run按钮,

        

3) 等待一些时间,pipeline运行成功了,

        

        

4) 最后查看目标lakehouse,发现有目录new_sales_test创建同时数据也下载完成了,

        

5) 如果是将值new_sales_prod设定为active状态,运行pipeline,最后发现lakehouse中也有new_sales_prod目录生成,如下面图所示,

        

         

感觉variable library用来设定不同产品环境的配置值,比如Developement, Test, Production环境的配置项相同但是值不同。可能比较适合CICD(continuous integration and continuous deployment)中的配置

3.总结

本文简单介绍了Microsoft Fabric Data Factory的一些新特性,其中variable library还处于preview阶段。当前随着大语言模型的普及,Data Factory也可以使用Copilot进行制作了。Microsoft Fabric的功能更新确实挺快的,还需继续跟着微软老师们学习一下。

本文如果哪里有错误,麻烦告之,谢谢谢谢!


http://www.hkcw.cn/article/HCBOcUlOHJ.shtml

相关文章

思科设备网络实验

一、 总体拓扑图 图 1 总体拓扑图 二、 IP地址规划 表格 1 接口地址规划 设备名称 接口/VLAN IP 功能 PC0 VLAN580 10.80.1.1 访问外网 PC1 VLAN581 10.80.2.1 访问外网 PC2 Fa0 20.80.1.100 端口镜像监控流量 PC3 VLAN585 10.80.6.1 远程登陆多层交换机0…

《机器学习数学基础》补充资料:韩信点兵与拉格朗日插值法

本文作者:卓永鸿 19世纪的伟大数学家高斯,他对自己做的数学有非常高的要求,未臻完美不轻易发表。于是经常有这样的情况:其他也很厉害的数学家提出自己的工作,高斯便拿出自己的文章说他一二十年前就做出来了&#xff0…

Go 即时通讯系统:日志模块重构,并从main函数开始

重构logger 上次写的logger.go过于繁琐,有很多没用到的功能;重构后只提供了简洁的日志接口,支持日志轮转、多级别日志记录等功能,并采用单例模式确保全局只有一个日志实例 全局变量 var (once sync.Once // 用于实现…

力扣面试150题--二叉树的锯齿形层序遍历

Day 56 题目描述 思路 锯齿形就是一层是从左向右,一层是从右向左,那么我们可以分析样例,对于第奇数层是从左向右,第偶数层是从右向左,于是可以采取一个计数器,采取链表方式,从左向右就是正常插…

uni-app学习笔记二十一--pages.json中tabBar设置底部菜单项和图标

如果应用是一个多 tab 应用,可以通过 tabBar 配置项指定一级导航栏,以及 tab 切换时显示的对应页。 在 pages.json 中提供 tabBar 配置,不仅仅是为了方便快速开发导航,更重要的是在App和小程序端提升性能。在这两个平台&#xff…

Vue3+SpringBoot全栈开发:从零实现增删改查与分页功能

前言 在现代化Web应用开发中,前后端分离架构已成为主流。本文将详细介绍如何使用Vue3作为前端框架,SpringBoot作为后端框架,实现一套完整的增删改查(CRUD)功能,包含分页查询、条件筛选等企业级特性。 技术栈介绍 前端&#xff1…

用户资产化视角下开源AI智能名片链动2+1模式S2B2C商城小程序的应用研究

摘要:在数字化时代,平台流量用户尚未完全转化为企业的数字资产,唯有将其沉淀至私域流量池并实现可控、随时触达,方能成为企业重要的数字资产。本文从用户资产化视角出发,探讨开源AI智能名片链动21模式S2B2C商城小程序在…

用dayjs解析时间戳,我被提了bug

引言 前几天开发中突然接到测试提的一个 Bug,说我的时间组件显示异常。 我很诧异,这里初始化数据是后端返回的,我什么也没改,这bug提给我干啥。我去问后端:“这数据是不是有问题?”。后端答:“…

适配器模式:让不兼容接口协同工作

文章目录 1. 适配器模式概述2. 适配器模式的分类2.1 类适配器2.2 对象适配器 3. 适配器模式的结构4. C#实现适配器模式4.1 对象适配器实现4.2 类适配器实现 5. 适配器模式的实际应用场景5.1 第三方库集成5.2 遗留系统集成5.3 系统重构与升级5.4 跨平台开发 6. 类适配器与对象适…

多模态AI的企业应用场景:视觉+语言模型的商业价值挖掘

关键词:多模态AI | 视觉语言模型 | 企业应用 | 商业价值 | 人工智能 📚 文章目录 一、引言:多模态AI时代的到来二、多模态AI技术架构深度解析三、客服场景:智能化服务体验革命四、营销场景:精准投放与创意生成五、研…

设备驱动与文件系统:01 I/O与显示器

操作系统设备驱动学习之旅——以显示器驱动为例 从这一节开始,我要学习操作系统的第四个部分,就是i o设备的驱动。今天要讲的是第26讲,内容围绕i o设备中的显示器展开,探究显示器是如何被驱动的,也就是操作系统怎样让…

【计算机网络】Linux下简单的UDP服务器(超详细)

套接字接口 我们把服务器封装成一个类,当我们定义出一个服务器对象后需要马上初始化服务器,而初始化服务器需要做的第一件事就是创建套接字。 🌎socket函数 这是Linux中创建套接字的系统调用,函数原型如下: int socket(int domain, int typ…

基于微信小程序的云校园信息服务平台设计与实现(源码+定制+开发)云端校园服务系统开发 面向师生的校园事务小程序设计与实现 融合微信生态的智慧校园管理系统开发

博主介绍: ✌我是阿龙,一名专注于Java技术领域的程序员,全网拥有10W粉丝。作为CSDN特邀作者、博客专家、新星计划导师,我在计算机毕业设计开发方面积累了丰富的经验。同时,我也是掘金、华为云、阿里云、InfoQ等平台…

6月1日星期日今日早报简报微语报早读

6月1日星期日,农历五月初六,早报#微语早读。 1、10个省份城镇化率超70%,广东城镇人口超9700万; 2、长沙居民起诉太平财险不赔“新冠险”,立案878天后获胜判; 3、海口:全市范围内禁止投放互联…

linux命令 systemctl 和 supervisord 区别及用法解读

目录 基础与背景服务管理范围配置文件和管理方式监控与日志依赖管理适用场景常用命令对照表实际应用场景举例优缺点对比小结参考链接 1. 基础与背景 systemctl 和 supervisord 都是用于管理和控制服务(进程)的工具,但它们在设计、使用场景和…

用mediamtx搭建简易rtmp,rtsp视频服务器

简述: 平常测试的时候搭建rtmp服务器很麻烦,这个mediamtx服务器,只要下载就能运行,不用安装、编译、配置等,简单易用、ffmpeg推流、vlc拉流 基础环境: vmware17,centos10 64位,wi…

YOLOv5-入门篇笔记

1.创建环境 conda create -n yolvo5 python3.8 去pytorch.org下载1.8.2的版本。 pip --default-timeout1688 install torch1.8.2 torchvision0.9.2 torchaudio0.8.2 --extra-index-url https://download.pytorch.org/whl/lts/1.8/cu111 github上下载yolov5的zip pip --def…

设计模式-行为型模式-模版方法模式

概述 模板方法模式 :Template Method Pattern : 是一种行为型设计模式. 它定义了一个操作中的算法骨架,而将一些步骤延迟到子类中实现。 模板方法使得子类可以在不改变算法结构的情况下,重新定义算法中的某些步骤。 符合 开闭原则。 可以在算法的流程中&…

barker-OFDM模糊函数原理及仿真

文章目录 前言一、巴克码序列二、barker-OFDM 信号1、OFDM 信号表达式2、模糊函数表达式 三、MATLAB 仿真1、MATLAB 核心源码2、仿真结果①、barker-OFDM 模糊函数②、barker-OFDM 距离分辨率③、barker-OFDM 速度分辨率④、barker-OFDM 等高线图 四、资源自取 前言 本文进行 …

十三、【核心功能篇】测试计划管理:组织和编排测试用例

【核心功能篇】测试计划管理:组织和编排测试用例 前言准备工作第一部分:后端实现 (Django)1. 定义 TestPlan 模型2. 生成并应用数据库迁移3. 创建 TestPlanSerializer4. 创建 TestPlanViewSet5. 注册路由6. 注册到 Django Admin 第二部分:前端…