AI炼丹日志-26 - crawl4ai 专为 AI 打造的爬虫爬取库 上手指南

article/2025/6/22 4:39:25

点一下关注吧!!!非常感谢!!持续更新!!!

Java篇:

  • MyBatis 更新完毕
  • 目前开始更新 Spring,一起深入浅出!

大数据篇 300+:

  • Hadoop(已更完)
  • HDFS(已更完)
  • MapReduce(已更完)
  • Hive(已更完)
  • Flume(已更完)
  • Sqoop(已更完)
  • Zookeeper(已更完)
  • HBase(已更完)
  • Redis (已更完)
  • Kafka(已更完)
  • Spark(已更完)
  • Flink(已更完)
  • ClickHouse(已更完)
  • Kudu(已更完)
  • Druid(已更完)
  • Kylin(已更完)
  • Elasticsearch(已更完)
  • DataX(已更完)
  • Tez(已更完)
  • 数据挖掘(已更完)
  • Prometheus(已更完)
  • Grafana(已更完)
  • 离线数仓(已更完)
  • 实时数仓(正在更新…)
  • Spark MLib (正在更新…)

在这里插入图片描述

官方地址

https://docs.crawl4ai.com/

在这里插入图片描述
Crawl4ai是第一个趋势GitHub存储库,由充满活力的社区积极维护。它提供了针对大型语言模型,AI代理和数据管道量身定制的燃烧,AI-Ready Web爬行。完全开源,灵活并为实时性能而构建,crawl4ai以无与伦比的速度,精度和部署易于使用。

作者故事

我的计算机之旅始于童年,当时我父亲是一名计算机科学家,他向我介绍了 Amstrad 计算机。那些早期的经历激发了我对技术的浓厚兴趣,促使我后来攻读了计算机科学专业,并在研究生阶段专注于自然语言处理(NLP)。也是在那段时间,我第一次接触到网页爬取,开发了帮助研究人员整理论文和从出版物中提取信息的工具。这是一段既充满挑战又极具收获的经历,极大地锤炼了我在数据提取方面的技能。

时间快进到2023年,当时我正在为一个项目开发工具,需要一个爬虫将网页内容转成 Markdown 格式。在寻找解决方案的过程中,我发现了一个自称开源的项目,但它要求创建账户并生成 API Token。更糟糕的是,它实际上是一个 SaaS 模型,需要支付 16 美元,而且质量还达不到我的预期。感到非常沮丧之余,我意识到这背后存在着更深层次的问题。这种沮丧很快变成了爆发式的愤怒,我决定自己动手解决。在短短几天内,我开发出了 Crawl4AI。出乎意料的是,它迅速走红,在 GitHub 上收获了数千颗星星,并受到了全球社区的热烈响应。

我之所以将 Crawl4AI 开源,主要有两个原因。首先,这是我回馈开源社区的一种方式,多年来,正是开源精神一直在支持着我的成长。其次,我坚信数据应该对所有人开放,而不是被高墙锁住或被少数人垄断。数据的自由访问是实现 AI 民主化的基础——一个人人都能训练自己的模型、掌握自己数据的未来愿景。而这个库,就是迈向打造全球最佳开源数据提取与生成工具之路的第一步,这一切将由一个充满激情的社区共同完成。

为什么选择

● 为大语言模型(LLMs)而生:生成智能、简洁的 Markdown 格式内容,专为 RAG(检索增强生成)和微调应用优化。
● 极速性能:以实时、低成本的方式交付结果,速度提升至 6 倍。
● 灵活的浏览器控制:支持会话管理、代理设置和自定义钩子,助力无缝访问数据。
● 启发式智能:采用先进算法进行高效提取,减少对高成本模型的依赖。
● 开源可部署:完全开源,无需 API Key,可直接使用 Docker 部署,支持云端集成。
● 蓬勃发展的社区:由充满活力的社区积极维护,且成为 GitHub 上趋势榜第一的热门项目。

配置环境

python -m venv env
source env/bin/activate

安装项目

pip install -U crawl4ai

执行结果如下所示:
在这里插入图片描述
配置环境

crawl4ai-setup

执行结果如下
在这里插入图片描述

检查环境

crawl4ai-doctor

如果一切正确,则出现的样子如下:
在这里插入图片描述

Docker方式

可以通过Docker来部署

拉取镜像

docker pull unclecode/crawl4ai

执行结果:
在这里插入图片描述

运行项目

docker run -d -p 11235:11235 --name crawl4ai --shm-size=1g unclecode/crawl4ai

访问项目

http://localhost:11235/playground

访问页面如下所示:
在这里插入图片描述


http://www.hkcw.cn/article/jkchBOpRSk.shtml

相关文章

homework 2025.03.31 chinese(class 3)

homework 2025.03.31 chinese(class 3) 三年级语文,古代十二时辰 ➠1. 子时(23-1时) “月落乌啼霜满天,江枫渔火对愁眠。姑苏城外寒山寺,夜半钟声到客船。” — 张继《枫桥夜泊》 子时夜深人静&…

若依框架定制化服务搭建

1.背景 若依框架是1套微服务框架,该服务在应用过程中少不了新增微服务来应对业务的需求,本次文档主要是针对若依框架的定制化微服务的搭建进行步骤的拆解。 2.ruoyi-api模块新建模块【report】 2.1 右键【ruoyi-api】,New一个Module 2.2 新…

【HW系列】—溯源与定位—Linux入侵排查

文章目录 一、Linux入侵排查1.账户安全2.特权用户排查(UID0)3.查看历史命令4.异常端口与进程端口排查进程排查 二、溯源分析1. 威胁情报(Threat Intelligence)2. IP定位(IP Geolocation)3. 端口扫描&#x…

JS入门——变量的类型、特殊符号、类型转化规则

JS入门——变量的类型、特殊符号、类型转化规则 一、变量类型 1.1总述 1.2代码实现 <!DOCTYPE html> <html><head><meta charset"utf-8"><title></title></head><body><script>// tyoeo可以检测出类型aler…

手写HashMap

项目仓库&#xff1a;https://gitee.com/bossDuy/hand-tear-collection-series 基于一个b站up的课程&#xff1a;https://www.bilibili.com/video/BV1SWZrYDEag?spm_id_from333.788.videopod.sections&vd_source4cda4baec795c32b16ddd661bb9ce865 手写简单的HashMap 这里…

MySQL强化关键_018_MySQL 优化手段及性能分析工具

目 录 一、优化手段 二、SQL 性能分析工具 1.查看数据库整体情况 &#xff08;1&#xff09;语法格式 &#xff08;2&#xff09;说明 2.慢查询日志 &#xff08;1&#xff09;说明 &#xff08;2&#xff09;开启慢查询日志功能 &#xff08;3&#xff09;实例 3.s…

VMware-workstation安装教程--超详细(附带安装包)附带安装CentOS系统教程

VMware-workstation安装教程--超详细&#xff08;附带安装包&#xff09;附带安装CentOS系统教程 一、下载软件VMwware二、下载需要的镜像三、在VMware上安装系统 一、下载软件VMwware 二、下载需要的镜像 三、在VMware上安装系统 VMware 被 Broadcom&#xff08;博通&#x…

Flutter - 原生交互 - 相机Camera - 01

环境 Flutter 3.29 macOS Sequoia 15.4.1 Xcode 16.3 集成 Flutter提供了camera插件来拍照和录视频&#xff0c;它提供了一系列可用的相机&#xff0c;并使用特定的相机展示相机预览、拍照、录视频。 添加依赖 camera: 提供使用设备相机模块的工具path_provider: 寻找存储图…

HackMyVM-Art

信息搜集 主机发现 ┌──(kali㉿kali)-[~] └─$ nmap -sn 192.168.43.0/24 Starting Nmap 7.95 ( https://nmap.org ) at 2025-05-31 03:00 EDT Nmap scan report for 192.168.43.1 Host is up (0.0047s latency). MAC Address: C6:45:66:05:91:88 (Unknown) Nmap scan rep…

第304个Vulnhub靶场演练攻略:digital world.local:FALL

digital world.local&#xff1a;FALL Vulnhub 演练 FALL (digitalworld.local: FALL) 是 Donavan 为 Vulnhub 打造的一款中型机器。这款实验室非常适合经验丰富的 CTF 玩家&#xff0c;他们希望在这类环境中检验自己的技能。那么&#xff0c;让我们开始吧&#xff0c;看看如何…

使用 HTML + JavaScript 在高德地图上实现物流轨迹跟踪系统

在电商行业蓬勃发展的今天&#xff0c;物流信息查询已成为人们日常生活中的重要需求。本文将详细介绍如何基于高德地图 API 利用 HTML JavaScript 实现物流轨迹跟踪系统的开发。 效果演示 项目概述 本项目主要包含以下核心功能&#xff1a; 地图初始化与展示运单号查询功能…

HTML Day04

Day04 0.引言1. HTML字符实体2. HTML表单2.1 表单标签2.2 表单示例 3. HTML框架4. HTML颜色4.1 16进制表示法4.2 rgba表示法4.3 名称表达法 5. HTML脚本 0.引言 刚刚回顾了前面几篇博客&#xff0c;感觉写的内容倒是很详细&#xff0c;每个知识点都做了说明。但是感觉在知识组织…

命令行式本地与服务器互传文件

文章目录 1. 背景2. 传输方式2.1 SCP 协议传输2.2 SFTP 协议传输 命令行式本地与服务器互传文件 1. 背景 多设备协同工作中&#xff0c;因操作系统的不同&#xff0c;我们经常需要将另外一个系统中的文件传输到本地PC进行浏览、编译。多设备文件互传&#xff0c;在嵌入式开发中…

进程间通信III·System V 系列(linux)

目录 为什么有system V 共享内存 原理 操作 shmget 创建共享内存 shmctl 控制共享内存 shmat 挂接共享内存到进程的虚拟地址空间中 shmdt 将共享内存去关联 特点 模拟练习 Makefile client.cpp server.cpp main.hpp 小知识 为什么有system V linux是一种类unix系…

Kafka 如何保证顺序消费

在消息队列的应用场景中&#xff0c;保证消息的顺序消费对于一些业务至关重要&#xff0c;例如金融交易中的订单处理、电商系统的库存变更等。Kafka 作为高性能的分布式消息队列系统&#xff0c;通过巧妙的设计和配置&#xff0c;能够实现消息的顺序消费。接下来&#xff0c;我…

数据结构:栈(Stack)和堆(Heap)

目录 内存&#xff08;Memory&#xff09;基础 程序是如何利用主存的&#xff1f; &#x1f3af; 静态内存分配 vs 动态内存分配 栈&#xff08;stack&#xff09; 程序执行过程与栈帧变化 堆&#xff08;Heap&#xff09; 程序运行时的主存布局 内存&#xff08;Memo…

数字权限管理(DRM):保护数字内容安全的小卫士

《数字权限管理&#xff08;DRM&#xff09;&#xff1a;保护数字内容安全的小卫士》 在当今数字化飞速发展的时代&#xff0c;我们每天都在和各种各样的数字内容打交道&#xff0c;像电子书、音乐、电影、软件等等。然而&#xff0c;这些数字内容的版权保护和访问控制也成为了…

进程同步:生产者-消费者 题目

正确答案&#xff1a; 问题类型&#xff1a; 经典生产者 - 消费者问题 同时涉及同步和互斥。 同步&#xff1a;生产者与消费者通过信号量协调生产 / 消费节奏&#xff08;如缓冲区满时生产者等待&#xff0c;空时消费者等待&#xff09;。互斥&#xff1a;对共享缓冲区的访问需…

【第三十八周】BLIP-2:一种高效的视觉语言预训练框架

BLIP-2 摘要Abstract文章信息引言方法模型结构Stage1:表征学习Stage2:生成学习模型预训练 实验结果总结 摘要 本篇博客介绍了BLIP-2 &#xff0c;这是一种面向通用多模态任务的高效视觉语言预训练框架&#xff0c;其核心思想是在冻结大语言模型的前提下&#xff0c;通过引入一…

算法打卡12天

19.链表相交 &#xff08;力扣面试题 02.07. 链表相交&#xff09; 给你两个单链表的头节点 headA 和 headB &#xff0c;请你找出并返回两个单链表相交的起始节点。如果两个链表没有交点&#xff0c;返回 null 。 图示两个链表在节点 c1 开始相交**&#xff1a;** 题目数据…