导入典籍数据

article/2025/7/4 11:29:10

1.从网上获取中医相关典籍数据,数目共600+txt,总篇数14万+

2.数据处理

获取到的数据结构大致如下

一个txt表示一本书,开头存有书籍相关的名字,作者,朝代,年份,之后每一个<目录>下都跟有一个篇目,标题由<篇名>开头,但并非所有txt都保持这样的格式,因此要先进行数据处理才能存到数据库中

2.1由于下载的txt数据编码格式不一,导致难以正常解析,因此先进行了编码统一化,将其全部变成utf-8编码格式

2.2对编码格式转化好的txt文件存入数据库

2.2.1通过对txt内容进行解析将书籍相关信息存入book表,包括bookid,name,author,dynasty,year

2.2.2删去没能成功处理的书籍

2.2.3

解析清洗后的txt文件,提取其中每本书的篇目,将它们存入classics表中

3.处理后数据提取后展示

共628篇书目

共141180个典籍篇目


http://www.hkcw.cn/article/mSsDQjWBOR.shtml

相关文章

状态机实现文件单词统计

系统如何查找可执行文件 默认&#xff1a;在PATH路径下寻找文件文件下 执行当前目录下文件&#xff1a; ./&#xff1a;指定文件目录是当前目录 ./count:执行当前目录文件 编译.c文件为运行文件 gcc -o count 0voice.c #将0voice.c编译为名字count 为什么主函数要那么写&a…

[面试精选] 0021. 合并两个有序链表

文章目录 1. 题目链接2. 题目描述3. 题目示例4. 解题思路5. 题解代码6. 复杂度分析 1. 题目链接 21. 合并两个有序链表 - 力扣&#xff08;LeetCode&#xff09; 2. 题目描述 将两个升序链表合并为一个新的 升序 链表并返回。新链表是通过拼接给定的两个链表的所有节点组成的…

【C++】内存管理

C/C内存分布 1.栈又叫堆栈–非静态局部变量/函数参数/返回值等等&#xff0c;栈是向下增长的。 2.内存映射段是高效的I/O映射方式&#xff0c;用于装载一个共享的动态内存库。用户可使用系统接口创建共享共享内存&#xff0c;做进程间通信。 3.堆用于程序运行时动态内存分配&am…

基于javaweb的SpringBoot爱游旅行平台设计和实现(源码+文档+部署讲解)

技术范围&#xff1a;SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等设计与开发。 主要内容&#xff1a;免费功能设计、开题报告、任务书、中期检查PPT、系统功能实现、代码编写、论文编写和辅导、论文…

ubuntu系统扩容

使用gparted工具扩容 安装方法&#xff1a; sudo apt-get update sudo apt-get install gparted 运行gparted&#xff0c;进行分区扩容 sudo gparted 打开软件后&#xff0c;先点击弹出窗口中的ok&#xff0c;若无弹出窗口&#xff0c;则无需点击。 点击右侧的下拉按钮 点…

计算机组成原理-计算机硬件的主要技术指标

机器字长 CPU一次能处理数据的位数&#xff0c;与CPU中的寄存器位数有关 运算速度 主频 核数&#xff0c;每个核支持的线程数 吉普森法&#xff1a;Tm ,根据指令集中每条指令的执行频率对指令集中所有指令的执行时间做加权平均。其中fi根据是否在程序运行时测量&#xff…

【TMS570LC4357】之相关驱动开发学习记录1

系列文章目录 【TMS570LC4357】之工程创建 【TMS570LC4357】之工程配置修改 【TMS570LC4357】之HALCOGEN使用 【TMS570LC4357】之相关问题及解决 ——————————————————— 前言 记录笔者在第一次使用TMS570过程中对外设驱动的一些学习碎片。 1. RTI 1.1 添…

多智能体在具身智能上的研究

在关于大模型的认知升级-CSDN博客中&#xff0c;我们提到大模型的终局是具身智能。那么&#xff0c;本文我们就来看看多智能体在具身智能上有了哪些应用。 Manus发布一天后迅速出现OpenManus、OWL等复刻项目。为什么可以这么快的复刻项目&#xff1f;其实&#xff0c;多智能体…

【HW系列】—安全设备介绍(开源蜜罐的安装以及使用指南)

文章目录 蜜罐1. 什么是蜜罐&#xff1f;2. 开源蜜罐搭建与使用3. HFish 开源蜜罐详解安装步骤使用指南关闭方法 总结 蜜罐 1. 什么是蜜罐&#xff1f; 蜜罐&#xff08;Honeypot&#xff09;是一种主动防御技术&#xff0c;通过模拟存在漏洞的系统或服务&#xff08;如数据库…

打卡day43

DAY 43 复习日 作业&#xff1a; kaggle找到一个图像数据集&#xff0c;用cnn网络进行训练并且用grad-cam做可视化 进阶&#xff1a;并拆分成多个文件 数据集来源水母图像数据集 --- Jellyfish Image Dataset&#xff0c;对水母图片进行分类&#xff0c;共6个类别。 模型训…

20250602在荣品的PRO-RK3566开发板的Android13下打开HDMI显示

20250602在荣品的PRO-RK3566开发板的Android13下打开HDMI显示 2025/6/2 16:20 缘起&#xff1a;貌似荣品的PRO-RK3566开发板的Android13默认关闭了HDMI显示。 据说&#xff1a;荣品确认RK3566的GPU比较弱&#xff0c;同时开【MIPI接口的】LCD屏显示和HDMI显示容易出现异常。 更…

C++ 类模板三参数深度解析:从链表迭代器看类型推导与实例化(为什么迭代器类模版使用三参数?实例化又会是怎样?)

本篇主要续上一篇的list模拟实现遇到的问题详细讲解&#xff1a;<传送门> 一、引言&#xff1a;模板参数的 "三角锁钥" 在 C 双向链表实现中&#xff0c;__list_iterator类模板的三个参数&#xff08;T、Ref、Ptr&#xff09;如同精密仪器的调节旋钮&#x…

TDengine 高级功能——读缓存

简介 在物联网&#xff08;IoT&#xff09;和工业互联网&#xff08;IIoT&#xff09;大数据应用场景中&#xff0c;实时数据的价值往往远超历史数据。企业不仅需要数据处理系统具备高效的实时写入能力&#xff0c;更需要能快速获取设备的最新状态&#xff0c;或者对最新数据进…

云HIS系统源码,基于SaaS模式开发,采用Java技术栈(SpringBoot+MyBatisPlus)和MySQL数据库

SaaS模式Java版云HIS系统源码&#xff0c;融合B/S版电子病历系统&#xff0c;支持电子病历四级&#xff0c;HIS与电子病历系统均拥有自主知识产权。 云HIS系统是一款满足基层医院各类业务需要的健康云产品。帮助基层医院完成日常各类业务&#xff0c;提供病患预约挂号支持、病…

【AUTOSAR SystemServices】深入解析StbM模块:功能定义、工作原理与代码实现

文章目录 一、STBM模块概述1.1 功能定义1.2 在AUTOSAR中的定位与应用场景 二、核心工作原理2.1 时间基准类型2.2 时间同步流程2.3 关键数据结构 三、代码实现分析3.1 初始化函数&#xff1a;StbM_Init功能关键代码片段 3.2 时间获取函数&#xff1a;StbM_GetCurrentTime功能关键…

力扣HOT100之多维动态规划:64. 最小路径和

这道题和上一道题62.不同路径套路很像&#xff0c;思路也比较简单&#xff0c;用二维dp数组做就可以了。直接上动规五部曲&#xff1a; 1.确定dp[i][j]的含义&#xff1a;从起点到位置为[i][j]处的最小路径和 2.确定递推公式 dp[i][j] min(dp[i - 1][j], dp[i][j - 1]) grid[…

Tree 树形组件封装

整体思路 数据结构设计 使用递归的数据结构&#xff08;TreeNode&#xff09;表示树形数据每个节点包含id、name、可选的children数组和selected状态 状态管理 使用useState在组件内部维护树状态的副本通过deepCopyTreeData函数进行深拷贝&#xff0c;避免直接修改原始数据 核…

数据结构与算法:图论——拓扑排序

基础与模板&#xff1a; 有两个Kahn和DFS两个算法 下面给出Kahn的算法模板 #include<iostream> #include<vector> #include<queue> using namespace std;vector<int> topologicalSortKahn(int num, const vector<pair<int, int>>& re…

现代语言模型中的分词算法全解:从基础到高级

基础分词&#xff08;Naive Tokenization&#xff09; 最简单的分词方式是基于空格将文本拆分为单词。这是许多自然语言处理&#xff08;NLP&#xff09;任务中常用的一种分词方法。 text "Hello, world! This is a test." tokens text.split() print(f"Tok…

Deepseek给出的8255显示例程

#include <stdio.h> #include <conio.h> #include <dos.h>// 定义8255端口地址 (根据原理图译码确定) #define PORT_8255_A 0x8000 // PA端口地址 #define PORT_8255_B 0x8001 // PB端口地址 #define PORT_8255_C 0x8002 // PC端口地址 #define PORT_8255…