一、开源项目简介

DeepKE 是一个开源的知识图谱抽取与构建工具,支持cnSchema、低资源、长篇章、多模态的知识抽取工具,可以基于PyTorch实现命名实体识别关系抽取属性抽取功能。

二、开源协议

使用MIT开源协议

三、界面展示

开源MIT协议,基于深度学习的开源中文知识图谱抽取与构建框架插图
开源MIT协议,基于深度学习的开源中文知识图谱抽取与构建框架插图1

 

四、功能概述

具体功能介绍

 

备注(常见问题)

  1. 使用 Anaconda 时,建议添加国内镜像,下载速度更快。如镜像。
  2. 使用 pip 时,建议使用国内镜像,下载速度更快,如阿里云镜像。
  3. 安装后提示 ModuleNotFoundError: No module named ‘past’,输入命令 pip install future 即可解决。
  4. 使用语言预训练模型时,在线安装下载模型比较慢,更建议提前下载好,存放到 pretrained 文件夹内。具体存放文件要求见文件夹内的 README.md。
  5. DeepKE老版本位于deepke-v1.0分支,用户可切换分支使用老版本,老版本的能力已全部迁移到标准设定关系抽取(example/re/standard)中。
  6. 推荐使用python setup.py install方式安装DeepKE,如未使用该方式安装,源码修改部分不会生效,见问题
  7. 更多的低资源抽取工作可查阅论文 Knowledge Extraction in Low-Resource Scenarios: Survey and Perspective.
  8. 确保使用requirements.txt中对应的各依赖包的版本。

五、技术选型

模型架构

Deepke的架构图如下所示

开源MIT协议,基于深度学习的开源中文知识图谱抽取与构建框架插图2
  • DeepKE为三个知识抽取功能(命名实体识别、关系抽取和属性抽取)设计了一个统一的框架
  • 可以在不同场景下实现不同功能。比如,可以在标准全监督、低资源少样本、文档级和多模态设定下进行关系抽取
  • 每一个应用场景由三个部分组成:Data部分包含Tokenizer、Preprocessor和Loader,Model部分包含Module、Encoder和Forwarder,Core部分包含Training、Evaluation和Prediction

环境依赖

python == 3.8

  • torch == 1.5
  • hydra-core == 1.0.6
  • tensorboard == 2.4.1
  • matplotlib == 3.4.1
  • transformers == 3.4.0
  • jieba == 0.42.1
  • scikit-learn == 0.24.1
  • pytorch-transformers == 1.2.0
  • seqeval == 1.2.2
  • tqdm == 4.60.0
  • opt-einsum==3.3.0
  • ujson
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。