一、开源项目简介

WantWords 是一个由清华大学自然语言处理实验室出品的开源在线反向词典。与为查询词提供定义的常规(正向)词典相反,反向词典返回与查询描述语义相符的词。

首个支持中文及跨语言查询的开源在线反向词典。

二、功能概述

什么是反向词典?

普通的词典告诉你某个词语的定义,而反向词典恰好相反,可以告诉你哪些词语符合你输入描述的意思。下图为万词王在线反向词典的页面截图,其中演示了反向查词的一个示例,输入“山非常高”,系统将返回一系列模型认为表达“山非常高”意思的词语,例如“高峻”、“巍峨”等。

反向词典可以用来做什么?

  • 解决“舌尖现象”(tip-of-the-tongue,又称话到嘴边说不出来),即暂时性忘词的问题
  • 帮助语言学习者学习、巩固词汇
  • 改善选词性失语者患者的生活质量,该病的症状是可以识别并描述一个物体,但是无法记起该物体的名字

功能:

  • 解决表述问题,即无法从记忆中检索出一个词的现象
  • 帮助新的语言学习者
  • 帮助选词(或词库)失忆症患者,这些人能够识别和描述一个物体,但由于神经系统紊乱而不能说出它的名字。

三、技术选型

系统架构

工作流

「开源」清华大学自然语言处理实验室出品的开源在线反向词典插图

核心模型

万词王的核心模型为我们此前发表在AAAI-20上的一篇论文提出的多通道反向词典模型:Multi-channel Reverse Dictionary Model [论文] [代码],其模型架构如下所示。

「开源」清华大学自然语言处理实验室出品的开源在线反向词典插图1

关键依赖

  • Django==2.2.5
  • django-cors-headers==3.5.0
  • numpy==1.17.2
  • pytorch-transformers==1.2.0
  • requests==2.22.0
  • scikit-learn==0.22.1
  • scipy==1.4.1
  • thulac==0.2.0
  • torch==1.2.0
  • urllib3==1.25.6
  • uWSGI==2.0.18
  • uwsgitop==0.11

四、界面展示

「开源」清华大学自然语言处理实验室出品的开源在线反向词典插图2
「开源」清华大学自然语言处理实验室出品的开源在线反向词典插图3
「开源」清华大学自然语言处理实验室出品的开源在线反向词典插图4
「开源」清华大学自然语言处理实验室出品的开源在线反向词典插图5
「开源」清华大学自然语言处理实验室出品的开源在线反向词典插图6
「开源」清华大学自然语言处理实验室出品的开源在线反向词典插图7

 

五、开源协议

该仓库未指定开源许可证,未经作者的许可,此代码仅用于学习,不能用于其他用途。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。