Releases: jsksxs360/AHANLP
Releases · jsksxs360/AHANLP
v1.3
v1.3 测试版2
- 修复将文本中间空格识别为句子分隔符的问题。
- HanLP 更新至 v1.8.2,修正部分错误。
继续适配基础数据包 AHANLP_base-1.3 (提取码 9cd9)
v1.3 测试版
补上 SRL 语义角色标注功能,目前 AHANLP 已经支持所有的基础 NLP 分析任务。
- 集成 Mate-Tools 项目,添加 SRL 语义角色标注功能
- 识别文本中的谓词和对应的论元(施事者、受事者、时间、地点)
- 记录谓词和论元在文本中的位置(偏移量、索引)
- 支持包含多个句子的长文本语义角色标注
继续适配基础数据包 AHANLP_base-1.3 (提取码 9cd9)
v1.2
- HanLP 更新至 v1.8.0,修正部分错误。
适配基础数据包 AHANLP_base-1.3 (提取码 9cd9)
v1.2 测试版2
- 命名实体识别后台修改为感知机和CRF模型共同识别,进一步提高实体识别召回率。
- 开放更多内部接口至AHANLP类
适配基础数据包 AHANLP_base-1.3 (提取码 9cd9)
v1.2 测试版
传统机器学习方法已经在产业界大规模运用多年,技术日趋成熟,因此 AHANLP 基于目前已经稳定的 HanLP v1.7.6 (最后的武士) 推出了 1.2 版本,同时确定下对外接口。
- 修复
splitSentence
分隔句子后丢失分隔标点符号的问题 - NLP分词
NLPSegment
后台更换为感知机模型,进一步提高准确率 - 增加
seg2sentence
分词断句功能 - 几乎所有接口都支持自定义分词器,可以指定速度更快的标准分词,或者准确率更高的NLP分词
- 优化 NER、TextRankKeyword 等模块代码,进一步提高处理速度
- 完善接口说明,其他细节优化
注意
splitSentence
接口发生变更,取消自定义分隔符参数,只允许自定义是否断句为最细的子句(将逗号、分号也视作分隔符)splitWordInSentences
接口发生变更,返回格式统一为 Term,同时包含词语和词性,增加segType
参数,可以指定分词器类型
适配基础数据包 AHANLP_base-1.2 (提取码 3jq3)