博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Gse v0.40.0 发布,Go 高性能分词,增加更多常用 API
阅读量:6201 次
发布时间:2019-06-21

本文共 1103 字,大约阅读时间需要 3 分钟。

  hot3.png

Go 语言高效分词,支持英文、中文、日文等

词典用双数组 trie(Double-Array Trie)实现, 分词器算法为基于词频的最短路径加动态规划, DAG 和 HMM (Viterbi) 算法分词, 新增 API 基本和结巴分词保持一致.

支持普通、搜索引擎、全模式、精确模式和 HMM模式多种分词模式,支持用户词典、词性标注,可运行 JSON RPC 服务。

项目地址:

Snake River

Add

  • [NEW] Add more common APIs and more examples
  • [NEW] Export seg.Find() function
  • [NEW] Add AddToken and AddTokenForce func
  • [NEW] Update dictionary code, add LoadNoFreq and MinTokenFreq parameter configuration
  • [NEW] Update examples code, add more examples and documents
  • [NEW] Optimize benchmark test tools code
  • [NEW] Add seg.Find() test
  • [NEW] Add AddToken and AddTokenForce test code
  • [NEW] Add crf.go file directory

Update

  • [NEW] Add more hmm is bool judge
  • [NEW] Update test dictionary and example code
  • [NEW] Update segmenter test code
  • [NEW] Add clear some internal api name and update godoc
  • [NEW] Add go1.12.x remove go1.10.x
  • [NEW] Add AddToken and AddTokenForce  example code
  • [NEW] Add custom dictionary example to example.go
  • [NEW] Update godoc
  • [NEW] Update

Fix

  • [FIX] Optimize code wait todo load model
  • [FIX] Fixed some benchmark
  • [FIX] Fixed link break
  • [FIX] Fixed goroutines benchmark code open path

转载地址:http://rdxca.baihongyu.com/

你可能感兴趣的文章
MySQL 之Navicat Premium 12安装使用、pymysql模块使用、sql注入问题的产生与解决
查看>>
MFC 文件与文件夹相关操作
查看>>
Node.js学习心得
查看>>
meta常用标签总结
查看>>
nuxt.js踩坑之 - SSR 与 CSR 显示不一致问题
查看>>
并发基本概念及实现,进程、线程基本概念
查看>>
2016如何突破自我,必做十件疯狂的事
查看>>
iOS - 让WKWebView 支持 NSURLProtocol
查看>>
python多线程与threading模块
查看>>
python一等函数
查看>>
js页面字段的必填验证方法
查看>>
idea+springboot+freemarker热部署
查看>>
linux 文件查阅 cat、more、less、tail
查看>>
Cflow使用详解【转】
查看>>
一次触摸屏中断调试引发的深入探究【原创】
查看>>
条款49:了解new-handle行为
查看>>
无法启动T-SQL调试。未能连接到计算机"."。这是在主机名解析时通常出现的暂时错误……...
查看>>
DevExpress GridControl 单元格添加进度条(ProgressBar)
查看>>
.NET动态调用WebService
查看>>
intelliJ IDEA 中快速定位当前文件路径
查看>>