1、NLTK

一种流行的自然语言处理库、自带语料库、具有分类,分词等很多功能,国外使用者居多,类似中文的jieba处理库

2、文本处理流程



3、分词

英文用NLTK,中文用jieba等,比较难处理时候,可能得借助正则表达式。

4、复杂的词形

处理数据的时候可能需要变化词形,分2中情况:
1)Inflection变化:不影响词性
walk⇒⇒walking⇒⇒walked
2) derivation 引申:影响词性
nation(n.)⇒⇒national(adj.)⇒⇒nationalize(v.)

5、词形归一化

1)Stemming词干提取:把不影响词性的后缀去掉
walking⇒⇒walk
walked⇒⇒walk
(依旧是动词)
2)Lemmatization词形归一:把各类型的词变形,归一
went归一=go
are归一=be



3)Lemma出现的问题(借助词性标注完成)

Went v.go的过去式 n.英文名:温特


6、去除停用词

中文有:的、地…
英文有:the 、this…

总结:文本预处理流水线


友情链接
KaDraw流程图
API参考文档
OK工具箱
云服务器优惠
阿里云优惠券
腾讯云优惠券
华为云优惠券
站点信息
问题反馈
邮箱:[email protected]
QQ群:637538335
关注微信