专栏
文本相似性分析项目实战训练
学习对文本进行相似性分析的相关技术,并应用这些技术编写文本相似性分析实战项目。
共7篇
专栏文章
倒序
正序
实践目标:1、掌握词袋模型;2、编写生成词袋模型的程序。词袋模型词袋模型(BOW)将文本看作单词的集合,并忽略单词在文本内的词序。词袋模型是一个二维列表,第1维是文档序列,第2维是文档的词袋模型数据,...
4294字,阅读需时15分钟
2021/11/24  发布
实践目标:1、掌握单词到数字ID的映射技术;2、编写创建字典的程序。字典程序编码分词程序将文本数据切分为单词序列,还需要对这些单词序列做进一步处理,将单词序列转换为字典,字典是一个集合对象,key是单...
4673字,阅读需时16分钟
2021/11/21  发布
实践目标:(1)程序的模块化设计和模块调用;(2)正则表达式的使用;(3)使用jieba分词进行中文分词;(4)使用CSV模块输出CSV文件。 获取语料数据后,需要对语料数据进行中文分词,中文分词...
4251字,阅读需时15分钟
2021/11/17  发布
课程目标:(1)使用Visual Studio Code建立Python项目;(2)编写从数据库读取语料数据的代码。1、 建立项目文本相似性分析由多个模块构成,在开发过程中需要对这些模块进行管理,很有...
5953字,阅读需时20分钟
2021/11/14  发布
语料是文本相似性分析程序的工作数据,它可以是多个文本文件,也可以是存储在数据库的多条文本记录。语料的整理是既耗时又费力地工作,好在我们已经准备好了语料,同学们可以免费使用这些语料。项目训练的宗旨是贴近...
3766字,阅读需时13分钟
2021/11/10  发布
中文和英文不同,英文通常采用空格和标点符号将词隔开,具有天然的分隔符,对英文文本进行相似性分析时,词的获取非常简单。中文虽然句子之间有分隔符,但词与词之间没有分隔符,需要编写专门的分词程序,拆分句子获...
7212字,阅读需时25分钟
2021/11/6  发布
对文本进行相似性分析,需要将文本内容转换为向量空间模型,把对文本内容的处理简化为向量空间中的向量运算,并且它以空间上的相似度表达语义的相似度。文本是由若干单词构成的,若把文本内的每一个单词看作文本向量...
2423字,阅读需时9分钟
2021/10/29  发布
郎宏林
专栏作者
作者简介
项目经理,系统分析和架构师,从事多年中文信息处理技术。熟悉项目管理、擅长项目需求分析和设计、精通Java、C#、Python等编程语言。