自然语言处理主要应用于机器翻译、舆情监测、自动摘要、观点提取、文本分类、问题回答、文本语义对比、语音识别、中文OCR等方面。
自动生成摘要:Automatic Text Summarization
文本自动摘要的算法分类
1.领域相关算法、2.领域无关算法、3.两者相互融合得到的算法
两者相互融合得到的算法分为四种:
基于统计的自动摘要
基于理解的自动摘要
基于信息抽取的自动摘要
基于结构的自动摘要
主流的文本摘要方式
一种是抽取式(extractive),另一种是生成式(abstractive)
抽取式从原文中找到合适的摘要;(page rank算法)
生成式理论上的过程:自然语言理解(NLU,Natural Language Understanding)→自然语言生成(NLG,Natural Language Generation)
实际训练:Seq2Seq 模型。端到端。ENCODER→Attention→DECODER、Seq2Seq,有监督,有大量的训练数据。或者transformer,bert基于它。
文本自动摘要的原理自动摘要系统的处理对象是自然语言文本.尤其是非结构化文本。
Hobbs曾提出一个信息摘要系统的通用体系结构闭,认为典型的信息摘要系统应当由依次相连的十个模块组成:
(1)文本分块:将输入的文本分割为不同的文本块。
(2)预处理:将文本块转换成句子序列,由词汇项及相关属性组成。
(3)过滤:去掉不相关的句子。
(4)预分析:在词汇项序列中识别确定的小型结构。如名词短语、动词短语、并列结构等。
(5)分析:通过分析小型结构和词汇项的序列建立描述句子结构的完整分析树或分析树片段集合。
(6)片段组合:若上步没有得到完整的分析树,则需要将分析树片段集合或逻辑形式片段组合成整句的一棵分析树或其他逻辑表示形式。
(7)语义解释:从分析树或分析树片段集合生成语义结构、意义表示或其他逻辑形式。
(8)词汇消歧:消解上一模块中存在的歧义。得到唯一的语义结构表示。
(9)共指消解或篇章处理:通过确定同一实体在文本不同部分中的不同描述将当前句的语义结构表示合并到先前的处理结果中。
(10)模板生成:由文本的语义结构表示生成最终的模板。
并不是所有的信息摘要系统都明确包含所有这些模块.也未必完全遵循以上的处理顺序.但一个信息摘要系统应当包含以上模块中描述的功能。
……
【生成式太难了,比较简单的transformer动辄训练两万个小时也不尽人意。我该怎么办?准备弄page rank算法抽取式搞最简单也是非常难看的文摘生成。】
抽取式摘要是一种比较成熟的方案,其中Text rank排序算法以其简洁、高效的特点被工业界广泛运用。大体思想是先去除文章中的一些停用词,之后对句子的相似度进行度量,计算每一句相对另一句的相似度得分,迭代传播,直到误差小于0.0001。再对上述得到的关键语句进行排序,便能得到想要的摘要。抽取式摘要主要考虑单词词频,并没有过多的语义信息,像“猪八戒”,“孙悟空”这样的词汇都会被独立对待,无法建立文本段落中的完整语义信息。
喜欢肥仔马飞传请大家收藏:(www.zongcaiwenxue.org)肥仔马飞传总裁文学更新速度全网最快。