阅读提示:为防止内容获取不全,请勿使用浏览器阅读模式。
伊芙·卡莉所谓的“内容表示”指的是在自动文本摘要的流程中将原始文本划分为文本单元的过程。
这一过程包含有分字、词、句等预处理工作;
其主要目的是通过预处理将原始文本处理成算法容易进行分析的形式。
传统的抽取式摘要这样传统自动文本摘要不怎么注重内容表示这一环节。
生成式文本摘要则稍稍有些不同。
生成式文本摘要还是比较注重内容表示这一环节的。
尤其是应用了词嵌入技术和预训练机制的生成式文本摘要更是格外注重“内容表示”这一环节。
没办法,不得不重视,传统的文本摘要各步骤的重要程度其实是差不多的。
但应用了词嵌入技术和预训练机制的生成式文本摘要的工作很多时候都是“头重脚轻”的。
即开始的环节在整个环节中权重是最高的。
或者说在实际构建生成式文本摘要模型的时候,虽然要设计到很多的步骤。
但通常情况下越靠前的工作也往往更重要。
就以“内容表示”来说吧,在构建生成式文本摘要模型的时候。
很多时候内容表示的完成水平的高下将直接影响到后续的步骤。
而伊芙·卡莉所搞得《文本判断甄别比较的一种新方法》这项专利在内容表示方面确实有一定的价值。
借助于该专利所提供的价值,林灰以后在进行文本摘要的后续升级换代的过程中可以少一些逻辑层面的漏洞。
但如果仅仅是因为这点价值,还不足以让林灰大费周章进行一项跨国专利的收购。
林灰之所以煞费苦心将伊芙·卡莉搞出的《文本判断甄别比较的一种新方法》这项专利最最根本的原因还是因为林灰比较在意伊芙·卡莉在这一专利中所应用的模型。
在《文本判断甄别比较的一种新方法》这项专利中就文本甄别伊芙·卡莉极其有创意地鼓捣出一个用于文本判断甄别的模型。
如果仅仅就自然语言处理机器学习方面来看,这不过只是一个平平无奇的用于文本判别的模型。
但当思维跳脱出自然语言处理这个小领域之后,这个模型可不能够等闲视之。
当初在翻阅这个时空的学术方面的一些资料时,林灰敏锐地注意该专利所蕴含的价值。
尽管专利所提供的技术路线很多时候都是概要性的。
一些后来者在按照这些技术路线去体悟技术的时候往往只能盲人摸象般的探索。
在拥有前世信息的情况下,林灰相当于站在巨人的肩膀上,
虽然偶尔会有些高处不胜寒的感觉,但具体到技术方面的时候林灰往往系统概念更强。
很多时候,林灰只消看到一些公开的技术路线就能了解到其背后所蕴含的价值。
并且这种判断基本是八九不离十。
当初接触到伊芙·卡莉搞得这个专利时。
林灰发现根据该专利已经公开的一些资料尤其是该专利公开提及的技术路线。
林灰很快捕捉到这个专利的价值。
林灰料定利用这个模型几乎稍加变形就能在此基础上形成一种颇为高效的判别式模型。
事实是后来进行的收购进一步了解了专利信息后更是印证了此前林灰对之的猜测。
仅仅是判别式模型即便是效率高或许没啥意义。
但是稍微做点小改动那事情就不一样了。
当高效的判别式模型邂逅高效的生成式模型。
此二者进行有机结合,并在此基础上再继续进行一定的专门架构之后。
完全可以藉此搞出全新的效率颇高的深度学习模型。
这个深度学习模型在前世有个大名鼎鼎地称呼:
本章未完,请点击下一页继续阅读》》