NLP, Knowledge graph, PageRank

这里慢慢的会记录一些上课或者其他途径获得的各方面知识的理解

不管怎么样 还是希望自己的这几年能够 有所收获

Some new comprehend

昨天上了两门关于 NLP 和 knowledge graph 的课

对机器学习这两块分支有了更深入的了解

以前觉得这两块内容做的都是类语义网,语料库分析建立的事情

现在看起来

  • NLP-自然语言处理
    • 在早些年确实做的是语义树划分,语料库的事情
    • 但是在近些年来,随着统计学习的兴起,NLP 也从语义分析,转变为概率分析,用数据驱动
    • 机器分析的是词语的常用搭配,从而假装理解语义,或者说从概率上来理解语义,实际上机器是不明白语言的含义的
      • 举个简单的例子,小明把苹果放在桌上,然后把它吃了,这个指代的是谁,NLP 是利用概率统计,得出,苹果的概率高于,桌子
  • 知识图谱
    • 在之前的认识中,知识图谱也是类似语义分析的工作,因为之前跟的老师做的就是知识图谱,潜意识里知识图谱就是提取摘要,分析关系性
    • 但忽略了知识图谱,之所以称之为图谱,其最关键的是图。知识图谱是建立在图这一数据结构上的,相对而言,图的处理更重要一点,语义研究更轻一点

NLP

NLP 即 俗称的 自然语言处理, 也是当今 IT 行业起薪最高的岗位之一,普遍学历要求为硕士起步。

以上这些描述可以显示出 NLP 在当今的火热程度

What is NLP

自然语言是相对于编程语言而言的

  • 编程语言最大的特点,就是其结构化,确定性
    • 一种编程语言,同一个约定词在不同程序中表示的意思是一致的,不会因为程序的不同,环境的不同,导致语义的不同
    • 程序语言组成的程序也是一致的,在相同输入条件下,同一个程序会得到相同的结果
  • 但自然语言就有着截然不同的特性
    • 多意性,同一个词块,在不同语境下会呈现不同的意思,例如喜欢一个人
    • 模糊性, 自然语言中,语言意义经常是不确定的,两个词组成的意思不一定是两个词的意思加起来,如lose face

Method

可以看出来,自然语言相较于编程语言而言,复杂度高了很多,研究难度也比较大。

在之前的很长一段时间,NLP 学界走的是分析句法-语义,分析语法树的一条道路,利用的是一套复杂的,人工订定的规则为基础方法

之后又推崇建立语法库来解决 NLP 问题

直到最近的十年,在统计学习大火的背景下,NLP 也转变为数据驱动的研究方式,另外通过词性标记tag 将隐马尔科夫模型应用于 NLP 中, 将每个词条转换为一个向量 Word Vector,通过大量学习,利用统计规律,计算出每一个词条的词向量。 词向量和词向量之间通过点积、叉积进行向量运算得到一个评价两条词条之间关系的分数,通过分数的判断来判断词义

最近,又发展为统计与规则并存,词汇库重要的局面

所以说,看起来 自然语言 是一个需要语言背景的研究领域,但实际上目前的研究更加偏向于统计处理

Difficulty

我们说 NLP 是机器学习中的一个分支,但和机器学习其他分支不同的是,NLP 更偏向于非监督式的,或者半监督式

机器学习,是从一大堆数据中挖掘出特征变量,通过特征变量的关系,得到模型值。通过不断反复的比较实际值和模型值来完成训练的目的

但语言是不断在发展的,语言组合的量级也是十分巨大的,单纯通过监督式学习来完成训练,不太现实,效果也不好

另外在 NLP 研究过程中,还遇到以下问题:

  • 分词,断句
  • 消歧
  • 拼写错误

Application

  • QA
  • dialogue
  • 摘要生成
  • 机器翻译
  • 分词

Knowledge Graph

知识图谱是 Google 在 2012 年提出的一个关联性知识库

试想一下你在搜索引擎中输入乔布斯的最后一场发布会在哪

实际上这一句话可以分成乔布斯最后一场发布会

普通的搜索引擎 可以 通过 词句 匹配 来完成 这个搜索任务

通过 寻找 上面 那句话的特征 乔布斯最后发布会 然后匹配目前摘要中出现这几个词最符合的链接

但试想一下,如果我拥有一张关于乔布斯的关系网呢 例如我知道 发布会列表<-乔布斯->出生日期 是不是只需要做,找到关系网中,乔布斯这个节点 然后寻找发布会,找到最后一场就找到我们所需要的信息

知识图谱就是做类似的事情

把原有网络中扁平,杂乱的信息,通过构建网络变成一张知识图谱

知识图谱目前还处在发展初期,遇到的问题还是很多的

需要较高的数据库和图处理知识

PageRank

PageRank 是 Google 提出的一种网页排名算法

如果一个网页被很多其他网页链接到的话说明这个网页比较重要,也就是 PageRank 值会相对较高 如果一个 PageRank 值很高的网页链接到一个其他的网页,那么被链接到的网页的 PageRank 值会相应地因此而提高

其赋予每个网页一个 PR 值,其物理意义是网站被访问的概率,所以一般为 1/N,其中 N 为网页总数。一般情况下,所有网页的 PR 值的总和为 1

LaTeX 还没配好 后面关于公式的东西比较多就先到这

通过计算链接指向情况来实现每个网站的评分计算

$$ x^{y^z}=(1+{\rm e}^x)^{-2xy^w} $$

You can use this BibTex to reference this blog if you find it useful and want to quote it.