7.1练习题
7.1 什么是自然语言?自然语言是由哪些构成的?
7.2 什么是自然语言理解?自然语言理解过程有哪些层次,各层次的功能如何? 7.3 自然语言理解和自然语言自动生成的关系是什么?研究这两者时有什么共同点. 7.4 自然语言理解的发展分几个阶段?各阶段的研究重点是什么? 7.5 语言学家乔姆斯基的论文《语言描述的三个模型》的意义如何? 7.6 句法分析的目的是什么? 基于规则的句法分析理论和方法主要有哪些?
7.7 什么是乔姆斯基语法体系?它包含几个语法?各型语法之间有何不同?它们与短语结构语法的关系如何?
7.8 自动句法分析的常用算法有哪些?自顶向下分析算法的思想是什么? 7.9 下面是一个符合短语结构语法定义的受限英语子集的语法
P: S→NP VP (a)
NP→the NP1 (b) NP→NP1 (c) NP1→ADJS N (d) ADJS→Ф|ADJ ADJS (e) VP→ V (f) VP→ V NP (g) N→ boy | Johnson | blackball (h) ADJ→ little|dig (i) V→ play|run (j)
其中,大写的是非终结符,而小写的是终结符,Ф表示空字符串。请依据该语法对句子 the boy plays the blackball
进行自顶向下的句法分析,并建立相应的句法分析树。
7.10 写出下列乔姆斯基2型语法(上下文无关语法)所对应的递归转移网络:
S→NP VP
184
NP→Adjective Noun NP→Determiner Noun PP NP→Determiner Noun VP→Verb Adverb NP VP→Verb VP→Verb Adverb VP→Verb PP PP→Preposition NP 7.11 设有下列语法: G=(Vt,Vn,P,S)
Vn={S, NP, VP, Det, N, V, Prep, PP} Vt={the, boy, dog, hits} S=S
P: S→ NP VP (a) NP→ Det N (b) VP→ V NP (c) VP→ VP PP (d) PP→ Prep NP (e) Det→ the (f) N→ boy | dog (g) V→ hits (h)
利用自底向上的分析算法对句子“the boy hits the dog”进行分析,并写出它的分析推导过程。
7.12 语义分析的目的是什么?什么是语义文法?它对语义分析的作用如何? 7.13 建立语料库的意义是什么?一般对汉语语料库要做哪些基本的加工处理? 7.14 汉语自动分词的方法有哪些?其难点何在?
7.15 自动词性标注的意义何在?有什么难点?一般采用什么方法实现词性标注?
185
7.2习题参考解答
7.1 答: (略)
7.2 答: 自然语言理解就是研究如何让计算机理解人类自然语言的一个研究领域。从宏观上看,自然语言理解就是指使计算机能够执行人类所期望的某些语言功能,包括理解并回答人们用自然语言提出的有关问题;生成文本摘要和对文本进行释义;把一种自然语言表示的信息自动地翻译为另一种自然语言等等。从微观上讲,自然语言理解是指从自然语言到机器(计算机系统)内部之间的一种映射。
自然语言理解过程有3个层次:词法分析、句法分析和语义分析。词法分析的主要目的是找出词汇的各个词素,从中获得语言学信息,如unchangeable是由un-change-able构成的。句法分析就是要对句子或短语的结构进行分析,以确定构成句子的各个词、短语等之间的相互关系以及各自在句子中的作用等,并将这些关系用层次结构加以表达。语义分析就是通过分析找出词义、结构意义及其结合意义,从而确定语言所表达的真正含义或概念。
7.3 答: (略) 7.4 答: (略) 7.5 答: (略)
7.6 答:句法分析就是要对句子或短语的结构进行分析,以确定构成句子的各个词、短语等之间的相互关系以及各自在句子中的作用等,并将这些关系用层次结构加以表达。基于规则的句法分析理论和方法主要有短语结构语法、乔姆斯基语法、语言串分析法、递归转移网络和扩充转移网络、范畴语法、依存语法和配价语法、管辖和约束理论、词汇功能语法、功能合一语法、蒙太格语法、广义短语结构语法等等。其中短语结构语法是各种理论和方法的基础。
7.7 答: 乔姆斯基语法体系是一组受限的短语结构语法。它包含四种语法:0型语法、1型语法、2型语法和3型语法。这四种语法的区别就是所受的约束不同,型号越高,所受到的约束就越多,其生成语言的能力就越弱,因而生成的语言集就越小,也更易于对其生成的语言进行计算机自动分析。
186
0型语法就是一种无约束的短语结构语法。1型语法、2型语法和3型语法都是一种受约束的短语结构语法,而且3型语法受的约束最强。有关详细的约束条件可参阅前面的内容简介。
7.8 答:基于短语结构语法的自动分析算法主要有自顶向下回溯算法、自底向上并行算法、富田算法、左角分析算法和CYK算法等等。自顶向下分析算法的思想就是从起始符开始向着被分析的句子进行推导,推导过程的语法树建立从根节点开始,自上而下进行。每次推导只选择一种路径进行尝试,并保留其它可选择的路径,当推导失败时,进行回溯,尝试另一种推导路径。
7.9 解:下面采用自顶向下回溯算法是对句子“the boy plays the blackball”进行分析。 搜索步骤 搜索对象 所使用的规则 输入句子中遗留部分 (1) S (a) the boy plays the blackball (2) NP VP (b) the boy plays the blackball (3) the NP1 VP the boy plays the blackball (4) NP1 VP (d) boy plays the blackball (5) ADJS N VP (e) boy plays the blackball (6) Ф N VP boy plays the blackball (7) N VP (h) boy plays the blackball (8) boy VP boy plays the blackball (9) VP (f) plays the blackball (10) V (j) plays the blackball (11) play plays the blackball (12)
the blackball
这时,句子中还有遗留部分,但搜索对象中却已变空,分析过程已无法继续,只得回溯。回溯到第(9)步,看看是否还能利用别的规则进行分析。 (9′) VP (g) (13) V NP (j)
plays the blackball plays the blackball
(14) play NP plays the blackball
187
(15) NP (b) the blackball (16) the NP1 the blackball (17) NP1 (d) blackball (18) ADJS N
(e) blackball
(19) Ф N blackball (20) N (h) blackball (21) blackball blackball
(22) NIL NIL
在应用规则(h)、(i)和(j)对搜索对象进行替换时,由于规则的右边有多个单词可供选择,这时,可根据句子遗留部分的第一个单词确定。
和此分析推导过程相对应的句子“the boy plays the blackball”的句法分析树如图7.6所示。
图7.6 “the boy plays the blackball ”的句法分析树
7.10 解:该文法的递归转移网络如图7.7:
188
图 7.7 题7.10的递归转移网络
7.11 解:采用移进-归约算法对句子“the boy hits the dog”进行自底向上分析的过程如下:
步骤 栈 操作 输入句子中的遗留部分 (1)
the boy hits the dog
(2) the 移进 boy hits the dog (3) Det
用规则(f)归约
boy hits the dog hits the dog hits the dog hits the dog
(4) Det boy 移进 (5) Det N 用规则(g)归约 (6) NP 用规则(b)归约 (7) NP hits
移进 the dog
the dog
(8) NP V 用规则(h)归约
(9) NP V the 移进 dog (10) NP V Det 用规则(f)归约 (11) NP V Det dog 移进
(12) NP V Det N 用规则(g)归约 (13) NP V NP 用规则(b)归约 (14) NP VP 用规则(c)归约 (15) S 用规则(a)归约
189
dog
这时,输入句子串已空,且栈中只剩下起始符S,该句子被接受,分析成功。其句法分析树如图7.8:
图7.8 “the boy hits the dog ”的句法分析树
7.12答:语义分析的目的就是通过对句子和词的分析,找出词义、句子的结构意义及其结合意义,从而确定语言所表达的真正含义或概念。
所谓语义文法,是在传统的短语结构语法的基础上将N(名词)、V(动词)等语法类别的概念,用某种专门的语义类别来代替。也就是说,可以将语义文法表示成类似短语结构语法的四元组,也有终结符集合、非终结符结合和语义规则。在有了这种表示形式的语义文法之后,就可以使用和分析短语结构语法相类似的方法来对语义进行分析。例如,可以使用类似于句法分析的自顶向下和自底向上的分析方法对语义进行分析。
7.13 答:传统的句法-语义分析技术,所采取的主要研究方法是基于规则的方法,也就是说,将理解自然语言所需的各种知识用规则的形式加以表达,然后再进行分析推理达到理解的程度。但由于自然语言理解的复杂性,各种知识的“数量”浩瀚无际,而且具有高度的不确定性和模糊性,利用规则不可能完全准确地表达理解自然语言所需的各种知识。理解自然语言所需的各种知识恰恰蕴涵在大量的真实文本当中,20世纪80年代后期,自然语言理解的研究进入了一个新纪元,其重要标志就是,在基于规则的技术中引入语料库的方法,通过对语料库中大量真实文本的分析处理,从中获取理解自然语言所需的各种知识,从而实现以知识为基础的智能型自然语言理解系统。这种建立在大规模语料库基础上的研究方法将自然语言处理的研究推向一个崭新的阶段。
由于书面汉语不同于英语、法语、德语等印欧语言,词与词之间没有空格。汉语自然语言处理的难度显然要大于英语,因为词是进行自然语言理解的基本单位,所以必须要对汉
190
语语料库进行基本的加工,这些基本的加工包括:分词、词性标注、词义标注(或概念标注)等。
7.14 答:汉语自动分词的方法主要有基于词典的机械匹配分词法、无词典分词法、基于专家系统和人工神经网络的分词法等。但最常用、最成熟的方法还是基于词典的机械匹配分词法。机械匹配分词法又包括最大匹配法、逆向最大匹配法、逐词遍历匹配法、双向扫描法、设立切分标志法、最佳匹配法等。
目前,汉语分词的难点主要有:(a) 词的概念问题。在汉语语言学中,有关“词”的概念还没有完全弄清。(b) 分词过程中的歧义问题。歧义字段在中文文本中是普遍存在的,歧义切分是自动分词中不可避免的现象,是自动分词中的一个比较棘手的问题。(c) 未登录词的识别问题。未登录词是指没有在词典中出现、在汉语文本中又应该当作一个词将其分开的那些字符串。包括中外人名、中外地名、机构组织名、事件名、缩略语、派生词、各种专业术语以及在不断发展和约定俗成的一些新词语。未登录词种类繁多、规模宏大,对它们识别正确与否直接影响着分词系统的正确率。
7.15 答:自动词义标注就是利用计算机通过逻辑推理机制,利用文本的上下文环境,对词的词义进行自动判断,选择词的某一正确义项并加以标注的过程。研究词义自动标注除了对语言学研究有重要意义外,在自然语言处理的很多领域都有非常重要的作用,如语音合成、情报检索、机器翻译、自动校对、OCR识别后处理等。所以,是当前自然语言信息处理的一个热门课题。
词义标注的难点就是对多义词的歧义排除。不论是汉语还是英语,一词多义的现象普遍存在,要确定一个词的词义一定要依据上下文环境,如果没有上下文环境,即使是人,也很难确定一个词的词义,更何况由计算机来标注呢。所以,利用计算机实现词义的自动标注,其难点就是采用什么样的方法,依靠文本的上下文环境来实现文本中词义的歧义排除。
多义词排歧的方法主要有基于词典的规则方法和基于语料库的概率统计方法。近年来,在语义标注体系、词义标注算法方面做了初步的研究,基于实例的汉语义项标注算法就是一种比较典型的方法。另外,利用词语语义知识网(如Wordnet, Hownet)进行词义标注和语义推理的研究也有报道。
191
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- xiaozhentang.com 版权所有 湘ICP备2023022495号-4
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务