湖北师范学院学报
主办单位:武汉市教育局
国际刊号:2095-7955
国内刊号:42-1860/F
学术数据库优秀期刊 《中文科技期刊数据库》来源期刊
       首 页   |   期刊介绍   |   新闻公告   |   征稿要求   |   期刊订阅   |   留言板   |   联系我们   
  本站业务
  在线期刊
      最新录用
      期刊简明目录
      本刊论文精选
      过刊浏览
      论文下载排行
      论文点击排行
      
 

访问统计

访问总数:15231 人次
 
    本刊论文
农业经济领域非相关文献知识发现用数据集的构建

  摘要:在分析国内外已有的非相关文献知识发现用数据集的基础上,研究构建用于非相关文献知识发现的农业经济领域数据集的可行性。运用软件技术辅之于少量人工干预的方法,构建出完整的农业经济学领域非相关文献知识发现用数据集,包括汉语文献题录库和完整的词表体系。通过实证研究,发现3条农业经济领域的新知识,验证了该数据集的正确性和可用性。

  关键词:知识发现;非相关文献;汉语文献;农业经济;数据集

  1、非相关文献知识发现

  知识发现技术产生于人们“被数据淹没,却饥渴于知识”的尴尬现状,并伴随着这种现象日渐严峻而得以蓬勃发展。知识发现技术中基于文献的知识发现也于上世纪八十年代得以诞生。

  1986年,Swanson提出了非相关文献知识发现的思想,并以充分的文献证据论证了基于非相关文献知识发现思想的可行性与正确性。Swanson的思想在学术界产生了广泛的影响,各个领域的研究人员包括Swanson本人在以后的二十多年中对非相关文献知识发现的理论基础、算法模型及具体应用进行了持续、深入地研究。但在汉语社会科学文献中,至今还没有非相关文献知识发现的成功实践。

  Swanson的理论可以归纳为:设有概念A、B和C,若文献组S1报道了A和B之间有意义的关联,文献组S2报道了B和C之间的关联,但已知文献中没有任何文献报道A和C之间的关联,则S1和S2被称为“互补”文献,并称A与C通过B存在关联。A与C的关联只有把S1和S2放到一起考查才能得出,而单独考查S1和S2则得不到这种关联。A和C之间的关联为新知识的发现提供了线索。

  2、国内外非相关文献知识发现用数据集的建设

  所谓非相关文献知识发现用数据集,即非相关文献知识发现过程用到的数据对象,包括文献库和词表。文献库即用于非相关文献知识发现的文献集合,根据知识发现对象不同包括文献的题名、摘要、全文和引文。词表即知识发现过程中用到的各种词表,包括停用词词表、通用词表、专业词表和同义词表等。

  非相关文献知识发现的思想最初产生于医学、生物学领域,直到现今绝大多数研究者也仍以医学、生物学领域作为非相关文献知识发现算法的文献源。在医学、生物学领域,以Medline为代表的文献数据库标引质量很高,为开展非相关文献知识发现工作提供了极大的便利。因此,国外医学、生物学领域的非相关文献知识发现,都直接以Medline数据库为文献集合,采用MeSH词表,部分算法用到了UMLS,个别用到了OMIM、HGNO、LocusLink等数据库中的词汇。

  可以看出,所有算法的文献集合都采用Medline,大部分算法以Medline数据库记录中的题名为分析对象,部分算法分析对象扩展到摘要,词表中应用得最广的是MeSH,其次是UMLS。

  北京大学计算语言学研究所的刘耀、段慧明、穗志方成功构建了中医药领域的非相关文献知识发现用数据集,包括中医药文献标注语料库、切分词典、中医药语义词典。这是国内在非相关文献用数据集建设方面最初的也是仅有的尝试。

  3、农业经济领域非相关文献知识发现

  用数据集建设的可行性虽然汉语科技文献只占了世界科技文献总量的很小一部分,但在某些特殊学科与领域汉语文献在国际上具有不可替代的独特优势,非常适合开展非相关文献知识发现工作,如中医中药和人文社会科学。农业经济学就属于这样的学科。

  中国以不足全球10%的耕地养活了全球近1/4的人口,农业经济学方面的研究功不可没。在一定意义上,汉语农业经济文献在世界各语种的农业经济学文献中具有先进性。此外,农业经济学常常要将某种理论、模型、方法应用于某一具体区域、产业、案例,这样就与非相关文献的A词集合与C词集合的要求完全一致了。即农业经济中存在大量的A词集合与大量的C词集合,且A词与C词的关联丰富多样。因此,汉语农业经济学文献完全适合应用Swanson的非相关文献发现思想发现新知识。

  中国期刊网、维普、万方三大国内期刊论文数据库,基本上收录了改革开放以来国内农业经济学术期刊的全部论文,符合非相关文献知识发现方法对文献源的要求。在词表方面,国内的大型综合性词表《汉语主题词表》、《中国分类主题词表》、《社会科黄水清等:农业经济领域非相关文献知识发现用数据集的构建193学检索词表》和农业部情报所编制的《农业科学叙词表》中都收有农业经济学词汇。农业经济期刊论文的作者关键词也是很好的词汇来源。

  综上所述,建设用于农业经济领域非相关文献知识发现的数据集,具有可行性。

  4、农业经济学领域非相关文献知识发现用汉语文献库的构建

  4.1文献源的选择

  到目前为止,以Medline为代表的已成功应用于非相关文献知识发现的数据库收录的文献类型都是期刊论文(或含部分会议论文)。因此,农业经济领域用于非相关文献知识发现的文献集合也宜以期刊论文为收录对象。

  国内的重庆维普资讯、北京万方和中国期刊网三大检索科技期刊数据库各有优劣。通过对比三者在收录量、数据质量以及报道时差等方面的优缺点,综合各项因素,农业经济领域用于非相关文献知识发现的文献数据库选定从维普数据库下载题录数据。

  为加大知识发现的范围,用于农业经济学领域非相关文献知识发现的汉语文献集合拟以题名加文摘为收录对象。为此,须从维普数据库中下载所有分类号标识为农业经济(即《中国图书馆图书分类法》的类号为F3)及下位类、发表在核心期刊(既可以是农业经济核心期刊,也可以是其他学科的核心期刊)上的论文的题录。

  4.2下载程序的设计

  维普数据库收录的数据从1989年开始。若以2008年底为界,20年间,维普数据库收录分类号标识为F3(即农业经济学)的核心期刊论文共有87000多篇。为此,作者用JAVA自行开发了模拟浏览器的维普题录下载程序客户端。首先通过开源的工具分析获得在手工下载过程中产生的HTTP/HTTPS头信息、cookies以及通过GET和POST提交的数据,然后设计程序模拟了浏览器的下载过程,实现了维普题录信息快速高效的获取。具体设计过程不再赘述。

  4.3数据转换程序的设计

  题录下载程序运行后,会在指定目录留下几千个以TXT为扩展名的文本文件,这些文本文件的全部内容合并在一起便是维普期刊数据库中指定类目的全部期刊论文的题录。编写转换程序,循环读取这些文本文件,依次处理每条题录,将题录中的相关字段插入数据库,形成用于非相关文献知识发现的期刊论文题录数据库。

  农业经济题录数据库建立在MicrosoftSQLServer平台,只包括维普题录中与文献内容相关的字段。具体来说,农业经济题录数据库记录共包括5个字段,即记录号、题名、关键词、分类号、文摘。

  由于关键词和分类号均是可重复字段,多个关键词、分类号之间以空格作为分隔符。

  指定下载条件,经过题录下载程序和转换程序的运行,得到用于非相关文献知识发现的汉语期刊论文农业经济文献库。该文献库包含1989年至2008年维普期刊数据库中收录的发表在核心期刊上的与农业经济有关(即论文分类号中包含“F3”字样)的全部论文的题录数据,共有87506条。

  5、农业经济学领域非相关文献知识发现用词表体系的构建

  Swanson及后续的研究者以Medline为对象的非相关文献知识发现过程使用的是Medline自己的词表MeSH,部分研究者运用了UMLS,也有用到基因等词表的,个别算法直接用自由词。农业经济领域的非相关文献知识发现过程中用到的词表是由停用词表、通用词表、专业词表、同义词表组成的完整词表体系。

  5.1停用词表

  停用词表的构建与使用方法是业界常识。利用停用词表,可在信息处理过程中极简便地排除文献中的高频词(泛指词)。我们建立的停用词表是在多年的工作中积累起来的,共含50364个停用词。

  5.2通用词表

  业内流传有了多个可作为通用词表的语料,经多次切分、标引测评,其中以中国科学院自然语言开放平台提供的带词性词频的扩展词典综合性能较好,故选用其作为农业经济领域非相关文献知识发现的通用词表。

  中国科学院中文自然语言处理开放平台提供的带词性词频的扩展词典(可参考链接:http://www.nlp.org.cn/categories/default.php?catid=10)可用于大规模文本切分,共包含约1.4×105个词。词表中对每个词同时给出了它的词频与词性。所有的词按词频倒排。但是该词典中的词频与词性对我们没有意义,须对带词性词频的扩展词典进行预处理,去除词表中的词频和词性信息,只留下词本身,存入数据库,形成我们所需要的通用词表。

  5.3农业经济专业词表

  目前,国内还没有一部纯粹的农业经济主题词表,即没有现成的农业经济专业词表可以直接用于农业经济领域汉语文献的非相关文献知识发现。农业经济专业词表的可行的创建方式是从大型词表中筛选出与农业经济学有关的词汇,单独组表。

  相对于《汉语主题词表》、《中国分类主题词表》、《社会科学检索词表》等大型综合性词表,农业部情报所等15个单位于1994年联合编制出版的《农业科学叙词表》是世界上收词量最大的农业领域专业叙词表,以之为基础从中抽取农业领域的专业词汇所需的工作量更少、效果更好。《农业科学叙词表》的分类表共有40个大类,其中类目03为农业经济,类目54为经济学。综合各项因素,可以选择《农业科学叙词表》作为非相关文献知识发现农业经济专业词表的来源词表。利用人工手段抽取并手工输入《农业科学叙词表》中的农业经济、经济学与社会科学3个大类中的所有词条,得到第一部农业经济专业词表,共有正式词条2730个。这部词表可称为农业经济叙词表。

  另外,为了弥补农业经济叙词表中新词不足、无法反映时代特点等缺点,选择将维普期刊数据库中农业经济类文献的关键词作为农业经济叙词表的补充。在抽取文献集合的关键词后,经过去重处理,得到的便是第二部农业经济专业词表。由于农业经济类文献的作者关键词标引质量较差,选词比较随意,重复率不高,这份词表共得到词条94991个。这部词表可称为农业经济关键词表。

  农业经济叙词表和农业经济关键词表共同构成汉语农业经济文献知识发现的专业词表,经过合并去重处理后,该专业词表共有96391个词。

  5.4同义词表

  同义词控制是所有词汇控制方式中最有效的措施,甚至可能是词汇控制方式中唯一可以改进性能的措施。哈尔滨工业大学信息检索研究室在梅家驹等人于1983年编纂的印刷型词典《同义词词林》的基础上,利用众多词语相关资源,建立了一部通用的同义词表———同义词词林扩展版。同义词词林扩展版相当于通用词表的同义词表,非相关文献知识发现其实更需要的是专业词表的同义词表。如Swanson利用Medline的词表对Medline数据库所做的那样。《农业科学叙词表》中词汇有完整的词汇控制语义网络,其中的用、代关系即同义词关系。可以用手工方式将《农业叙词表》中的农业经济、经济学与社会科学3个大类词汇的用、代关系转换创建为同义词条,成为农业经济专业的同义词表。如此,共得到193个同义词条,将其补充到同义词词林扩展版中,形成最终的同义词表。

  5.5词表的更新与维护

  词表的更新与维护,是一项长期的工作,只要词表仍在使用,更新与维护工作便不能中断。正如Medline的词表一直在不断地更新与维护一样,非相关文献知识发现词表体系中的各个词表也需要不断地更新与维护。

  对用于农业经济领域非相关文献知识发现的文献集合的题名与文摘运行自动分词算法,其中题名共切分出了801633个词,文摘共切分出了4446771个词,同时发现1186个未登录词。分析原始题名与文摘,人工判定这些未登录词有581个为切分错误,另外605个确实是新词。其中一些有专有意义的词,可依据其词义手工加入到词表体系对应的词表,如“上农下鱼”、“南粮北运”、“包买主制”、“围湖圩垦”、“复垦学”、“消落带”、“毁林复耕”、“生态公益林”、“鸟巢”等。另外,加入新词后,若有必要,还须手工调整同义词表中相应的词条。

  6、农业经济领域非相关文献知识发现用数据集的可用性

  可用性的最好证明是研建的数据集能否用于新知识的发现。针对上述农业经济领域的非相关文献知识发现用数据集,编写程序,实现非相关文献知识发现的开放式和闭合式过程。然后,运行开放式知识发现程序,并不断调整约束条件,仔细观察显示的结果,最后筛选出“世界贸易组织”与“原教旨主义”、“马尔萨斯”与“生态学”、“区域农业保险费率”与“地理信息系统”3对有意义的关联概念。这3对概念中的任何1对,在全部的87506篇文献中的任何1篇文献中都没有同时出现过,也就是说,20年来的汉语农业经济文献从来没有把这3对概念作为研究对象,也从来没有人关注过它们之间的内在关联。

  随后,运行闭合式过程,发现在这3对关联概念中,“世界贸易组织”与“原教旨主义”共有“环境”、“生态”、“环境保护”、“生态保护”、“市场”5个中间词(B词),“马尔萨斯”与“生态学”共有“水资源”、“可持续”、“经济学”、“粮食”4个中间词,“区域农业保险费率”与“地理信息系统”共有“自然灾害”与“风险评价”2个中间词。

 上述3对关联概念,用农业经济的理论与逻辑进行验证,可以证明它们之间的关联是正确的。其中,世界贸易组织与原教旨主义通过2个因素发生了内在联系———环境、生态因素和市场因素,马尔萨斯理论与资源、环境及可持续发展之间等生态学概念之间的连接点则是人口,而地理信息系统(GIS)在区域农业保险费率厘定中的应用,是一项GIS技术在农业领域的具体应用,分析表明是可行的。因此,它们是农业经济学领域的新知识。

  7、总结

  本研究运用软件技术辅之于少量的人工干预过程,在现有汉语期刊论文数据库和词表的基础上,构建了用于农业经济领域非相关文献知识发现用数据集,并运用该数据集发现了3条农业经济领域的新知识。新知识的成功发现同时证明,农业经济领域非相关文献知识数据集的建设是成功的。

  需要指出的是,新知识发现是一个无止境的过程。在这里,基于农业经济领域非相关文献知识数据集发现了3条新知识,但这并不代表现有的数据集只隐含了这3条新知识。后续的研究者在现有数据集的基础上,经过细致的工作,一定可以挖掘、发现更多的农业经济领域的新知识。这也是本数据集建设的价值所在。

特别说明:本站仅协助已授权的杂志社进行在线杂志订阅,非《湖北师范学院学报》杂志官网,直投的朋友请联系杂志社。
版权所有 © 2009-2024《湖北师范学院学报》编辑部  (权威发表网)   苏ICP备20026650号-8