• 中医养生社区:淄博|北京|杭州|泰安|济南|青岛|滨州|东营|潍坊|通化
  • 中药现代化
  • 您当前的位置:首页 > 中药现代化 > 科技前沿 > 正文
  • 中医药古文献数字信息化的思路与方法

  • 来源:中医药导报 作者: 时间:2009-11-04 15:23:00
  • 核心提示:  浩如烟海的中医药古文献是中医学发展过程中的重要学术载体,它以图文的形式记录着中医学数千年来积累的丰富理论知识和临床经验,不仅具有珍贵的史学文献价值,而且更具有临床实用价值。随着计算机科学迅速发展,社会已经

      浩如烟海的中医药古文献是中医学发展过程中的重要学术载体,它以图文的形式记录着中医学数千年来积累的丰富理论知识和临床经验,不仅具有珍贵的史学文献价值,而且更具有临床实用价值。随着计算机科学迅速发展,社会已经进人信息时代,通过现代科学技术来揭示这些种类繁多的中医药古文献所蕴涵的信息资源,改变中医药知识信息的传播、使用方式和速度,使前人留给我们的宝贵文化遗产在信息技术的支持下实现数字化、网络化,既达到永久保存古籍史料的目的,又能在更大的范围内实现资源共享。本文以中医药古文献语料库的构建为例,略论中医药古文献数字信息化的方法。

      1  中医药古文献语料库构建的思路

      基于中医药古文献的特点:(1)实用价值的无限性;(2)数量庞大,著录分散;(3)书名繁杂多样,不能确切反映书的内容;(4)语言不规范,字词含义古今有别;(5)分类独特,不利于检索。我们参照现代汉语标注语料库、中文语料库,尤其是刘氏在“非相关文献知识发现的数据基础研究”一文中提出的构建中医药古文献语料库的思路与方法。首先通过对大量古文献的筛选,确定语料选择的范围,再对所选语料进行切分和标注,人工反复检验,不断加工和完善,最终将中医药古文献中所含的知识信息转化为计算机能够理解的中医药文本语言,实现更加灵活的中医药古文献知识检索,为建立中医本体、非相关文献知识发现、资源共享或转让等研究工作提供大量的数据基础,从而使中医药古文献所蕴涵的信息价值得到充分地开发和利用。

      1.1语料选择范围及原则  大量有价值的语料是中医药古文献语料库构建的基础,因此确定语料的选择范围至关重要。本语料库以中医药基础理论、临床各科疾病、中药、方剂等中医知识的相关古文献作为语料的基本来源。加工处理过程中,参考“现代汉语语料库加工——词语切分与词性标注规范与手册”,对语料进行加工处理,在立足突出中医药古文献特点的同时,坚持语体之间平衡;语料在时间分布上平衡;母本数量与样本数量平衡;一般著作与经典著作平衡的原则。从而保证语料的系统性与合理性,力图使语料库成为一个由时间轴、空间轴、学科轴和风格轴构成的四维模型。

      1.2构建的工作流程  中医药古文献语料库研制开发的工作有3个环节:(1)语料的搜集;(2)语料的切分及标注;(3)人工检验。这3个环节在实际构建过程中,可根据后一环节的处理结果,对前一环节的工作进行适当的调整。

      1.2.1语料的搜集构建语料库的第一步是语料的搜集,可通过以下两个途径来搜集:(1)利用“中医药古文献保障系统”中电子文档形式的中医药古文献资源作为语料的来源。(2)在我国现存的大量的中医药古文献当中,挑选从中医基础理论的医籍《黄帝内经》、《难经》到临床医疗的《伤寒论》、《金匮要略》、《妇人大全良方》、《外科精要》、《小儿药证直诀》等各科古籍文献的善本,将其扫描校对获得电子文档作为语料的来源。

      1.2.2语料的切分与标注未经加工的基本语料,应用价值非常有限。为了更有效的利用语料库,从中挖掘所蕴含的中医药知识信息,首先必须对库中的语料进行不同层次的标注,使基本语料进行自动分词和多级标注,从而生成初级的中医药古文献语料库。

      目前,北京大学计算机语言所开发的通用领域语料的分词与词性标注工具…,无论是切分还是标注,其精度都已经达到了国内领先水平。中医药古文献语料库中的语料在实施有效的自动切分与多级标注时,需要高性能的切分标注软件在此基础上,结合中医药专业知识再次加工而成。利用这个软件对中医药古文献进行切分标注时,还需要一个对语料分类所依据的中医专业切分词典。同时,切分标注过程中,又根据中医药古文献不同类型的行文风格进行提取归纳,并对软件结构及部分规则加以修改,因此,这是一个反复叠加的过程。即:切分标注——提取——再切分标注——再提取。

      1.2.3人工检验在专业切分和标注软件支持下,经计算机处理后的语料,必须进行人工检验和校对,以发现和纠正其中的错误,然后再将这些错误的信息反馈回中医药专业切分词典,对其作相应的修改。经过对中医药专业切分词典反复不断地纠正、修改,直至对语料的切分标注达到理想的效果。

      2中医药古文献语料库的功能

      2.1统计作用  中医药古文献语料库中经切分和标注以及人工检验后的语料可以提供基于字符串的检索,例如字频统计;词性标注语料库可以提供基于词和词性的统计,例如词频统计、词类统计、词长统计等、词类共现频率统计等。

      2.2检索作用  构建的中医药古文献语料库在3个工作流程对语料进行加工后,可以实现检索,方式主要有两种:简单例句检索和上下文关键词检索。简单例句检索是基于字符串的检索,目前采用的是单句检索软件,可以检索出含有特定连续字符串的所有语句,单独生成一个含有检索结果的文本文件,例如检索出所有含有中医药名词“大黄”的例句。

      2.3  中医药语言知识库建设的基础  中医药语言知识库(如机器词典、语料库、句法规则库等)可以实现计算机对中医药古文献文本内容的理解,从而为实现知识发现、人工智能、机器翻译、语义检索等提供数据基础,而中医药语料库的构建是基础中的基础。在中医药古文献语料库的基础上,可以实现中医药语言知识库的建立,同时也可以进行大量的研究工作,如:输出任何主题的中医词典;为实现中医药语义检索、建立中医本体、非相关文献知识发现等研究工作提供数据基础;达到信息资源共享或转让等。总之,中医药古文献语料库是无结构的随机开放式语料库,能够不断地增加新的语料,随时更新内容。在管理方面,建立以文本为单位的数据库系统作为语料库的架构,不仅有统计、橙索魄作用,而且为中医药语言知识库建设提供数据基础,同时还可以实现中医药语料的存储、揭示中医药古文献所蕴含的知识信息,使其资源社会效益最大化。

    (如果您认为转载内容侵犯了您的权益,请及时联系我们,本网站将在收到信息核实后24小时内删除相关内容。)

  • 相关文章:
  • 无相关信息
  • 延伸阅读:
  • 互联网药品信息服务经营许可证 国家编号:B-0101-0027-000031山东编号:(鲁)-经营性-2016-0014 中电商协团证字第TQ0142号 京ICP备11018379号-2
    Copyright©1999-2019 TH55.CN Inc. All rights reserved. 唐汉中医药网 版权所有