• 中医养生社区:淄博|北京|杭州|泰安|济南|青岛|滨州|东营|潍坊|通化
  • 中医学总汇
  • 您当前的位置:首页 > 中医学总汇 > 临床进展 > 正文
  • 关联规则在方剂数据挖掘中的应用述评

  • 来源:环球中医药 作者:毛斌 吴宏赞 胡志强 时间:2014-03-24 10:25:46
  • 核心提示: 关联规则作为数据挖掘技术的方法之一,最早由Agrawal等于一次国际会议上提出。该方法早先用于经济领域,用作发现大型超市购物清单数据中有趣的关联,故又称之为“购物篮

        关联规则作为数据挖掘技术的方法之一,最早由Agrawal等于一次国际会议上提出。该方法早先用于经济领域,用作发现大型超市购物清单数据中有趣的关联,故又称之为“购物篮分析”,近年来该方法受到各领域学者的广泛关注,并在中医方剂数据集中得到一定的探索与应用。
    1  关联规则在方剂数据挖掘中的应用
        方剂,是在辨证的基础上,选择合适的药物,酌定用量,按照组方的要求配伍而成的中药组合。几千年来,中医学积累了极其丰富的中医方剂资料,历代的医学实践表明,这些方剂具有良好的临床疗效,其中必然蕴藏了大量的中医学知识。然而,传统的统计学方法难以有效的发现这些隐藏的知识,而数据挖掘恰恰适合处理这种非线性的模糊资料。关联规则便是其方法之一。可以将每一个方剂视为一个集合,而方中的每味药物是其一个子集,同时可以有不同脉证、不同剂量、不同给药途径等多个维度,由是便将方剂知识发现的问题转换为关联规则频繁模式挖掘问题,从而发现方剂中的多重规律。目前,运用关联规则对方剂进行数据挖掘主要从以下几个方面展开:
    1.1药对、药组配伍规律的挖掘
        近年来,众多学者运用关联规则对中医常见疾病的治疗方剂进行了数据挖掘,探讨了其用药规律。名医医案是方剂资料的重要来源,蕴含着海量的名老中医的宝贵经验,值得深入发掘和继承。吴荣等对7位名老中医治疗冠心病的经典医案进行整理,运用Weka 3.4软件对其方剂的配伍规律进行关联规则挖掘,发现活血药、化痰药、补虚药是其常用配伍组合,同时瓜蒌薤白类方、活血通脉剂、生脉散是名老中医治疗冠心病时的常用方剂。李秀娟等以《当代名老中医典型医案》为数据源,运用关联规则探索了治疗胃脘痛方剂的用药规律,发现白术、半夏、甘草所组成的药对是当代名中医治疗胃脘痛的常用药对。余俊英等运用关联规则分析了名医姚荷生治咳嗽医案,总结了其遣方用药规律。吴嘉瑞等借助中医传承辅助系统软件,挖掘了颜正华教授治疗胃脘痛的方剂用药规律,发现了49个核心药物组合与29个新处方。此后,该作者使用相同的方法对该教授治疗胸痹的方剂进行了挖掘,总结了用药规律。以上学者的研究显示了关联规则挖掘方法在名医经验传承上的优势,用规则的形式快速总结出隐藏于医案之中的名医组方配伍规律,使名医经验的表述更加客观、准确。
        刘娟等检索到《中医大辞典•方剂分册》中治疗脾胃的方剂1046首,运用关联规则挖掘方法进行研究,该学者对挖掘结果的分析较为全面,将挖掘出的规则分为已知知识和未知知识进行分别处理,证实了茯苓一白术、木香一黄连等已知药对,并发现一些未知药对。宿树兰等通过检索《中医方剂大辞典》中治疗痛经的方剂,运用关联规则Aprio.ri算法对使用频次较高的药物进行了关联分析,发现活血化瘀、温经散寒为古方治疗痛经的主要治法。李建等采用关联规则Apriori,算法与熵方法分析了《中医方剂大辞典》中治疗肺痿方剂的用药规律。张欢等检索了该方剂辞典中治疗哮喘的方剂,运用关联规则进行了古今方剂对比研究,探讨了古今治疗哮喘病的用药异同,此后,该学者又运用关联规则探讨了其中十八反药对的应用,分别从朝代、反药组合、性昧、剂型等方面进行了分析,发现在治疗哮喘中,乌头一半夏为最常见的反药配伍。这种古今对比的研究方法,能够更加清晰的发现所产生规则的特点,在涉及古方的关联规则研究中值得借鉴。刘岩等使用SAS软件的数据挖掘功能对古今治疗水气病的1521个方剂进行关联规则挖掘,最后筛选出符合中医理论的关联方75个。此外,有学者将关联规则方法与其他数据挖掘方法综合运用,对中医方剂的数据挖掘进行了有益的探索。袁楠等将聚类分析与关联规则相结合,进行了药对与剂量关系的分析,该方法为方剂量效关系的研究提供了一种新方法。运用关联规则对方书进行挖掘,能够较好的总结中医疾病的遣方用药规律,为方剂学的研究提供了新的工具。
    1.2方一药一症一证规律研究
        方剂是辨证论治的集中体现,挖掘方剂数据库中的知识,可以发现医家对辨证审因的认识、对临床表现与证候关系的认识、对治法治则与药物配伍的认识,是中医药现代化、标准化、诊断量化的必要手段。因此,运用关联规则进行方一药一症一证规律的研究已经成为近年来该领域的研究热点。尚景盛运用关联规则、因子分析等方法对历代半夏泻心方剂资料进行了挖掘,发现该方除治疗寒热错杂证外还常用于湿热证和肝胃不和证,并挖掘出常用的药物加减变化规律。该学者运用模糊数学方法对不同剂量组合进行了推理预测,具有较高的临床指导价值。时丽莎等借助个体化诊疗系统对381位冠心病病人的数据进行了关联分析,发现基于提升率的挖掘方法可提高效率。龚燕冰等以2501例2型糖尿病病历为数据源,运用关联规则分析了方一症一证直接的关联关系,发现了与生脉饮、六味地黄汤、四君子汤相关联的症状,并生成了可视化的网状图,使得挖掘的结果更加直观。李靖等运用SQL Server 2005软件对201例IgA肾病临床病例进行关联分析,发现了中医证候与现代病理学的相关性,为临床辨证提供了指导,这一研究扩展了关联规则在中医学的研究范围。刘广等收集了1032例胃炎病案,通过关联分析研究了症状之间、处方之间以及症状与处方之间的关联关系,是对中医证候诊断的标准化有益的探索。刘云涛等采用聚类分析、关联规则等数据挖掘方法,对
    名老中医防治病毒性肝炎的医案进行了挖掘,发现湿热蕴结、肝气郁滞是病毒性肝炎的常见证候,并挖掘出与黄疸、胁痛、疲乏、纳差、腹胀、肢肿等症状相关的药物,症一证一药相结合,使得对名医经验的继承更加系统化。喻玲等检索到《中华医典》中以“怒”为主证的方剂229个,运用Clementine数据挖掘软件进行关联规则挖掘,探讨了怒型与药物选择的关联关系。此外,通过对方剂数据的关联分析,能发现许多隐藏在方剂背后的中医基础理论知
    识。莫芳芳运用关联规则分析了“肺与大肠相表里”相关的方剂资料,发现了两条基本的辨证论治模式:(1)肺热多导致大肠热盛而出现多种大肠症状,其中泄泻相对较多,治疗以清热润肺为主,常配伍应用黄芩、生地、麦冬等。(2)肺气壅滞多导致大肠气滞而出现大便秘结症,治疗用宣肺降气以调畅肺肠气机,常配伍应用杏仁、紫菀、瓜蒌、郁金、桔梗等。关联规则挖掘方法为中医理论的研究开辟了新的路径,关联规则有望成为中医基础理论与临床用药新的连接点。
    1.3类方及其他方剂学相关研究:
        类方,是指在药物组成上具有一定相似性的方剂的集合。而关联规则的数学模型恰恰是建立在频繁项集理论基础上的,因此在类方研究中显示了其独特的优势。
        张昱等搜集四君子汤类方967首,采用关联规则的FP-growth算法挖掘了该类方的主治症状和配伍规律,证实了布尔关联规则用于挖掘类方主治症状与药物之间关联的可行性。叶亮等对古今治疗痛经的四物汤类方进行了关联规则挖掘,通过古今对比,探讨了该类方的药物组合规律。张文亮等检索了应用地黄饮子治疗中风病的文献,运用关联规则等方法对该类方的药物归经、功效、配伍等进行了挖掘。陈明等以《伤寒论》与《金匮要略》为研究对象,对桂枝汤类方的主治病症、桂芍比例、药对配伍等进行了全方位的挖掘。刘娟等筛选了《中医大辞典•方剂分册》中治疗脾胃病症的白术类方,运用关联规则对药物问及药证间的关联进行了分析。陈仁波等收集使用黄芪的临床医案755例,运用关联规则挖掘了黄芪类方的配伍及相关症状。冯石强运用关联规则、聚类分析等方法对柴胡类方数据进行了研究,发现了其药对、证候、药症等多方面的规律。以上研究表明关联规则用于类方研究对揭示辨证用药的规律、阐明方剂的主治病症具有重要的意义。此外,关联规则在其他方剂学相关领域的研究中也显示了良好的性能。雷蕾等运用关联规则对治疗肺癌的中药化学组分进行研究,发现了一些组分配伍的隐含知识。金锐等对《神农本草经》中365味中药的气一味一效三维立体数据进行了关联分析,探讨了中药药性与气味的关系。尚尔鑫等通过关联规则挖掘了存在配伍禁忌的中药药物属性的特点,初步探索了中药性味归经与禁忌的关系。
        总之,关联规则作为一种数据挖掘技术,已渗透到方剂学研究的各个领域,且显示了其良好的适用性。
    2评述与展望
        关联规则被提出仅仅20年,而用于中医学领域不过近10年,近年来,中医药领域的专家学者对数据挖掘的研究热情不断高涨,基于关联规则进行方剂学研究的文献数量呈上升趋势,这与关联规则自身特点有关。与传统统计学相比,关联规则所处理的数据具有海量性、非线性、模糊性等特征,而这些恰恰是方剂资料所具备的特征。传统统计学用样本估测总体,得到的结果是具体的数值;而关联规则挖掘的是数据库总体中所存在的频繁模式,得出的是规则。正因如此,关联规则技术在传承专家经验、研究古今医案、发现配伍规律、中医药标准化等方面被广泛应用。目前,关联规则作为数据挖掘的方法之一,业已成为方剂学研究中必不可少的数学工具之一。
        但总体来说该技术在中医学方剂研究中仍处于起步阶段,尚存在诸多问题。首先,关联规则是基于数据库的。、数据库中数据的质量直接决定了规则的质量,虽然中国已建立了众多较为全面的方剂数据库,但由于方剂数据自身的特点,仍存在药物名称不统一、大量模糊数据(如药物用量“一枚”、“少许”、“不拘多少”等)、数据缺失与冗余并存等诸多问题,这在古代文献的数据库中更为突出。如何消除数据库中这些噪声,使清洗后的数据更为符合关联规则挖掘的要求已成为该项技术的难点。其次,关联规则是基于频次的。某种药物出现的频次多少直接决定了其支持度和置信度的大小,那些大众化的药物会获得较高强度的关联,从而产生大量无趣的垃圾规则,同时不可避免的会丢失稀有数据(例如某些仅针对罕见症状所选用的疗效确切的单味药物),虽然通过提升度、置信率、正态卡方、信息差等指标可对关联规则进行剪枝,最大限度的剔除垃圾规则,同时通过设定也可得到部分研究者感兴趣的稀有数据,但仍然存在两大风险:相信了实际不存在的规则和抛弃了实际有意义的规则。最后,关联规则离不开人的分析。挖掘出的规则究竟有没有实际意义还需要中医理论的指导,对药物组合的解释、方一药一证三者之间的内在联系等等都是研究者对规则的主观评价的过程,往往说服力不够强,尤其是那些隐藏的不为先前经验所知的规则,常常需要后续大量的临床及实验研究的支持。
        因此,关联规则在方剂学研究中未来的方向,一方面应放在数据准备阶段,着力提高数据库的质量,解决方剂数据标准化问题;另一方面应放在算法创新上,将关联规则的新算法与方剂学相结合,找到更为适合中医方剂资料的算法,使得出的规则更加客观、合理,更加符合中医学的需要。
        总之,方剂学研究与数据挖掘、计算机技术相结合是大势所趋,是中医药现代化、标准化、规范化的必由之路。方剂数据具有复杂性及信息的海量性、效应多靶点性等特征,这决定了数据挖掘的重要性。作为数据挖掘重要手段的关联规则,如何更好的应用于方剂数据库挖掘,将成为该领域的研究重点。

     

    (如果您认为转载内容侵犯了您的权益,请及时联系我们,本网站将在收到信息核实后24小时内删除相关内容。)

  • 互联网药品信息服务经营许可证 国家编号:B-0101-0027-000031山东编号:(鲁)-经营性-2016-0014 中电商协团证字第TQ0142号 京ICP备11018379号-2
    Copyright©1999-2019 TH55.CN Inc. All rights reserved. 唐汉中医药网 版权所有