研究目的1: 总结

 

一、项目基本情况

项目名称

中文名

隐结构法:一种通过分析症状体征数据为证候的客观性提供证据的方法

 

英文名

Validation of TCM Syndrome Postulates through Latent Structure Analysis of Symptom and Sign Data

 

 

二、项目简介

传统中医药是中华民族的魁宝,从古至今一直守护着中华民族的健康,今后必将在国人防病治病方面继续发挥重要作用,在国际上得到越来越多的认同,因此用现代科学方法对传统中医药进行研究是十分有意义的。研究的方向有很多,比如四诊的客观化、辨证的标准化、中药有效成分和作用机制的确定等等。本项目关注辨证这个环节。

辨证是指基于四诊收集到的信息对病人进行分类,其中的每个类称为一个证候。在临床实践中辨证结论受主观因素的影响很大,不同医师对同一病人所做的辨证结论往往不同。怎样为辨证提供客观依据是证候研究的关键问题之一。在解决这个问题之前,有一个更基本的问题需要回答,那就是:证候是客观的吗?或者说证候有其客观内涵吗?如果证候完全是主观臆想,那么为辨证提供客观依据的努力就是徒劳的。

在过去的大半个世纪里,众多学者围绕证候客观性问题做了大量研究工作,主要方法是寻找可以用来刻画证候的微观实验室指标,结果一直不理想,最近在寒热证方面有重要进展,但是要取得大面积成功还需要长时间的研究。本项目提出另外一种全新的方法,叫隐结构法,它通过分析症状体征数据为证候的客观性提供证据,这种方法在多个证候的研究中取得了成功,是证候研究方法学上的一个突破。

具体地说,本项目有如下几个创新点:

1.  首次指出中医关于辨证的理论涉及两种不同性质的变量:诸如“腰膝酸软”、“舌红少苔”这样的症状体征变量是通过望闻问切直接观察到的,是显变量,而诸如“肾阴虚”的证候变量迄今没有办法对它们进行直接观察,是隐变量。中医辨证理论所描述的是隐变量与显变量以及隐变量与隐变量之间的关系,是一个隐结构,称为中医隐结构

2.  中医隐结构来源于古人的实践经验,在一定意义下实践经验相当于信息时代所说的数据。于是首次提出问题:如果通过流调收集症状体征数据,按统计原则对其进行分析,能不能获得与中医隐结构相吻合的统计学隐结构模型?

3.  为了回答上述问题,专门提出了一个新概率模型,即隐树模型,并且对它进行了系统研究,开发了相应的孔明灯隐结构分软件。

4.  60岁或以上的老年社区人群进行了流行病学调查,收集了与肾虚相关的症状体征数据2600例。利用孔明灯隐结构分软件对数据进行分析,得到的隐树模与相关中医理论吻合,为诸如“肾阴虚”和“肾阳虚” 等肾虚子证候在老年人群的客观存在提供了证据,同时也为这些子证候的判别提供了依据。

5.  把隐结构法运用于973项目2003CB517100的研究中,用隐树模型分析了项目收集的6种疾病的流调症状数据,分析所得到的模型结构与相应的中医理论都基本吻合,从而有力的支持了项目的主要结论之一:证临床表现为具有内在联系的症状体征组合,这种组合可以通过临床流行病学调查与数据分析的证实。

 

本项目在国内中医学界已经产生了比较大的影响,有不少学者在关注和使用隐结构法,在国际上也有学者注意到隐结构法,并给予了好评,认为是一个重要进展(significant advance),详细情况见第四节。


 
 

 

三、重要科学发现

相对西医而言,中医的特色和优势所在于辨证论治,这是中医学界的共识。但是,现代医学界也提出了一个至关重要的问题:证候客观存在吗?在过去的大半个世纪里,众多学者围绕证候客观性问题做了大量研究,主要方法是寻找可以用来刻画证候的微观实验室指标,结果一直不理想,最近在寒热证方面有重要进展,但是要取得大面积成功还需要长时间的研究。本项目提出另外一种全新的方法,叫隐结构法,它通过分析症状体征数据为证候的客观性提供证据,这种方法在多个证候的研究中取得了成功,是证候研究方法学上的一个突破。

1. 隐结构法的基本思想

隐结构法的基本思想是在代表性论文24中提出的,现总结如下:人脑对规律性的东西充满好奇,如果注意到几件事情多次同时出现,马上会问为什么。有一个晚上笔者站在窗前往外望,对面大楼有几间屋引起了笔者的注意,它们透过窗帘的射出光线时而亮、时而暗,同步变化了一段时间。笔者觉得这个现象有趣,认为其背后应该有一个共同的原因,并且开始寻找这个原因是什么。基于对这个世界的了解,笔者最后得出的结论是,那几间屋的主人在看同一电视频道。

可以推测,古人对规律性的东西也充满好奇。那么,当他们发现一组症状体征在许多不同病人身上都出现时,他们会做些什么呢?他们自然会问为什么,会认为那些症状体征背后应该有一个共同的原因,并且还会基于他们当时对大自然以及人体的认识,对那个共同原因进行诠释,这样慢慢形成了中医理论。症状体征是直接观察到的,是显变量,而症状体征出现的原因不是直接观察到的,属于隐变量。中医辨证理论讲述的是隐变量与显变量以及隐变量之间的关系。它是一个用自然语言刻画的隐结构模型,称为中医隐结构模型

如图1所示,隐结构法的基本思想是模拟中医理论的形成过程,看看能不能从症状体征数据中提炼出中医所描述的隐结构。 具体分三个步骤:(1) 通过流行病学调查系统收集症状体征在患者身上出现情况的数据,(2) 用电脑对数据进行隐结构分析,得到统计隐结构模型,(3) 把统计隐结构模型与中医隐结构模型进行对照比较。如果两者吻合,那么就从统计学角度为中医辨证理论的合理性和客观性提供了证据。注意,数据中只有症状体征信息,没有证候判断,所以是无标签数据,对它的分析是无监督学习。

 

 

1. 隐结构法的基本思想

2. 隐结构分析方法和工具

中医隐结构包含许多证候隐变量,它们之间关系密切。要从症状体征数据中提炼出类似结构,所使用的工具必须允许多个彼此相互关联隐变量的存在,这些隐变量以及它们之间的关系需要通过数据分析来确定。为了进一步为辨证提供依据,隐变量还应该是离散的,使得每个隐变量代表对人群的一个划分。

在中医研究中常常使用用的隐变量模型有因子模型和结构方程。因子模型是对数据进行降维的工具,其中的隐变量相互独立,而且是连续的。结构方程中的隐变量也是连续的,而且它们之间的关系不是通过数据分析来确定的,需要人手提供。它的作用是通过假设检验来验证或否决人手提供的模型结构。

2.隐树模型例子

因子模型和结构方程都不能满足本项目的需要。于是在代表性论文3中我们提出了一类新模型,叫隐树模型,早期也称多层隐类模型。图2给出一个隐树模型的例子,其中“智力”、“分析能力”和“语言能力”是隐变量,其它变量是显变量,变量之间形成一个树状结构。在本项目中,显变量是症状和体征,而隐变量以及变量间的关系是需要通过数据分析来确定的。

 


 

代表性论文3对隐树模型进行了系统理论研究,并且提出了基本算法,代表性论文1在算法方面做了进一步研究,提出更为快捷实用的算法。由于隐树模型不但可以应用于中医证候研究,还可以应用于许多其它领域,代表性论文3在国际上得到不少关注,根据Google Scholar,迄今它已经被引用112次,其中81次属于他引,引用者包括来自MITCMUUSCEdinburgh大学等著名学府的学者。

中医隐结构中变量之间的关系错综复杂,用树状结构对它进行研究显得过分简单。本项目仍然选择使用隐树模型,原因有三:(1) 科学研究总是从简单到复杂,(2)通过分析众多数据,发现隐树模型可以揭示数据蕴含的主要规律,足以为证候的客观性提供证据,(3)在代表性论文78中,曾经尝试先获得树状模型,然后添加连接,但是发现添加的连接都很细微,没有显著作用,这反映隐变量模型的不可分辨性(unidentifiability)问题,即模型如果太复杂,有些隐性内容就无法基于数据来确定。

 

3. 隐结构法的可行性研究

为了探索隐结构法的可行性,我们用它研究了肾虚及其子证候在老年社区人群中的客观存在问题。首先对与肾虚相关的症状体征在老年社区人群中的分布情况进行了流调,收集到数据2600例,然后对数据进行隐结构分析,得到一个隐树模型,其结构如图3所示。图中位于最下面的是症状体征变量,它们来自数据,是显变量。其它的变量是隐变量,是在数据分析过程中根据数据中蕴涵的规律按照统计学原则而引入的。最上面的红色标签是为方便后面的讨论,不是模型的内容。

通过比较发现,图3所示的模型与相关的中医理论基本吻合。例如模型最左边说的是:有一个隐变量X1,它直接影响畏寒怕冷、四肢冷、腰背冷这三个症状,同时又通过隐变量X2间接影响便稀、完谷不化。而中医理论认为,当肾阳不足失温煦时则可见畏寒、肢冷、腰背怕冷;同时肾阳虚衰火不温脾土,则可见完谷不化,大便溏薄。所以在这一局部,模型与中医理论完全一致,这样就为“肾阳虚”在老年人群中的存在提供了证据。我们没有证明“肾阳虚”是客观的物质存在,但是证明了“肾阳虚”的理论存在与数据所呈现出的规律性是吻合的

如红色标签所示,模型的其它局部与相关的中医理论也基本吻合,这为“膀胱失约”、“肾精亏虚”和“肾隐虚”在老年人群中的客观存在提供了客观证据。由于数据中的症状体征都与肾虚有关,如果研究结论仅仅是“老年人群中存在肾虚,哪没什么意义。 但是,我们的分析证明了“肾阳虚”等4个子证候的存在,在模型中每个子证候的症状各成一堆,而没有混在一起,这反应出很强的规律性,为中医理论的合理性提供了客观证据。

3.肾虚数据分析结果

 

 

 

肾虚数据分析结果发表在代表性论文1256中,每篇文章有各自不同的角度和层次。需要指出的是,隐树分析与变量聚类截然不同。变量聚类能找出关系密切的症状变量组,但不涉及隐变量。隐结构法在发现一组症状变量组关系密切后,会引入一个隐变量来解释这些关系,并且基于它对数据样本进行划分。代表性论文16介绍了这些划分,它们可以作为辨证分类的依据。

4. 隐结构法在973项目中的运用和发展

2006年开始我们把隐结构法运用于973项目2003CB517100的研究中,用隐树模型分析了项目收集的6种疾病的流调症状数据,包括抑郁症(604份病例,100个变量)、慢性乙型肝炎(582份病例,105个变量)、慢性肾功能衰竭(601份病例,108个变量)、COPD急性期(779份病例,106个变量)和稳定期(774份病例,106个变量)和更年期综合征的围绝经期(802份病例,113个变量)、绝经后期(782份病例,99个变量)、溃疡性结肠炎活动期(829份病例,116个变量), 分析所得到的模型结构无一例外地与相应的中医理论都基本吻合,从而有力的支持了项目的主要结论之一:“证临床表现为具有内在联系的症状体征组合,这种组合可以通过临床流行病学调查与数据分析的证实。(见第4节)

973项目的运用中,隐结构法得到了发展。 在此之前的工作主要关注隐树模型的结构,对隐变量代表的划分也有提及,但认识不深。代表性论文78对隐变量代表的划分之含义和价值进行了深入探讨。

隐树模型包含多个隐变量,每个隐变量代表对数据(人群)的一个划分,所以它是一种多维聚类分析方法。 中医辨证是从不同角度对患者进行分类,每一个证候是一个角度,要为这种多角度分类提供依据,自然需要使用多维聚类样本方法。在这种意义下,隐树模型比因子分析、结构方程模型和变量聚类更贴近证候研究的需要。除了指出多维聚类的重要性以外,代表性论文7引入了信息曲线和信息覆盖度等重要概念,来帮助研究者充分和准确诠释隐变量代表的划分之含义,恰当地把它们使用证候研究中

代表性论文8探讨怎样通过隐结构分析为西医疾病的辨证分型提供客观依据,揭示了比图1更为深刻的原理,如图4所示。设想对某个西医疾病B进行辨证分型研究,欲得出结论“部分病B患者有某证Z”。在中医理论中,证候Z对应某些症状的组合,记这些症状为S1, S2, …, Sk。上诉结论的含义是说,B患者可以分为两类,其中一类患者有证Z,在他们身上症状S1-Sk全部出现或大部分出现,而另外一类患者无证Z,在他们身上症状S1-Sk全部不出现或只有少部分出现,如4上半部分所示。

4 通过多维样本聚类分析为辨证分型提共客观依据的原理。

 

    为了给“部分病B患者有某证Z这样的结论提供客观依据,可以首先对B患者的症状和体征进行流行病学调查,然后用隐树模型对数据进行多维聚类分析。如果在得到的划分中,如果有一个划分将数据划分为两个类,使得其中一个类中的样本包含症状S1-Sk之全部或大部分,而另外一类中的样本则完全不包含症状S1-Sk或只包含其中一少部分,那么就对论断“部分病B患者有证Z”提供了客观证据,同时也为在B患者中鉴别证候Z提供了依据,4下半部分所示。

 

 

做为例子,考察通过分析一组抑郁症(西医疾病)数据而得到的隐变量之一Y8(详情见代表性论文8)。它有两个取值,表示它将抑郁症样本被划分为两个隐类,分别记为Y8=s0Y8=s1隐变量Y8的信息曲线如图5所示,沿着横坐标从左往右走,各显变量对Y8的单独信息覆盖度(下边曲线)逐渐下降,但是累计互信息覆(上边曲线)盖度却不断增高。到太息情况的时候,累计信息覆盖度达到90%以上,表示从憋气到太息的4个症状变量已经反映出Y8=s0Y8=s1这两个隐类之间90%以上的差别。所以,可以认为Y8代表的基本上是一个基于憋气、气短、胸闷和太息这4症状对抑郁症患者数据所做的划分。表1给出症状变量在隐类中的概率分布情况。不难看出,两个隐类的主要区别是,憋气等4个症状在Y8=s1中出现的概率均较高,而在Y8=s0中出现的概率则较低。在中医看来,太息、胸闷,气短和憋气是胸膈气机不畅的表现,所以可以认为Y8=s1这类患者有胸膈气机不畅,而Y8=s0这患者则没有胸膈气机不畅。

5 隐变量Y8的信息曲线

                                        

1 症状在隐类Y8=s0Y8=s1中出现类概率。

 

Y8代表的划分不是人为的、任意的,而是基于统计学原则对数据分布客观规律的揭示。而划分中的两个类Y8=s1Y8=s0正好分别显示出有胸膈气机不畅和无胸膈气机不畅的特点。所以,Y8代表的划分为将抑郁症患者分为有胸膈气机不畅和无胸膈气机不畅两个类提供了客观依据。另外,分析还指出Y8=s1(有胸膈气机不畅)在所用样本中占48% Y8=s0(无胸膈气机不畅)在所用样本中占52%

代表性论文78还探索了在隐树模型中添加连接,使得变量间的关系更为复杂,从而与中医理论更为接近。结果发现,所添加的连接都很细微,没有显著作用,另一方面,计算复杂度却大大增加。这表明,隐树模型(而非更为复杂的模型)是分析症状体征恰当的工具。

为了方便隐结构法的使用和推广,本项目还开发了孔明灯隐结构分析软件, 软件著作权登记号为:2009SR10907,它具有数据准备、模型学习、模型显示和模型诠释的全套功能。 这一软件可以到http://www.cse.ust.hk/~lzhang/tcm/ 免费下载。

 

 

5. 隐结构法的影响

隐结构法在国内中医学界已经产生了较大影响,有些学者开始把隐结构法运用于自己的研究中。例如,在他引论文9中,谢雁鸣用隐树模型研究了40-65岁原发性骨质疏松症的中医证候要素,在他引论文10中,刘国平等用隐结构法探讨了中医脾系问诊客观化问题。其它应用包括(多数有本项目完成人参予):

  1. 王阶、李海霞等.基于隐结构模型的血瘀证症状体征研究, 世界科学技术-中医药现代化, 200606. http://www.cnki.com.cn/Article/CJFDTotal-SJKX200606008.htm
  2. 龚燕冰、张连文等. 隐结构模型对2型糖尿病病机规律的探讨. 世界科学技术-中医药现代化, 200904. http://www.cnki.com.cn/Article/CJFDTotal-SJKX200904015.htm.
  3. 杨丽平. 3502型糖尿病肾病患者中医证候的隐结构分析, 2009年传统医药国际科技大会论文集. http://so.med.wanfangdata.com.cn/ViewHTML/ConferencePaper_7201329.aspx
  4. 徐雯洁、王天芳等. 基于隐结构法的慢性阻塞性肺疾病稳定期常见证候要素的研究, 北京医药大学学报,201102. http://www.cnki.com.cn/Article/CJFDTOTAL-JZYB201102002.htm
  5. 杜彩凤、王天芳等. 基于隐结构法的更年期综合征常见证候要素的研究, 201012. http://www.cnki.com.cn/Article/CJFDTotal-JZYB201012020.htm}
  6. 朝霞、刘腾飞等. 基于隐结构模型分析的心血管疾病中医问诊证候分类研究, 中国中医药信息杂志,    201203. http://xxzz.cintcm.com/oa/DArticle.aspx?id=201203005

 

隐结构法在国际上也开始受到关注,见 他引论文1-8

 

 

 

四、第三方评价

(1)     下面是973项目2003CB517100的验收报告,在所罗列的4项代表成果中,两项与隐结构法有关。其中第3项明确提及隐结构法,而第一项画红线部分是项目最主要的结论之一,隐结构法的使用为这个结论提供了重要支持。

 

 

 

(2)他引论文1是美国统计学会Fellow, Dominique Haughton 2011出版的新书 《Living Standards Analytics》,她对代表性论文1做了如下介绍和评价:

 

Zhang et al. provide a very interesting application of latent class models to diagnoses in traditional Chinese medicine (TCM). They collected data from 2,600 people above the age of 60 who were asked whether they experienced, at each of four levels of severity, 67 different symptoms related to kidney function (although  ultimately the authors were only able to use 35 of the variables, given limitations on computing power).

The authors consider not one, but several, latent variables, which can be linked to each other, yielding what is referred to as a Latent Tree Model; this is a Bayesian Network, and is similar to a Directed Acyclic Graph (see Chap. 5). Each latent variable is categorical, with three, four, or five states, and thus generates a clustering  of the data set with as many clusters as there are states in the latent variable. The clusters can then be profiled with the occurrence of the four severity levels for each of the symptoms linked to the latent variable.

The estimation of the model is complex, and the results tend to confirm known theories in Chinese traditional medicine. This is a significant advance, since the scientific bases for these theories are not known, and the model proposed by the authors provides at least a statistical justification for them.

 

 


 

 

五、论文、论著目录


 

1.        不超过10篇代表性论文、专著

序号

论文、专著

名称/刊名/作者

影响因子

年卷页码

发表时间

年月日

通讯作者

/第一责任人

SCI

他引次数

他引

总次数

*

是否国内完成

1

Latent tree models and diagnosis in traditional Chinese medicine, Artificial Intelligence in Medicine.

1.96

**   (2008)

2008,

42,229-245

2008.3

Nevin L. Zhang (张连文)

 

21

2

Statistical Validation of TCM Theories, Journal of Alternative and Complementary Medicine

1.62

**    (2008)

2008, 12, 583-7

2008.6

Nevin L. Zhang (张连文)

 

14

3

Hierarchical latent class models for cluster analysis (***). Journal of Machine Learning Research

4.315(****  (2004)

2004,5,679-723

2004.6

Nevin L. Zhang (张连文)

 

81

 4

隐结构模型与中医辨证研究(I):  隐结构法的基本思想及隐结构分析工具,北京中医药大学学报

 

2006,6,

365-9

2006.6

张连文

 

11

5

隐结构模型与中医辨证研究(II): 肾虚数据分析,北京中医药大学学报

 

2008,8,584-7

2008.9

张连文

 

3

6

隐结构模型与中医辨证研究(III): 模型辨证与专家辨证,北京中医药大学学报

 

2008,10, 659 - 663

2008.10

袁世宏

 

1

7

用隐结构模型研究中医证候北京中医药大学学报

 

2009,32, 519 - 26

2009.8

王天芳

 

2

8

隐结构分析与西医疾病的辨证分型,世界科学技术---中医药现代化

 

2011,13, 498 - 502

2011.3

张连文

 

 

 

*:资料来源:Google Scholar;计算方法: 总引用次数 - 自引用次数

**: 资料来源:http://www.bioxbio.com/if/html/

****: 论文3 在国际上首先提出隐树模型(latent tree models) 并对它进行了系统研究。隐树模型是本项中医辨证研究的基本工具,同时也可以应用于其它领域,所以得到众多其它学者的引用。

****:资料来源http://www.earlham.edu/~peters/fos/2004/11/journal-of-machine-learning-research.html

 

 

 

2.上述代表性论文、专著被他人引用的情况(不超过10篇)

序号

被引论文、专著

名称/刊名/作者

引文名称/刊名/作者

刊名/影响因子(引文)

引文发表时间年月日

 

1

Latent tree models and diagnosis in traditional Chinese medicine/Artificial Intelligence in Medicine/ Nevin L. Zhang, et al.

Living standards analytics: development through the lens of household survey data, /Springer-Verlag/D. Haughton and J. Haughton, 2011

 

Book

 

2011

 

2

Latent tree models and diagnosis in traditional Chinese medicine/Artificial Intelligence in Medicine/Nevin L. Zhang, et al.

Statistical validation of kidney deficiency syndromes/Hong Kong University Ph.D. Thesis/R. Chen

 

 

Ph.D. Thesis

 

 

2009

 

3

Latent tree models and diagnosis in traditional Chinese medicine/Artificial Intelligence in Medicine/Nevin L. Zhang, et al.

Bridging the gap between traditional Chinese medicine and systems biology/ Mol. BioSyst./T. Ma, et al

 

3.8

(2010)

 

2010

 

4

Latent tree models and diagnosis in traditional Chinese medicine/Artificial Intelligence in Medicine/Nevin L. Zhang, et al.

Random effects models for assessing diagnostic accuracy of traditional Chinese doctors in absence of a gold standard/Statistics in Medicine/Z. Wang and X. H. Zhou

1.877 (2011)

2011.5

 

5

Latent tree models and diagnosis in traditional Chinese medicine/Artificial Intelligence in Medicine/Nevin L. Zhang, et al.

Diagnostic accuracy of pattern differentiation algorithm based on Chinese medicine theory: a stochastic simulation study/Chinese Medicine/S. Ferreira

 

 

1.49

(www.cmjournal.org)

 

 

2009

 

 

6

Statistical Validation of TCM Theories/Journal of Alternative and Complementary Medicine Nevin L. Zhang, et al.

Integrative medicine research: Context and priorities/Report Commisioned for the IOM Summit on Integrative Medicine and the Health of the Public/G. Deng, et al

Report commissioned by Institute of Medicine, National Academy of Sciences, USA

 

 

 

2009.2

 

 

 

7

Statistical Validation of TCM Theories/Journal of Alternative and Complementary Medicine Nevin L. Zhang, et al.

Development of traditional Chinese medicine clinical data warehouse for medical knowledge discovery and decision support/ Artificial Intelligence in Medicine/X. Zhou, et al.

 

 

1.568

(2010)

 

 

2010

 

 

8

Statistical Validation of TCM Theories/Journal of Alternative and Complementary Medicine Nevin L. Zhang, et al.

Wiki page on TCM/ http://www.wiki4cam.org/wiki/ Traditional_Chinese_ Medicine_%28TCM%29

 

 

2009.6

 

 

 

9

隐结构模型与中医辨证研究(I, II, III)/北京中医药大学学报/张连文

基于隐树模型的40岁~65岁妇女原发性骨质疏松症中医证候要素分/中国中医基础医学杂志/谢雁鸣等

 

 

 

2011

 

10

隐结构模型与中医辨证研究(I, II, III)/北京中医药大学学报/张连文

基于隐结构的中医脾系问诊信息客观化分析/中医杂志/ 刘国萍

 

 

2011