联系我们
    插件电感_大电流电感
热门搜索
点击排行
推荐电感
推荐阅读
推荐电感
推荐电感
猜猜你喜欢的
行业知识 您所在的位置: 电感 > 行业知识

一种基因数据分析的半监督学习算法

来源:    作者:    发布时间:2015-11-06 06:42:48    浏览量:

  摘 要: 基于对无标记数据算法的研究,讨论了基因数据分析的半监督学习算法。基因数据的典型特征是小样本、高维数,处理起来非常困难。在安全的半监督学习基础上,提出了一种降维和半监督学习相结合的方法,以提高分类效果的精确度及鲁棒性。实验证明,该方法通过结合降维和半监督学习的优点,具有很好的应用价值。

  关键词: 半监督学习;基因表达数据;特征提取;支持向量机

  基因芯片技术可以一次性对大量基因序列进行检测和分析,从而得到高维的基因表达数据,因此在病理研究和临床应用等领域备受关注[1-2]。基因表达数据中基因的数目巨大,大部分都无法为样本的区分提供有用信息,因此识别出一小部分能提供足够有用信息的基因并实现很好的分类至关重要,这一小部分有效基因被称为分类特征基因。特征基因选择通常由去除分类无关基因和去除冗余基因两部分组成。GOLUB T R等人提出的特征记分准则FSC(Feature Score Criterion)用于去除分类无关基因[3]。李颖新等人[4]认为应该在此基础上考虑方差对样本分类的影响,利用方差不同对样本分类的贡献不同,从而更客观地评价基因包含的分类信息量,提出了修订的特征记分准则RFSC(Revised Feature Score Criterion)。关于特征基因的选择研究有过滤法、缠绕法、混合方法等[5-6]。特征基因选择之后,选出的剩余基因可以看作与疾病相关。因为利用基因数据的高维数和高噪音进行特征提取是必要的途径。本文结合降维技术方法给出新的特征提取方法。提取特征后,样本的分类又显得尤为重要,一个好的分类器能够更准确、更有效地区分正常样本,从而为临床医学提供参照。半监督学习(Semi-supervised Learning)是目前比较有效的分类方法[7],它主要考虑如何利用少量的标注样本和大量的未标注样本进行训练和分类的问题。本文提出的降维和半监督学习方法能够更好地利用数据的隐含信息,更好地实现分类预测效果。

  1 数据描述及标准化

  1.1 基因表达数据

  基因表达谱数据可以表述为:

  M=x11 x12 … x1n c1x21 x22 … x2n c2 ?埙xm1 xm2 … xmn cm (1)

  肿瘤基因表达谱M中共有m个样本、n个基因。xij代表第i个样本的第j个基因表达值; ci代表样本所属类别。gi为第i个基因所有样本的表达值,简称为基因gi:

  gi=x1ix2ixmi (2)

  基因表达谱最显著特点是样本少、维数高,即m<<n[2]。

  1.2 基因表达数据标准化

  对基因表达数据进行标准化的方法主要有两种:(1) 限制每个基因的均值为0,方差为1;(2)限制每个基因的值在[0,1]范围内。

  本文采用限制每个基因的值在[0,1]范围内的标准化方法:

  xij*=(xij-xj-max-xj-min)

  其中,xij为式(1)中所示的基因表达矩阵M中第i个样本的第j个基因,xj-max为第j列基因的最大值,xj-min为第j列基因的最小值,xij*为标准化后的新值。

  2 数据处理的相关理论方法

  2.1 IRFSC特征计分准则

  由于相关组织的某些基因发生了突变,而突变基因的表达水平与正常基因的表达水平不一样,因此,需要找出突变基因。原则是:将患病和正常样本两类中具有显著差异的基因子集保留,其余视为无关基因去除。通常是按照某种记分准则对每一个基因进行记分[6],分值越大说明该基因的正常样本和肿瘤样本差异越大、基因含有的分类信息就越多。因此按基因分值大小降序排列,排在前面一定数量的基因作为候选基因,其余基因作为无关基因去除。参考文献[5]中对GOLUB T R等人提出的FSC进行改进后为:

  

33.png

  若基因表达谱中只有正常样本和肿瘤样本两类,则表示基因gi中正常样本的均值,表示gi中肿瘤样本的均值;表示gi中正常样本的标准差,表示gi中肿瘤样本的标准差。考虑到样本数目m和基因数目n之间的大小关系m<<n[2],由于n/m的比值越大,对方差的影响也越大,给出式(3)的改进形式:

  

44.png

  2.2 降维方法

  2.2.1 主成分分析

  主成分分析PCA(Principal Component Analysis)算法是一个经典的统计技术,把数据从高维的空间中映射到低维的空间并保留主要的信息[8]。在新的坐标系下,变换数据点的方差沿新的坐标轴得到了最大化,这些坐标轴经常被称为主成分。PCA的主要运算步骤如下:

[DCDC]植物生长灯驱动芯片大功率降压恒流高恒流LED植物生长灯驱动芯片大功率降压恒流高恒流精度ACDC平均电流非隔离降压型 LED 恒流驱动芯片AP2400 产品优点:   AP2400 内置温度保护输出带短路保护内置5V 稳压管高效率:可高达95%工作频率:130kHz宽输入电压范围:8V~100V,输出电流可达5A 智能蓝牙球泡灯RGBW手机蓝牙灯泡专用调光升压降压恒流共阳驱动板供应开发可供应电源方案驱动方案驱动板开发供应AP2400 概述:AP2400 是一款高效率,稳定可靠的LED 恒流车灯驱动芯片AP2400 采用SOP8 封

双曲线函数发生电路该电路采用了数/模转换器DAC-20EX和运放OP17G,组成扩大范围的A/X型双曲线函数,其中A为模拟常数,X表示用十进制表示的数字式除数。双曲线函数发生电路:

8位液晶译码驱动MAX7232BF的原理及应用MAX7232BF为串行输入4位数据、2位小数点和4位地址;输出为10位数据加20个独立小数点,数据输出代码为BCD码,每一位的2个小数点都在COM3上。可以直接与微处理器连接。1 管脚结构及说明 M

大电流电感
 
在线客服