一种基因数据分析的半监督学习算法
来源: 作者: 发布时间:2015-11-06 06:42:48 浏览量:
2.2.2 局部保持投影
局部保持投影LPP(Locality Preserving http://www.rouxingban.com/电感厂家Projection)是一种线形的降维算法[9]。LPP的目的是保持局部的结构信息,所以在低维空间的近邻搜索与高维空间产生类似的结果。LPP是线性的,这使得LPP处理速度很快,并且很适合于实际的应用,这也是LPP优于LLE的地方。降维后产生的变换矩阵可以直接应用在测试集上,所以,其拥有样本外点学习能力。
LPP的算法如下:
(1)PCA投影。通过保留主要成分,将数据集投影到子空间。
(2)构建邻近图。如果样本点Xi和样本点Xj是近邻点,则可以在Xi和Xj之间建立一条边。建立的近邻图是局部流形结构的近似,常采用K近邻方法。
(3)如果样本点i和j相连,则设置权重W=e,其中t是一个合适的常数;否则W=0。
其中,L=D-W,而对角矩阵D的对角线元素Dii=Wij。
(4)本征映射。计算特征值分解问题:XLXT?琢=?姿XXT?琢求解广义特征方程的d个最小特征值对应的特征向量作为d个投影向量。故由上述特征方程的d个最小特征值?姿1,?姿2,…,?姿d对应特征向量?琢1,?琢2,…,?琢d,构成保持近邻重建特性的线性变换矩阵。
2.3 支持向量机
支持向量机SVM(Support Vector Machines)是由VAPNIK提出的一种新的机器学习方法[10],它基于VC维和结构风险最小化理论 (SRM),在很大程度上解决了传统机器学习中的维数灾难及局部极小等问题。由于其完整的理论框架和在实际应用中取得了很多好的效果,在机器学习领域受到了广泛的重视,图1给出了SVM分类的示意图。
当给定的训练样本集为{xi,yi},其中i=1,…,N,相应的类标签为yi={-1,+1}。在线性可分的情况下,SVM 能找到一个能使两类样本集分类间隔最大的最优超平面。这等价于解决下面的规划问题:
由于支持向量机是利用有效的少量样本去构建超平面来预测测试样本,支持向量的选择对分类器的精度影响很大。对大量的数据样本进行处理,分类器的精度变化不会很大;但是对于少量的样本进行处理,分类器精度的变化会非常明显,尤其是遇到高维小样本问题。分类器的精度如果变化很大,就在实际应用中就会带来意想不到的后果。鉴线艺电感于基因数据的特点(高维数和高噪音),把最新的支持向量机S4VM应用到本文的算法中。S4VM是对S3VM的改进,后者主要关注一个最优的低密度分界线,而S4VM同时关注多个可能的低密度分界线。因为给定一些有标记的点和大量为标记的点,可能存在不止一个低密度分界线,所以很难决定哪个是最好的,如图2所示。虽然这些低密度分界线都与有限的标记样本吻合,但它们之间的差异很大,因此如果选错了,会有一个很大的损失,导致性能的下降。所以,S4VM试图考虑所有可能的低密度分界线。在给定许多不同“间隔”较大的分界线时,通过对未标记的样本的类别划分进行优化,使得在最坏的情况下,相对于只使用标记样本的支持向量机的性能提升最大化。
3 算法流程
本文提出算法的具体流程如下。
(1)对肿瘤基因表达谱进行标准化。
(2)去除无关基因。利用RFSC计算每个基因的分值,
经过降序排列后选出分值靠前的一部分基因作为候选基因。
(3)特征提取。利用局部保持投影提取主要的特征。
(4)分类测试。利用S4VM进行分类精确度的检验。
4 实验结果及讨论
采用肿瘤基因表达数据集(http://home.ccr.cancer.gov/ oncology/oncogenomics/)进行实验测试,该表达谱共27个样本(其中16个为正常样本,11个为肿瘤样本),3 467个基因。然后,采用ALON等人[11]选出的含有2 000个特征基因的结肠癌基因表达谱数据集,包括40个结肠癌组织样本和22个正常样本进行降维实验对比。
实验1 选取数据集中的27个样本,采用SVM和S4VM进行分类精度检验,分别选取分类信息指数为0.5、0.7、0.8、0.85、0.9的2 085、819、417、279和184个基因。SVM选取1/10、3/10、5/10、7/10、8/10作为训练集;S4VM选取1/10、3/10、5/10、7/10、8/10作为有标号的数据。实验对比结果如表1所示。
[DCDC]植物生长灯驱动芯片大功率降压恒流高恒流LED植物生长灯驱动芯片大功率降压恒流高恒流精度ACDC平均电流非隔离降压型 LED 恒流驱动芯片AP2400 产品优点: AP2400 内置温度保护输出带短路保护内置5V 稳压管高效率:可高达95%工作频率:130kHz宽输入电压范围:8V~100V,输出电流可达5A 智能蓝牙球泡灯RGBW手机蓝牙灯泡专用调光升压降压恒流共阳驱动板供应开发可供应电源方案驱动方案驱动板开发供应AP2400 概述:AP2400 是一款高效率,稳定可靠的LED 恒流车灯驱动芯片AP2400 采用SOP8 封
双曲线函数发生电路该电路采用了数/模转换器DAC-20EX和运放OP17G,组成扩大范围的A/X型双曲线函数,其中A为模拟常数,X表示用十进制表示的数字式除数。双曲线函数发生电路:
8位液晶译码驱动MAX7232BF的原理及应用MAX7232BF为串行输入4位数据、2位小数点和4位地址;输出为10位数据加20个独立小数点,数据输出代码为BCD码,每一位的2个小数点都在COM3上。可以直接与微处理器连接。1 管脚结构及说明 M
大电流电感