广州市天河区黄埔大道中124号2705室
电话:020-29031124
手机:18102256923
Email:servers@gzscbio.com
Fax:020-85625352
QQ:2913120624
生物信息学是生物学与计算机科学及应用数学等学科相互交叉而形成的一门新兴学科。它通过对生物学实验数据的获取、加工、存储、检索与分析,进而达到提取数据所蕴含的生物学意义的目的,它由数据库、计算机网络和应用软件三大部 分构成。在基因组研究时代,生物信息学包含三个重要内容,即基因组信息学、蛋白质的结构模拟以及药物设计。基因组信息学是生物信息学的源头和基础。生物信息学的研究目标是揭示基因组信息结构的复杂性及遗传语言的根本规律。
我们广州赛诚生物科技有限公司根据多年经验及对前沿技术的关注,总结出下列几点生物信息学的主要研究方向。
DNA和蛋白序列序列比对
序列比对考虑了DNA序列的生物学特性,如序列局部发生的插入,删除(前两种简称为indel)和替代,序列的目标函数获得序列之间突变集最小距离加权和或最大相似性和,对齐的方法包括全局对齐,局部对齐,代沟惩罚等。两个序列比对常采用动态规划算法,这种算法在序列长度较小时适用,然而对于海量基因序列(如人的DNA序列高达10^9bp),这一方法就不太适用,甚至采用算法复杂性为线性的也难以奏效。因此,启发式方法的引入势在必然,著名的BLAST和FASTA算法及相应的改进方法均是从此前提出发的。
比较两个或两个以上蛋白质分子空间结构的相似性或不相似性。蛋白质的结构与功能是密切相关的,一般认为,具有相似功能的蛋白质结构一般相似。蛋白质是由氨基酸组成的长链,长度从50到1000~3000AA(Amino Acids),蛋白质具有多种功能,如酶,物质的存贮和运输,信号传递,抗体等等。氨基酸的序列内在的决定了蛋白质的3维结构。一般认为,蛋白质有四级不同的结构。研究蛋白质结构和预测的理由是:医药上可以理解生物的功能,寻找dockingdrugs的目标,农业上获得更好的农作物的基因工程,工业上有利用酶的合成。直接对蛋白质结构进行比对的原因是由于蛋白质的3维结构比其一级结构在进化中更稳定的保留,同时也包含了较AA序列更多的信息。蛋白质3维结构研究的前提假设是内在的氨基酸序列与3维结构一一对应(不一定全真),物理上可用最小能量来解释。从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构。同源建模(homology modeling)和指认(Threading)方法属于这一范畴。同源建模用于寻找具有高度相似性的蛋白质结构(超过30%氨基酸相同),后者则用于比较进化族中不同的蛋白质结构。然而,蛋白结构预测研究现状还远远不能满足实际需要。
为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列。将两个或多个序列排列在一起,标明其相似之处。序列中可以插入间隔(通常用短横线“-”表示)。对应的相同或相似的符号(在核酸中是A、T或U、C、G,在蛋白质中是氨基酸残基的单字母表示)排列在同一列上。
这一方法常用于研究由共同祖先进化而来的序列,特别是如蛋白质序列或DNA序列等生物序列。在比对中,错配与突变相应,而空位与插入或缺失对应。序列比对还可用于语言进化或文本间相似性之类的研究。
基因的识别和鉴定
基因识别的基本问题是给定基因组序列后,正确识别基因的范围和在基因组序列中的精确位置。非编码区由内含子组成(introns),一般在形成蛋白质后被丢弃,但从实验中,如果去除非编码区,又不能完成基因的复制。显然,DNA序列作为一种遗传语言,既包含在编码区,又隐含在非编码序列中。分析非编码区DNA序列没有一般性的指导方法。在人类基因组中,并非所有的序列均被编码,即是某种蛋白质的模板,已完成编码部分仅占人类基因总序列的3~5%,显然,手工的搜索如此大的基因序列是难以想象的.侦测密码区的方法包括测量密码区密码子(codon)的频率,一阶和二阶马尔可夫链,ORF(Open Reading Frames),启动子(promoter)识别,HMM(Hidden Markov Model)和GENSCAN,Splice Alignment等等。
分子进化分析
分子进化是生物进化过程中生物大分子的演变,包括前生命物质的演变;蛋白质分子和核酸分子的演变以及细胞器和遗传机构(例如遗传密码)的演变。分子进化的研究可以为生物进化过程提供佐证,为深入研究进化机制提供重要依据。
广义的分子进化有两层含义,一是原始生命出现之前的进化,即生命起源的化学演化;二是原始生命产生之后生物在进化发展过程中,生物大分子结构和功能的变化以及这些变化与生物进化的关系,这就是通常所说的分子进化。
翻译的遗传密码发掘
通常对遗传密码的研究认为,密码子与氨基酸之间的关系是生物进化历史上一次偶然的事件而造成的,并被固定在现代生物的共同祖先里,一直延续至今。不同于这种"冻结"理论,有人曾分别提出过选择优化,化学和历史等三种学说来解释遗传密码。随着各种生物基因组测序任务的完成,为研究遗传密码的起源和检验上述理论的真伪提供了新的素材。
药物设计
人类基因工程的目的之一是要了解人体内约10万种蛋白质的结构,功能,相互作用以及与各种人类疾病之间的关系,寻求各种治疗和预防方法,包括药物治疗。基于生物大分子结构及小分子结构的药物设计是生物信息学中的极为重要的研究领域。为了抑制某些酶或蛋白质的活性,在已知其蛋白质3级结构的基础上,可以利用分子对齐算法,在计算机上设计抑制剂分子,作为候选药物。这一领域目的是发现新的基因药物,有着巨大的经济效益。
生物图像分析
生物图像处理技术又称生物成像技术,是利用成像原理和自动模式识别的方法,以电子计算机为工具,把不能被肉眼观察到的以及不易被计算机读入的、反映对像所特有的数据和结构等,转换成便于使用的直观图像,包括对图像的加工处理和对图像的分析。生物图像处理技术是60年代发展起来的新技术,最早可追溯到摄影术和,19世纪后期X射线诊断仪又将成像技术推进一大步。近20年除不断发展外,在成像技术方面有超声成像、正电子成像和成像等,分别通过各种光学机械扫描、电子扫描和电荷耦合器件扫描获取图像。生物图像处理技术的发展与医学诊断的需求密切相关。
其他
基因表达谱分析,代谢网络分析,基因芯片设计和蛋白质组学数据分析等。由生物信息学衍生的学科包括结构基因组学,功能基因组学,比较基因组学,蛋白质学,药物基因组学,中药基因组学,肿瘤基因组学,分子流行病学和环境基因组学,成为系统生物学的重要研究方法。