基因

Article

January 25, 2022

在生物学中,基因是遗传的基本单位。每个基因都由编码特定功能产物(即蛋白质或 RNA 分子)的特定有序核酸序列(DNA 和 RNA)组成。人们相信人类的 46 条染色体上有大约 100,000 个基因,但目前的基因组研究已经确定了 20,000 到 25,000 个基因。在基因表达过程中,DNA 首先被复制到 RNA 中。 RNA 可以直接发挥功能,也可以作为蛋白质发挥功能的中间模板。基因向生物体后代的传递是表型性状遗传的基础。这些基因形成不同的 DNA 序列,称为基因型,与环境和发育因素一起,确定表型是什么。大多数生物性状受多基因(许多不同基因)以及基因-环境相互作用的影响。一些遗传特征是立即可见的,例如眼睛颜色或肢体数量,而另一些则不是,例如血型、对特定疾病的易感性或构成生命的数千种基本生化过程。基因是染色体的一个片段,它对应于一个独特的代码、产生某种蛋白质或控制特征的信息,例如眼睛的颜色。基因可以在其序列中获得突变,从而在群体中产生不同的变异,称为等位基因。这些等位基因编码的蛋白质版本略有不同,“基因”一词是由丹麦植物学家和遗传学家威廉·路德维格·约翰森 (Wilhem Ludvig Johannsen) 于 1909 年引入的,此后提出了许多基因定义。目前,基因被认为是导致产生多肽链的 DNA 片段,包括位于编码区之前和之后的区域,以及散布在各个编码区(外显子)中的非翻译序列(内含子) , 已翻译。随着新现象的发现,基因概念不断得到完善。例如,一个基因的调控区可以很好地从其编码区中去除,编码区可以分为几个外显子。一些病毒将它们的基因组存储在 RNA 而不是 DNA 中,一些基因产物是功能性非编码 RNA。因此,基因的广泛而现代的工作定义是遗传基因组序列的任何离散位点,它通过表达为功能产物或通过调节基因表达来影响生物体的特征。

故事

离散继承单元的发现

Gregor Mendel (1822-1884) 首次提出离散遗传单位的存在。1857 年至 1864 年,在奥地利帝国布尔诺(今捷克共和国),他研究了 8,000 种常见食用豌豆植物的遗传模式,追踪了不同的特征从父母到孩子。他在数学上将其描述为 2n 个组合,其中 n 是原始豌豆中不同特征的数量。虽然他没有使用基因这个术语,但他用产生可观察物理特征的离散遗传单位来解释他的结果。这种描述预示着威廉·约翰森对基因型(生物体的遗传物质)和表型(该生物体的可观察特征)之间的区别。孟德尔也是第一个证明独立隔离的人,显性和隐性性状的区别,杂合子和纯合子的区别,不连续遗传现象。在孟德尔的工作之前,遗传的主要理论是联合遗传理论,这表明每个亲本都为受精过程贡献了液体,而亲本的特征混合在一起以产生后代。查尔斯·达尔文从希腊泛(“所有,所有”)和创世(“出生”)/基因(“起源”)发展了一种他称之为泛发生的遗传理论。达尔文使用术语 gemula 来描述在繁殖过程中会混合的假设粒子。孟德尔的作品在 1866 年首次出版后就没有引起人们的注意,但在 19 世纪后期被雨果·德·弗里斯、卡尔·科伦斯和埃里希·冯·切尔马克重新发现,谁(据称)会在他们自己的研究中得出类似的结论。十六年后的 1905 年,Wilhelm Johannsen 引入了“基因”一词,William Bateson 引入了“遗传学”一词,而 Eduard Strasburger 和其他人仍然使用“pangene”一词来表示遗传的基本物理和功能单位。基因通过控制酶合成起作用的第一个实验证据是在 1930 年代中期。研究人员 George Beadle (1903-1989)、Edward Lawrie Tatum (1909-1975) 表明眼睛变色果蝇突变体是由于昆虫的无法在视觉色素合成的代谢途径中进行特定的化学反应。但意识到这种生物体太复杂而无法检验他们的假设,比德尔和塔图姆决定在他们的实验中使用一种更简单的生物体:粉红面包霉菌,粗糙脉孢菌。

DNA发现

在整个 20 世纪,对基因和遗传的理解一直在进步。脱氧核糖核酸 (DNA) 在 1940 年代至 1950 年代的实验中被证明是遗传信息的分子存储库。DNA 的结构由 Rosalind Franklin 和 Maurice Wilkins 使用 X 射线晶体学研究,这导致了 James D. Watson 和 Francis克里克发表了双链 DNA 分子的模型,其配对的核苷酸碱基表明遗传复制机制的一个令人信服的假设。Benzer 在噬菌体 T4 (1955-1959) 的 rII 区域使用缺陷突变体进行的实验表明,单个基因具有简单的线性结构,很可能相当于 DNA 的线性部分。总的来说,这项研究确立了生物学分子的中心原则,其中指出蛋白质是从 RNA 翻译而来,而 RNA 又是从 DNA 转录而来的。此后,这一教条已被证明有例外,例如逆转录病毒中的逆转录。在 DNA 水平上对遗传学的现代研究被称为分子遗传学。 1972 年,Walter Fiers 和他的团队率先确定了一个基因的序列:噬菌体 MS 外壳蛋白的分析 1977 年 Frederick Sanger 随后开发的链终止 DNA 测序提高了测序效率,使其成为常规实验室工具。在人类基因组计划的早期阶段使用了 Sanger 方法的自动化版本。

现代合成及其继承者

20 世纪初发展起来的将孟德尔遗传学与达尔文进化论相结合的理论被称为现代进化综合,这是朱利安赫胥黎引入的一个术语。进化生物学家后来修改了这个概念,就像乔治·C·威廉姆斯 (George C. Williams) 的以基因为中心的进化观一样。他提出了基因作为自然选择单位的进化概念,其定义为:“以可观的频率分离和重组的基因”。在这种观点下,分子基因以自身为单位进行转录,进化基因以单位为单位进行遗传。理查德·道金斯(Richard Dawkins)推广了强调基因在进化中的中心地位的相关想法。有证据表明,基因可能在个人口味中发挥重要作用,例如食物、性取向,甚至政治观点。

基础分子

脱氧核糖核酸

在大多数生物体中,遗传信息存储在 DNA(脱氧核糖核酸)中。一个DNA分子由两条长多肽链组成,由四种核苷酸亚基组成。每个核苷酸由连接到含氮碱基的糖磷酸分子组成。碱基有四种类型(腺嘌呤、鸟嘌呤、胞嘧啶和胸腺嘧啶)。DNA链彼此反平行,由核苷酸碱基部分之间的氢键连接,形成DNA的双螺旋,核苷酸通过糖共价连接和磷酸盐,形成糖 - 磷酸盐 - 糖 - 磷酸盐的交替骨架。碱基配对的特异性发生是因为腺嘌呤和胸腺嘧啶排列形成两个氢键,而胞嘧啶和鸟嘌呤形成三个氢键。因此,双螺旋中的两条链必须是互补的。由于脱氧核糖(戊糖)的方向,DNA 链具有方向性。 DNA 聚合物的一端含有羟基(3' 端),另一端含有磷酸基团(5' 端)。双螺旋的两条链以相反(反平行)的方向运行。核酸合成,包括复制和转录,发生在 5'→3' 方向,因为新的核苷酸是通过脱水反应添加的,脱水反应使用 3' 羟基作为亲核试剂。 DNA 分子的每条链都包含与另一条链的核苷酸序列完全互补的核苷酸序列。DNA 编码基因的表达始于将基因转录为 RNA,RNA 是第二种核酸,与 DNA 非常相似,但其单体包含核糖而不是脱氧核糖。 RNA 还包含碱基尿嘧啶代替胸腺嘧啶。 RNA 分子不如 DNA 稳定,通常是单链的。蛋白质编码基因由一系列称为密码子的三核苷酸序列组成,它们在遗传“语言”中充当“词”。遗传密码指定蛋白质翻译过程中密码子和氨基酸之间的对应关系。所有已知生物的遗传密码几乎相同。但其单体含有核糖而不是脱氧核糖。 RNA 还包含碱基尿嘧啶代替胸腺嘧啶。 RNA 分子不如 DNA 稳定,通常是单链的。蛋白质编码基因由一系列称为密码子的三核苷酸序列组成,它们在遗传“语言”中充当“词”。遗传密码指定蛋白质翻译过程中密码子和氨基酸之间的对应关系。所有已知生物的遗传密码几乎相同。但其单体含有核糖而不是脱氧核糖。 RNA 还包含碱基尿嘧啶代替胸腺嘧啶。 RNA 分子不如 DNA 稳定,通常是单链的。蛋白质编码基因由一系列称为密码子的三核苷酸序列组成,它们在遗传“语言”中充当“词”。遗传密码指定蛋白质翻译过程中密码子和氨基酸之间的对应关系。所有已知生物的遗传密码几乎相同。蛋白质编码基因由一系列称为密码子的三核苷酸序列组成,它们在遗传“语言”中充当“词”。遗传密码指定蛋白质翻译过程中密码子和氨基酸之间的对应关系。所有已知生物的遗传密码几乎相同。蛋白质编码基因由一系列称为密码子的三核苷酸序列组成,它们在遗传“语言”中充当“词”。遗传密码指定蛋白质翻译过程中密码子和氨基酸之间的对应关系。所有已知生物的遗传密码几乎相同。

染色体

生物体或细胞中的基因组被称为基因组,可以存储在一个或多个染色体上。每条染色体由单个长 DNA 分子组成,其中编码了数千个基因。特定基因所在的染色体区域称为基因座。每个基因座包含一个基因的等位基因;然而,一个群体的成员在该基因座上可能有不同的等位基因,每个基因序列的基因序列略有不同。大多数真核基因存储在一大组线性染色体上,这些染色体与称为组蛋白的蛋白质复合物包装在细胞核内,形成一个称为核小体的单元。压缩和浓缩的 DNA 称为染色质。 DNA储存在组蛋白中的方式以及组蛋白本身的化学修饰,调节 DNA 的特定区域是否可用于基因表达。除了基因之外,真核染色体还包含一些序列,这些序列可确保 DNA 被复制而不会降解最终区域,并在细胞分裂过程中将其分类为子细胞:复制起点、端粒和着丝粒。复制起点是 DNA 复制开始以制作染色体的两个副本的序列区域。端粒是一长段重复序列,覆盖线性染色体的末端,可防止 DNA 复制过程中编码区和调节区的降解。每次基因组复制时端粒的长度都会减少,并且与衰老过程有关。在细胞分裂过程中,需要着丝粒来连接纺锤体纤维以将姐妹染色单体分离成子细胞。原核生物(细菌和古细菌)通常将它们的基因组存储在单个大圆形染色体上。同样,一些真核细胞器,如线粒体和染色体,含有剩余的带有少量基因的环状染色体。原核生物有时会用称为质粒的额外 DNA 小环来补充它们的染色体,这些小环通常只编码少数基因并且可以在个体之间转移。例如,抗生素抗性基因通常编码在细菌质粒上,并且可以通过水平基因转移在单个细胞之间传递,甚至可以在不同物种的细胞之间传递。虽然原核生物染色体的基因相对密集,但真核生物染色体通常包含不起明显作用的 DNA 区域。简单的单细胞真核生物具有相对少量的此类 DNA,而复杂的多细胞生物(包括人类)的基因组包含绝对大部分的未确定功能的 DNA(大约 98.5% 的人类基因组不编码蛋白质,而 11 % 的大肠杆菌基因组)。这种 DNA 被称为“垃圾 DNA”,然而,最近的分析表明,虽然编码蛋白质的 DNA 仅占人类基因组的 2%,但大约 80%基因组的碱基可以表达,因此术语“垃圾 DNA”可能用词不当。真核生物的那些通常包含没有明显功能的 DNA 区域。简单的单细胞真核生物具有相对少量的此类 DNA,而复杂的多细胞生物(包括人类)的基因组包含绝对大部分的未确定功能的 DNA(大约 98.5% 的人类基因组不编码蛋白质,而 11 % 的大肠杆菌基因组)。这种 DNA 被称为“垃圾 DNA”,然而,最近的分析表明,虽然编码蛋白质的 DNA 仅占人类基因组的 2%,但大约 80%基因组的碱基可以表达,因此术语“垃圾 DNA”可能用词不当。真核生物的那些通常包含没有明显功能的 DNA 区域。简单的单细胞真核生物具有相对少量的此类 DNA,而复杂的多细胞生物(包括人类)的基因组包含绝对大部分的未确定功能的 DNA(大约 98.5% 的人类基因组不编码蛋白质,而 11 % 的大肠杆菌基因组。这种 DNA 被称为“垃圾 DNA”,然而,最近的分析表明,尽管编码蛋白质的 DNA 仅占人类基因组的 2%,但大约 80%基因组的碱基可以表达,因此术语“垃圾 DNA”可能用词不当。简单的单细胞真核生物具有相对少量的此类 DNA,而复杂的多细胞生物(包括人类)的基因组包含绝对大部分的未确定功能的 DNA(大约 98.5% 的人类基因组不编码蛋白质,而 11 % 的大肠杆菌基因组。这种 DNA 被称为“垃圾 DNA”,然而,最近的分析表明,尽管编码蛋白质的 DNA 仅占人类基因组的 2%,但大约 80%基因组的碱基可以表达,因此术语“垃圾 DNA”可能用词不当。简单的单细胞真核生物具有相对少量的此类 DNA,而复杂的多细胞生物(包括人类)的基因组包含绝对大部分的未确定功能的 DNA(大约 98.5% 的人类基因组不编码蛋白质,而 11 % 的大肠杆菌基因组。这种 DNA 被称为“垃圾 DNA”,然而,最近的分析表明,尽管编码蛋白质的 DNA 仅占人类基因组的 2%,但大约 80%基因组的碱基可以表达,因此术语“垃圾 DNA”可能用词不当。人类基因组的 5% 不编码蛋白质,而大肠杆菌的基因组为 11%。人类基因组的 2%,大约可以表达 80% 的基因组碱基,因此术语“垃圾” DNA”可能用词不当。人类基因组的 5% 不编码蛋白质,而大肠杆菌的基因组为 11%。人类基因组的 2%,大约可以表达 80% 的基因组碱基,因此术语“垃圾” DNA”可能用词不当。

结构与功能

结构

一个细胞通常只表达其基因的一小部分,而多细胞生物中的不同细胞类型是因为表达了不同的基因组。基因的结构由许多元件组成,其中编码序列通常只是其中的一小部分。这些包括未转录的 DNA 区域以及 RNA 的非翻译区域。每个基因都包含一组特定的表达所需的调控序列。首先,基因需要一个启动子序列,它是 DNA 的核苷酸序列,转录因子在其中结合并帮助 RNA 聚合酶与该区域结合以启动转录。识别通常以共有序列的形式出现,如 TATA 框。一个基因可以有多个启动子,导致信使 RNA 在 5' 末端延伸的程度不同。高度转录的基因具有“强”启动子序列,与转录因子形成强关联,从而启动高转录率。其他基因具有“弱”启动子,它们与转录因子形成弱关联并不太频繁地启动转录。真核启动子区域比原核启动子复杂得多且难以识别。与转录因子形成弱关联并且不那么频繁地启动转录。真核启动子区域比原核启动子复杂得多且难以识别。与转录因子形成弱关联并且不那么频繁地启动转录。真核启动子区域比原核启动子复杂得多且难以识别。

功能定义

准确定义 DNA 序列的哪一部分包含基因是困难的。基因的调控区,如增强子,不一定需要靠近线性分子的编码序列,因为插入的 DNA 可以形成环,使基因及其调控区接近。同样,基因的内含子可能比其外显子大得多。调控区甚至可以位于完全不同的染色体上,并以反式运行,使一条染色体上的调控区与另一条染色体上的靶基因接触。分子遗传学的早期工作提出了基因产生蛋白质的概念。这个概念(最初称为单基因酶假说)源自 George Beadle 和 Edward Tatum 于 1941 年发表的一篇有影响力的论文,关于真菌粗糙脉孢菌突变体的实验。自从发现可以通过可变剪接和编码序列编码多个蛋白质的基因以来,基因和蛋白质的概念得到了改进包括这些不同现象的复杂性,其中基因被定义为基因组序列的联合,这些序列编码一组连贯的潜在重叠功能产物。该定义按功能产物(蛋白质或 RNA)而不是其特定的 DNA 位点对基因进行分类,将调控元件归类为与基因相关的区域。

基因表达

在所有生物体中,读取基因 DNA 中编码的信息并产生其指定的蛋白质需要两个步骤。首先,基因的 DNA 被转录成信使 RNA (mRNA)。其次,这种mRNA被翻译成蛋白质。RNA编码基因还没有经过第一步,但它们还没有被翻译成蛋白质。产生具有生物学功能的RNA或蛋白质分子的过程称为基因表达,产生的分子称为基因产物。

遗传密码

基因 DNA 的核苷酸序列通过遗传密码指定蛋白质的氨基酸序列。一组三个核苷酸,称为密码子,每个对应一个特定的氨基酸。 1961年利用噬菌体T4的rIIB基因移码突变证明了每个氨基酸的DNA编码三个连续碱基的原理。此外,一个“起始密码子”和三个“终止密码子”表示蛋白质的开始和结束编码区。有 64 个可能的密码子(三个位置中的每个位置有四个可能的核苷酸,因此有 43 个可能的密码子)和只有 20 个标准氨基酸;因此,密码是多余的,多个密码子可以指定相同的氨基酸。密码子和氨基酸之间的对应关系在所有已知的生物体中几乎是普遍的。

转录

转录产生一种称为信使 RNA 的单链 RNA 分子,其核苷酸序列与从中转录的 DNA 互补。 mRNA 充当 DNA 基因与其最终蛋白质产物之间的中介。该基因的 DNA 用作模板以生成互补的 mRNA。 mRNA 对应于密码原链基因的 DNA 序列,因为它是作为模板链的互补物合成的。转录由一种叫做 RNA 聚合酶的酶完成,它从 3' 到 5' 方向读取模板链并从 5' 到 3' 合成 RNA。为了启动转录,聚合酶首先识别并结合基因的启动子区域。因此,基因调控的主要机制之一是启动子区域的阻断或隔离,要么通过物理阻断聚合酶的阻遏分子强结合,要么组织 DNA,使启动子区域无法进入。在原核生物中,转录发生在细胞质中。对于很长的转录本,翻译可以从 RNA 的 5' 端开始,而 3' 端仍在转录。在真核生物中,转录发生在储存细胞 DNA 的细胞核中。由聚合酶产生的 RNA 分子被称为初级转录物,在被输出到细胞质进行翻译之前会经历转录后修饰。进行的修改之一是内含子的剪接,内含子是转录区域中不编码蛋白质的序列。不同的剪接机制可以导致相同基因的成熟转录物具有不同的序列,因此编码不同的蛋白质。这是真核细胞中的主要调节形式,也发生在一些原核生物中。

翻译

翻译是将成熟的信使 RNA 分子用作模板以合成新蛋白质的过程。翻译由核糖体、大 RNA 复合物和负责进行化学反应的蛋白质执行,通过形成肽键将新氨基酸添加到不断增长的多肽链中。通过与称为转运蛋白 RNA (tRNA) 的特殊 RNA 分子的相互作用,以称为密码子的单位一次读取三个核苷酸的遗传密码。每个 tRNA 都有三个错配碱基,称为反密码子,与它在 mRNA 中读取的密码子互补。 tRNA 还与互补密码子指定的氨基酸共价连接。当 tRNA 与 mRNA 链上的互补密码子结合时,核糖体将其氨基酸电荷连接到新的多肽链上,该链是从氨基端到 C 端合成的。在合成期间和之后,大多数新蛋白质必须折叠成其活跃的三维结构,然后才能发挥其细胞功能。

规定

基因受到调控,因此它们仅在需要产品时表达,因为表达使用的资源有限。细胞根据其外部环境(例如,可用营养物质、温度和其他压力来源)、其整个环境(例如,细胞分裂周期、代谢、感染状态)及其特定作用来调节其基因表达。基因表达可以在任何步骤进行调节:从转录起始到 RNA 加工,再到翻译后蛋白质修饰。大肠杆菌中乳糖代谢基因的调节(operon lac)是 1961 年首次描述的此类机制。

RNA基因

典型的蛋白质编码基因首先被复制到 RNA 中,作为制造最终蛋白质产品的中介。在其他情况下,RNA 分子是实际的功能产物,如在核糖体 RNA 和转移 RNA 合成中。一些被称为核酶的 RNA 能够表现出酶促功能,而 microRNA 则具有调节作用。转录这些 RNA 的 DNA 序列被称为非编码 RNA 基因。一些病毒以 RNA 的形式存储它们的整个基因组,并且不含 DNA。通过使用 RNA 来储存基因,它们的细胞宿主可以在它们被感染后立即合成它们的蛋白质,而无需延迟等待转录。另一方面,RNA逆转录病毒如HIV,在合成蛋白质之前,它们需要将基因组从 RNA 逆转录为 DNA。在植物中也观察到了 RNA 介导的表观遗传,但在动物中却很少见。

细菌基因与真核基因的差异

真核生物的中断基因

在细菌中,多肽的氨基酸序列与随后转录成 RNA 的 DNA 片段的碱基序列完全匹配。在真核生物中,情况有所不同。大多数多肽链与编码它们的 DNA 的碱基序列并不完全共线。其原因是真核基因中蛋白质合成的指令经常被不编码氨基酸的分子片段所打断。一个类比可以帮助理解这些中断基因和非中断基因的概念。想象一本书的文本,其中包含给定的信息并且可以不间断地阅读;我们可以将其与细菌指令进行比较,其中 DNA 碱基序列与蛋白质的氨基酸序列完全匹配。现在想象一下,如果我们在文本中的某些地方引入无意义的单词、句子或段落会发生什么;原始信息仍然存在,但被无意义的位打断,为了理解信息,必须删除这些位。这第二种情况类似于真核基因,在真核基因中,遗传指令被没有任何多肽合成信息的核苷酸序列中断。其中遗传指令被核苷酸序列打断,没有合成多肽的任何信息。其中遗传指令被核苷酸序列打断,没有合成多肽的任何信息。

内含子和外显子

在真核生物的过渡单元中,有将被翻译成氨基酸序列的片段和不会被翻译的散布的片段。 1978年,美国遗传学家沃尔特吉尔伯特提出了术语“外显子”(外显子,表达区域,它们被翻译成氨基酸序列的区域)和“内含子”(内含子,来自基因内区域,基因内区域,指代未翻译的区域)外显子之间的区域)。通过基因定义内含子和外显子以定义哪些片段将在 RNA 链中转录的过程是令人钦佩的复杂性。自 1980 年代以来,人们就知道一些基因能够选择不同的外显子片段,从而产生不同的蛋白质。最近的研究表明,这种类型的发生绝不是一个例外,而是基因功能的规则,达到了给定编码区域的 5.7 种可能的转录变异的估计平均数量。给定的基因能够为不同类型的细胞产生不同的转录本。甚至在不同基因甚至不同染色体的外显子之间获得的转录本也被认为是可能的。这些观察结果引发了关于基因定义和基因组组织和遗传遗传的新范式的新考虑。给定的基因能够为不同类型的细胞产生不同的转录本。甚至在不同基因甚至不同染色体的外显子之间获得的转录本也被认为是可能的。这些观察结果引发了关于基因定义和基因组组织和遗传遗传的新范式的新考虑。给定的基因能够为不同类型的细胞产生不同的转录本。甚至在不同基因甚至不同染色体的外显子之间获得的转录本也被认为是可能的。这些观察结果引发了关于基因定义和基因组组织和遗传遗传的新范式的新考虑。

参考书目

生物学; 何塞·马里亚诺·阿马比斯、吉尔伯托·罗德里格斯·马托;现代的; 2004 人类分子遗传学:遗传疾病的机制 Jack J. Pasternak。SP,Manole 2002 可在 Google 图书上找到

参考

也可以看看

遗传学 基因组 染色体突变 不完全显性 先天性疾病 遗传流行病学