微信扫一扫
下载说明书
长非编码RNA(lnc RNA)的基因占据了复杂生物基因组的一大部分。术语“lncRNAs”包括RNA聚合酶I (Pol I)、Pol II和Pol III转录的RNA,和来自内含子加工产生的RNA。lncRNA的各种功能及其许多亚型和与其他基因的交错关系使得lnc RNA的分类和注释很困难。大多数lncRNAs比蛋白质编码序列进化得更快,具有细胞类型特异性,并调节细胞分化和发育以及其他生理过程的许多方面。许多lncRNA与染色质修饰复合物相关,由增强子转录,核浓缩物和结构域的成核相分离,表明在发育过程中ln crna表达和基因表达的空间控制之间有密切联系。lncRNAs在细胞质内外也有重要作用,包括翻译、代谢和信号传导的调节。lncRNAs通常具有模块化结构,并富含重复序列,越来越多的研究表明这些重复序列与其功能相关。在这份共识声明中,我们阐述了lncRNAs的定义和命名,以及它们的保守性、表达、表型可见性、结构和功能。我们还讨论了研究挑战,并提供建议,以促进对lncRNAs在发育、细胞生物学和疾病中的作用的理解。
对长非编码RNA(lnc RNA)的研究,从一开始就受到不确定性和争议的困扰。lncRNAs有一个不幸的区别,就是以它们不是什么而不是它们是什么来命名。这种松散的描述源于这样一种信念,即RNA的主要作用是作为基因和蛋白质之间的中间体,其他“管家”非编码RNA,如核糖体RNA(rRNAs)、转移RNA(tRNAs)、小核仁RNA(snor nas)、剪接体RNA和其他小核RNA(SNR nas)辅助这一功能。
RNA作为调节分子的广泛认可发生在21世纪第一个十年的最初几年,意外发现了大量的小干扰RNA(siRNAs)、微小RNA(miRNAs)和小PIWI相互作用RNA(PIR nas ),它们通过Argonaute家族蛋白在转录、转录后和翻译水平上调节真核生物中的基因表达1,尽管在文献中有其他小调节RNA的例子,特别是在细菌2中。一些长的调节RNA,特别是粟酒裂殖酵母中的meiRNA,果蝇中X1 (roX1)和roX2上的RNA,以及哺乳动物中的H19和X-失活特异性转录物(XIST),在过去的几年中也有报道,但被认为比一般现象的早期例子更奇怪。此外,小的调节RNAs并没有扰乱大多数基因编码蛋白质的概念框架,而是很好地适应了这个框架。然而,后来发现,虽然一些mirna是由前mRNAs8的内含子产生的,但mirna和snoRNAs的非编码初级转录物也可能具有功能,并且rRNAs、tRNAs和snoRNAs被加工产生小的调节RNA,包括mirna,在某些情况下有助于跨代表观遗传。
21世纪第一个十年的早中期,一个更大的惊喜和对遗传信息的主导理解的挑战出现了,当时旨在更好地定义蛋白质组的全球转录组分析显示,动物和植物的大部分基因组被动态转录为更长的RNA,这些RNA很少或没有蛋白质编码潜力。令人惊讶的是,相关的发现表明,在发育和认知复杂性差异很大的动物中,蛋白质编码基因的数量和很大程度上是相似的——线虫线虫(包含约1,000个体细胞)和人类(约30 × 1012个体细胞)都有约20,000个蛋白质编码基因——这被称为“g值悖论”21。相比之下,非编码DNA的范围,以及非编码RNA的转录,随着发育复杂性的增加而增加。
可以理解的是,分子生物学界通常的最初反应是怀疑这些不寻常的RNA是转录噪音,因为它们通常具有低水平的序列保守性、低水平的表达和在遗传筛选中的低可见性。然而,从那时起,报道lnc RNA的动态表达和生物学功能的出版物数量激增,这得益于广泛的技术发展,使得它们的鉴定和表征成为可能,尽管只有少数lnc RNA具有可靠的注释,并且极少数具有机理信息。认识到植物和动物的基因组表达大量的lncRNAs需要一个框架来对它们进行分类和理解它们的功能,更深刻的是,需要重新评估复杂生物发展所需的信息的数量和类型。
lncRNAs的定义和命名
lncRNAs被任意定义为超过200个核苷酸(200 nt)的非编码转录物,这是生物化学和生物物理RNA纯化方案中的一个方便的大小截止点,其耗尽了大多数基础RNA,如5S rRNAs、trna、snRNAs和snoRNAs,以及miRNAs、siRNAs和piRNAs。这个定义也排除了其他一些众所周知的短RNAs,如灵长类动物特异性snaRs(~ 80–120 nt),它们与核因子90相关(参考文献。24);y RNA(~ 100n t),作为核糖核蛋白(RNP)复合物的支架25;穹窿RNA(88-140核苷酸),参与将细胞外刺激转化为细胞内信号26;以及通过转录后加工产生的启动子相关的RNA和非常规小RNA 。其他非编码RNA位于200-nt边界附近,如7SK(脊椎动物中约330 nt),它控制转录平衡和终止,包括at增强子30,31和7SL(约300 nt),它是将蛋白质靶向细胞膜的信号识别颗粒的组成部分32,也是广泛分布的灵长类动物Alu (~280 nt)和啮齿类动物B1 (~135 nt)小散在核元件的进化祖先。考虑到大小的灰色地带,我们支持将非编码RNA分为三类的建议36: (1)小RNA(小于50nt);(2) RNA聚合酶III (Pol III)转录物(例如tRNAs、5S rRNA、7SK、7SL和Alu、vault和Y RNAs37),植物中的Pol V转录物和小Pol II转录物,例如(大多数)snRNAs和内含子衍生的snor as(~ 50–500 nt);和(3)lnc RNA(大于500 nt),其主要由Pol II产生。
许多lncRNAs被剪接和多聚腺苷酸化,这导致它们被描述为“mRNA样”。然而,其他lncRNAs不是聚腺苷酸化或7-甲基鸟苷封闭的,由Pol I (5.8S,28S和18S rRNAs)或Pol III启动子表达,或由前体加工,包括来自内含子和重复元件,导致更不可知的描述符“未知功能的转录物”。关于蛋白质编码基因,lncRNAs可以是“基因间的”、反义的或内含子的。它们也来源于“假基因”,通常出现在后生动物基因组中44,在小鼠基因组中鉴定了10,000多个假基因45,在人类基因组中鉴定了近15,000个假基因46,其中一些已被证明是有功能的。lncRNAs还包括通过编码和非编码转录物的反向剪接产生的环状RNA,也具有已证实的功能48,以及衍生自通常作为mrna 3’非翻译区的序列的反式调节RNA。
HUGO基因命名委员会、GENCODE协会和其他机构对lncRNAs的命名和分类进行了许多尝试,主要基于它们相对于蛋白质编码基因的基因组位置和方向。与邻近基因的连接是有用的,因为它提供了背景,有时还提供了lncRNA功能的线索,例如在调节这些基因的表达方面,增强子经常是这种情况(见下文),尽管增强子的活性不应被认为是针对最近的基因。
已经记录了超过100,000个人类lncRNAs,73,其中许多是灵长类动物谱系特有的74。由于对不同发育阶段的不同细胞的分析有限,这是一个非常不完整的列表(见下文)。现在有几十万个编目的lncRNAs和几十个数据库(和数据库的数据库),其中包含的精选信息。在过去的十年中,大约有50,000篇文章以“长非编码RNA”为关键词,超过2,000篇文章报道了经过验证的lncRNA功能81,尽管大多数还没有任何详细的后续研究。
从这里开始,我们集中于来源于Pol II初级转录单位的lncRNAs(并在上下文中使用该术语),与由Pol I或Pol III启动子表达的、由内含子加工的(应该注意,其构成哺乳动物和其他生物体中非编码RNA的主要部分或通过反向剪接形成的其他非编码RNA相反,尽管许多相同的考虑也适用。
IncRNA的保守性
大多数lncRNAs在物种间不如编码蛋白质组的mRNA序列保守。最初,大多数哺乳动物基因组(包括大多数lncRNA基因座)被认为是中性进化,使用人类和小鼠基因组之间常见“古老重复”(来自转座子)的差异率作为衡量标准,假设这些序列是无功能的,代表祖先中的原始分布85。然而,越来越多的证据表明,转座因子被广泛地作为基因表达和结构的功能元件,在蛋白质编码基因和lnc RNA 86,87,88,89中形成启动子、调节网络、外显子和剪接点,因此不能用作中性进化的指标。
已知调控序列,包括启动子和lncRNAs,由于比蛋白质编码序列更宽松的结构-功能限制,以及由于适应性辐射期间的正向选择,进化迅速。许多lncRNAs是细胞谱系特异性的。事实上,考虑到它们与发育增强子的联系(见下文),lncRNAs的互补序列和序列的变异可能是物种多样性的一个主要因素。
表达lncRNAs的基因座表现出蛋白质编码基因的许多特征,包括启动子、多外显子、选择性剪接、特征性染色质标记、形态发生素和常规转录因子的调节、癌症和其他疾病中的表达改变,以及与mRNAs99相似的半衰期范围。
lncRNAs的启动子表现出与蛋白质编码基因相当的保守水平。lncRNAs还具有保守的外显子结构、剪接点和序列片段,尽管序列进化很快,它们仍保留了直向同源功能。事实上,低序列保守性可能会产生误导。
端粒维持(一种重要的细胞功能)所需的lncRNA端粒酶RNA模板成分(TERC)在大小和序列上差异很大,但从酵母到哺乳动物都具有保守的结构拓扑,尽管有一些变化,以及保守的催化核心。果蝇的x染色体剂量补偿。需要通过lncRNAs roX1和roX2与特定伴侣蛋白雄性致死蛋白2 (MSL2)的固有无序区(IDR)相互作用的相分离形成核结构域。将MSL2的哺乳动物直系同源物的IDR替换为D. melanogaster蛋白的IDR,roX2的表达足以在哺乳动物细胞中形成异位X染色体剂量补偿,表明roX-ms L2 IDR相互作用是X染色体区室化的主要决定因素,并且这种相互作用在漫长的进化过程中得以保留109。XIST对胎盘哺乳动物中X染色体剂量补偿的调节也涉及类似的过程,它具有多种功能,包括排斥常色因子、构建新的异色因子和重组染色体结构。
表达
虽然也有例外(如转移相关肺腺癌转录本1(malat 1;也称为NEAT2),它是脊椎动物细胞中最丰富的Pol II转录物之一,以及核副斑点装配转录物1(neat 1);参见下文),lncRNAs通常表现出比mRNA更有限的表达模式,并且通常具有高度的细胞特异性,这与细胞状态和发育轨迹的定义中的作用一致。它们也有特定的亚细胞位置,通常是细胞核,尽管大部分是细胞质。尽管有时声称人体中有数百种细胞类型,但宽泛的分类掩盖了每个细胞在个体发育中占据精确位置的事实,这一点可通过HOX基因在身体不同区域表面相似的皮肤细胞中的差异表达以及lncRNAs在大脑不同区域和不同发育阶段的表达来说明。lnc RNA还在哺乳动物干细胞、肌肉细胞、乳腺细胞、免疫细胞和神经细胞等的分化过程中动态表达,在发育过程中从广泛表达和保守的lnc RNA向数量不断增加的谱系特异性和器官特异性lnc RNA转变。lncRNA表达也可能受到环境因素的强烈影响,这一特征在植物中尤为突出,包括动物的一系列应激反应和癌症的耐药性。
lnc RNA在不同发育阶段的不同细胞中的限制性表达和它们通常较低的拷贝数(由于它们的调节性质)解释了它们在大量组织RNA测序数据集中的稀疏表示,而许多lnc RNA在特定细胞中相对容易检测。lncRNA的欠采样现在正通过靶向捕获、高级成像、空间转录组学和某些情况下的单细胞测序得到纠正,这清楚地表明,尽管GENCODE已经鉴定了约20,000个人类lnc RNA基因座,FANTOM consortium已经鉴定了约30,000个人类lnc RNA基因座,但很可能至少还有一个数量级以上。
由于转录起始和终止位点、表达水平和剪接的高度复杂性和多样性,转录组的全面表征极具挑战性。最近的一项研究表明,lncRNA的低表达对其功能作用至关重要,因为它确保了对其调节靶的特异性,这表明低丰度水平可能是ln crna工作方式的一个基本特征。为了全面分类lncRNAs,并正确记录其外显子-内含子组织和剪接变异体,需要对处于分化和发育所有阶段、经历不同神经、免疫和其他生理过程以及处于各种疾病状态的细胞进行深度测序。这是一项艰巨的任务,但我们建议未来的基因表达谱应该包括完整的转录本分析,不仅包括mRNAs,还包括小RNA和lncRNAs,它们是注释基因的基因间、反义和内含子,以及它们的化学计量。
表型可见性
像miRNAs一样,大多数lncRNAs没有在基因筛选中被识别出来。这有两个原因。首先,历史上大多数基因筛查都集中在蛋白质编码突变上,这通常会产生容易追踪的严重后果;相比之下,调控突变往往有微妙的后果,影响数量性状。第二,很难在非编码序列中出现的许多变异中识别出原因突变。事实上,大多数影响人类数量性状和复杂疾病的变异发生在非编码区,这些区域充满了表达lncRNAs的基因,这些基因在与相关性状相关的细胞类型中被转录。
也有例外的lncRNAs已被遗传鉴定,特别是涉及雄性果蝇X染色体激活的roX1和roX2 RNAs,小鼠中哺乳动物亲本印记的H19、Airn和Kcnq1ot1 RNAs和其它如小鼠中的Tug1,MAENLI和HELLP(以‘溶血、肝酶水平升高和血小板计数低’命名);也称为HELLPAR),其与障碍或发育过程相关。在拟南芥中,发现对开花时间适应重要的非编码内含子单核苷酸多态性改变了lncRNA COOLAIR的剪接。
许多lncRNA与癌症的原因和发展有关,通过改变lncRNA的表达和/或突变(包括易位断点)作为癌基因或肿瘤抑制因子。其他lncRNAs涉及人类遗传疾病,包括迪乔治综合征和其他神经发育和颅面缺陷。苯丙酮尿症是最早记录的人类遗传疾病之一,主要由苯丙氨酸羟化酶突变引起,也由lncRNA突变引起,可以通过修饰的RNA模拟物治疗。
分析lncRNA生物学功能的一个途径是沉默或删除,或(不太常见的)异位表达,在RNA测序数据集中已经鉴定的lnc RNA,通常是差异表达的。然而,这些实验的解释存在问题,特别是难以将lncRNA表达的缺失与DNA调控元件的缺失分开,这已通过策略解决,例如插入多聚腺苷酸化位点以通过CRISPR干扰(CRISPR)进行早期转录终止或转录抑制,用保持启动子完整或缺失lncRNA外显子的报道基因替换lncRNA(尽管不能排除下游调控元件的缺失),反义介导的lncRNA剪接位点阻断,CRISPR–cas靶向lncRNA现在有许多研究证明了lncRNAs163的生物学作用,高通量功能缺失反向遗传筛选提高了搜索速度,例如,识别了哺乳动物细胞生长和迁移、脑、骨骼、肺、肌肉和心脏发育、免疫功能、表皮稳态和癌症药物反应所需的lnc RNA或具有适应效应的lnc RNA(图1)。CRISPRi介导的7种人类细胞系中超过16,000种lnc RNA的转录抑制鉴定了正常细胞增殖所需的近500种lnc RNA,其中89%仅在一种细胞类型中表达。
像一些蛋白质编码突变一样,调节性RNA突变的表型结果可能依赖于环境,在实验室条件下不明显,并且可能被生物系统的鲁棒性所掩盖171。Malat1的缺失,定位于核斑点并与剪接因子相关,在小鼠中没有主要的表型;然而,它确实会影响癌症进展和突触形成,以及其他生理和病理生理过程。Neat1是神秘的哺乳动物特异性核细胞器“para speckles”组装和功能所必需的,似乎不是小鼠正常发育所必需的,但对生殖相关雌性组织如黄体和乳腺的分化很重要。大脑细胞质RNA 1 (BC1)是一种高表达的大脑lncRNA,它的缺失对小鼠似乎无害,但会导致行为改变,这在野外是致命的。所以广泛的表型分析非常重要,尤其是对认知功能而言。类器官模型可能有助于体外鉴定表型。
lncRNAs的功能注释也可以通过分子表型来进行。在CRISPR–cas 13介导的培养物中400多种lncRNA的缺失后,对表达模式、ln crna–染色质相互作用和其他分子指数的分析表明,ln crna调节许多涉及发育、细胞周期和细胞粘附等过程的基因。