项目报告 | 百泰派克生物科技CUT&Tag结果展示-商家动态-资讯-生物在线

项目报告 | 百泰派克生物科技CUT&Tag结果展示

作者:北京百泰派克生物科技有限公司 2025-01-03T00:00 (访问量:1378)

 

CUT&Tag(Cleavage Under Targets and Tagmentation)主要用于研究特定蛋白质与基因组DNA的相互作用。与传统的ChIP-Seq技术相比,CUT&Tag具有更高的信噪比、更少的样本需求和更简单的操作流程,使其在基因调控机制、细胞分化研究以及疾病标志物发现等领域具有广泛的应用前景。CUT&Tag技术的优势在于其高效的文库构建和精准的片段化过程。在样本制备阶段,百泰派克生物科技通过严格的DNA样品检测和文库质检,确保每一步操作的准确性和数据的高质量。在生物信息学分析中,数据清洗、比对、富集峰分析以及基因功能注释等流程有助于全面解析目标蛋白的基因组结合模式,并揭示其在细胞功能调控中的重要角色。依托先进的Protein A/G-Tn5融合蛋白体系和高通量测序平台,百泰派克生物科技为广大科研工作者提供CUT&Tag技术分析服务。百泰派克生物科技采用ISO9001质量控制体系,获国家CNAS实验室认可,丰富的项目经验与专业的技术团队为您的研究保驾护航!

 

一、文库构建和测序流程

从DNA样品到最终数据获得,样品检测、建库、测序每一个环节都可能会对数据质量和数量产生影响,而数据质量又会直接影响后续信息分析的结果。因此,获得高质量数据是保证生物信息分析正确、全面、可信的前提。为了从源头上保证测序数据的准确性、可靠性,我们对样品检测、建库、测序每一个实验环节都严格把关,从根本上确保高质量数据的产出。

 

1. DNA样品检测

对DNA样品的检测主要包括2种方法:

(1) 琼脂糖凝胶电泳分析DNA降解程度以及是否有RNA污染

(2) Qubit对DNA浓度进行精确定量

 

2. 文库构建

CUT&Tag技术的核心是pAG-Tn5融合蛋白(ChiTag),其中Protein AG能够结合抗体。在进行CUT&Tag实验时,首先将细胞与磁珠混合,然后进行靶蛋白特异性抗体(一抗)孵育,使抗体进入细胞与靶蛋白结合。为了放大信号,接着进行二抗孵育。最后孵育pAG-Tn5转座体,使得转座体进入细胞并与抗体结合,这样就把转座体间接的固定在靶蛋白上,随后加入Mg2+,激活Tn5酶的切割活性,打断靶蛋白结合的DNA区域。由于Tn5酶连有测序接头,在打断的同时直接在片段化的DNA上加接头,接着提取DNA,进行PCR扩增构建文库。PCR产物经过1.3X磁珠进行纯化,再经Agilent 2100分析仪(Agilent Technologies)用Quant-iTTM dsDNA HS分析试剂盒(Invitrogen,MA,USA)和qPCR对文库进行片段范围及有效浓度检测。

 

3. 文库质检

我们对文库的质检主要包括2种方法:

(1) Agilent 2100对文库的插入片段长度进行检测,检测是否有接头二聚体污染等

(2) Qubit或者QPCR对测序文库浓度进行定量

 

4. 上机测序

库检合格后,加入适当比例的平衡文库,进行Illumina HiSeq测序。测序的基本原理是边合成边测序(Sequencing by Synthesis)。在测序的flow cell中加入四种荧光标记的dNTP 、DNA聚合酶以及接头引物进行扩增,在每一个测序簇延伸互补链时,每加入一个被荧光标记的dNTP就能释放出其相对应的荧光,测序仪通过捕获荧光信号,并通过计算机软件将光信号转化为测序峰,从而获得待测片段的序列信息。具体过程如下图所示:

 

1873908370223255552-1.png

图1

 

二、生物信息分析流程

 

1873908524586225664-2.png

图2

 

三、结果展示及说明

1. 项目基本信息

(1)项目名称

8个细胞(ref: hg19) CUT&Tag测序建库及数据分析

 

(2)样本信息

物种信息:hsa

基因组信息:hg19 (NCBI-Assembly)

 

1873908948538085376-3.png

表1. 样本信息

 

(3)样本差异比较方案

 

1873909468254294016-4.png

表2. 差异比较

 

2. 测序数据质量评估

高通量测序(如Illumina HiSeq PE150)得到的原始数据(Raw Data or Raw Reads),结果以 FASTQ (简称为fq)文件格式存储。FASTQ是一种存储生物序列及相应质量评价的文本格式,每条read的信息由下述四行组成:

 

1873909665076203520-5.png

图3

 

第一行存储序列标识信息:以“@”开头,随后为Illumina 测序标识别符(Sequence dentifiers)和描述信息( 下附详述 ); 第二行存储碱基序列;第三行以“+”开头,存储与第一行相同的信息或缺省;第四行存储对应碱基的测序质量,该行中字符为第二行中对应碱基的质量值加上33后转换为的ASCII码,逆向转化即可直观得到每个碱基的质量信息。

 

测序过程本身存在发生机器错误的可能性,测序错误率分布检查可以反映测序数据的质量,序列信息中每个碱基的质量值保存在FASTQ文件中,若reads的碱基质量值用QPhred表示,则可计算测序错误率 e=10(-QPhred/10) 或表示为 QPhred=-10log10(e)。Illunima Casava 1.8版本碱基识别与Phred分值之间的简明对应关系见下表:

 

1873910332171866112-6.png

表3

 

① 由于测序过程中试剂逐渐消耗,测序错误率会随 Reads 长度增加而升高,此为illumina高通量测序平台的共有特征。

② 对于常规甲基化文库,在测序read1和read2会呈现一种方向性的特点:read1 T碱基含量较高,read2 A碱基含量较高。

 

测序完成后,过滤测序接头和低质量数据,将过滤后的数据与参考基因组比对。数据过滤标准为:含有adapter序列,序列中N碱基的比例超过序列总长度的5%,序列中质量值小于20的碱基比例超过序列总长度的50%,如果一条序列符合以上三个条件中的任何一个,则去除这条序列。以下是数据产量和质控后clean data的质量统计。

 

(1)原始数据产量

合格的数据是信息分析的基础,因此对下机数据进行质量控制(QC)是数据分析的首项内容。对下机后的数据(raw reads)产量进行基本的统计,结果如下:

 

1873911259628949504-7.png

表4. 原始数据质量统计

 

(2)原始数据质控过滤

数据过滤的主要目的是去除低质量的数据,保证clean data的质量。我们采用Trimming的方式截去测序数据的测序接头和低质量数据,得到的clean data用于后续分析。在进行原始数据 Trimming 时我们使用Trimmomatic软件,其数据处理的步骤具体如下:

① 截去低质量reads,使用滑动窗口的方式,4个碱基为一个窗口,若该窗口的平均碱基质量值低于15,则从该处截去reads, 参数选择:SLIDINGWINDOW:4:15;

② 截去 reads 首尾质量低于3或者含N(N 表示无法确定碱基信息)的 reads,参数选择: LEADING:3,TRAILING:3;

③ 截去接头污染的 reads,使用两种模式去除接头:1.simple alignment mode:seed 与接头序列比对分值达到7(约12bp); 2.palindrome mode:当read1 和 read2 的重叠

区碱基评分大于 30 时,截去seed部分序列。参数选择:ILLUMINACLIP:adapter.fa:2:30:7:1:true;

④ 舍弃修剪后短于 36nt 的 reads;

⑤ 舍弃不能形成 paired 的 reads。

 

1873911603209555968-8.png

表5. 数据过滤后的产量和质量统计表

 

3. 数据比对分析

目前,常用比较软件有Bowtie,BWA,MAQ,TOPhat等。根据不同的基因组的特征,我们选取相对合适的软件,合适的参数设置,将过滤后的测序序列进行基因组定位分析。这里,我们使用BWA(Burrows Wheeler Aligner)软件将clean reads比对到参考基因组上。

 

(1)参考基因组比对情况统计

 

1873911837255913472-9.png

表6. Reads与参考基因组比对情况

 

① Sample:样品名称

② total_reads: 参与比对的reads数目

③ mapped_reads:比对上的reads数目

④ mapped_rate:对上的reads百分比

⑤ uniq_mapped_reads:唯一比对上的reads数目

⑥ uniq_mapped_rate:唯一比对上的reads百分比

 

(2)reads信号值在基因上的分布

转录因子、组蛋白等对基因的调控机制与其结合位置相关,故分析读段相对基因位置分布有助于我们预测蛋白的功能。将每个基因以及该基因上下游2K的情况统计并画图,结果如下图:

 

1873912178596761600-10.png

图4. 读段(测序reads)相对基因TSS位置的分布

 

(3)Reads在样本间的相关性分析

生物学重复是任何生物学实验所必须的,高通量测序技术也不例外(Hansen et al.)。生物学重复主要有两个用途:一个是证明所涉及的生物学实验操作是可以重复的且变异不大,另一个是为了确保后续的差异基因分析得到更可靠的结果。样品间相关性分析是检验实验可靠性和样本选择是否合理的重要指标。相关系数越接近1,表明样品之间表达模式的相似度越高。(PCC和PCA图)

 

1873912513260277760-11.png

图5. 样本间相关性分析

 

1873912711759908864-12.png

图6. PCA分析

 

(4)Reads比对结果可视化(IGV)

IGV (Integrative Genomics Viewer) 浏览器具有以下特点:(1)能在不同尺度下显示单个或多个读段在基因组上的位置,包括读段在各个染色体上的分布情况和在注释的外显子、内含子、剪接接合区、基因间区的分布情况等;(2)能在不同尺度下显示不同区域的读段丰度,以反映不同区域的转录水平;(3)能显示基因及其剪接异构体的注释信息;(4)能显示其他注释信息;(5)既可以从远程服务器端下载各种注释信息,又可以从本地加载注释信息。

 

1873912987434733568-13.png

图7. 数据IGV基因组数据浏览器可视化展示(示例)

 

4. frag分析

对于一个特异性结合位点而言,reads在其结合位点处会有显著的富集。我们采用MACS软件预测IP实验的fragments sizes。MACS以某个window size扫描基因组,统计每个window中read的富集程度,然后抽取(比如1000个)合适的window作样本构建富集模型,预测frag_sizes的长度。

 

1873913937935323136-15.png

表7. Frag结果

 

5. 富集峰分析

(1)富集峰分析统计

利用MACS2软件(Yong Zhang,Tao Liu et al., 2008)(阈值为qvalue<=0.05)完成两样本间峰检分析(peak calling),并对峰的个数、宽度、分布等进行统计,筛选出峰的相关基因等。结果示例如下:

 

1873914114930757632-16.png

表8. 富集峰(peak)数量统计

 

(2)富集峰的宽度分布

富集峰的宽度分布如下图所示:

 

1873914357151813632-17.png

图8. 差异Peak富集分布

 

(3)富集峰的富集倍数

富集倍数亦可称为signal Value,表示在进行peak calling的过程中,对peak信号的数字化展示。该值越大,表示富集到该peak中的reads数越多。峰的富集倍数分布如下图所示:

 

1873914752544657408-18.png

图9. 富集峰的富集倍数

 

(4)富集峰的显著性水平分布

峰的显著程度是峰的可信程度的指征。计算每个peak的显著性(q value)值。峰的显著程度分布如下图所示:

 

1873915237909516288-19.png

图10. 富集峰的显著性水平分布

 

(5)富集相关基因GO分析

Gene Ontology(简称 GO, http://www.geneontology.org/)是基因功能国际标准分类体系。作为基因本体联合会(Gene Onotology Consortium)所建立的数据库,它旨在建立一个适用于各种物种的,对基因和蛋白质功能进行限定和描述的,并能随着研究不断深入而更新的语言词汇标 准。GO分为分子功能(Molecular Function)、生物过程(Biological Process)、和细胞组成(Cellular Component)三个部分。基因或蛋白质可以通过ID对应或者序列注释的方法找到与之对应的GO编号,而GO编号可用于对应到Term,即功能类别或者细胞定位。

 

任何位置与峰有重叠的基因,都算作是有峰基因。GO富集结果如下:

Peak 重叠基因GO富集图,直观的反映出在生物过程(biological process)、 细胞组分(cellular component)和分子功能(molecular function)富集的GO项目上Peak 重叠基因的个数分布情况。

 

1873915588003876864-20.png

图11. Peak 重叠基因GO富集图

 

(6)富集相关基因KEGG通路分析

在生物体内,不同基因相互协调行使其生物学功能,通过Pathway显著性富集能确定差异表达基因参与的最主要生化代谢途径和信号转导途径。KEGG(Kyoto Encyclopedia of Genes and Genomes)是系统分析基因功能、基因组信息数据库,它有助于研究者把基因及表达信息作为一个整体网络进行研究。作为Pathway相关的主要公共数据库(Kanehisa,2008)),KEGG提供的整合代谢途径 (pathway)查询十分出色,包括碳水化合物、核苷、氨基酸等的代谢及有机物的生物降解,不仅提供了所有可能的代谢途径,而且对催化各步反应的酶进行 了全面的注解,包含有氨基酸序列、PDB库的链接等等,是进行生物体内代谢分析、代谢网络研究的强有力工具。Pathway显著性富集分析以KEGG 数据库中Pathway为单位,应用超几何检验,找出与整个基因组背景相比,在差异表达基因中显著性富集的Pathway。

 

Peak 重叠基因KEGG富集散点图是KEGG富集分析结果的图形化展示方式。在此图中,KEGG富集程度通过Rich factor、qvalue和富集到此通路上的基因个数来衡量。其中Rich factor指Peak 重叠基因中位于该pathway条目的基因数目与所有有注释基因中位于该pathway条目的基因总数的比值。qvalue是做过多重假设检验校正之后的Pvalue,qvalue的取值范围为[0,1],越接近于零,表示富集越显著。我们挑选了富集最显著的20条pathway条目在该图中进行展示,若富集的pathway条目不足20条,则全部展示。

 

1873915795579981824-21.png

图12. KEGG功能富集图

 

(7)富集peak注释到的功能元件分布

 

1873916005576200192-22.png

图13. 功能元件分布

 

(8)转录起始位置附近的信号分布情况

 

1873916212783206400-23.png

图14. 转录起始位置附近的信号分布情况

 

6. 富集峰序列内含motif分析

转录因子、组蛋白等蛋白质与DNA序列的结合并不是随机的,而具有一定的序列偏好性。模体(Motif)分析不仅可以检测到蛋白质特异性结合位点的DNA序列的偏好性,同时通过模体注释可以获得已知Motif的注释以及蛋白结合位点、Motif序列信息等。

 

我们采用Homer(homer.v4.9)软件检测peak序列中显著富集的Motif序列,输入显著性水平最为显著的前500个peak的DNA序列,在和已知motif比较的同时,从头发现新的motif (de novo motif),并将其与已知Motif数据库进行比对,利用已知Motif对其进行相应注释。

 

以序列表示图(sequence logo)的方式展示Motif序列中不同位置的碱基倾向性。结果如下:

(注:由于结合位点的特异性,会出现Motif序列只出现在一个区段(<=8或者>=9),则下图会有一部分没有结果)

 

(1)峰内known motif的富集结果

 

1873916544921751552-24.png

图15. motif识别结果(样本1为例)

 

logo按照先后顺序排列,右边为反向互补序列的图。以上,最多只展示top5的motif。

 

(2)峰内de novo motif检测结果

 

1873916766875930624-25.png

图16. motif识别结果(样本1为例)

 

logo按照先后顺序排列,右边为反向互补序列的图。以上,最多只展示top5的motif。

 

7. 富集差异比较分析

(1)组间差异富集区域检测

利用不同实验组reads在基因组比对信息进行差异分析。对于每个实验组有重复样本设计的研究,我们使用PePr软件(PePr v1.1.10)进行区间差异富集区域检测。PePr利用滑动窗口的方法,使用负二项分布(NBD)对每个窗口中不同重复和组别之间的reads数目进行建模,统计学检验;同时评估最佳的富集片段和滑动窗口大小。

 

1873917801455538176-26.png

表9. 组间差异富集区域检测结果统计

 

1873917916119420928-27.png

表10. 组间差异富集区域检测结果示例

 

① chr:差异peak染色体

② start:差异peak起始位置

③ end:差异peak终止位置

④ diff_peak_ID: 差异peak的ID

⑤ -10*LOG10(pvalue):负二项分布统计检验p值的对数变换

⑥ fold_enrichment : 差异倍数

 

(2)组间差异富集区域可视化(IGV查看)

将组间差异Peak富集区域的bed格式的文件,连同“2.4 IGV“的数据导入基因组数据浏览器(IGV)中,即可查看差异富集区域的具体分布。

 

1873918094092128256-28.png

图17. 差异富集区域的IGV展示

 

(3)组间差异富集区域宽度分布

对于差异富集区域的长度分布进行作图展示:

 

1873918416575385600-29.png

图18. 差异富集区域的长度分布

 

(4)组间差异富集区域富集倍数分布

对差异富集区域两样本间的差异倍数(foldchange)分布进行作图展示:

 

1873918814480617472-30.png

图19. 差异富集区域的信号差异倍数分布直方图

 

(5)组间差异富集区域显著性水平分布

对差异富集区域统计检验的显著性分布进行作图展示:

 

1873919173215244288-31.png

图20. 差异富集区域的显著性水平分布直方图

 

(6)组间差异富集区域基因组元件分布

统计差异富集区域在各个基因组元件上的分布情况,结果展示如下:

 

1873919498034728960-32.png

图21. 差异富集区域在基因组元件中的分布。分别统计差异富集区域在启动子区(TSS上游2k到TSS下游500bp)、TSS上游2k,基因体、外显子、内含子,TES下游2k以及CpG岛区域内的分布数量比例作图。

 

(7)组间差异富集区域GO分析

对差异富集区域进行基因注释,并提取差异基因列表,进行GO富集分析。Gene Ontology(简称 GO,http://www.geneontology.org/)是基因功能国际标准分类体系。对差异区域相关基因,以及锚定启动子区的基因,分别做GO富集分析,以期挖掘出所研究的生物学问题相关的生物学过程。

 

1873920229101916160-33.png

表11. 差异富集区域基因注释结果

 

(1-6) 差异富集区域信息,包括位置信息和信号强度及显著性水平,同表6.4.2

(7-16)注释信息,即差异富集区域与不同元件的交叠信息,若存在交叠,给给出该元件的ID,比如geneID等;若不存在交叠,则使用’—‘表示。

 

差异富集区域相关基因的GO功能富集分析,基于差异富集区域的基因注释结果(6.10),对 genebody及其上下游区域 (upstream2k、genebody以及downstream2k)与差异富集区域有交叠的基因进行GO功能富集分析:

 

1873920419569455104-34.png

表12. 差异富集区域相关基因的GO功能富集结果

 

① Term:GO数据库中唯一的标号信息

② Category:与该GO accession相关的所有基因

③ Ovserved:与该GO accession相关的DMR基因的数目

④ Expected: 与该GO accession相关的DMR基因数目的期望值

⑤ FoldChange: 富集倍数

⑥ rawP:超几何检验p值

⑦ adjP: 校正p值

⑧ Term_Name:该GO accession的具体描述

⑨ GeneList: 与该GO accession相关的基因的列表,使用NCBI geneID

 

根据以上GO富集结果,过滤出 Ovserved>2, FoldChange>=2 并且adjP<0.05的条目,进行作图(若没有满足条件的条目,则选取最为显著的前15个条目展示)。

 

1873920621235785728-35.png

图22. 富集的GO的柱状图富集的GO相关的基因的分类统计图(横向柱形图):纵坐标为富集的GO term,横坐标为该-log10(adjP),柱子越长,表示该GO term统计检验的差异越显著。柱子右边的数字表示富集的基因数目和富集倍数。

 

(8) 组间差异富集区域KEGG分析

KEGG(Kyoto Encyclopedia of Genes and Genomes)是有关Pathway的主要公共数据库。对差异区域相关基因,以及锚定启动子区的基因,分别做KEGG pathway富集分析,以期挖掘出所研究的生物学问题相关的信号和代谢通路。

 

差异富集区域相关基因的KEGG pathway富集分析,基于差异富集区域的基因注释结果(6.10),对 genebody及其上下游区域 (upstream2k、genebody以及downstream2k)与差异富集区域有交叠的基因进行pathway富集分析:

 

1873920834117685248-36.png

表13. 差异富集区域相关基因的pathway富集结果

 

① Term:KEGG数据库中的pathway标号信息

② Category:与该pathway相关的所有基因

③ Ovserved:与该pathway相关的DMR基因的数目

④ Expected: 与该pathway相关的DMR基因数目的期望值

⑤ FoldChange: 富集倍数

⑥ rawP:超几何检验p值

⑦ adjP: 校正p值

⑧ Term_Name:该pathway的具体描述

⑨ GeneList: 与该pathway相关的DMR基因的列表,使用NCBI geneID

 

根据以上GO富集结果,过滤出 Ovserved>2, FoldChange>=2 并且adjP<0.05的条目,进行作图(若没有满足条件的条目,则选取最为显著的前15个条目展示)。散点图是KEGG富集分析结果的图形化展示方式。在此图中,KEGG富集程度通过fold change(富集倍数)、Qvalue和富集到此通路上的基因个数来衡量。其中fold change指该pathway中富集到的DMR相关基因个数与注释基因个数的比值。Fold change越大,表示富集的程度越大。Qvalue是做过多重假设检验校正之后的Pvalue,Qvalue的取值范围为[0,1],越接近于零,表示富集越显著。

 

1873920997313859584-37.png

图23. 富集的KEGG代谢通路的散点图纵轴表示pathway名称,横轴表示fold change,点的大小表示此pathway中DMR相关基因个数多少,而点的颜色对应于不同的q-value范围,染色越红表示越显著

 

百泰派克生物科技CUT&Tag服务

百泰派克生物科技致力于为科研人员提供全面的CUT&Tag技术服务,我们的CUT&Tag服务涵盖样本前处理、文库构建、高通量测序以及生物信息学分析等全流程,确保为客户提供高质量的数据和精准的科学见解。欢迎随时与我们技术支持沟通~

 

百泰派克生物科技--生物制品表征,多组学生物质谱检测优质服务商

 

相关服务

CUT&Tag分析服务

 

关于我们

北京百泰派克生物科技有限公司致力于为生物/制药和医疗器械行业提供质量控制检测项目验证等专业服务。公司实验室遵循NMPA、ICH、FDAEMA等的法规和指导原则,通过CNAS/ISO9001双重质量体系认证,建立了完备的质量体系,数据冷热/异地备份,设备定期计量/期间核查,软件审计追踪,为客户提供一体化解决方案和技术服务,支持新药研发、药物申报注册生产放行

1.公司采用ISO9001质量控制体系,专业提供以质谱为基础的CRO检测分析服务;

2.获国家CNAS实验室认可,为客户提供符合全球药政法规的药物质量研究服务;

3.业务范围覆盖蛋白质组学、多肽组学、代谢组学、生物药物表征、单细胞分析、单细胞质谱流式、生信云分析以及多组学生物质谱整合分析等;

4.七大质量控制检测平台,满足您一站式服务需求;

5.服务3000+企业,10000+客户的选择;

6.致力于为您提供优质的生物质谱分析服务!

 

技术服务一览图

 

>>点击了解更多优质服务项目

北京百泰派克生物科技有限公司 商家主页

地 址: 科创六街88号院

联系人: 李经理

电 话: 18244218588

传 真: 010-57231915

Email:market@biotech-pack.com

相关咨询
ADVERTISEMENT