科百科
当前位置: 首页 科技资讯

如何创建带平滑线的散点图(图形解读系列散点图也不简单)

时间:2023-05-31 作者: 小编 阅读量: 1 栏目名: 科技资讯

散点图研究的是两个数值型变量之间的关系,凡是想展示分布状态的都可以使用散点图。Y轴显示的是与表型性状的关联检验的p值。这个散点图的每一列是一个基因,每一行是一个细胞簇,不同颜色表示基因在对应细胞簇的平均表达量。而且相比于热图来讲,这个散点图中点的大小表示对应细胞簇中表达有对应基因的细胞所占的比例,这为结果解读提供了另一维度的信息。其展示优势是体现出检测的样本量。

识图:先理解每个点是什么(点代表基因、样品、通路或其它的,这个认识可以来自于常识,来自于自己对数据的认识,或来自于文章作者的描述),然后看横轴代表什么纵轴代表什么,再看图例中展示的其他信息如颜色、大小和形状分别代表什么。这些都理顺了,图理解就不难了。

来源:https://www.r-graph-gallery.com/272-basic-scatterplot-with-ggplot2.html

这是个一般的散点图,展示的是X轴变量Sepal.Length和Y轴变量Sepal.Width,展示的是花萼的长度和宽度的关系。

散点图研究的是两个数值型变量之间的关系,凡是想展示分布状态的都可以使用散点图。它在生物信息分析中有应用广泛,且基于多样的“面貌”,散点图的具体使用形式是根据所需要展现的“故事”来绘制。常见的有:

  • 差异基因火山图(Volcano plot | 别再问我这为什么是火山图):
  • 在一般散点图的基础上,根据P value/Q value和log(FC)值给点着色,用以标注需要关注的显著差异点。
  • 功能富集分析泡泡图(R语言 -富集分析泡泡图):
  • 一般X轴是对应通路差异基因占通路总基因的比例-Gene ratio(常用的是Odds Ratio),Y轴是富集的通路-Terms/Pathways,颜色变化表述富集显著性程度-Q value,点大小值表示为对应通路差异基因数目-conut(这些对应关系可能会根据需求调整)。
  • 相关性分析散点图
  • 在一般散点图的基础上添加数据趋势线。
  • 抖动图(jitter plot):
  • 一个轴为离散变量,一个轴为数值型变量时,为了避免点之间因数值相同而覆盖,故在离散轴做一些便宜,不改变数值轴,一般结合箱线图展示。
  • 曼哈顿图
  • 曼哈顿图是基因组学中使用的一种特殊类型的散点图。
  • X轴显示基因组上的基因变异体的位置。
  • 不同的颜色表示不同的样本。
  • Y轴显示的是与表型性状的关联检验的p值。
  • 当然也可以用来展示差异基因或差异OTU,如下面的例子。
  • PCA样品分类图(一文看懂PCA主成分分析)
具体使用基因表达散点图

>

  • 原文描述:
  • Dot plot visualization of each cell type in lung single-cell data. The size of the dot encodes the percentage of cells within a cell type, and the color encodes the average expression level
  • 来源文章链接:
  • https://www.cell.com/cell/pdf/S0092-8674(18)30116-8.pdf

Dot plot是单细胞中常用来展示不同细胞簇中代表性基因表达的一个图。

这个散点图来源于一篇cell文章-Mapping the Mouse Cell Atlas by Microwell-Seq。作者分析成年鼠肺组织单细胞数据聚类得到了32个细胞簇(Y轴)。这个散点图的每一列是一个基因,每一行是一个细胞簇,不同颜色表示基因在对应细胞簇的平均表达量。而且相比于热图来讲,这个散点图中点的大小表示对应细胞簇中表达有对应基因的细胞所占的比例,这为结果解读提供了另一维度的信息。

肿瘤大小散点图

>

  • 原文描述:
  • Tumour volume for individual animals(dots) on the day of euthanasia in the conditions indicated. Data are mean±s.d.
  • 来源文章链接:
  • https://www.nature.com/articles/nature23270

在上图中,Y轴是肿瘤体积大小,X轴有样本基因型分组信息(TCRα和WT)和样本接受的处理信息(GVAX和anti-PD1有无),每个点都是一个样本。*表示组与组之间Student’s t-tests的P值(** P<0.01; *** P<0.001; **** P<0.0001)。其展示优势是体现出检测的样本量。

当检测样本数且样本点趋势一致的时候,可以排布出悦人的性状和展示更高的可信度。此图在简单的散点图还添加了箱线图中的上四分位数、中位数和下四分位数,用以从统计角度地展示肿瘤大小分布情况(可视化之为什么要使用箱线图?)。

自对照样品或样品两两相比散点图展示

>

  • 原文描述:
  • Scatterplot of log2FC of genes from Reactome G1 pathway in each Library 1 screen. Each pairwise comparison is indicated by color. Pearson’s productmoment correlation coefficient is indicated (r).
  • 来源文章链接:
  • https://pubmed.ncbi.nlm.nih.gov/29576454/

这个图展示某个通路上的基因在不同样本表达的相对高低和样品内表达的一致性。纵坐标和横坐标都是样本间差异基因比较得到的log(FC)值。这在整合多套数据时可以根据趋势的共性信息互相印证。

Jitter-plot展示差异基因分布

>

  • 原文描述:
  • Log2 fold relative RNA probe distribution showing differential gene expression from bone marrow-derived macrophages (BMDMs) treated in vitro with mock or AzaITF-2357. Angiogenic pathwayassociated genes are highlighted (microarray, BMDM data representative of n = 3 mice)
  • 来源文章链接:
  • https://www.sciencedirect.com/science/article/pii/S0092867417312448

上图的抖动图jitter plot有着尽量多的二维信息,每个点是一个基因,类似于火山图的一维展示形式,横坐标是log2(FC),这意味着越往两侧的点,log2(FC)也就越小或者越大,即基因变化倍数越大,同时也可以用颜色标注出几个比较关注的基因,避免直接在图上标记名字而出现标签重叠的现象。

样本突变数目分布

>

  • 图片描述:
  • Two panels show mutation load for each sample in the dataset for SNVs。
  • Each dot of the sorted scatterplots shows the total number of mutations pre- and post-filtering per sample. Total mutation counts are separated by total number SNVs per samples. Lighter colors indicate pre-filtered mutations from the controlled-access MAF, and deeper colors indicate post-filtered (PASS only) mutations from the open-access MAF. Cancers are ordered by the median number of post-filtered SNVs per tissue. Furthermore, samples are sorted by increasing number of total mutation count for SNV plot.Samples removed during post-filtering are also shown, i.e., LAML and OV in lighter colors without an accompanying pair and are sorted accordingly. The total number of samples for each cancer type is displayed under each cancer label. Finally, the y axis limits were placed from 0 to 50,000 for clarity. This resulted in the removal of 14 hypermutator samples from SNV plot.
  • 来源文章链接:https://www.sciencedirect.com/science/article/pii/S2405471218300966
  • 这是另一种散点图,是用来展示样本过滤前后的突变数目。
  • 每种癌症所有样品按过滤后的突变数(深蓝点)的中位数排序,浅蓝点表示未过滤的突变数。
  • 图形的亮点再与排序,排序后点就不再是一堆散乱的点,而是一条有序的线,结果展示更清晰
曼哈顿图

曼哈顿图在用于差异基因时表达的意思与火山图类似,但信息更多了一些。此图中每个点代表1个OTU,颜色表示OTU所属的物种分类信息,形状表示其是否显著上下调,大小代表OTU的平均丰度。

绘图推荐教程
  • R语言 - 箱线图(小提琴图、抖动图、区域散点图)
  • R语言 - 散点图绘制
  • 解决散点图样品标签重叠ggrepel
  • 水稻微生物组时间序列分析
  • 水稻微生物组时间序列分析 1模式图与PCoA 2a相关分析 2b散点图拟合 3冲击图 4随机森林回归
无需代码即刻绘制Reference
  • https://www.data-to-viz.com/graph/scatter.html
  • https://www.r-graph-gallery.com/scatterplot.html
  • https://www.data-to-viz.com/graph/connectedscatter.html
,
    推荐阅读
  • 唐三重生最后成神了没(举贤不避亲的唐三重生后)

    终极斗罗最后一册的内容已经更新完毕,小舞陨落后,唐三选择了转世重生。虽然终极斗罗30册并没有交代唐三重生的细节,但是唐三在临走前却交代了诸多事宜给后代和其他神界领导者。为了让自己的儿子和儿媳继承毁灭神王和生命神王的神位,他提出了举贤不避亲。况且二人还是夫妻,唐三将神位传给他们也算是没有辜负毁灭之神和生命女神的嘱托。因此个人以为,唐三并不会将修罗神和海神的神位让给他人继承,而是会留给小舞和自己。

  • 部编四年级语文上册21课古诗三首(部编版四年级语文上册古诗三首课文解析)

    《古诗三首》收录在人教四年级语文上册教材,需要掌握:19个汉字。明确学习目标1、有感情地朗读课文,背诵课文,默写《题西林壁》。与其父苏洵、其弟苏辙并称“三苏”。梅花和雪花相互竞争,都认为自己是最具早春特色的,而且互不认输,这就将早春的梅花与雪花之美别出心裁、生动活泼地表现出来了。

  • 高一语文必修二知识梳理(高一语文必修二知识点整理)

    1945年在苏门达腊被日寇杀害,1952年被中央人民政府追认为革命烈士。1921年第一部小说集《沉沦》问世,1923年《春风沉醉的晚上》、《薄奠》。著有散文集《海星》《竹刀》《囚绿记》等,译著有《罗亭》《鲁宾逊漂流记》等。开创了我国古代诗歌的现实主义创作传统。②相当于“而”。⑤为,成为,引申为充当,充作。引申为承担,承受。

  • 赛鲸电脑桌怎么样(赛鲸床上电脑桌使用感受)

    赛鲸在设计方面与德国Patzak,spinn等多家设计学院合作,设计追求完美,在结构和工艺方面获得多项专利。赛鲸电脑桌设计的三大特点是超易用、超耐用、超稳固。赛鲸电脑桌一个动作完成桌面角度调节。德国设计的支架结构,采用轻钢架。靠结构控制力度和状态,赛鲸电脑桌的耐用性增强。

  • 最强蜗牛吃蘑菇任务攻略(蘑菇有多少种)

    最强蜗牛吃蘑菇任务攻略获得蘑菇的方法:蘑菇宝箱,蘑菇园,每日任务,馆长的头盔,地球晚宴转盘,解锁蜗牛壳,白蝌蚪礼包,氪金礼包。每食用一定数量后可额外增加食盒容量。生命蘑菇,食用后可额外获得四维加成。

  • 啵乐乐韩国进口饮料(韩国进口啵乐乐饮料新品)

    九日冰祖食品出品的啵乐乐牛奶盒装含乳饮料目前已获得啵乐乐品牌正版授权,由山东冰祖食品股份有限公司独家代理。当然,除了可爱爆棚的卡通形象,更重要的是啵乐乐饮料的优异品质。除此之外,啵乐乐牛奶含乳饮料富含人体所需要的各种营养,同时富含维生素A、维生素B1等多种元素。啵乐乐大牌饮品,线下线上均有售目前,啵乐乐牛奶含乳饮料已经问鼎各大市场渠道,备受年轻消费者喜爱。

  • 病毒感染可以引起贫血(这种细菌感染会引发贫血等血液病)

    相关研究表明,幽门螺旋杆菌与某些血液疾病的发生是密切相关的,比如说不明原因的缺铁性贫血。我们说贫血的患者啊,有幽门螺旋杆菌的患者感染率明显高于未感染的患者。再有就是许多研究发现,根除幽门螺旋杆菌后特发性血小板减少性紫癜患者的血小板数会明显增多,并伴随血清血小板抗体,IgG水平的下降,幽门螺旋杆菌可能是部分特发性或者是原发性血小板减少症的这种疾病的致病因素之一。

  • 很甜的小短句(36句微信超火的情话短句)

    36句微信超火的情话短句❤️想牵着你的手给各位来宾敬酒❤️我什么都知道但还是想听你娓娓道来❤️我家的狗挺喜欢你的随我❤️你主动找我的时候我激动的都能做完整套广播体操❤️你是我最爱的宝贝给我甜甜的草莓牛奶也不换❤️不许说我嘴硬。

  • 一年级家长每天需要做什么(一年级家长开学最该做什么)

    就拿小学一年级新生来说,一部分是学区或摇号或其它渠道进了心仪的学校,遂了愿,满心欢喜;一部分是各种原因找找拖拖不情愿进了备份学校,心不甘,心绪惆怅。孩子学习成绩的好坏大多数来自家长的教与养,家长对孩子的教养跟上,孩子会很好。还有就是一定要记得我们上学的目的是什么,让孩子喜欢学习,学会学习,最终学有所成,这才是重中之重,是核心。所以家长在孩子成长上学会抓重点,才能保证孩子的教育正确。

  • 少儿春晚嘉年华演出(2023嘉佳卡通华夏少年少儿春晚特邀小主持人刘思琳)

    活动以权威性、广泛性为原则,旨在向全省范围内选拔具有优秀潜质的未来之星,具有积极向上风貌的儿童优秀节目和演员,最终登上《华夏少年》少儿春节联欢晚会的舞台,通过嘉佳卡通卫视的播出展示给全国人民。哈喽大拇指语言艺术特邀优秀小主持人刘思琳同学,经过严格选拔,入选嘉佳卡通《华夏少年》少儿春节联欢晚会的主持人。据悉,嘉佳卡通卫视《华夏少年》少儿春节联欢晚会将于2023年1月21日播出。