项目动态 | 博奥晶典自主研发攻坚细胞注释难题,全球首个跨物种单细胞注释数据库发表

2023年9月20日,生物芯片北京国家工程研究中心、北京博奥晶典生物技术有限公司(以下简称:博奥晶典)联合广东省东莞市妇幼保健院黄小玲主任医师团队深度合作,共同发表跨物种单细胞注释数据库 singleCellBase,有效解决单细胞分析核心难题——细胞注释。
图片

海量单细胞数据亟待解决注释难题

单细胞转录组测序(scRNA-seq)技术为研究人员提供了独特的机会,以单个细胞的分辨率来揭示人体组织中复杂的细胞成分和各种细胞的异质性。在进行 scRNA-seq 数据分析时,注释每个细胞的生物学类型是研究人员面临的一个极具挑战性的核心问题。

细胞注释的方法通常分为自动注释和手动注释两大类。虽然自动注释速度更快,但在精细的细胞亚型注释方面通常效果不佳,并且不能始终得到高置信度的注释结果。手动注释通常被认为是金标准,但通常面临以下挑战:

  • 手动注释耗时且需要大量的工作量,同时还要求先验知识,即已知的细胞类型和标记基因的关联关系。

  • 已知细胞类型与标记基因之间的关联关系数量有限、分散在各类研究论文中、且可靠性有待提高。

  • 对于除人类和小鼠之外的其他物种,几乎没有可用的数据资源来支持手动细胞注释,使得单细胞数据分析中不可避免的细胞注释过程更加困难。

图片

单细胞注释数据库 singleCellBase有效解决注释困境

面对以上难题,博奥晶典联合广东省东莞市妇幼保健院黄小玲主任医师团队攻坚克难,成功自主研发出单细胞注释数据库——singleCellBase,有效解决单细胞数据注释困境,结果于权威杂志 Biomarker Research 杂志(影响因子 11.1)在线发表。

图片

图片
图1. singleCellBase 数据库开发构架示意图
图片

数据库四大特性助力 高质量细胞注释结果

博奥晶典自主研发的 singleCellBase 是全球首个支持多物种单细胞注释的数据库,具有:

(1)打破物种限制;

(2)提供先验知识;

(3)整合分散的文献资源;

(4)拓宽疾病研究领域;

(5)实现数据资源共享;

(6)促进科学交流的特殊意义。

且具有全面性、可靠性、交互性、时效性的 4 大优越性能。该数据库极大方便了从事基础研究,特别是应用单细胞技术的研究领域的研究人员,为更好地在单细胞分辨率下解析疾病治病机理以及探索有效治疗策略提供基本的信息资源。  

  • 全面性:涵盖 31 个物种,除人和小鼠外,还包含猴、鸡、猪、鱼、拟南芥等动物和植物等。共计涉及 8740 个基因和 1221 种细胞类型,涵盖 165 种组织类型和 464 种疾病类型。

  • 可靠性:包含超过 2000 篇高质量单细胞研究论文的约 10,000 条细胞类型和标记基因之间的对应关系记录,所有记录均通过人工提取和双重核查后收录。

  • 交互性:提供 7 个功能模块,满足研究人员日常浏览、查询和可视化单细胞数据集等诸多需求。

  • 时效性:持续更新数据库信息,不断升级优化功能模块。

图片

图2. singleCellBase 数据库特点

图片

图3. singleCellBase 数据库主要功能模块

图片

数据库项目实测应用结果比较

以下具体展示用 singleCellBase 和 目前广泛应用的 CellMarker 两种注释数据库对 5 个数据集进行注释的结果比较。

1. 小鼠血管组织

图片

图4. 小鼠主动脉单细胞数据利用不同数据库注释结果。中间图 CellMarker 注释结果中红色代表 other,即并未注释出确切的细胞类型

图片

图5. 细胞最大概率值的密度分布图

结论

小鼠主动脉组织,共 74073 个细胞,CellMarker 仅能注释出小部分细胞(<5%),singleCellBase 可注释出基本上所有细胞,而且结果与经验 marker 注释高度一致,大大优于 CellMarker 的结果。

2. 小鼠肺组织

图片
图片

图6. 小鼠肺单细胞数据利用不同数据库注释结果

图片

图7. 经典 marker 验证注释准确性。图中用绿色圈起来的部分为 cluster1、3、10

结论

小鼠肺组织,CellMarker 与 singleCellBase 注释结果有不同,利用经典 marker 验证得知 singleCellBase 注释正确。

3. 人肝脏组织

图片
图片

图8. 人肝脏单细胞数据利用不同数据库注释结果

图片

T 细胞 marker 验证

图片

NK 细胞 marker 验证

图片

单核细胞 marker 验证图9. 经典 marker 验证注释准确性。图中用紫色圈出来的部分为 cluster22

结论

人肝脏注释中 CellMarker 和 singleCellBase 结果出现不一致。利用经典 marker 验证得出 singleCellBase 结果更可信,且 singleCellBase 注释出的细胞亚群更多更细致。

4. 人肺癌组织

图片
图片

图10. 人肺癌单细胞数据利用不同数据库注释结果

结论

人肺癌组织,两种数据库的注释结果相似。需要进一步利用CNV分析辅助肿瘤细胞的注释。

5. 人心脏组织

图片
图片

图11. 人心脏单细胞数据利用不同数据库注释结果

结论

对人心脏单细胞数据的注释,singleCellBase 大大优于 CellMarker。

通过多个数据库的注释结果可以发现,singleCellBase 和 CellMarker 两种数据库在不同组织中注释的效果不同,对肺癌组织数据两种数据库表现得相当,而 singleCellBase 在小鼠血管、小鼠肺、人肝脏和人心脏组织的单细胞数据中注释得更为准确和全面。

当然,每个数据库都不是完美的,singleCellBase 也需要在 marker 和细胞类型上向更加统一和准确的方向前进,规范化细胞类型名字,并且通过多个数据库整合来进行实时更新和优化,持续为广大科研工作者在单细胞注释方面带来更全面更准确的高质量细胞注释结果。

本文内容来源于公众号博奥晶典(ID:capitalbiotechnology),如有侵权,请联系我们予以删除。

图片
图片