立即注册找回密码

QQ登录

只需一步,快速开始

微信登录

微信扫一扫,快速登录

手机动态码快速登录

手机号快速注册登录

搜索

图文播报

查看: 232|回复: 5

[分享] 生物信息学博士前景如何?

[复制链接]
发表于 2025-5-30 10:43 | 显示全部楼层 |阅读模式
回复

使用道具 举报

发表于 2025-5-30 10:44 | 显示全部楼层
看看生信的一个方向,单细胞组学分析

这两篇文章非常相似,他们还针对大型数据集细胞注释困难的问题开发了一个工具(Snapseed),两篇文章都在用,想学习大规模单细胞数据整合的可以学习下
Snapseed 根据手动定义的标记基因集合对单个细胞类型或细胞类型层次进行单细胞数据集注释。加速对非常大的数据集的注释是快速而简单的。
为了注释每个细胞簇的细胞类型,研究采用了 SnapCell 方法。该方法通过计算各标记基因相对于细胞簇的受试者工作特征曲线下面积(ROC AUC)和倍数变化值(fold change)进行注释。对于特定细胞类型的多个标记基因,取其最大 AUC 值和最大倍数变化值作为代表。通过计算这些标记的平均 AUC 和平均倍数变化值来表征每个细胞类型,并基于这些标准为每个细胞簇注释最具特异性的细胞类型。






人类内胚层类器官单细胞转录组综合细胞图谱:解码器官发育与疾病的规律
跨组织类器官单细胞图谱揭示人类内胚层器官发育特征
2025 年 5 月,国际顶级学术期刊《自然・遗传学》(Nature Genetics)发表了一项由瑞士罗氏制药、亥姆霍兹慕尼黑中心、巴塞尔大学等多机构合作完成的重大研究成果。研究团队通过整合全球 55 项研究的单细胞转录组数据,构建了首个人类内胚层类器官细胞图谱(HEOCA),涵盖 9 种内胚层来源器官、近百万个细胞,为理解人类器官发育、疾病建模及药物研发提供了重要的参考框架。


一、整合跨时空数据:构建类器官研究的 “基因地图”
类器官作为模拟人体器官发育的 3D 细胞培养模型,在疾病研究和药物开发中具有巨大潜力。然而,不同实验室的培养条件、干细胞来源和技术平台差异,导致类器官的细胞组成和功能难以系统比较。
数据规模与技术创新:研究团队整合了218 个样本的单细胞 RNA 测序(scRNA-seq)和单核 RNA 测序数据,包括来自多能干细胞(PSC)、胎儿干细胞(FSC)和成体干细胞(ASC)的类器官模型,覆盖甲状腺、肺、肠道、肝脏等9 种内胚层器官。通过scPoli 算法消除批次效应,首次实现跨协议、跨组织的数据整合,构建了包含5 个细胞大类、48 个细胞类型及 51 个子类型的 hierarchical 注释体系。


跨物种对比与 fidelity 评估:通过将类器官细胞投射到人类胎儿和成人原代组织图谱,研究发现:
ASC 来源类器官与成人组织匹配度最高(如肠道类器官达 98.14%),适合模拟成人生理状态;
PSC 来源类器官更接近胎儿细胞特征,可用于早期发育研究;
FSC 来源类器官呈现中间状态,提示其在模拟发育过渡期的潜力。












He, Z., Dony, L., Fleck, J.S. et al. An integrated transcriptomic cell atlas of human neural organoids. Nature 635, 690–698 (2024).
Xu, Q., Halle, L., Hediyeh-zadeh, S. et al. An integrated transcriptomic cell atlas of human endoderm-derived organoids. Nat Genet 57, 1201–1212 (2025).
snapseed现在已经整合到HNOCA-tools工具中了
# Human Neural Organoid Cell Atlas Toolbox 代码注释
# 功能:处理和分析人类神经类器官单细胞图谱数据
# 1. 细胞类型注释模块
import hnoca.snapseed as snap
from hnoca.snapseed.utils import read_yaml
# 读取预定义的细胞类型标记基因配置文件
# YAML格式示例: {'神经元': ['NEUROD1', 'MAP2'], '星形胶质细胞': ['GFAP', 'S100B']}
marker_genes = read_yaml("marker_genes.yaml")
# 基于标记基因对细胞簇进行快速注释
# group_name: 聚类结果字段名
# layer: 使用的表达矩阵层,通常为对数归一化后的数据
snap.annotate(
    adata,                  # AnnData对象,存储单细胞数据
    marker_genes,           # 标记基因配置
    group_name="clusters",  # 聚类分组字段
    layer="lognorm",        # 使用的表达矩阵
)
# 处理多层级细胞类型注释
# 适用于复杂细胞谱系结构(如: 神经前体细胞 -> 中间神经元 -> 锥体神经元)
snap.annotate_hierarchy(
    adata,
    marker_genes,           # 包含层级结构的标记基因
    group_name="clusters",
    layer="lognorm",
)
# 2. 数据映射模块 - 将新数据映射到参考图谱
import scvi
import hnoca.map as mapping
# 加载预训练的参考图谱模型
# 模型使用scANVI框架训练,支持零样本学习能力
ref_model = scvi.model.SCANVI.load(
    os.path.join("model.pt"),  # 模型保存路径
    adata=ref_adata,           # 参考数据集
)
# 创建图谱映射器实例
mapper = mapping.AtlasMapper(ref_model)
# 将查询数据集映射到参考图谱
# retrain: 部分重训练策略,平衡速度与准确性
# max_epochs: 最大训练轮次
# batch_size: 批次大小,影响GPU内存使用
mapper.map_query(
    query_adata,              # 待映射的查询数据集
    retrain="partial",        # 训练策略: full/partial/none
    max_epochs=100,           # 最大训练轮次
    batch_size=1024,          # 批次大小
)
# 基于加权KNN算法进行标签传递
# k: 近邻数,影响标签传递的平滑度
mapper.compute_wknn(k=100)
# 执行标签传递,从参考图谱到查询数据
# label_key: 参考图谱中的细胞类型字段名
celltype_transfer = mapper.transfer_labels(label_key="cell_type")
# 计算查询数据在参考图谱中的"存在分数"
# 反映查询数据与参考图谱中各类细胞的匹配程度
presence_scores = mapper.get_presence_scores(split_by="batch")
# 3. 差异表达分析模块
import hnoca.stats as stats
# 标准差异表达分析(DE)
# 比较两组细胞群体(如: 类器官 vs 体内组织)
de_df = stats.test_de(
    joint_adata,                # 合并后的数据集
    group_key="origin",         # 分组依据字段
    return_coef_group="organoid", # 返回系数的组别
    adjust_method="holm",       # p值校正方法
)
# 基于图谱的配对差异表达分析
# 将查询数据与参考图谱中匹配的"虚拟细胞"进行比较
# 第一步: 生成匹配的表达谱
matched_adata = mapper.get_matched_expression()
# 第二步: 执行配对DE分析
de_df = stats.test_de_paired(
    query_adata,                # 原始查询数据
    matched_adata,              # 匹配的参考数据
    adjust_method="holm",       # p值校正方法
)
回复 支持 反对

使用道具 举报

发表于 2025-5-30 10:44 | 显示全部楼层
作为一名生信关联行业的非资深(划掉)从业人员
姑且来说一下生信的前景吧
各位大佬轻拍

首先
我们是搞云计算滴
新冠疫情在全球蔓延之后
云计算在全球范围内的接受度都大为提升
现在生信的状况跟云计算有点像
毕竟国外的疫情一波未平N波又起起起起起起起起起……
不管大的小的有钱没钱
各种国家都在爆发疫情
这就逼着全球不计成本地开发疫苗或者特效药

不计成本是啥意思?
就是老子有的是钱!!!!!!!!
这句话不仅掷地有声
还很有用

想象一下
假如你正在实验室里精打细算地用着老板分给你的预算和资源
老板会不会突然地出现
在街角的咖啡店(划掉)
Ta告诉你
从现在开始
不用精打细算了
毕竟——
老子现在有的是钱

没错就是现在!
研发费用加上一串儿零
麻溜滚去干活!!!

有些事可能仅仅有钱还不行
但生信真的行
比如药物研发里有一个步骤
虚拟筛选
当前能够用于药物发现虚筛的有机分子数量
已经达到了10的60次方这个惊人的数量级
那我们通常虚筛多少个分子呢?
大概百万到千万级别的分子
差了50多个零
为什么?
没钱呗……

但是老板刚才说啥?
老子现在有的是钱!!!
于是思路瞬间就开阔了是不?
相关成果也在渐渐绽放

2020年3月
哈佛大学医学院就在《Nature》上发了雄文
说他们现在有钱了(再次划掉)
用很多很多的钱搞了一个开源药物发现云平台
这个云平台能在整合海量的CPU资源
对超大规模的化合物库进行虚拟筛选

打个比方
原本他们在1个CPU上筛选1种化合物大概需要15秒
按照这个速度
筛选完1000000000种化合物要475年
这只是10亿
离什么10的60次方还远得很

而现在
他们用这个云平台
轻轻松松搞到了16万核CPU资源
对接10亿分子只需15个小时


关于这个云平台的详情可以看这里——
速石科技 fastone:15小时虚拟筛选10亿分子,《Nature》+HMS验证云端新药研发未来所以,作为云计算行业的从业人员
我们真的觉得我们的未来充满了光明

哎哎???????
不好意思串台了
重来——
我们是真的真的真的真的真的真的真的觉得
生物信息的未来充满了光明!!!!!

加油!!
我们等着你们!!!!!!!!!!
在天上!!!!


码字不易,喜欢请点个赞哦~
回复 支持 反对

使用道具 举报

发表于 2025-5-30 10:44 | 显示全部楼层
生物信息的都想往计算机跑,你做计算机的还想往生物信息跑。
但是计算机专业过来的学生,会很受欢迎很抢手的,所以选个好学校好导师不是问题。
现在博士名额紧张,普通博导一年就一两个名额,一般都被直博的占啦,想考就尽快联系吧。
最后再说一句,如果为了情怀,做什么都是可以的,如果为了挣钱,额.........
回复 支持 反对

使用道具 举报

发表于 2025-5-30 10:45 | 显示全部楼层
我看还是算了吧,老老实实地学计算机好啦。博士能不能毕业都不好说。最近看到一个这个领域里边导师的帖子,感觉生物信息没啥搞头。
附帖子链接:
华东师范大学石铁流导师怎么样? - 考研咨询
回复 支持 反对

使用道具 举报

发表于 2025-5-30 10:46 | 显示全部楼层
谢谢邀请,第一次被邀请回答问题。
国内的我不大清楚,只认识几个之前同一个组的,博士毕业的有2个去软件公司工作,另2个留下来继续做研究。
美国这边,因为最近几年研究经费很难申请,博士也太多了,研究职位很难找,而生物信息学的博士多少都有些编程的经验,相对码农的工作也好找,所以基本上博士毕业之后就去了软件公司了,比如Facebook,Google,Amazon等等。很少有人继续做博后,也有做博后一段时间就又去找码农工作的。我这里指的码农是比较宽泛的,有软件工程师,还有数据工程师。也很少看到博士毕业之后去生物信息相关的公司,感觉这边生物学信息的公司招码农只要有很多年工作经验的。
当然,上面所说的只是我个人所看到的,不一定对。
回复 支持 反对

使用道具 举报

发表回复

您需要登录后才可以回帖 登录 | 立即注册 微信登录 手机动态码快速登录

本版积分规则

关闭

官方推荐 上一条 /3 下一条

快速回复 返回列表 客服中心 搜索 官方QQ群 洽谈合作
快速回复返回顶部 返回列表