云南天文台在大规模星表数据高效检索方法研究方面取得进展
近日,中国科学院云南天文台南方天文观测基地硕士研究生任思颖、高级工程师王传军等人在大规模天文星表数据高效检索方法研究方面取得重要进展,提出了一种基于HEALPix与R-Tree相结合的混合索引方法,并进一步拓展了其在星表交叉匹配融合以及小行星搜寻等任务中的应用。研究表明,该方法能够显著降低检索过程中的数据访问量并提升查询效率,同时,其基于文件管理的实现方式降低了系统部署与维护复杂度。相关成果发表于国际期刊《Astronomy and Computing》。
随着大视场巡天观测的发展,天文数据规模迅速增长,星表数据已从早期的GB级扩展至TB乃至PB级。在此背景下,如何在无需复杂数据库系统支持的条件下,实现高效、可扩展的数据检索,成为当前天文数据管理中的关键挑战。传统基于单一空间划分或树结构索引的方法,在面对大规模数据时,往往在检索效率或系统复杂度之间难以取得平衡。
针对上述问题,研究团队提出了一种文件级的混合索引框架:首先利用HEALPix对天球空间进行分区,将原始星表数据划分为多个子文件,从而在检索阶段快速缩小候选数据范围;在此基础上,在每个子文件内部构建R-Tree空间索引,实现对局部数据的高效精细查询。该方法将空间划分与局部索引有机结合,形成“粗筛选 + 精检索”的两级检索机制。
实验结果表明,该HEALPix–R-Tree混合索引方法在锥形检索等典型空间查询任务中,相较于传统单级索引方法具有更高的查询效率和更好的可扩展性。尤其是在大规模数据条件下,该方法能够显著减少数据访问量和查询时间,同时避免了传统数据库系统在部署与维护方面的复杂性。


图1:混合索引方法与传统单级索引方法的计算量对比(上图)及查询用时对比(下图)
此外,研究人员将该方法在应用层面进一步拓展至星表交叉匹配与融合处理,以及小行星等移动天体的高效搜寻任务中,展现出了此方法的通用性与应用潜力。相关检索服务已部署于国家天文科学数据中心丽江分中心的数据服务器上,为大规模数据的在线分析与快速处理提供了技术支撑。
该研究表明,基于文件管理的分层索引策略能够在保证检索效率的同时降低系统实现成本,为中小规模研究团队处理海量巡天数据提供了一种高效、灵活的技术路径。相关方法亦可推广至其他大规模空间数据处理场景,对天文大数据管理与分析具有重要参考价值。
本项研究工作得到了国家重点研发计划、国家自然科学基金、云南省“兴滇英才支持计划”以及云南省基础研究计划的支持。
附件下载: