(通讯员程齐凯)信息科学领域顶级期刊国际信息科学与技术学会会刊Journal of the Association for Information Science and Technology (JASIST)发表了永利官网博士生张力(现已毕业)作为第一作者的研究成果“LAGOS-AND: A Large Gold Standard Dataset for Scholarly Author Name Disambiguation”。该文指导老师和通讯作者为永利官网院长、信息检索与知识挖掘研究所所长陆伟教授。
论文探索了学术界的人名消歧问题,提出了一种利用开放学术信息资源ORCID和DOI自动构建大规模有标签数据集的方法,并使用该方法构建了一个大规模黄金标准作者消歧数据集(Large Gold Standard Dataset for Author Name Disambiguation, LAGOS-AND)。该数据集包含两个子数据集LAGOS-AND-BLOCK和LAGOS-AND-PAIRWISE,前者主要服务面向聚类的作者消歧研究,后者主要服务面向分类的作者消歧研究。与现有的数据集相比,LAGOS-AND数据集呈现多个优势:数据集的初始版本包含约80万作者和750万条文献(LAGOS-AND-BLOCK)以及接近100万个作者实例对(LAGOS-AND-PAIRWISE),且这两个子数据集在作者位置分布、出版年分布、性别分布、族裔分布、姓名流行度分布、研究领域分布等6个维度上均与整个微软学术图谱(Microsoft Academic Graph, MAG)较为接近。
在构建数据集的过程中,该文还探讨了一种之前少收关注的作者歧义类型——同人异名现象。通过将三个大型文献数据库PubMed、MAG和Semantic Scholar中的作者姓名与该作者在ORCID页面上呈现的官方姓名比较,揭示了这三个文献数据库中的作者姓氏变异程度,约在5.80%~9.59%之间,并且如果考虑带有音调的字母(如á)带来的姓氏变异或使用主流的姓名解析工具从全名中抽取姓氏进行姓氏比较,得到的姓氏变异程度会更高,约为8.04%~12.55%。这一发现表明,除同名异人外,作者姓氏变异或同人异名问题也是一种重要的作者歧义类型。
最后,基于LAGOS-AND数据集,论文还构建了一个消歧方法评测组件。评测结果发现,融合文献的深度语义信息能够显著提高消歧性能;还发现MAG数据库中的作者ID的准确性较低,这一点在召回率上尤甚。基于该发现,文章建议后续的研究应谨慎地使用MAG作者ID。
LAGOS-AND的获取链接为 https://zenodo.org/record/7313380。目前,LAGOS-AND已经拥有2个正式版本(Version 1.0和Version 2.0),其中Version 1.0版是依托2019年的MAG文献数据库创建的,Version 2.0版是依托2022年的OpenAlex文献数据库创建的。自发布后,LAGOS-AND数据集在学术界产生了一定的影响力。截至2023年9月,该数据集已被浏览超过1000次,被下载超过180次。(责编范秋砚)
论文链接:https://doi.org/10.1002/asi.24720