国家预印本平台
中国首发,全球知晓
说话人识别技术基于个体语音特征进行身份区分,广泛应用于语音助手、智能安防等领域。然而,短语音数据由于时长有限,难以提取稳定的说话人特征,严重影响识别准确率。传统的多尺度特征聚合方法大多侧重于通道维度上的信息融合,可能无法充分捕捉短语音场景下关键的时序动态信息。本文提出了一种基于时序特征的多尺度特征聚合方法。该方法通过构建多尺度特征提取模块,有效捕捉短语音中的局部和全局时序特征。该方法可以增强不同尺度特征的互补性,在模型规模减小50%的情况下,并实现约1%的准确率提升。
甲状腺滤泡性肿瘤包含恶性甲状腺滤泡癌与良性滤泡性腺瘤两类。由于二者细胞学特征高度相似,临床鉴别诊断甲状腺滤泡性肿瘤与良性滤泡性腺瘤仍存在显著挑战,而精准分类对改善患者治疗、预防癌症风险至关重要。尽管现有深度学习模型在甲状腺结节良恶性分类中表现优异,但其对甲状腺滤泡性肿瘤与良性滤泡性腺瘤的区分能力有限。本文提出一种基于特征层融合的多模态深度学习模型用于甲状腺滤泡癌与良性腺瘤的术前无风险诊断,并提出一种全新的基于分级融合策略与模态正交约束的多模态融合策略,促进不同模态的信息互补与融合。本模型在甲状腺滤泡癌分类任务上准确率达到92.31%。优于目前单模态与双模态融合的分类结果,达到临床可用的水平。
电磁场逆问题在多领域应用广泛,却因高度非线性与不适定性,给传统求解方法带来挑战。本文聚焦于此,深入研究粒子群算法在电磁场逆问题求解中的应用。通过构建适配模型,确定搜索空间与参数范围,完成粒子群初始化,利用适应度函数在迭代中评估、更新粒子状态,实现对未知参数的反演。以二维静态电场逆问题为例进行数值实验,结果表明粒子群算法在有噪声干扰下能有效反演电荷分布。与传统方法相比,其收敛速度更快,能突破局部最优限制,显著提升求解精度,为电磁场逆问题解决提供新途径。但该算法在高维复杂问题中存在收敛变慢和易陷局部最优的问题,且对参数敏感。未来可通过引入自适应惯性权重、混合其他算法改进,同时拓展至三维及多物理场耦合等复杂电磁问题,以推动该领域发展并为实际应用提供更优解。
中国黄土高原储存着巨量风尘沉积,其黄土堆积覆盖面积约44万平方公里,体积超过20万立方公里。然而,这些沉积物的来源仍存争议。阿拉善高原及周边区域虽被认定为黄土高原的重要潜在物源区,但由于黄土磁化率显著高于推测的源区物质,这一假说受到质疑。现有研究认为,源区物质与黄土沉积之间的磁性特征差异,可能源于粉尘从阿拉善高原搬运至黄土高原过程中的颗粒分选作用。为评估环境磁学方法在黄土物源追溯中的适用性,必须明确亚铁磁性矿物在粉尘释放、搬运、沉积及后续黄土化过程中的转变规律。本研究对比了阿拉善高原沙漠沉积物、现代粉尘样品与黄土高原风成沉积(黄土)的磁学性质,结果表明:(1)沙漠样品(粒径<63微米)以伪单畴/多畴(PSD/MD)磁铁矿为主导;(2)现代粉尘与黄土样品(均<63微米)则呈现PSD/MD至粗单畴(SD)磁铁矿的混合特征;(3)现代粉尘与黄土高原黄土的磁铁矿浓度相近,但沙漠样品中显著偏高。这些发现表明,风力作用优先将细粒、弱磁性矿物搬运至黄土沉积区,持续的风力分选导致源区沉积物与风成沉积物之间产生显著的磁性差异。因此,将源区的风成粉尘与黄土高原沉积物进行对比,比直接对比黄土与沙漠沉积物更能科学地评估物源关系。需特别指出的是,黄土化作用会显著增强沉积物中细粒强磁性矿物的浓度,故弱风化黄土更适合作为物源追溯的研究对象。。
视觉语言模型等大模型已展现出强大的世界知识理解能力,为数学问题自动求解研究提供了新的启发。在几何问题自动求解领域,几何图形中所蕴含的复杂多样的抽象几何关系给利用大模型进行求解带来了巨大挑战。为了提升几何问题求解的准确性,本文分析了现有的求解范式,并提出利用视觉语言模型来提高几何图形自动形式化的准确性。首先,通过利用代数交换律进行数据增强,本文基于数据集Geometry3K构建了一个多模态指令微调数据集GeometryDiagramFormalization86K(GDF86K)。该数据集包含超过86,000个(几何图形,形式化语言文字列表)数据对,以促进图形形式化模型的训练。基于GDF86K进行有监督微调,本文训练得到专注于几何图形形式化的视觉语言模型Geo-TinyLLaVA。在输入的几何图形带有完整的几何点命名标注的前提下,Geo-TinyLLaVA在几何图形形式化任务上的表现优于传统的Inter-GPS图形解析器,并可作为插件集成到Inter-GPS几何问题求解系统中,以提高其求解准确率。