首页|MultiViT2: A Data-augmented Multimodal Neuroimaging Prediction Framework via Latent Diffusion Model

MultiViT2: A Data-augmented Multimodal Neuroimaging Prediction Framework via Latent Diffusion Model

来源：

英文摘要

Multimodal medical imaging integrates diverse data types, such as structural and functional neuroimaging, to provide complementary insights that enhance deep learning predictions and improve outcomes. This study focuses on a neuroimaging prediction framework based on both structural and functional neuroimaging data. We propose a next-generation prediction model, \textbf{MultiViT2}, which combines a pretrained representative learning base model with a vision transformer backbone for prediction output. Additionally, we developed a data augmentation module based on the latent diffusion model that enriches input data by generating augmented neuroimaging samples, thereby enhancing predictive performance through reduced overfitting and improved generalizability. We show that MultiViT2 significantly outperforms the first-generation model in schizophrenia classification accuracy and demonstrates strong scalability and portability.

作者：Bi Yuda、Jia Sihan、Gao Yutong、Abrol Anees、Fu Zening、Calhoun Vince

作者单位：

学科分类：神经病学、精神病学计算技术、计算机技术

推荐引用：Bi Yuda,Jia Sihan,Gao Yutong,Abrol Anees,Fu Zening,Calhoun Vince.MultiViT2: A Data-augmented Multimodal Neuroimaging Prediction Framework via Latent Diffusion Model[EB/OL].(2025-06-16)[2025-07-09].https://arxiv.org/abs/2506.13667.点此复制

MultiViT2: A Data-augmented Multimodal Neuroimaging Prediction Framework via Latent Diffusion Model

MultiViT2: A Data-augmented Multimodal Neuroimaging Prediction Framework via Latent Diffusion Model

评论