Robust Pre-Training of Medical Vision-and-Language Models with Domain-Invariant Multi-Modal Masked Reconstruction

• Computer Science > Machine Learning [Submitted on 6 Feb 2026] Title:Robust Pre-Training of Medical Vision-and-Language Models with Domain-Invariant Multi-Modal Masked Reconstruction View PDFAbstract:Medical vision-language models show strong potential for joint reasoning over medical images and clinical text, but their performance often degrades under domain shift caused by variations in imaging devices, acquisition protocols, and reporting styles. • Existing multi-modal pre-training methods largely overlook robustness, treating it as a downstream adaptation problem. • In this work, we propose Robust Multi-Modal Masked Reconstruction (Robust-MMR), a self-supervised pre-training framework that explicitly incorporates robustness objectives into masked vision-language learning. • Robust-MMR integrates asymmetric perturbation-aware masking, domain-consistency regularization, and modality-resilience constraints to encourage domain-invariant representations. • We evaluate Robust-MMR on multiple medical vision-language benchmarks, including medical visual question answering (VQA-RAD, SLAKE, VQA-2019), cross-domain image-text classification (MELINDA), and robust image-caption retrieval (ROCO). • Robust-MMR achieves 78.9% cross-domain accuracy on VQA-RAD, outperforming the strongest baseline by 3.8 percentage points, and reaches 74.6% and 77.0% accuracy on SLAKE and VQA-2019, respectively.

Article Summaries:

A new self‑supervised framework, Robust‑Multi‑Modal Masked Reconstruction (Robust‑MMR), aims to make medical vision‑and‑language models more resilient to domain shifts caused by different imaging devices, protocols, and reporting styles. The method adds robustness objectives-perturbation‑aware masking, domain‑consistency regularization, and modality‑resilience constraints-to standard masked reconstruction training. On benchmarks such as VQA‑RAD, SLAKE, VQA‑2019, MELINDA, and ROCO, Robust‑MMR improves cross‑domain accuracy by up to 3.8 percentage points and reduces retrieval rank degradation under perturbation. The results suggest that explicitly modeling robustness during pre‑training yields more reliable, transferable medical vision‑language representations for real‑world use.

Sources:

https://arxiv.org/abs/2602.17689