Replication Study: Federated Text-Driven Prompt Generation for Vision-Language Models

• FedTPG introduces dynamic text-driven prompt generation for vision-language models in federated settings. • Replication evaluated on six datasets, achieving 74.58% seen, 76.00% unseen accuracy. • Results within 0.2% of original, confirming reproducibility of FedTPG approach. • Text-driven prompts outperform static methods, boosting cross-class generalization by 1.43% points. • Federated training preserves high performance without sharing private data across diverse visual domains. • Study validates core claims: dynamic prompts and federated learning enhance vision-language model adaptability.

Article Summaries:

A replication study of the FedTPG framework confirms its effectiveness for federated vision‑language learning. Researchers evaluated the pre‑trained model on six diverse datasets (Caltech101, Oxford Flowers, FGVC Aircraft, Oxford Pets, Food‑101, DTD) and achieved accuracies within 0.2 % of the original paper. The average accuracy was 74.58 % on seen (base) classes and 76.00 % on unseen (new) classes, a 1.43‑point gain in generalization. The results validate two key claims: text‑driven prompt generation improves cross‑class performance over static prompts, and federated training preserves high accuracy without sharing private data, demonstrating the method’s robustness and reproducibility.

Sources:

https://arxiv.org/abs/2602.18439