2

Towards Fast and Accurate Image-Text Retrieval with Self-Supervised Fine-Grained Alignment

APER: AdaPtive Evidence-driven Reasoning Network for machine reading comprehension with unanswerable questions

DMRFNet: Deep Multimodal Reasoning and Fusion for Visual Question Answering and explanation generation

Learning cross-modal correlations by exploring inter-word semantics and stacked co-attention

Learning Dual Encoding Model for Adaptive Visual Understanding in Visual Dialogue

Cross-modal knowledge reasoning for knowledge-based visual question answering

Cross-modal learning with prior visual relation knowledge

Multimodal feature fusion by relational reasoning and attention for visual question answering

Reasoning on the Relation: Enhancing Visual Representation for Visual Question Answering and Cross-modal Retrieval

Topic correlation model for cross-modal multimedia information retrieval