Disambiguity and Alignment: An Effective Multi-Modal Alignment Method for Cross-Modal Recipe Retrieval

Zou, Zhuoyang; Zhu, Xinghui; Zhu, Qinying; Zhang, Hongyan; Zhu, Lei

doi:10.3390/foods13111628

Open AccessArticle

Disambiguity and Alignment: An Effective Multi-Modal Alignment Method for Cross-Modal Recipe Retrieval

by

Zhuoyang Zou

,

Xinghui Zhu

,

Qinying Zhu

,

Hongyan Zhang

and

Lei Zhu

^*

College of Information and Intelligence, Hunan Agricultural University, Changsha 410128, China

^*

Author to whom correspondence should be addressed.

Foods 2024, 13(11), 1628; https://doi.org/10.3390/foods13111628

Submission received: 30 April 2024 / Revised: 20 May 2024 / Accepted: 20 May 2024 / Published: 23 May 2024

(This article belongs to the Special Issue Applications of Artificial Intelligence in Food Industry)

Download

Browse Figures

Versions Notes

Abstract

As a prominent topic in food computing, cross-modal recipe retrieval has garnered substantial attention. However, the semantic alignment across food images and recipes cannot be further enhanced due to the lack of intra-modal alignment in existing solutions. Additionally, a critical issue named food image ambiguity is overlooked, which disrupts the convergence of models. To these ends, we propose a novel Multi-Modal Alignment Method for Cross-Modal Recipe Retrieval (MMACMR). To consider inter-modal and intra-modal alignment together, this method measures the ambiguous food image similarity under the guidance of their corresponding recipes. Additionally, we enhance recipe semantic representation learning by involving a cross-attention module between ingredients and instructions, which is effective in supporting food image similarity measurement. We conduct experiments on the challenging public dataset Recipe1M; as a result, our method outperforms several state-of-the-art methods in commonly used evaluation criteria.

Keywords: cross-modal recipe retrieval; multi-modal alignment; food image ambiguity; deep learning

Share and Cite

MDPI and ACS Style

Zou, Z.; Zhu, X.; Zhu, Q.; Zhang, H.; Zhu, L. Disambiguity and Alignment: An Effective Multi-Modal Alignment Method for Cross-Modal Recipe Retrieval. Foods 2024, 13, 1628. https://doi.org/10.3390/foods13111628

AMA Style

Zou Z, Zhu X, Zhu Q, Zhang H, Zhu L. Disambiguity and Alignment: An Effective Multi-Modal Alignment Method for Cross-Modal Recipe Retrieval. Foods. 2024; 13(11):1628. https://doi.org/10.3390/foods13111628

Chicago/Turabian Style

Zou, Zhuoyang, Xinghui Zhu, Qinying Zhu, Hongyan Zhang, and Lei Zhu. 2024. "Disambiguity and Alignment: An Effective Multi-Modal Alignment Method for Cross-Modal Recipe Retrieval" Foods 13, no. 11: 1628. https://doi.org/10.3390/foods13111628

APA Style

Zou, Z., Zhu, X., Zhu, Q., Zhang, H., & Zhu, L. (2024). Disambiguity and Alignment: An Effective Multi-Modal Alignment Method for Cross-Modal Recipe Retrieval. Foods, 13(11), 1628. https://doi.org/10.3390/foods13111628

Note that from the first issue of 2016, this journal uses article numbers instead of page numbers. See further details here.

Article Menu

Disambiguity and Alignment: An Effective Multi-Modal Alignment Method for Cross-Modal Recipe Retrieval

Abstract

Share and Cite

Article Metrics

Article Access Statistics

Further Information

Guidelines

MDPI Initiatives

Follow MDPI