SafetyALFRED: Evaluating Safety-Conscious Planning of Multimodal Large Language Models

Josue Torres-Fonseca, Naihao Deng, Yinpei Dai, Shane Storks, Yichi Zhang, Rada Mihalcea, Casey Kennington, Joyce Y. Chai

April 2026

Abstract

SafetyALFRED is a benchmark extending ALFRED with six kitchen hazard categories. We evaluate eleven state-of-the-art models from the Qwen, Gemma, and Gemini families on hazard recognition and risk mitigation through embodied planning. Our findings reveal a significant alignment gap between models' ability to identify hazards via question-answering and their capacity to actively mitigate risks in embodied contexts. We argue that static QA-based evaluations are insufficient for physical safety assessment and advocate for benchmarks that emphasize corrective action in embodied environments.

Type

Conference paper

Publication

Findings of the Association for Computational Linguistics (ACL)

SafetyALFRED: Evaluating Safety-Conscious Planning of Multimodal Large Language Models

Abstract

Josue Torres-Fonseca

Ph.D. Student, NSF GRFP Fellow

Yinpei Dai

Ph.D. Candidate

Shane Storks

Ph.D. Candidate

Yichi Zhang

Ph.D. Candidate

Joyce Y. Chai

Professor