为此,研究者从《猫和老鼠》《熊出没》《憨豆先生》《小谢尔顿》等节目中整理出超过81小时、5.2万段视频,并用GPT-4o自动生成结构化字幕,把每个片段都标成「谁做了什么」的格式: ...