《EEE-Bench: A Comprehensive Multimodal Electrical And Electronics Engineering Benchmark》(https://arxiv.org/abs/2411.01492),对电气与电子工程(EEE)领域的多模态基准测试集,包含2860个问题,覆盖10个核心子领域,旨在评估大型多模态模型解决实际工程任务的能力。通过对17个开源和闭源模型的测试发现,现有LMMs在该基准上表现不佳,平均准确率仅为19.48%-46.78%,闭源模型(如GPT-4o准确率46.78%)整体优于开源模型,且存在“懒惰性”,即过度依赖文本信息而忽视关键视觉语境,主要错误源于推理失误(50.3%)和图像感知错误(26.5%)**。
评估基准《CIRCUIT: A Benchmark for Circuit Interpretation and Reasoning Capabilities of LLMs》(https://arxiv.org/pdf/2502.07980),模拟电路解释与推理能力的CIRCUIT基准数据集,该数据集包含102个模板衍生的510个问答对,涵盖基础、模拟、功率和射频四大类电路主题及三个难度等级,通过网表辅助理解和单元测试式评估设计,对GPT-4o、GPT-4-turbo和Gemini1.5-pro三款模型进行测试,结果显示GPT-4o表现最佳,全局准确率达48.04%,但仅能通过27.45%的单元测试。
数据规模上,包括102个模板,510个问答对(每模板对应5个不同数值配置);数据来源上,改编自MIT公开课(6.002等)、经典教材(《Analysisand Design of Analog Integrated Circuits》等)及原创问题;数据构成上,含模板问题、电路图(93个模板含图)、网表(79个模板含网表,语法适配修改)、数值配置;分类体系上,涉及类别:基础(37.3%)、模拟(18.6%)、功率(17.6%)、射频(5.9%);难度等级:1级(本科新生)、3级、5级。
第三个评估基准《MMCircuitEval: A Comprehensive Multimodal Circuit-Focused Benchmark for Evaluating LLMs》(https://arxiv.org/abs/2507.19525),针对电子设计自动化(EDA)领域的多模态基准测试集,包含3614个精心筛选的问答对,覆盖数字与模拟电路的四大设计阶段(通用知识、设计规范、前端设计、后端设计),按测试能力(知识、理解、推理、计算)和难度等级分类,数据来源涵盖教材、技术题库、数据表等并经专家审核;通过BLEU、ROUGE等四项指标结合加权评估,实验显示现有大模型在该基准上表现不佳,尤其在后端设计和计算类任务中存在显著性能差距,而针对性训练数据、优化图像处理策略及思维链(CoT)推理等方法可有效提升模型性能。
第四个《CircuitSense: A Hierarchical Circuit System Benchmark Bridging Visual Comprehension and Symbolic Reasoning in Engineering Design Process》(https://arxiv.org/pdf/2509.22339),聚焦电路系统视觉-数学推理能力的层级化基准测试,包含8006个问题,覆盖从电阻网络到系统级框图的6个层级,涵盖感知、分析、设计三大任务类别,通过精选教材题目与层级化合成生成pipeline(含电路图和框图生成器,带自动推导的符号方程标签)构建数据集;对6款主流多模态大模型的评估显示,闭源模型在组件识别等感知任务上准确率超85%,但在符号方程推导等分析任务上准确率不足19%。
数据来源上,精选题目(2,986个):来自教材【选取全球高校主流电路教材,包括《Analysis and Design of Analog Integrated Circuits》(Gray)、《Design of Analog CMOS Integrated Circuits》(Razavi)等经典著作】、课程【多伦多大学 ECE331(模拟电子)、佐治亚理工 ECE6412(模拟集成电路设计)等高校课程作业、考试真题】以及平台【电路设计社区及在线资源(Learn Electronics India、All About Circuits、Chegg 等】;合成题目(5,020个):通过层级化合成生成pipeline构建,思路就是基于网格布局+电气规则约束,生成结构多样、电气有效的模拟电路,自动提取符号方程。
评测集《AMSbench: A Comprehensive Benchmark for Evaluating MLLM Capabilities in AMS Circuits》(https://arxiv.org/pdf/2505.24138),用于测试多模态大语言模型在模拟/混合信号(AMS)电路领域能力的综合基准,包含约8000个测试题,覆盖电路原理图感知、电路分析、电路设计三大核心任务及多难度层级,测试了8个主流开源与专有模型(如Gemini2.5Pro、Qwen2.5-VL等)。结果显示,现有模型在基础组件识别和简单分析任务中表现尚可,但在复杂多模态推理、完整网表生成、系统级电路设计及测试台生成等任务中存在显著局限。
整合学术论文、教材、商业数据手册、EDA工具,经规则生成+人工标注+质量控制构建。总计约8000道。
收集各类研究论文、教材(、商业电路数据手册及电子设计自动化(EDA)工具相关资料。