机械荟萃山庄

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 62|回复: 2

大模型AI看不懂电路图

[复制链接]

2万

主题

3万

帖子

20万

积分

超级版主

Rank: 8Rank: 8

积分
203763
发表于 7 小时前 | 显示全部楼层 |阅读模式
《EEE-Bench: A Comprehensive Multimodal Electrical And Electronics Engineering Benchmark》(https://arxiv.org/abs/2411.01492),对电气与电子工程(EEE)领域的多模态基准测试集,包含2860个问题,覆盖10个核心子领域,旨在评估大型多模态模型解决实际工程任务的能力。通过对17个开源和闭源模型的测试发现,现有LMMs在该基准上表现不佳,平均准确率仅为19.48%-46.78%,闭源模型(如GPT-4o准确率46.78%)整体优于开源模型,且存在“懒惰性”,即过度依赖文本信息而忽视关键视觉语境,主要错误源于推理失误(50.3%)和图像感知错误(26.5%)**。



数据规模上,包括2860个全新问题,无重复现有数据集。
子领域覆盖上,包括10个核心方向:1.数字逻辑电路与微处理器设计;2.电路理论与网络分析;3.模拟电路;4.电力电子与电力系统;5.信号与系统;6.通信系统;7.控制系统;8.电子设备;9.电机;10.电磁学;
问题与答案类型上,设计问题类型:选择题(2059个)、自由形式题(801个);答案类型:文本(2059个)、浮点数(595个)、整数(204个)、列表(2个);
视觉特征上,包含高分辨率、语境丰富的视觉输入,如电路diagram、系统结构图、电子组件图像、图表等,视觉逻辑抽象且复杂。
数据筛选上,两阶段过滤:1.同一答案出现在至少两个来源;2.排除文本仅模型可双解的问题,确保视觉信息必要性。


测试模型共17个,包括Llava-1.6-7B、InternVL2-26B、GLM-4V-9B等9个开源LMMs、GPT-4o、GPT-4V、Gemini-Pro1.5、Qwen-VL-Max等7个闭源LMMs,并对比1个LLM(基线),GPT-4(文本仅输入)。输入基线包括两种:1.纯文本输入(隐藏视觉信息);2.文本+GPT-4o生成的图像描述输入。


整体模型排序结果为:GPT-4o(46.78%)> Gemini-Pro 1.5(41.99%)> GPT-4V(40.21%);开源模型中 InternVL2-26B 最优(26.89%)。
闭源模型(平均35.28%)比开源模型(平均23.19%)准确率高约12个百分点;
对简单视觉+高计算需求的子领域(如ED、ComS)表现较好,对复杂视觉+强推理需求的子领域(如CTNA、AC)表现差;



从表现分析上看,主要原因包括如下几个:
50.3%的错误源于推理能力不足(能读取图像但无法正确推理,如忽视电路组件位置关系),26.5%源于图像感知错误(无法理解复杂图像构成,如多反馈回路的运算放大器电路);
模型过度依赖文本信息,忽视关键视觉语境。
当文本信息与视觉信息冲突时,模型倾向依赖文本而非视觉,即使明确要求基于图像回答,添加虚假文本描述后,GPT-4o准确率下降 7.79%,Gemini-Pro 1.5下降6.78%;
开源模型缺乏领域知识与计算能力,闭源模型在复杂视觉理解上仍有短板。


评估基准《CIRCUIT: A Benchmark for Circuit Interpretation and Reasoning Capabilities of LLMs》(https://arxiv.org/pdf/2502.07980),模拟电路解释与推理能力的CIRCUIT基准数据集,该数据集包含102个模板衍生的510个问答对,涵盖基础、模拟、功率和射频四大类电路主题及三个难度等级,通过网表辅助理解和单元测试式评估设计,对GPT-4o、GPT-4-turbo和Gemini1.5-pro三款模型进行测试,结果显示GPT-4o表现最佳,全局准确率达48.04%,但仅能通过27.45%的单元测试。

数据规模上,包括102个模板,510个问答对(每模板对应5个不同数值配置);数据来源上,改编自MIT公开课(6.002等)、经典教材(《Analysisand Design of Analog Integrated Circuits》等)及原创问题;数据构成上,含模板问题、电路图(93个模板含图)、网表(79个模板含网表,语法适配修改)、数值配置;分类体系上,涉及类别:基础(37.3%)、模拟(18.6%)、功率(17.6%)、射频(5.9%);难度等级:1级(本科新生)、3级、5级。

表现差异显著,整体排名为GPT-4o>GPT-4-turbo>Gemini1.5-pro。

具体来看,GPT-4o全局准确率达48%,模板准确率(@5/5)27.45% ,是唯一在全局和模板指标上均领先的模型;

GPT-4-turbo全局准确率39.2%,模板准确率22.6%,在1-shot提示下有小幅提升;Gemini1.5-pro表现最差,全局准确率36.3%,且无法有效利用网表和1-shot提示的辅助信息。

分析上看,当前多模态模型做电路图解析的主要挑战集中在三方面:
1)复杂拓扑理解:模型难以准确识别电路组件的连接关系(如电阻串并联误判),即使提供网表也存在利用率不足的问题;
2)推理逻辑缺陷:拓扑误解(36.2%)、方向误解(4.1%)等推理误差占比达58.5%,是核心短板;3)上下文与指令遵循:部分模型无法适配具体电路场景,存在hallucination(如虚构运放虚拟地配置)或未遵循格式要求的问题。


第三个评估基准《MMCircuitEval: A Comprehensive Multimodal Circuit-Focused Benchmark for Evaluating LLMs》(https://arxiv.org/abs/2507.19525),针对电子设计自动化(EDA)领域的多模态基准测试集,包含3614个精心筛选的问答对,覆盖数字与模拟电路的四大设计阶段(通用知识、设计规范、前端设计、后端设计),按测试能力(知识、理解、推理、计算)和难度等级分类,数据来源涵盖教材、技术题库、数据表等并经专家审核;通过BLEU、ROUGE等四项指标结合加权评估,实验显示现有大模型在该基准上表现不佳,尤其在后端设计和计算类任务中存在显著性能差距,而针对性训练数据、优化图像处理策略及思维链(CoT)推理等方法可有效提升模型性能。

总规模3614个问答对,经手动筛选(剔除简单、信息缺失、无法公平评估的问题)和校正。数据来源开源教材、技术题库、在线资源、42份产品数据表、真实RTL代码、网表等,部分问题经人工设计(如98个Verilog代码片段、185个模拟电路计算题)。
知识类型上,包括:通用知识(604个,16.7%)、设计规范(490个,13.6%)、前端设计(1516个,41.9%)、后端设计(1004个,27.8%)。电路类型上,包括数字电路(50.0%)、模拟电路(50.0%),各阶段占比均衡(如前端设计:数字46.0%、模拟54.0%);
数据模态上,文本仅(58.4%)、多模态(41.6%),通用知识无多模态问题。
问题类型上,单选(738个,20.4%)、多选(86个,2.4%)、填空(396个,11.0%)、开放式(2394个,66.2%)。
测试能力上,知识类(1446个,40.0%)、理解类(410个,11.3%)、推理类(832个,23.0%)、计算类(926个,25.6%)。
难度等级上,简单(15.2%)、中等(58.7%)、困难(26.1%),其中,带解释的问答对 2271个(62.8%)。

评估方面,包括三类模型(文本仅LLMs、图像编码类MLLMs、图像转文本类MLLMs),涵盖30+主流模型及变体。
评估指标上,综合四项文本相似度/正确性指标,加权计算最终得分(GPT偏好(2)、其他三项各1):【BLEU(4-gram)评估输出无误导信息+ROUGE(1-gram/2-gram/最长公共子序列平均)评估关键信息完整性+嵌入余弦相似度(Text-Embedding-3-Large)评估语义一致性+GPT偏好(GPT-4turbo)专家视角正确性评级+】。

GPT-4v整体得分最高,为69.4%。前端设计(平均69.7%)>通用知识(62.9%)>设计规范(65.2%)>后端设计(41.1%);理解类(67.8%)>知识类(62.4%)>推理类(60.6%)>计算类(45.5%);
textonly模型的任务准确率(平均60.9%)高于多模态(58.7%),差距2.2%-13.5%,但例外是GPT模型家族多模态表现更优(如GPT-4v文本仅66.5%,多模态73.6%)。


后端设计任务表现最差:平均准确率比其他阶段低12.0%-21.8%,原因是后端设计涉及专用布局、布线知识,多模态依赖强,而现有LLM训练数据中此类场景稀缺,且视觉-空间关系理解难度高;
计算类任务准确率最低:比知识类任务低8.9%-15.1%,原因是电路计算需特定电子规则和公式,通用LLM训练数据中领域专用计算知识覆盖不足;
多模态处理能力不足:多数模型多模态任务准确率比文本仅任务低2.2%-13.5%,原因是通用视觉编码器未经过电路数据训练,易生成错误视觉嵌入,误导LLM骨干网络。


第四个《CircuitSense: A Hierarchical Circuit System Benchmark Bridging Visual Comprehension and Symbolic Reasoning in Engineering Design Process》(https://arxiv.org/pdf/2509.22339),聚焦电路系统视觉-数学推理能力的层级化基准测试,包含8006个问题,覆盖从电阻网络到系统级框图的6个层级,涵盖感知、分析、设计三大任务类别,通过精选教材题目与层级化合成生成pipeline(含电路图和框图生成器,带自动推导的符号方程标签)构建数据集;对6款主流多模态大模型的评估显示,闭源模型在组件识别等感知任务上准确率超85%,但在符号方程推导等分析任务上准确率不足19%。

数据来源上,精选题目(2,986个):来自教材【选取全球高校主流电路教材,包括《Analysis and Design of Analog Integrated Circuits》(Gray)、《Design of Analog CMOS Integrated Circuits》(Razavi)等经典著作】、课程【多伦多大学 ECE331(模拟电子)、佐治亚理工 ECE6412(模拟集成电路设计)等高校课程作业、考试真题】以及平台【电路设计社区及在线资源(Learn Electronics India、All About Circuits、Chegg 等】;合成题目(5,020个):通过层级化合成生成pipeline构建,思路就是基于网格布局+电气规则约束,生成结构多样、电气有效的模拟电路,自动提取符号方程。


评估6款主流MLLMs(闭源:GPT-4o、Gemini-2.5-Pro、Claude-Sonnet-4;开源:InternVL3-78B、Qwen2.5-VL-72B、GLM-4.5V);
评估方式上,对于选择题使用精确答案匹配(标准化格式后);对于开放题使用LLM-as-a-judge(Gemini-2.5-Flash)评估数学等价性;对于符号表达式,使用SymPy工具链(解析→代数化简→符号减法验证→数值验证);对于设计任务,使用Ngspice仿真+Skywater130nmPDK验证。



感知任务上,准确率85%-100% (Gemini-2.5-Pro;组件检测/连接识别100%); 功能分类准确率12%-26%,连接识别68%-78% 。感知非闭源模型瓶颈,开源模型视觉处理薄弱;
分析任务上,最高19.06% (Gemini-2.5-Pro),Transfer Function 分析8%以下。符号推理是核心瓶颈,依赖模式匹配而非推导;
设计任务上,Gemini-2.5-Pro最优:原理图级36.38%、模块级67.27%、层级化51.35%;原理图级7.01%-15.79%,模块级30.91%-52.73%;符号推理能力与设计性能正相关。



闭源模型在组件检测、连接识别等感知任务上准确率超85%,但在符号方程推导、瞬态响应分析等核心推理任务上准确率不足19%,开源模型表现更差(合成题推理准确率低于 4%);
此外,模型在精选教材选择题(可依赖训练数据模式匹配)上表现较好(如 Gemini-2.5-Pro 达 80.71%),但在无答案选项、需直接推导的合成题上性能急剧下滑,暴露其缺乏真正的数学推理能力。



这个的工作发现,符号推理能力是MLLMs完成电路设计任务的核心前提:评估结果显示,符号推导能力更强的模型(如Gemini-2.5-Pro)在设计任务中表现显著更优,其框图级设计准确率达67.27%、层级化设计达 51.35%、原理图级达36.38%,均超其他模型;
符号推理能力薄弱的模型(如开源的InternVL3-78B),设计任务准确率普遍低于 30%,证明只有具备从视觉电路中提取数学关系的能力,模型才能真正辅助工程设计,而非单纯的模式匹配。



1、https://arxiv.org/abs/2411.01492
2、https://arxiv.org/pdf/2502.07980
3、https://arxiv.org/pdf/2408.0804
4、https://arxiv.org/pdf/2509.22339


评测集《AMSbench: A Comprehensive Benchmark for Evaluating MLLM Capabilities in AMS Circuits》(https://arxiv.org/pdf/2505.24138),用于测试多模态大语言模型在模拟/混合信号(AMS)电路领域能力的综合基准,包含约8000个测试题,覆盖电路原理图感知、电路分析、电路设计三大核心任务及多难度层级,测试了8个主流开源与专有模型(如Gemini2.5Pro、Qwen2.5-VL等)。结果显示,现有模型在基础组件识别和简单分析任务中表现尚可,但在复杂多模态推理、完整网表生成、系统级电路设计及测试台生成等任务中存在显著局限。
整合学术论文、教材、商业数据手册、EDA工具,经规则生成+人工标注+质量控制构建。总计约8000道。
收集各类研究论文、教材(、商业电路数据手册及电子设计自动化(EDA)工具相关资料。

文档解析方面,借助MinerU工具,将所有文档从PDF格式转换为Markdown格式,以便高效提取电路原理图等嵌入式视觉元素;
对于原理图到网表的转换,采用了AMSnet与OCR,还原元件级连接关系与电路拓扑结构。
为丰富数据集的语义信息,结合领域专家的人工标注与多模态大模型输出结果,得到高质量的“电路原理图-描述”数据对。
针对教材来源的数据,依据各教材的逻辑结构与章节编排进行内容整理;针对数据手册内容,提取每个电路对应的结构化性能指标。
基于上述提取的信息,构建问答数据集:问题通过规则生成与人工设计相结合的方式创建,答案则来源于人类专家与大语言模型。

采用多阶段数据质量控制流程,由专业电路工程师及电路相关领域的博士生、硕士生对生成的数据进行筛选与优化。

感知任务(P),6000道,数据模态包括图像+文本,包括含组件计数(总计数+类型计数)、组件分类、连接判断/识别、位置描述、拓扑生成(网表提取)5个子任务。难度上,按组件数量划分(简单<9个、中等9-16个、困难>16个)。
分析任务(A),2000道,数据模态包括图像+文本+表格,包括含推理、信号波形分析、开关时序分析、电气特性分析、布局分析、电路分区、描述生成、功能识别(文本/图像选项)8个子任务。难度上,按知识层级划分(本科、研究生、工程师级)
设计任务(D),68道,数据模态包括文本+规格要求,含14类电路设计(放大器、振荡器、ADC等)和12类测试台设计(覆盖CMRR、相位裕度等多指标)。难度上,按电路复杂度划分(简单、复杂、系统级)。


测试模型,包括:8个主流MLLM(专有模型:Gemini2.5Pro、GPT-4o等;开源模型:Qwen2.5-VL、Kimi-VL等)。
核心指标包括选择题用准确率(ACC)、多选题用F1分数、网表生成用归一化网表编辑距离(NED)、设计任务用Pass@k(k=3/5/10)



对于感知任务,组件分类:Gemini2.5Pro准确率94%,Qwen2.5-VL(开源最优)86%;网表生成:Gemini2.5Pro NED=0.91(最优),所有模型均难以生成完整无误差网表;连接识别:Gemini2.5ProF1=0.88,开源模型表现普遍落后。
对于分析任务:功能识别:Gemini2.5Pro文本选项ACC 95%、图像选项 ACC 94%;描述生成:Claude-3.7-sonnet总ACC 98%(研究生级100%)。
对于设计任务:电路设计:Grok-3Pass@3=65%,Claude-3.7-sonnet Pass@3=63%,系统级电路(如SAR-ADC)无模型能完成;测试台设计:仅GPT-4o偶尔生成语法正确代码(Syntax@5=8.4%),无模型能生成功能正确测试台(Metric@5=0)。
数据集在:https://huggingface.co/datasets/wwhhyy/AMSBench/tree/main



1、https://arxiv.org/pdf/2505.24138
2、https://arxiv.org/pdf/2405.09045
3、https://arxiv.org/pdf/2505.09155

回复

使用道具 举报

1万

主题

5万

帖子

29万

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
293191
发表于 6 小时前 | 显示全部楼层
主要是缺乏人类的逻辑性智慧,比如我看见电路,立即会联想最基本的原理,同时横行想与外部的各种影响与耦合等等因素,

看电路板,会想一大堆问题 ,比如线长、频率,其它器件的关联 ,板子本身介电常数,等等,而机器想这么玩,就得从头到尾“捋一遍”,效率很低,想提高效率就得忽略一大片东西 ,结果就是傻子

点评

电路图好歹是原理图,逻辑图,而机械设备图纸则完全不同,那意味着AI只会更傻。  发表于 5 小时前
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|小黑屋|手机版|Archiver|机械荟萃山庄 ( 辽ICP备16011317号-1 )

GMT+8, 2026-1-25 17:29 , Processed in 0.092805 second(s), 21 queries , Gzip On.

Powered by Discuz! X3.4 Licensed

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表