机械荟萃山庄

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 898|回复: 7

再议chatGPT

[复制链接]

296

主题

6734

帖子

3万

积分

论坛元老

Rank: 8Rank: 8

积分
35895
发表于 2023-4-19 10:48:56 | 显示全部楼层 |阅读模式


首先由于每个人的认知水平,所处的行业,知识储备大相径庭,导致
了每个人对问题看法的深度和广度千差万别。首先我代表的看问题
的角度是传统制造业。


先下一个结论:这轮人工智能发展是革命性的突破,就像90年代后期

互联网爆发一样,并且这次人工智能对社会的变革比互联网那个
年代影响更深刻。

这是我花了一个月学习nlp基础技术后得出的感慨。人工智能的元
年应该是2018年,之前的人工智能的发展我个人觉得只能是机器
学习不管计算机视觉(包括自动驾驶,图像识别,),语言识别
,自然语言处理等等都属于传统的机器学习包括深度学习。2017年
谷歌研究院的一众人员发表的论文“Attention is All You Need" 介绍了
一种逐渐演变的新的自然语言处理模型架构叫做Transformer. 因为这个
论文的出现横扫了几乎2017以前所有的nlp领域的模型什么LSTM, GRU,
CNNseq等等。引发nlp领域的快速发展著名的是OpenAI GPT(Jun 2018)
Google BERT(Oct 2018)  OpenAI GPT2(2019)  Google XLNet (2019)
OpenAI GPT3(2020) ChatGPT(2022) Google Bird(2022)等。当然后续
这些模型对原始transformer模型做了非常多的优化。

这个架构的强大之处在于根据特定的数据集和任务,可以进行快速的
强化学习。现在GPT和BIRD都还是通过公开的数据源(维基百科和公开网站
爬行)进行词向量的巨大量的训练得到词向量。可以这样说,目前为止
的AI模型能达到的最大高度就是一个全能学科的本科生水平,个别领域能
达到硕博水平,可以理解为通识教育水平的全能。特别是它的编程能力可以
达到登峰造极的水平,因为微软用于的Github上有海量的代码库可供训练。

你要问一下现在AI模型对IT以外的领域比如汽车,自动化,油气,手机,电脑
等传统领域,他的认知水平怎么样,大概率是一个门外汉。只能对宏观和表象
东西的进行侃侃而谈。究其原因,因为每个特定领域的知识对外是封闭的
比如行业标准,企业规范,工艺参数,实验数据都不完全对外公开。即使对外
公开现在AI框架也很难学习,比如不同的图和表格,产品,特定的数学公式和
模型等等,都不是文本模式去描述的。再者,这些数据库在学习的过程中要进
行特别的调教和标记进行重点学习,这个需要专业人士去进行指导。未来的发
展方向人工智能应用到各行各业甚至到每个大公司,他们作为一个超级助手,
大大简化流程,提升办公效率,较低交流成本,只不过这个这个AI模型需要高
度定制化。谷歌正在干这个事情,商用推广变现。

你可这样设想,人工智能历程是经历了婴儿,儿童,少年一直到青年,现在他
已经是大学本科通识教育毕业了,所以人们惊奇的发现AI的认知和逻辑能力竟然
和自己平起平坐,在自己熟悉的领域他表现像个正常的思维的人,自己不熟悉的
领域他们俨然像个专家,特定领域比如编程,写作像个超人一样。接下来的发展
就是AI本科毕业要工作了,进入各行各业工作,快速学习成长,其成长过程就是
根据已有的通识知识,学习新的行业标准,企业规范,各种产品,各种参数。

现在国内的企业蜂拥而上每个企业都想推出自己的AI产品,虽然我不知道他们
怎们玩的,但是按照我国企业发展的思路就是找到本尊仿制,具体来说就是用
现成的架构和开源模型比如Google的BERT,Meta OPT, OpenAI的GPT1/2等拿
回来修修补补,用汉语预料进行训练,宣布自主开发的。自尊心稍强的公司可能
使用谷歌的tensorflow和脸书的torch来自己搭建模型,进行精细化的调教。

汉语环境发展AI个人看来有几个难点:
1. 网页数据数量和质量极具下降,有分析称函数网页数量现在已不及越南语
数量了。
2. 众所周知的原因,一些文章和单词被屏蔽,导致大量的”通假“词和字在互联网上。
3. 现阶段的AI模型发展是英文环境下发展而来的,英文和中文有很大的不同。英文
不需要”分词“,汉语需要”分词“,英文属于精细化和专业性语言,而汉语属于通用
和组合语言。语法上也有较大不同。
4. 世界上重要的权威的文献,95%都是英文的,汉语可能不到0.5%,语料库严重
  不足。




评分

参与人数 4威望 +12 收起 理由
wo103838 + 3 给力!
小南 + 3 赞一个!
专科生MAX + 3 很给力!
wyc3158 + 3 赞一个!

查看全部评分

回复

使用道具 举报

发表于 2023-4-19 11:20:10 | 显示全部楼层
因为人会犯错误,所以要引入机器设备,引入专用工具,同时编制SOP,不断学习,刻意训练,然后规范操作,
嗯,这很德国,很日耳曼。

美,英,盎撒,另外一套思维,能揍赢它。

点评

他和人成长一样,他接受了虚假信息自然会向外放虚假消息,除非事先把虚假数据集剔除掉,那人也是尽量避免虚假消息才能不被洗脑  发表于 2023-4-19 13:01
回复 支持 0 反对 1

使用道具 举报

266

主题

1万

帖子

5万

积分

超级版主

Rank: 8Rank: 8

积分
58854
发表于 2023-4-19 11:13:04 | 显示全部楼层
反正要摒弃国产货

点评

一方文化养一方产品,  发表于 2023-4-19 13:02
回复 支持 反对

使用道具 举报

36

主题

633

帖子

8509

积分

论坛元老

Rank: 8Rank: 8

积分
8509
发表于 2023-4-19 11:36:39 | 显示全部楼层
我问它一些学术性的问题,答案基本都不行。包括它给的所谓那些论文都不存在。我们基本确认学术搜索可以拿它来发散,之后自己再去找对应文章读。很多假消息。
所以Musk说要做TruthGPT,还是很有道理的。
回复 支持 反对

使用道具 举报

2万

主题

2万

帖子

17万

积分

超级版主

Rank: 8Rank: 8

积分
171037
发表于 2023-4-19 12:28:30 | 显示全部楼层


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x

点评

Rubbish in, Rubbish out.  发表于 2023-4-19 13:14
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|小黑屋|手机版|Archiver|机械荟萃山庄 ( 辽ICP备16011317号-1 )

GMT+8, 2024-9-21 13:23 , Processed in 0.095756 second(s), 23 queries , Gzip On.

Powered by Discuz! X3.4 Licensed

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表