《电子技术应用》
您所在的位置:首页 > 人工智能 > 业界动态 > 【ChatGPT专题】ChatGPT国内“遍地开花”:堵点在哪,隐患何在

【ChatGPT专题】ChatGPT国内“遍地开花”:堵点在哪,隐患何在

2023-02-17
作者: 查睿 吴丹璐
来源: 懂经
关键词: ChatGPT 人工智能

  前言导读

  “ChatGPT会不会抢走我的饭碗?”时下最热门的话题,无疑是这个AI聊天机器人。人工智能上一次这么火,或许还是谷歌Alpha Go打败柯洁的时候。

  有业内人士认为,ChatGPT这一现象级的产品将开启人工智能产业的2.0时代,引领新的产业趋势。虽然目前市场反应火热,但从产业角度来看,ChatGPT的商业化路径和安全防护还处于探索初期。

  先别担心“AI与人是敌是友”的哲学命题,ChatGPT到底能火多久,或许它自己也没有答案。

  01

  巨头入场,个人“淘金”

  几乎同一时刻,谷歌和百度宣布同一件事:要做自己的ChatGPT。

  日前,谷歌CEO桑达尔·皮查伊宣布,公司正在推出一项名为Bard的对话式AI服务,以测试用户的反馈,随后将在未来几周内公开发布。百度也宣布推出国产版“ChatGPT”文心一言,一位接近百度相关人士向懂经哥透露,文心一言落地之后,首站将直接接入百度搜索,“一些相关功能已陆续在百度搜索内上线或内测,包括多答案回复、智能生成等。”

  ChatGPT主创团队OpenAI背后的微软更是乘胜追击,将GPT—3.5升级版整合进必应搜索、Edge浏览器和Office办公套件中,宣称比ChatGPT的功能更强大。

  除了搜索巨头之外,国内不少互联网企业也开始涉足以ChatGPT为代表的AIGC(人工智能自动生成内容)技术的垂直领域产品。

  据悉,阿里巴巴达摩院正在研发类ChatGPT的对话机器人,目前处于内测阶段,可能将AI大模型技术与钉钉深度结合。360公司在答投资者问时表示,类似的AIGC技术目前作为内部生产力工具使用,计划尽快推出相关demo版产品。网易有道AI技术团队已聚焦AIGC在教育场景的落地研发,正在AI口语老师、中文作文批改等细分学习场景中尝试探索。

  懂经哥发现,已有“高阶玩家”将原生ChatGPT“嫁接”到国内互联网平台。一名钉钉资深用户在公司的运维群创建故障报警应用时,尝试在“自定义机器人”插件中接入ChatGPT,完成配置后即可自动写开年规划、英文邮件和爬虫代码等。

  ChatGPT尚未面向中国市场开放,但国内已聚集了一批个人“淘金者”,在公众号、小程序上搭建ChatGPT的镜像产品,国内用户在小程序上提问,镜像连接ChatGPT服务器,再将答案转述给用户。懂经哥亲测后发现,该类产品通常可免费试用10次对话,随后需要充值或开通会员方能继续,收费标准从10元至300元不等。有媒体推测,有人两个月以此牟利达数万元。

  在国研新经济研究院创始院长朱克力看来,ChatGPT在国内的突然爆火,主要是技术突破和资本参与的双重结果,“算法、算力和数据是AIGC的‘三驾马车’,随着国内三方面的技术沉淀,AIGC已经实现了不少落地应用,因此ChatGPT自上线以来在技术圈层保持活跃的讨论度,春节后资本市场关注到这一现象后,才实现了面向大众的‘破圈’。”

  02

  一场“烧钱”的试验

  多家科技巨头纷纷入局,打造自己的“ChatGPT”,这意味着产业发展的趋势正在快速调整。复旦大学管理学院信息管理与商业智能系系主任、教授张诚表示,ChatGPT背后技术并没有垄断性,各家都可以做。从技术创新角度来看,OpenAI推出的ChatGPT属于集成或渐进性创新,在模型、数据和算力上实现了进步,但仍非原始创新。

  实际上,人工智能发展多年,聊天机器人早已渗透在我们的日常生活中,苹果的Siri、微软的小冰、百度的小度等等都属于聊天机器人范畴。包括去年曾爆火网络的AI绘画、AI换脸,和ChatGPT也属于同一类型应用。

  相似产品不少,ChatGPT的优势在哪?归结下来就是“拟人化”和“反应快”两点。业内人士介绍,这对应了ChatGPT两方面的特殊性。

  第一,ChatGPT使用了更为通用的NLP(自然语言处理)模型,训练过的话题包罗万象,涵盖人类社会信息的各方各面,而以往智能化应答程度能达到如此高水平的应用大多只聚焦在有限垂直领域;第二,ChatGPT依靠巨大的算力,实现了全内容和实时性的平衡。一般来说,以往大部分聊天机器人使用的是轻量化的语言模型,这样可以保证反应的即时性,完成快速的“你问我答”,但内容的质量也相应有所下降,而ChatGPT的推理时间可能延长至几十秒甚至几分钟,大型语言模型让输出内容的质量得到了极大的提升。

  这两点都对聊天机器人的算法模型和训练数据样本提出了极高的要求。ChatGPT使用的GPT—3.5语言预测模型是此前模型GPT—3的迭代版本。根据公开信息,GPT—3模型包含的参数量达1750亿,训练所用的数据量达45TB。

  45TB数据量是什么概念?一位从业者向懂经哥解释,1MB相当于一本红楼梦的数据量,1TB为100多万本红楼梦的数据量,所以ChatGPT相当于至少看过了4500万本红楼梦的内容。

  正是因为有强大的数据和算力支持,ChatGPT才具备了“以假乱真”的对话能力,实现了超越以往的信息总结能力。再加上其互动感十足的交互设计,引起了用户极大的兴趣,最终引爆了消费市场。

  大数据、大算力并不是一条好走的路,OpenAI至今仍处在剧烈烧钱的状态。ChatGPT每回复一次大概要消耗1美分, 2022年OpenAI的整年亏损已经高达5.45亿美元。国内文本智能处理企业达观数据CEO陈运文表示,看到ChatGPT的横空出世,他与身边的从业者都十分惊讶,因为OpenAI的技术方向此前并不被业界看好。成本高昂,产出的文本质量也不一定很高,导致包括谷歌在内的大部分公司都没有将这一技术方向作为首选。

  “但从目前的结果来看,ChatGPT让大家看到,大规模语言模型确实可以胜任复杂的人类工作,接下来的两三年内,沿着ChatGPT这条技术方向会有越来越多的产品出现。”陈运文说,这款产品可能让AI产业发展大大提速,NLP技术原本需要十几年才能实现的目标已变得近在咫尺。

  03

  商业盈利仍待验证

  AIGC作为一种赋能千行百业的技术,一旦突破必将改变现有的商业生态。上海人工智能研究院总工程师王资凯向懂经哥举例,国外语法纠正知名应用Grammarly在辅助写作领域一家独大,估值最高曾达到130亿美元,但由于ChatGPT的出现,许多初创公司都可以利用其提供的基础设施搭建自己的辅助写作平台,Grammarly技术的独特性和产品的垄断性立刻被打破。

  包括前文所提到的,将ChatGPT嵌入到搜索引擎当中,也将改变搜索引擎的服务模式。王资凯预计,有了大语言模型支持后,搜索网页的内容呈现方式将不同,用户会更直接地接收到信息,用户使用习惯和搜索引擎的盈利模式都可能发生变化。

  ChatGPT已经开始落地化尝试,但总体来看,其商业化进程还处于初期阶段。陈运文认为,由于业界对ChatGPT的看好,此技术方向目前处于“不差钱”的阶段,大家都希望先把产品做出来占领市场,但可持续的盈利模式仍在探索当中,即使是开发者OpenAI也不例外。

  具体来看,根据应用场景的不同,ChatGPT的落地难度也不尽相同。张诚认为,如果将ChatGPT应用到信息总结、文法纠正、创意写作方面,落地速度将非常快,OpenAI提供的基础设施可以直接使用。但如果应用在对正确率要求较高的场景,比如医疗问诊、商业咨询等方面,还需要进一步改善算法在内容正确与表达流畅间的平衡。

  “ChatGPT商业运用的主要挑战还是其内容的真实有效性。”张诚说,即使一项AIGC技术的正确率能达到95%,但对于某些严肃应用场景,1%的差错可能都会导致巨大的决策失误,企业可能需要花费比使用AIGC技术更高的成本去做校对。在这些场景中,目前能使用的AIGC技术仍是“命题发挥”,即在有限的、经过验证的知识文本中自动生成内容。

  微信截图_20230217150150.png

  虽然国内多家机构宣称推出类ChatGPT产品,但国产版“平替”与ChatGPT的差距依然肉眼可见。

  以360公司为例,由于训练数据源及应用方向的原因,在中文环境下的实际效果强于GPT—2,与当前流行的ChatGPT—3有着代际差距。与国外同行相比,国内在中文语料数据资源端有丰富的多模态大数据积累,但在预训练大模型和多模态数据清洗融合技术领域存在较大差距。不少互联网企业或许与360公司有着类似的选择——用充足的资金储备用于购买大规模算力,深入自行研发的同时寻找强有力的合作伙伴,以此来降低技术壁垒。

  “虽然我国在AI领域已有所成就,但主要集中在应用端,技术端仍由美国互联网巨头引领,目前仍有两三年的差距。”朱克力表示,AIGC属于“养成类”产品,除了技术外,“喂养”的内容也非常关键,我国应用市场广大、数据内容丰富,可趁此机会“弯道超车”赶超,“在法律合规的前提下,如何把握好开放、发展与安全的平衡,释放国内的数据内容的潜在价值,值得各方联合探索。”

  04

  既是野兽,也是猎手

  “如同其他人工智能模型一样,ChatGPT是把双刃剑,既可以是提升效率的工具,甚至编写代码。同时也可能被绕过安全机制,用于实施有害的活动。”奇安信虎符智库研究员李建平告诉懂经哥,对网络安全行业来说,以ChatGPT为代表的人工智能工具,既可以用来编写网络钓鱼、生成恶意软件、开展网络攻击,也能成为网络防御者的有力工具。

  奇安信人工智能研究院负责人介绍,美国在暗网中发现了1500多条恶意软件和验证代码中有ChatGPT的身影,甚至还利用恶意代码对ChatGPT进行“培训”,以生成可逃避病毒检测的恶意代码不同变体,研究人员已经确定ChatGPT可以有效生成信息窃取器、远程访问木马和加密货币窃取器等。

  此外,ChatGPT还降低了网络犯罪的门槛,即便是没有技术的“小白”,也能成为攻击者。境外已有网络钓鱼即服务(即服务是一种软件许可模式)和勒索软件即服务开始向攻击者提供收费工具包,使其可以轻松实施攻击,特别是ChatGPT面向公众免费开放,网络攻击的成本进一步降低。

  目前,国内已经有多家人工智能研究院成立了ChatGPT项目专班,开展该技术在网络安全领域的场景研究和应用,未来将广泛应用于安全产品开发、威胁检测、漏洞挖掘、安全运营及自动化、攻防对抗、反病毒、威胁情报分析和运营、涉网犯罪分析等领域。

  “我们看到ChatGPT相继被Stack Overflow编程问答社区、行业协会和高校‘封杀’,部分原因就是它仍然会生成一些虚假错误内容,并且难以辨别。”李建平说。遗憾的是,迄今为止ChatGPT自动生成的内容依然真假难辨,OpenAI已经发布相关AI内容检测器,但是识别置信度正确率仅为26%,甚至还会将人类创作文本误识别为AI创作,“其象征意义比实际意义更大。”

  网络上有句戏言:“只有魔法才能打败魔法”,同理,只有AI才能打败AI,规避ChatGPT安全隐患的最好办法,或许正是它自己。

  “ChatGPT可以在网络钓鱼检测、漏洞发现和事件分析与响应三方面提高安全防护力。”李建平表示,ChatGPT能帮助组织识别和标记钓鱼邮件,在接收邮件前进行标记,从而降低网络钓鱼成功的机会,同时训练网络钓鱼检测系统,增强识别相关的模式和语言,以便提高网络钓鱼检测系统的效率。另外,随着ChatGPT人工智能模型的演进,有可能实现漏洞检测和修复的自动化。更有甚者,ChatGPT还可以在检测和响应网络攻击,更快地从数据中创建有关安全事件的报告,辅助IT团队做出安全决策。

  “来自人工智能的威胁并不是新问题,只是ChatGPT展示了一些看起来很可怕的应用。”奇安信人工智能研究院负责人表示,关键要及时意识到ChatGPT的潜在风险并及时采取适当的措施来应对。展望未来,ChatGPT也可能是一个信号,表明距离网络防御决策的更高自动化不再遥远。


敬请关注电子技术应用2023年2月22日==>>商业航天研讨会<<


微信图片_20230210170337.jpg

本站内容除特别声明的原创文章之外,转载内容只为传递更多信息,并不代表本网站赞同其观点。转载的所有的文章、图片、音/视频文件等资料的版权归版权所有权人所有。本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如涉及作品内容、版权和其它问题,请及时通过电子邮件或电话通知我们,以便迅速采取适当措施,避免给双方造成不必要的经济损失。联系电话:010-82306118;邮箱:aet@chinaaet.com。