《电子技术应用》
您所在的位置:首页 > 人工智能 > 业界动态 > 2023 的人工智能之年

2023 的人工智能之年

2023-12-29
来源:CSDN

2023 年,人工智能领域无疑成为了行业的焦点,带来了深刻的变革。本文概述了这一年中最有影响力的大事件,这些事件预示着这一创新领域未来的发展方向。

人工智能的发展

不像去年的 ChatGPT图像生成器的推出那样革命性的创新,今年的人工智能发展虽然取得了显著的成就,但主要是专注于现有技术的完善。尽管没有带来令人震惊的效果,真正的通用人工智能(AGI)仍然还有很长的路要走,但今年是从过去的重大突破向更加强大的技术转变的过渡期。为了更好地展示这一转变,我们制作了一张基于时间线的路线图:

1.png

图像生成

Adobe Firefly:Adobe Firefly 和 Generative Fill 为多样化的视觉内容创作提供了强大的支持,这包括插画、艺术概念设计和照片编辑。Adobe Firefly 被集成进 Photoshop,从而普及了 AI 技术,使其得以广泛服务于更多用户。此外,文本效果功能的推出,也标志着技术的一大进步,使用户能够将特定风格或纹理应用于文字和短语。

Midjourney:Midjourney 的 V.5 模型在图像生成领域是一个重要的里程碑,它展示了在效率、连贯性和高分辨率方面的显著改进。最新的 alpha 版本,Midjourney V.6,引入了额外的增强功能,如更精准的提示跟随、扩展的模型知识库和一定程度的文本绘制能力。

DALL·E 3:基于 ChatGPT 的 DALL·E 3 简化了图像生成过程,减少了复杂提示工程的需求。此外,ChatGPT 还引入了一项帮助用户根据反馈优化提示,进而调整图像效果的功能。

Shutterstock.AI:Shutterstock,一家图库巨头,通过集成 AI 功能,让用户可以把文字提示转换成可授权使用的图像。Shutterstock 采取了保护艺术家权益和报酬的措施,这在AI内容创作领域是前无古人的,可以看作是 AI 道德发展的第一个重要举措。

2.png

2007 年与 2023 年文本到图像算法的演进

视频生成

Stability AI:Stability AI 推出了 Stable Video Diffusion,一个创新的开源视频生成模型,已在 GitHub 上开源。它有望在 AI 生成视频的各个领域发挥关键作用,这与 AI 图像生成趋势 是相辅相成的。

HeyGen:一家 AI 创业公司推出了一款集声音克隆、嘴唇动作调整和语言翻译于一体的视频工具。

Runway Gen-2:Runway 发布了 Gen-2 模型,用户现可仅用文本提示、图像或视频轻松生成完整视频。

Pika 和 Pika 1.0: 首次发布便吸引了五十万用户,每周产生数百万视频。随后,Pika 1.0 的升级版 AI 模型让用户能够更多样化地创作和编辑视频,风格涵盖 3D 动画、动漫、卡通到电影等。

Meta 的 Codec Avatars:Meta 的 Pixel Codec Avatars(PiCA)模型使我们在视频通话中看到更逼真的 3D 人脸,使远程会议效果更接近真实。

文本生成

Bard 和 Gemini:Google 的 Bard 为聊天机器人领域引入了更贴近人类的情感和情绪。Google 在 Bard 聊天机器人中融入了基于多模态数据集训练的 Gemini,它被誉为目前“最强大”的 AI 模型,是 OpenAI 的 ChatGPT 最强的竞争对手之一。

Grok:Elon Musk 的创业公司 xAI 展示了其对 AI 开发的承诺,并可能与 OpenAI 展开竞争。他们发布了 “Grok”,这是一款具有幽默感、反叛精神,并通过 𝕏 平台获得实时知识的聊天机器人。xAI 承诺,Grok 被设计来 回答其他 AI 系统拒绝的挑衅性问题。

OverflowAI:Stack Overflow 的 OverflowAI 加强了知识整理能力,支持在 Visual Studio Code 和 Slack 中进行 AI 驱动的答案搜索。

Llama 2:Meta 发布了 Llama 2,这是其开源大型语言模型的最新版本,显示了效率方面的提升。Meta 的精调 LLM 在对话用例中经过优化,多数基准测试中超过其他开源模型。

GPT-4:OpenAI 的 GPT-4 现在可以处理图像输入,生成标题、分类,进行听说交流,并支持 实时网页浏览。OpenAI 扩展了插件支持,推动了开源生态系统的发展。GPT-4 代表了 OpenAI 在开发通用人工智能(AGI)路上的下一步。

Mistral 7B:Mistral AI 在今年 估值达到约 20 亿美元,发布了 Mistral 7B,一款挑战 GPT-4 和 Claude 2 的大型语言模型。Mistral AI 强调其技术开放性,免费提供模型的下载。

Mixtral 8x7B:Mistral AI 还推出了 Mixtral 8x7B,这是一个高质量的稀疏专家混合模型(SMoE),拥有开放权重和总计 46.7B 的参数,代表了在提高真实性和减少偏见方面模型开放性的新阶段。

Yi-34B llm:今年估值达到 10 亿美元,李开复的创业公司 01.AI 发布了 Yi-34B —— 一款开源神经网络模型,参数数量超过竞争对手,强调了它在成本和效率方面的优势。



weidian.jpg

本站内容除特别声明的原创文章之外,转载内容只为传递更多信息,并不代表本网站赞同其观点。转载的所有的文章、图片、音/视频文件等资料的版权归版权所有权人所有。本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如涉及作品内容、版权和其它问题,请及时通过电子邮件或电话通知我们,以便迅速采取适当措施,避免给双方造成不必要的经济损失。联系电话:010-82306118;邮箱:aet@chinaaet.com。