开云(Kaiyun)体育网页-登录入口

回顾2024年重磅AI发布汇总-Kaiyun体育官方网站
欢迎访问Kaiyun体育官方网站

回顾2024年重磅AI发布汇总

首页 > 新闻资讯 > 公司新闻 > 回顾2024年重磅AI发布汇总

回顾2024年重磅AI发布汇总

  2024年在人工智能领域出现了不少值得关注的发布和进展,以下是根据时间线索,对一些亮点突破进行了总结:

  Google 宣布推出Gemini Pro 1.5多模态语言模型,该模型能够解析多达一百万个词,以及解析视频和图像。该模型正在逐步向等待名单上的开发人员发布。

  OpenAI 宣布推出可制作长达一分钟的视频的Sora模型。该模型目前尚未向公众发布。

  Anthropic 宣布推出其大型语言模型的新版本Claude 3。该版本部署了 3 种不同大小的模型,其中最大的模型性能优于 GPT-4。

  X 公司发布了其语言模型Grok-1.5V的升级版,该模型集成了高级图像识别功能。在该公司展示的测试中,该模型在图像识别和分析方面的表现优于其他模型。

  Mistral 公司将其新模型Mixtral 8x22B开源。这是开源模型中最强大的模型,它包含 1410 亿个参数,但采用了一种更经济的方法。

  微软开源了Phi-3-mini模型。该模型的参数精简版本为 3.8B,因此也可以在移动设备上运行,并且具有与 GPT-3.5 类似的功能。

  初创公司Reka AI推出了一系列 3 种大小的多模态语言模型。这些模型能够处理视频、音频和图像。大型模型具有与 GPT-4 类似的功能。

  苹果公司以OpenELM 的名义全面开源了一系列小型语言模型。这些模型有四种权重,参数数量在 2.7 亿到 30 亿之间。

  OpenAI 宣布推出GPT-4o 模型,该模型具有完整的多模态功能,包括接收和创建文本、图像和音频。该模型表现出令人印象深刻的以高响应速度和自然语言说话的能力。该模型的效率是 GPT-4 Turbo 模型的 2 倍,并且对英语以外的语言具有更好的能力。

  Google 宣布其产品中有大量 AI 功能。主要包括:将 Gemini 1.5 的 token 上限提高到 200 万,以加入等待列表,发布更小更快的Gemini Flash 1.5 模型。发布最新的图像创作模型Imagen 3、音乐创作模型Music AI和视频创作模型Veo。并宣布推出具有多模式功能的Astra 模型,用于实时音频和视频接收。

  微软宣布推出用于专用计算机的Copilot+,可通过用户活动的屏幕截图全面搜索用户历史记录。该公司还开源了尺寸最小、功能强大的 SLM:Phi-3 Small、Phi-3 Medium和包含图像识别功能的Phi-3 Vision 。

  Meta 推出了Chameleon,一种可以无缝呈现文本和图像的新型多模式模型。

  谷歌宣布推出AI Overview,旨在对谷歌搜索中的相关信息进行总结。

  苹果宣布推出Apple Intelligence,这是一套将被集成到公司设备中的人工智能系统,它将结合不同规模的人工智能模型来执行不同的任务。

  Anthropic 发布了Claude Sonnet 3.5模型,该模型比其他模型具有更出色的能力且资源占用率更低。

  Google 宣布推出Gemma 2开源语言模型,参数大小分别为 9B 和 27B。此外,该公司还向开发人员开放了上下文窗口功能,最多支持 200 万个 token。

  OpenAI 发布了一款名为GPT-4o mini的微型模型,以低成本提供高性能

  Meta 开源了llama 3.1 模型,尺寸为 8B、70B 和 405B。大型模型具有与最佳闭源模型相同的功能

  Google 开源Gemma 2 2B模型。该模型展现出比大型模型更出色的能力。

  “黑森林实验室”发布了名为Flux的图像生成模型的权重,其性能表现优于同类闭源模型。

  微软推出了三个版本的小型语言模型Phi 3.5,每个版本都展现了相对于其尺寸的令人印象深刻的性能。

  法国人工智能公司 Mistral 推出了Pixtral12B,这是其首个能够同时处理图像和文本的多模式模型。

  OPENAI 向其订阅用户发布了两款下一代 AI 模型:o1 preview和o1 mini。这些模型在性能上表现出显著的提升,特别是在需要推理的任务中,包括编码、数学、GPQA 等。

  阿里巴巴发布了Qwen 2.5模型,大小从 0.5B 到 72B 不等。这些模型展现出与更大模型相当的能力。

  谷歌发布了其人工智能工具NotebookLM的更新,使用户能够根据自己的内容创建播客。

  Meta 推出了Movie Gen,这是一种根据文本输入生成视频、图像和音频的新型 AI 模型。

  初创公司 Rhymes AI 发布了Aria,这是一个开源的多模式模型,其功能与同等规模的专有模型相似。

  Janus AI是一种能够识别和生成文本和图像的多模态语言模型,由 DeepSeekAI 开源发布。

  Google DeepMind 和麻省理工学院推出了Fluid,这是一种文本到图像生成模型,在 105 亿个参数的规模上具有业界领先的性能。

  Anthropic 宣布推出一款可通过公开测试版 API 进行计算机使用的实验性功能。

  文本转图像模型Recraft v3已正式发布,在同类模型跑分中排名第一。

  OpenAI推出了Search GPT,允许用户直接在平台内进行网络搜索。

  阿里巴巴发布了新模型QwQ 32B Preview,该模型集成了响应前的推理能力。该模型与 OpenAI 的 o1-preview 模型竞争,有时甚至超越后者。

  阿里巴巴开源模型Qwen2.5 Coder 32B,其功能可与编码领域领先的专有语言模型相媲美。

  Suno将其 AIpowered 音乐生成器升级到v4,引入了新功能和性能改进。

  谷歌推出了两个实验模型,gemini-exp-1114和gemini-exp-1121,目前以增强的性能引领竞技场聊天机器人。

  OpenAI 发布了视频生成模型SORA,以及面向高级订阅者的O1和O1 Pro完整版。此外,该公司还推出了GPT4o的直播视频模式。

  谷歌发布了实验模型Gemini-Exp-1206,该模型在聊天机器人排行榜上名列第一。

  Google 发布了Gemini 2.0 Flash测试版。该模型在基准测试中处于领先地位,性能优于上一版本Gemini Pro 1.5。此外,Google 开云网址 kaiyun官方入口还推出了实时语音和视频模式,并宣布该模型内置了图像生成功能。

  谷歌推出了Veo 2,这是一款测试版视频生成模型,能够生成长达两分钟的 4K 视频。该模型在人工评估中的表现优于SORA 。此外,谷歌还更新了Imagen 3,提高了图像质量和真实感。

  微软开源了Phi4模型,其尺寸为 14B,展示了其尺寸如此之小却功能如此强大的特点。

  谷歌推出了名为PaliGemma 2的多模式开源模型,与现有的Gemma模型相集成。

  阿里巴巴发布了QVQ-72B-Preview,这是一种能够分析图像的前沿思维模型,具有SOTA级别的性能。

  版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。

  据中国载人航天工程办公室消息,北京时间2025年4月30日13时08分,神舟十九号载人飞船返回舱在东风着陆场成功着陆,现场医监医保人员确认航天员蔡旭哲、宋令东、王浩泽身体状态良好,神舟十九号载人飞行任务取得圆满成功。△独家视频丨神十九飞船返回舱成功着陆 三名航天员到家了!

  4月29日晚,有网民在社交平台发布视频称,29日当天湖北鄂州育才中学小学部发生疑似食物中毒事件,多名学生出现恶心、呕吐、腹泻等症状。

  4月30日,#山西太原居民小区发生爆炸,现场产生大量浓烟,周边建筑有玻璃震碎,人员伤亡情况不详。

  这场大雨太给力了,武鸣终于迎来及时雨!#武鸣干旱 现在怎么样了?五一假期不用抗旱了吧!

  比亚迪汉L哪个配置最值得购买?#比亚迪汉L #比亚迪汉lev #比亚迪汉ldm #懂车帝抢先试驾 #宝藏女司机

  美国的关税政策,又有新变化!特朗普在行政令中表示,“我现在已决定,在这些关税适用于同一商品的情况下,这些关税不应产生叠加效应,因为这种叠加导致的税率超过实现政策目标所需的程度。”

  一个帅气迷人的AIGC商业博主 AI 前沿资讯ℹ️宝藏库 你需要了解的AI科技前沿资讯在这里阅读