AIGC

数字经济

智能手机抢滩AI大模型的背后：发布会上雷声大，线下销售雨点小

从2023年到2024年，随着新一波人工智能的浪潮的加速，消费电子产品也迎来了全新的话题——AI。目前，华为、小米、荣耀、OPPO、vivo等手机厂商均已发布搭载了端侧大模型的旗舰新品。华为有盘古大模型、小米有MiLM、OPPO有安第斯大模型、vivo有AI蓝心大模型、荣耀有魔法大模型。这些个大模型先后随各自的新品手机发布，一时间变得广为人知。其中最有代表性的，当属在智能手机领域沉寂已久的魅族。在春节假期之后官方宣布「停止传统智能手机新项目，全面拥抱AI」。随后发布的魅族 21 PRO，魅族方面甚至不称之为「手机」，而是所谓「开放式AI终端」。应该说，近一年来AI手机乃至All in AI，几乎成为了智能手机厂商发布会的必选项。图片来源：AI生成市场调研机构Canalys最新显示预测，2024年全球智能手机出货总量中，预计约5%会搭载端侧AI运算能力。IDC中国区总裁霍锦洁表示，2024年全球新一代AI手机出货量将达到1.7亿部，占智能手机整体出货量的15%。中国市场AI手机份额也将迅速增长，到2027年将占比超过50%。显然，无论厂商还是数据机构都对AI手机抱有希望。但在实际的销售环节，智能手机的「大模型热」，似乎表现出了另外一种状况。发布会雷声大，销售端雨点小钛媒体App 在2024年3月上旬，走访了北京多个商圈的十余家智能手机门店，品牌包括华为、小米、OPPO、vivo、荣耀，重点观察了线下渠道对于AI的展示和介绍，以及消费者的关注方向。从结果来看，AI手机在线下门店的热度，远远不如更加热闹发布会。小米曾在在发布会上宣称，小米14 Ultra是搭载AI大模型计算摄影平台，小米14 Ultra在进行30倍以上的变焦拍摄时，可以调用 AI 大模型对原始光学数据进行重绘，让模糊细节在算法的调教下变得清晰。但在在钛媒体App走访的几家小米之家门店中，并未有关于AI方面的任何物料展示和介绍，店员关于手机影像也更多是围绕徕卡影调、长焦、四摄像头等传统配置层面的介绍，并没有关于AI部分的介绍。在此前旗舰产品荣耀Magic6系列发布时，荣耀一同发布了搭载荣耀自研70亿参数端侧平台级AI大模型“魔法大模型”。荣耀CEO赵明表示过去几年，荣耀在AI上投入的成本加起来约百亿元，未来在AI上的投资还会加大。华为此前也曾宣布HarmonyOS 4系统全面接入了自家的盘古大模型，成为全球首个嵌入AI大模型能力的移动终端操作系统，首批支持机型为Mate 60系列。图片来源：AI生成但从线下布置来看，荣耀和华为都没有把AI、大模型当作产品的重点进行展示，没有相关的宣传物料。在询问相关功能时，华为店员表示「只有小艺小艺，没有ChatGPT一类的大模型」。 vivo此前在开发者大会上发布了自研的AI蓝心大模型，vivo S18则是首批搭载AI蓝心大模型的产品，该功能支持用户查找文件、作诗写词、看文创图、总结内容、解答难题、整理材料框架等。 OPPO则是在开发者大会上宣布，Color OS14系统中将内置安第斯大模型（AndesGPT）。随后发布的OPPO Find X7是首个端侧应用70亿参数大语言模型的手机，通过端云协同，可带来全新的AIGC消除功能与首个AI大模型语音摘要。从线下的实际情况来看，OPPO和vivo算是相对比较「上心」的厂商。 OPPO店内，产品一侧就有AI手机的字样，在被问到AI手机具体有什么功能时，店员重点展示AI消除功能，即在人像照片中，抹掉背景中的路人，并由AI实现扣去部分的补完，展示效果确实让人眼前一亮。 vivo店内，有着明显的说明牌，介绍「蓝心小v」的AI功能，包括消除路人、搜索照片、用照片生成漫画、写诗以及常见的AIGC生成图像功能。值得一提的是，每种功能都有一张对应的NFC卡片，消费者用现场样机一碰就可以进入演示环节，省去了与店员沟通的过程。但需要说明的是，无论OPPO还是vivo，相对于AI功能，处理器芯片、影像配置，仍然处于更明显的产品介绍位置，在店员的介绍中优先级也更高。综合来看，仅就销售环节而言，小米、荣耀、华为，将自家大模型产品的功能展示给消费者的意愿不高，OPPO、vivo有一定针对性的布置，但也很难说现有的AI消除、生成图片就能完全代表大模型的实力。此前OPPO首席产品官刘作虎曾表示「对于手机企业而言，再不布局大模型就没戏了」，但从2024年3月来看，所谓的布局可能也仅仅是布局，手机发布会上动辄几十亿参数的语言大模型，对于消费者而言依然是「雷声大雨点小」。旧的回忆，新的故事造成手机厂商在销售环节没有过多展示AI功能无非是这几个原因：一是本身AI功能不适合在线下这种场景展示，二是能够展示的效果不好，三则是这些功能不足以促成消费者达成购买。钛媒体App为此查看了京东、淘宝、拼多多等主流电商平台各家手机厂商的主力产品，除了OPPO之外，在详情页的主要卖点中，AI功能有的不见踪影，有的只占据边角的位置。如果说智能手机的线下消费相对需要更接地气的表达，那么线上电商平台也没有太多的AI功能宣传，应该可以看出一些厂商对于大模型功能的理解，或许就是所谓「锦上添花」。大模型当然可以成为发布会上最亮丽的那朵花，但实际上买回去的衣服一定是更好材料（硬件配置）的锦缎织成的。图片来源：AI生成从智能手机的发展历程来看，有着不少熟悉的故事。像是曾经的独立音频芯片、动辄上亿的高像素摄像头、苹果带动的压感屏幕，都曾成为过行业追求的热点，成为红极一时的选项。随后因为种种原因，被手机厂商扫进历史的垃圾堆。其背后原因，无非是相关产业的成熟，导致智能手机厂商可以用较低的成本去获得一个「亮点」，至于这是不是消费者的「痛点」？能否成为促成产品购买的「卖点」？都无关紧要，毕竟「摸着石头过河」也可以获得一定的关注。在智能手机行业工作的孙敏告诉钛媒体App，对于智能手机用户而言，能够在智能手机里，不需要语言基础、技术手段、注册、学习，「即插即用」的大模型，本身就是产品对于用户的一种价值。在如今的激烈竞争中，智能手机厂商很难「腾出手」像科大讯飞、百度那样去All in AI。如何打磨产品，让AI更好的为用户所用，也许才是更加现实的问题。（本文首发钛媒体App 作者/吴泓磊编辑/钟毅，文中孙敏为化名）

2024-03-15
20.5K0
Sora为何没能诞生在中国？

没声音，再好的戏也出不来。图片来源：由无界AI生成在提示框内输入“中世纪小号手”，打开音效开关键，点击生成视频，一个4秒的AI生成视频便跃然于屏幕上。人们不仅能看到一个身穿中世纪宫廷服饰乐手的画面，还能听到乐手吹小号的声音。北京时间3月10日，硅谷一家AI初创公司Pika lab（以下简称Pika），推出自研视频生成模型的新功能，可同时生成画面和声音。此前，人们看到的所有AI生成的视频都没有声音。此功能尚未向公众开放，但足以让人见识到AI的进化之快。今年2月16日，OpenAI发布文字生成视频的大模型Sora。根据简单几句提示，Sora便能准确“理解”文本，生成长达60秒的视频，引发全球关注。一些业内人士将Sora的问世称为视频生成领域的“ChatGPT 时刻”。当地时间3月8日，历经几个月的“宫斗”大戏后，OpenAI的创始人山姆·奥特曼重回董事会，继续推进公司实现通用人工智能（AGI）的使命。 Sora的横空出世到底意味着什么，我们距离AGI还有多远，AI的下一步将走向何方？ “大力出奇迹”的再次验证发布Sora之前，OpenAI并未向外界透露入局文生视频的想法。直到今年年初，全球文字生成视频赛道的焦点，仍集中在Pika、Runway、Stability AI等初创企业身上。去年11月底，Pika初代文生视频产品发布，用户输入关键词“马斯克穿着太空服，3D动画”，卡通版的马斯克随即出现，在他身后，美国太空探索技术公司（SpaceX）的火箭升入空中，视频只有三四秒，清晰度和流畅度已远超其他产品。彼时，Pika联合创始人孟晨琳接受采访时分析说，“为什么GPT没有用于视频，可能因为他们的资源、人力都集中到了文本模型上。” 两个多月后，Sora惊艳亮相。其技术负责人最新展示的视频中，输入“穿越博物馆的飞行之旅，沿途欣赏众多绘画、雕塑以及各式各样的美丽艺术作品”，AI便生成60秒的长视频，人们跟随镜头，从空中俯冲至博物馆内，在多个画廊、房间穿梭，还会从雕塑边擦身而过。新加坡南洋理工大学计算机学院助理教授刘子纬对《中国新闻周刊》说，OpenAI入局文生视频赛道，并不令人意外。OpenAI始终标榜要实现通用AGI。“朝着AGI发展，AI不仅要‘读万卷书’，还要看到世界上的种种物理现象。OpenAI一定会在文本、图像、音频、视频等多模态领域发展。视频是发展多模态最重要的一步，包含了世界运转的基本规律。” Sora生成的视频效果仍令刘子纬感到震撼。刘子纬3年前便开始研究AI视频生成。相较文字和图片，AI视频生成的技术难度最大，对视频数据的分辨率、内容流畅度、一致性要求高，算力需求大。Sora之前，市面上的同类型产品，大多生成的视频清晰度不高，还会出现画面闪烁、人物变形的情况。Sora生成的视频能保持很好的三维一致性。生成的内容，比如水、云的运动，小鸟在林中飞翔等，主体与环境的交互能一定程度上展现物理世界的真实性。 OpenAI在其官网发布的Sora的技术报告中，强调了Diffusion Transformer（基于Transformer架构的扩散模型，以下简称DiT）的重要性，这是由两种模型合成的新模型。两种模型的“合璧”是Sora得以成为爆款的关键。Diffusion（扩散模型）是一种有效的内容生成模型，此前在图片生成领域已展现出强大能力，能生成逼真且高质量的图片。Transformer是GPT这类大语言模型的基础架构。ChatGPT能对答如流，便是因为这一架构能通过预测下一个token（文本的最小单元）出现的概率，更好捕捉上下文信息，生成更符合逻辑的文本。清华大学智能产业研究院首席研究员聂再清对《中国新闻周刊》解释称，OpenAI进行视频数据训练的一大“秘籍”，就是将不同尺寸、分辨率的视频拆分成patch（视觉补丁，相当于token），然后直接输入模型学习。OpenAI官方介绍，Sora可以采样宽屏1920x1080p、垂直屏1080x1920p及介于两者间的所有视频。此外，OpenAI还为训练的视频集中生成字幕，可以提高文本保真度及视频的整体质量。但业内共识是，DiT模型是个公开的秘密，底层技术上，Sora并没有创新。早在2022年年底，DiT就被提出。当时，美国加利福尼亚大学伯克利分校博士生威廉·皮布尔斯和纽约大学计算机学院助理教授谢赛宁联合发表论文，在文生图领域，创造性地将Transformer与Diffusion融合，一度引发学界轰动。刘子纬向《中国新闻周刊》介绍，去年起，国际上已有团队在探索利用DiT架构训练文生视频模型，包括其所在团队。“这是很自然的选择。” Sora官网发布的部分由文字生成的视频（截图）彼时，文生视频模型有多条技术路径，但受限于算力和数据，DiT路径尚未走通，学术团队和创业公司难以全力投入。OpenAI选择了一条少有人走的路。在刘子纬看来，“Sora背后，与其说是模型的突破，不如说是OpenAI大模型系统设计的胜利”。大模型系统设计，涵盖训练数据的细节，OpenAI在算力、人才组织架构上的积累等。这些因素最为关键，但OpenAI在公开信息中几乎只字未提。 Sora复制了ChatGPT的成功经验，再次验证了“大力出奇迹”的暴力美学，以及OpenAI“遇事不决，扩大模型”核心价值观的可行性。在清华大学计算机系副教授、人工智能初创公司壁智能联合创始人刘知远看来，Sora像是AI视频生成的“GPT-3时刻”，它证明数据的价值，高质量、大规模的数据能训练出一个文生视频模型。中国科学院深圳先进技术研究院数字所研究员董超长期研究底层机器视觉，目前，正与团队研发多模态模型。他向《中国新闻周刊》强调，选取哪些数据、如何筛选、如何标注，直接影响模型生成的效果。想要大模型生成高质量的视频，要求训练数据分辨率高，场景细节丰富，人、物、景占比协调等，如果一些场景转场太快，也要被剔除。 Pika联合创始人孟晨琳也提到，一些电影中有很多漂亮的视频，但如果大部分都是人站着说话，动作单一，也不是训练大模型的优质数据。此外，版权问题，也会影响企业收集到足够多高质量的视频。在董超看来，数据背后，人才团队极为重要，“大模型的训练绝不是看上去那么简单，没有经验根本调不通，通常要团队里最优秀的人来做这件事。国外许多科技公司的顶尖AI人才，都会在一线亲自处理数据，写代码”。据OpenAI官网介绍，Sora的核心团队共15人。公开资料显示，团队的成立时间尚未超过1年，三位研发负责人中，两人都是2023年从加利福尼亚大学伯克利分校博士毕业，其中一人便是前述DiT论文的作者之一威廉·皮布尔斯，另一位蒂姆·布鲁克斯曾在谷歌工作近两年，在伯克利读博期间，主要研究方向就是图片与视频生成。布鲁克斯和另外一位研发负责人阿迪亚·拉梅什都是OpenAI开发的文生图模型DALL-E 3的创造者。从GPT-3、GPT-3.5再到GPT-4，OpenAI积累了丰富的大数据训练、生成与治理能力，这是支持Sora的“基础设施”。“Sora团队只有十几人，就说明，OpenAI给他们提供了重要的底层支持，组织架构、人才管理、基础设施，这才能让有想法的人，真正做出能影响世界的成果。”刘子纬对《中国新闻周刊》说…

2024-03-15 • 数字经济
10.8K0

AIGC

智能手机抢滩AI大模型的背后：发布会上雷声大，线下销售雨点小

Sora为何没能诞生在中国？