1年内销量翻倍!OWS耳机的魔力在哪里? | 钛媒体焦点

如今提到TWS耳机,作为年出货量已近3亿台的蓝牙音频产品,它已经在大多数场景做到了对传统耳机的取代,甚至在降噪能力、智能交互、佩戴舒适度上还有着更大优势。从第一批产品上市逐渐打开市场缺口至今,TWS也不过才经历了六七年时间。

不过,TWS耳机市场主导地位的“挑战者”甚至“继任者”却已经露头,它就是“OWS耳机”,全称Open Wearable Stereo(开放式可穿戴立体声耳机)。在整体的产品结构上,OWS耳机与TWS耳机都采用了无线连接的方式,最大的差别出现在佩戴方式以及声音的传导原理上。

1年内销量翻倍!OWS耳机的魔力在哪里? | 钛媒体焦点

根据洛图科技公布的最新数据,OWS耳机在国内市场的2023年全渠道销量达到1057万副,相比2022年增长114%。2022至2023年,OWS开放式耳机的市场份额逐季增长,到2023年第四季度,OWS耳机市场份额已达12%,较2022年同期增长7个百分点。

OWS耳机的杀手锏:佩戴舒适度

很多80/90后用户估计第一次接触耳机,基本都是平头塞或者头戴式产品,如今TWS多采用的入耳式结构,实际上算是后来者,之所以平头塞在耳机结构的较量中落败,更多的还是它先天结构上的局限性,由于耳机的主体需要能够很多地放在耳廓当中,使得整体体积存在物理层面的限制。

换句话说,也就是对于大腔体、多单元、复杂线路的兼容性很差,而这些都是能够提升音质表现的关键所在,再加上设计上很难做到对多耳形的适配以及佩戴稳固度和隔音能力上的不足,使得平头塞只是在耳机普及的初期得益于简单成熟的结构和低难度的加工方式而受到市场追捧,此后就迅速被主流市场所边缘化。

1年内销量翻倍!OWS耳机的魔力在哪里? | 钛媒体焦点

耳机腔体里放入12颗发声单元

入耳式产品很好地解决了耳机“升级”的空间问题,想要更好音质?没有问题,6单元、8单元甚至12单元的产品都能做出来,想要降噪能力?没有问题,两颗芯片+复杂电路+前后拾音反馈麦肯风都都可以塞到腔体里面,因为最终只要通过导管将声音传入耳道即可,外面腔体的体积有很高的设计灵活性。

但入耳式产品也并非完美的解决方案,由于导管结构深入耳道,长时间佩戴容易造成肿痛,此外,在降噪上有增益性质的封堵耳道,也会造成耳道内空气不流通,从主观佩戴感受层面,容易带来耳道内外的压差问题导致佩戴不适,同时久戴也可能会造成外耳炎。

1年内销量翻倍!OWS耳机的魔力在哪里? | 钛媒体焦点

当然,现有的耳机结构也有很多可以部分缓解入耳式产品的弊端,比如像Airpods采用的半入耳式结构或者是韶音主打的骨传导耳机。前者更浅的入耳深度和更靠外的支撑结构,可以减小耳道压力,整体感受有点类似于无线版本的平台塞,骨传导则彻底避免了与耳廓、耳道的直接接触进行声音传递。

与这些方案相比,OWS耳机可以理解为它们的综合方案,它既强调佩戴的舒适度,同时也能像骨传导一样让环境音可以传入耳中。这种设计就很适合在户外活动时使用,比如跑步、骑自行车时,因为它能帮助用户保持对周围环境的意识,同时由于在佩戴舒适度上的优化,让它可以更好地成为长时间工作、学习中的陪伴音工具。

小公司发布的小产品,让华为等大厂看到了商机

1年内销量翻倍!OWS耳机的魔力在哪里? | 钛媒体焦点

ambie官网

近两年,OWS耳机发展中的里程碑莫过于“耳夹式耳机”的出现,耳机整体的结构其实与半入耳式产品类似,采用腔体发声,通过空气传导的方式让消费者可以听到声音,虽然在2022年就已经有小厂做过类似形态的产品,但经过钛媒体App深入研究后,该类型产品真正的开创者应该是ambie。

估计很多人都是第一次听说这个日本品牌,2017年,ambie推出了第一款有线耳夹式耳机,可能有人会纳闷,为何一个小品牌刚入市就发布了新形态的耳机产品?这就不得不提到ambie背后的品牌了,它就是“索尼”,ambie实际上是索尼与World Innovation Lab联合创立的音频品牌。

直到目前该品牌也没有入局国内市场,但实际上从2021年品牌推出真无线技术的耳夹式耳机后,就已经受到了国际市场的关注,国内从2021年底开始陆续有代购开始在日本购买这款产品,此后一些小品牌也模仿ambie的“耳夹式”佩戴结构推出了OWS耳机产品。

除了耳夹式耳机,索尼、万魔等音频厂商也尝试过其他形态的OWS耳机,比如将发声单元结构改为环形以达到透传目的的LinkBuds、在传统气传导结构上增加导音结构的1MORE S50。

钛媒体App分析认为,这些OWS耳机当中,耳夹式将会成为市场发展的主流,因为它不仅在佩戴上改善了传统耳机的体验,同时其独特的外观设计和与配饰更贴近的形态,也更加有利于其吸引用户体验并开拓出耳机的“装饰”属性。

1年内销量翻倍!OWS耳机的魔力在哪里? | 钛媒体焦点

除了产品本身,另一个让耳夹式耳机成为OWS品类代表并吸引到市场极高关注度的原因,就是2023年底华为的入局。进入2024年,明显可以感觉到无论是社交平台上的相关讨论,还是Bose、JBL、漫步者等品牌产品的先后亮相,可以说OWS耳机已经成为继TWS耳机后,近10年来个人音频领域的最大热点和革新。

那OWS耳机与TWS耳机有替代性吗?并没有,钛媒体App预测,随着耳机产品形态的进一步细分,OWS耳机专注于日常佩戴、运动使用的潜力将会扩大化,但它的应用边界也受限特性止步于此。

对应的,TWS耳机则会在音质表现、隔音降噪上进一步升级,更好地服务于通勤、差旅、会议沟通等场景。未来,一副耳机走天下的使用习惯将会改变,用户会根据使用场景来切换到最合适的音频产品上。(本文首发钛媒体App 作者/邓剑云 编辑/钟毅)

文章内容仅供参考,不构成投资建议,投资者据此操作风险自负。转载请注明出处:Metatrend元潮

(0)
上一篇 2024-03-15
下一篇 2024-03-15

相关推荐

  • 定义旗舰新基准,雅迪冠能打造中国品牌「新牌面」

    商业成功的本质是相通的,即便是不同的产业,背后也都有着相似的逻辑。 特斯拉的成功,很大程度上来源于其将原本应用在航天领域的技术和工艺转移到汽车制造业。这种跨产业的技术转移让特斯拉持续领先的同时,也推动着整个汽车产业的革新。在电动两轮车行业,相似的故事也正在上演。 在新出行理念下,电动两轮车逐渐成为城市中短途出行新风尚,产业规模加速扩大。中国自行车协会也指出,截至2022年底,我国电动两轮车社会保有量约3.5亿辆,远超汽车总体保有量,成为日常出行不可或缺的重要组成部分。 着眼于出行领域,不仅需要满足需求,还需要充分考虑体验。在雅迪看来,不论是刚需用户,还是个性化玩家,都对产品的品质有了更高的要求,这也是对企业生产制造能力的综合考验。卓越的技术是打造优质产品的基础,往往细节更能体现功力。 作为连续6年全球销量第一的品牌,雅迪正在将汽车级的技术、工艺以及设计应用到电动两轮车产品中,刷新行业的标准。2月28日,雅迪冠能再升级,以汽车级工艺实现产品品牌的全面跃迁,三款全新车型雅迪冠能6代 Q50、雅迪冠能6代 T60、雅迪冠能6代 M85正式发布,依托雅迪TTFAR 6.0长续航系统、雅迪方舟智能安控系统以及雅迪智行系统,定义旗舰新基准。 再创先河,“好骑”有了新基准 弗若斯特沙利文数据显示,过去几年,3500元以上的电动两轮车销量增速最高。伴随用户群体的年轻化,对电动两轮车品质的要求也更高。诞生于2020年的雅迪冠能系列,一经推出,便成为行业标杆旗舰,每一代都在划时代,上市第三年便实现了单系列累计销量1500万台的里程碑式突破。 耀眼成绩的背后,是雅迪不断修炼内功的结果。四年时间,冠能系列已成为雅迪的一张名片,每一代都能在旗舰的高标准上不断升级,全面满足用户的多维需求。 需要指出的是,高品质不是简单的硬件堆砌,而是需要能够洞悉到用户内心的真实需求。在冠能系列超千万台销量的背后,雅迪进一步观察到了用户深处的痛点:续航、安全和智能。 2023年,“更高端的长续航电动车”成为雅迪冠能系列的全新定位,推动了行业长续航技术上的升级。沿着这个方向,雅迪科研、市场等相关团队在长期的实地调研发现,用户在这方面的真正痛点不是“无休止加长的续航”,而是“更安心可靠的续航”。 基于用户的需求,依靠雅迪TTFAR 6.0长续航系统,雅迪冠能6代重新定义续航新基准。雅迪常青藤石墨烯铅酸电池实现了容量与寿命的双重突破,新车跑得远、旧车也能跑得远。全新升级雅迪TTFAR全能电机在电动汽车级超薄硅钢片的加持下,实现动力、里程双兼顾,为用户带来超越想象的续航新体验。 续航上带来独树一帜体验的同时,安全则是雅迪认为最大的高端。雅迪冠能6代首发搭载方舟智能安控系统,重新定义安全新基准。凭借全系标配的TCS智能牵引力控制系统,快速识别路面变化,毫秒级监测电机轮转差,在湿滑路面快速响应,打滑/起步时自动抑制空转,雨雪湿滑路面稳步前行。再与雅迪TTFAR高抓地力防滑轮胎、液压减震、高强钢车架等硬件实现软、硬件的高效协同,可轻松保障颠簸路面、湿滑路面、推车倒车、陡坡下行路段、夜间骑车等复杂场景的安全。系统化解决用户的骑行安全问题,重塑人车安全新体验。 在生态互联的今天,为了让“好骑”有更高的标准,雅迪冠能6代还升级了雅迪智行系统,重新定义智能新基准。在蓝牙连接、互联控车等方面带来更为丝滑的表现,让用户的体验感大大提升。 如果说技术上的升级,让雅迪冠能6代开创行业先河,那么在乘坐细节上的突破,更能体现出雅迪的深厚功力。此次发布的雅迪冠能6代三款旗舰新品都有着自己的特色,雅迪冠能6代 Q50在设计上更贴合女生的喜好,好看又好骑;雅迪冠能6代 T60的都市硬派美学和T动力超频模式会更吸引男生,高速状态下更好骑;雅迪冠能6代 M85则更适合全家出行,载人又好骑。从硬件到软体验,让“好骑”有了新基准。 革新的关键,用科技筑起城墙 台上一分钟,台下十年功。前台每一分技术的升级,背后都有着十倍甚至百倍的努力与投入。诚如华为的成功一样,雅迪冠能之所以能够定义旗舰新基准,核心就在于前瞻的战略以及对技术的不断投入,用科技筑起城墙。 前瞻的战略哪里来?答案肯定不是闭门技术自嗨。需要企业有洞察用户需求变化的能力,基于变化去制定战略,而后去打磨。与此同时,“更高端的长续航电动车”的定位,奠定了雅迪冠能研发先行的运营理念。 过去一年,雅迪在研发投入上同比增加31%,专利数量较上年增长19%,通过技术的不断突破为用户提供更好的体验。雅迪冠能系列每一代都在突破行业的上限,科技也已经成为其底色,单单雅迪TTFAR 6.0长续航系统就拥有42项专利技术。 本次升级后的雅迪常青藤石墨烯铅酸电池寿命更长、容量更大、更抗衰减,打破行业天花板,并敢承诺24个月容量衰减超过20%直接换新。这是对用户的负责,也是雅迪对自身技术的自信。 技术上投入的每一毫,都是雅迪推动电动两轮车革新的关键,也是应对未来的底气。 在全球,雅迪还拥有7大生产研发基地,其中雅迪超级智造工厂还拥有众多汽车级的生产制造工艺及设备,推动整个电动两轮车产业的革新,助力中国智造。 中国品牌的“新牌面” 普通企业解决问题,优秀企业“提出”问题,创新与复刻远不在一个等级。在市场竞争加剧和科技快速迭代的背景下,唯有在技术支撑下的高品质,才能走得更长远。 肩负“让亿万人享受美好出行”的使命,雅迪建立了属于自己的护城河,引领全球中短途出行。从登陆央视春晚到进入央视总部,再到如今重新定义电动两轮车新基准,雅迪冠能的标杆之路还将继续,成为中国品牌的新牌面。

    2024-03-15 数字经济
    2.9K
  • 肖飒:第三方支付,会给NFT“断供”吗?

    这几天连续有朋友前来询问,与NFT平台合作的第三方支付公司会突然“断供”吗?飒姐的答案是:确有可能。就这个话题,我们结合既往创新行业的经验教训,给大家一些参考。 支付渠道,是NFT平台的刚需 诚然,最优的支付途径是银行系统,鉴于银行牌照优势,如果银行肯为NFT平台做支付结算,那么,平台将大幅降低“资金池”等红线风险。但,难度在于大型和中型银行内控机制和合规要求高,加之社会责任等道德因素,对于涉众、涉炒作嫌疑的行业往往避而远之。 小型地方银行,有一些自身财务情况堪忧;还有一些科技能力不足,在网贷发展的那十年,也有金融科技公司渗透到银行,甚至实质上控制银行风控和经营。目前此类情况正在被纠正,各地银行对自身业务的合规性要求大幅提高,NFT平台能够接到银行支付系统的难度堪比蜀道。 第三方支付公司中的第一梯队,已经通过内部policy,对于小程序中的数字藏品NFT平台“不予服务”,甚至下架小程序。导致NFT平台必须寻找四方公司代为处理支付渠道问题,商户名称往往不敢透露出数字藏品或NFT词汇。第三方支付公司中也有创新梯队,给数藏平台提供支付服务,纵向对比,基本上还是当年服务P2P平台的几家第三方支付公司在努力服务。 “二清”问题是法律大雷 第三方支付公司与NFT平台合作模式中,最大的雷还是“二清问题”。所谓“二清”,即二次清结算,指的是有清结算资质的机构将资金结算给无证机构后,该平台再将资金结算给其子商户,则该无证机构即涉及“二清”。简言之,“二清”问题实际上就是支付结算业务领域的无证驾驶。 根据《非金融机构支付服务管理办法》第三条的规定,非金融机构提供支付服务,应当依据本办法规定取得《支付业务许可证》,成为支付机构。而所谓的支付服务,根据该办法第二条的规定,是指非金融机构在收付款人之间作为中介机构提供下列部分或全部货币资金转移服务:(一)网络支付;(二)预付卡的发行与受理;(三)银行卡收单;(四)中国人民银行确定的其他支付服务。其中的网络支付,指的是依托公共网络或专用网络在收付款人之间转移货币资金的行为,包括货币汇兑、互联网支付、移动电话支付、固定电话支付、数字电视支付等。 显然,若NFT平台为作为收款方的ip方以及付款方的用户之间提供转移货币资金的服务,那么平台的该项业务活动实际上就属于支付服务,因此,由于平台本身属于非金融机构,那么依照该办法就需要取得《支付业务许可证》,否则就涉及“二清”问题。 而一旦涉及“二清”问题,平台无证驾驶,那么根据《非金融机构支付服务管理办法》第四十七条的规定,中国人民银行及其分支机构应当责令平台终止支付业务,同时涉嫌犯罪的,还应依法移送公安机关立案侦查,构成犯罪的,依法追究刑事责任。 乍看之下,似乎只需要终止支付业务即可。但实际上,由于平台无证开展非法支付结算业务,这直接涉嫌构成《刑法》第二百二十五条的非法经营罪,涉嫌其中的第三项非法经营行为,即未经国家有关主管部门批准非法从事资金支付结算业务。同时,由于在结算过程中资金完全由平台控制,往往会涉及形成资金池,那么就又可能涉嫌构成《刑法》第一百七十六条的非法吸收公众存款罪。倘若在此过程中又存在一定欺诈行为,甚至可能被认为涉嫌构成《刑法》第一百九十二条的集资诈骗罪,最高可以判处无期徒刑。 因此,尽管行政责任上《非金融机构支付服务管理办法》只是轻描淡写地提了一句,并没有实质性的惩罚,但是实质上,因为缺乏资质带来的刑事风险是非常高的,对于NFT平台而言,在支付方面,“二清”才是最应该警惕的地雷,稍有不慎便可能陷入深渊。 断供,具有现实可能性 从现有第三方支付公司与NFT藏品平台签署的合同来看,第三方支付公司的法务小姐姐通常会在“不可抗力”一条后半段加上“如遇监管相关政策变化”,甚至会把“窗口指导”写进合同条款之内。也就是说,一旦国家、地方甚至一些部门的监管政策从容许到不鼓励,那么,第三方支付公司可以毫发无伤退出合作,并在自家公众号和媒体上直接做切割。这是自保,无可厚非,平台拦不住也无法阻拦。 那么,监管政策会发生变化吗?从当前情况看,劣币驱逐良币,有些平台的二级交易逐渐显示出国际币圈风貌,这是危险的信号。单纯的一级销售和自我压制的转赠,其实并无重大法律瑕疵。现状就是正在“掰手腕”的关键时刻,倘若媒体天天报道NFT平台跑路、大学生沉迷玩数藏,在舆论不利的情况下,NFT数字藏品平台的日子会很难过,甚至在下半年会出现“去NFT化”,向往合规的平台会给自己起琳琅满目的别名,坚决与NFT划清界限,到那时第三方支付公司也会“识时务者为俊杰”。 记得读书时,选修过“行为金融学”,希望在NFT本土化的过程中,随着各方的发力能形成动态平衡。倘若一刀切给NFT断供,将逼迫一些平台转向国际版,从而采取公链思路使用USDT结算,本来可以大鸣大放监管的行业将会被挤压到地下生存,增加司法成本,最终可能会成为下一个P2P,曾经的“座上宾”,终究沦为“阶下囚”。 写在最后 不可否认,国内居民的金融产品供给相对匮乏。人们确实有投机心理,想通过炒鞋、炒中古首饰、炒NFT、炒文玩来赚钱。但人性既如此,压抑不如疏导。我们大脑里存有的“实用主义”经常跳出来幻化成“尺子”,似乎对当下社会带来不了现实利益的就是无用的,暂时看不出有啥经济效果和社会效果的就没必要尝试。这种“唯实用主义”是错误的,历史会亲自来验证。 读者可能会觉得飒姐扯远了,纵向来看,NFT不是第一个,也不会是最后一个。创新本来就扮演了“破坏者”,强调创新就要容许试错,给予空间。第三方支付公司虽是图财,不可否认客观上支持了创新的实现,有功劳。飒姐善意提醒第三方支付公司,谨防帮信罪和非法经营罪的共犯风险,注意自身防护。

    2022-07-28
    22.7K
  • Sora为何没能诞生在中国?

    没声音,再好的戏也出不来。 图片来源:由无界AI生成 在提示框内输入“中世纪小号手”,打开音效开关键,点击生成视频,一个4秒的AI生成视频便跃然于屏幕上。人们不仅能看到一个身穿中世纪宫廷服饰乐手的画面,还能听到乐手吹小号的声音。 北京时间3月10日,硅谷一家AI初创公司Pika lab(以下简称Pika),推出自研视频生成模型的新功能,可同时生成画面和声音。此前,人们看到的所有AI生成的视频都没有声音。此功能尚未向公众开放,但足以让人见识到AI的进化之快。 今年2月16日,OpenAI发布文字生成视频的大模型Sora。根据简单几句提示,Sora便能准确“理解”文本,生成长达60秒的视频,引发全球关注。一些业内人士将Sora的问世称为视频生成领域的“ChatGPT 时刻”。当地时间3月8日,历经几个月的“宫斗”大戏后,OpenAI的创始人山姆·奥特曼重回董事会,继续推进公司实现通用人工智能(AGI)的使命。 Sora的横空出世到底意味着什么,我们距离AGI还有多远,AI的下一步将走向何方?  “大力出奇迹”的再次验证 发布Sora之前,OpenAI并未向外界透露入局文生视频的想法。直到今年年初,全球文字生成视频赛道的焦点,仍集中在Pika、Runway、Stability AI等初创企业身上。 去年11月底,Pika初代文生视频产品发布,用户输入关键词“马斯克穿着太空服,3D动画”,卡通版的马斯克随即出现,在他身后,美国太空探索技术公司(SpaceX)的火箭升入空中,视频只有三四秒,清晰度和流畅度已远超其他产品。彼时,Pika联合创始人孟晨琳接受采访时分析说,“为什么GPT没有用于视频,可能因为他们的资源、人力都集中到了文本模型上。” 两个多月后,Sora惊艳亮相。其技术负责人最新展示的视频中,输入“穿越博物馆的飞行之旅,沿途欣赏众多绘画、雕塑以及各式各样的美丽艺术作品”,AI便生成60秒的长视频,人们跟随镜头,从空中俯冲至博物馆内,在多个画廊、房间穿梭,还会从雕塑边擦身而过。 新加坡南洋理工大学计算机学院助理教授刘子纬对《中国新闻周刊》说,OpenAI入局文生视频赛道,并不令人意外。OpenAI始终标榜要实现通用AGI。“朝着AGI发展,AI不仅要‘读万卷书’,还要看到世界上的种种物理现象。OpenAI一定会在文本、图像、音频、视频等多模态领域发展。视频是发展多模态最重要的一步,包含了世界运转的基本规律。” Sora生成的视频效果仍令刘子纬感到震撼。刘子纬3年前便开始研究AI视频生成。相较文字和图片,AI视频生成的技术难度最大,对视频数据的分辨率、内容流畅度、一致性要求高,算力需求大。Sora之前,市面上的同类型产品,大多生成的视频清晰度不高,还会出现画面闪烁、人物变形的情况。Sora生成的视频能保持很好的三维一致性。生成的内容,比如水、云的运动,小鸟在林中飞翔等,主体与环境的交互能一定程度上展现物理世界的真实性。 OpenAI在其官网发布的Sora的技术报告中,强调了Diffusion Transformer(基于Transformer架构的扩散模型,以下简称DiT)的重要性,这是由两种模型合成的新模型。两种模型的“合璧”是Sora得以成为爆款的关键。Diffusion(扩散模型)是一种有效的内容生成模型,此前在图片生成领域已展现出强大能力,能生成逼真且高质量的图片。Transformer是GPT这类大语言模型的基础架构。ChatGPT能对答如流,便是因为这一架构能通过预测下一个token(文本的最小单元)出现的概率,更好捕捉上下文信息,生成更符合逻辑的文本。 清华大学智能产业研究院首席研究员聂再清对《中国新闻周刊》解释称,OpenAI进行视频数据训练的一大“秘籍”,就是将不同尺寸、分辨率的视频拆分成patch(视觉补丁,相当于token),然后直接输入模型学习。OpenAI官方介绍,Sora可以采样宽屏1920x1080p、垂直屏1080x1920p及介于两者间的所有视频。此外,OpenAI还为训练的视频集中生成字幕,可以提高文本保真度及视频的整体质量。 但业内共识是,DiT模型是个公开的秘密,底层技术上,Sora并没有创新。早在2022年年底,DiT就被提出。当时,美国加利福尼亚大学伯克利分校博士生威廉·皮布尔斯和纽约大学计算机学院助理教授谢赛宁联合发表论文,在文生图领域,创造性地将Transformer与Diffusion融合,一度引发学界轰动。刘子纬向《中国新闻周刊》介绍,去年起,国际上已有团队在探索利用DiT架构训练文生视频模型,包括其所在团队。“这是很自然的选择。” Sora官网发布的部分由文字生成的视频(截图) 彼时,文生视频模型有多条技术路径,但受限于算力和数据,DiT路径尚未走通,学术团队和创业公司难以全力投入。OpenAI选择了一条少有人走的路。在刘子纬看来,“Sora背后,与其说是模型的突破,不如说是OpenAI大模型系统设计的胜利”。大模型系统设计,涵盖训练数据的细节,OpenAI在算力、人才组织架构上的积累等。这些因素最为关键,但OpenAI在公开信息中几乎只字未提。 Sora复制了ChatGPT的成功经验,再次验证了“大力出奇迹”的暴力美学,以及OpenAI“遇事不决,扩大模型”核心价值观的可行性。在清华大学计算机系副教授、人工智能初创公司壁智能联合创始人刘知远看来,Sora像是AI视频生成的“GPT-3时刻”,它证明数据的价值,高质量、大规模的数据能训练出一个文生视频模型。 中国科学院深圳先进技术研究院数字所研究员董超长期研究底层机器视觉,目前,正与团队研发多模态模型。他向《中国新闻周刊》强调,选取哪些数据、如何筛选、如何标注,直接影响模型生成的效果。想要大模型生成高质量的视频,要求训练数据分辨率高,场景细节丰富,人、物、景占比协调等,如果一些场景转场太快,也要被剔除。 Pika联合创始人孟晨琳也提到,一些电影中有很多漂亮的视频,但如果大部分都是人站着说话,动作单一,也不是训练大模型的优质数据。此外,版权问题,也会影响企业收集到足够多高质量的视频。 在董超看来,数据背后,人才团队极为重要,“大模型的训练绝不是看上去那么简单,没有经验根本调不通,通常要团队里最优秀的人来做这件事。国外许多科技公司的顶尖AI人才,都会在一线亲自处理数据,写代码”。 据OpenAI官网介绍,Sora的核心团队共15人。公开资料显示,团队的成立时间尚未超过1年,三位研发负责人中,两人都是2023年从加利福尼亚大学伯克利分校博士毕业,其中一人便是前述DiT论文的作者之一威廉·皮布尔斯,另一位蒂姆·布鲁克斯曾在谷歌工作近两年,在伯克利读博期间,主要研究方向就是图片与视频生成。布鲁克斯和另外一位研发负责人阿迪亚·拉梅什都是OpenAI开发的文生图模型DALL-E 3的创造者。 从GPT-3、GPT-3.5再到GPT-4,OpenAI积累了丰富的大数据训练、生成与治理能力,这是支持Sora的“基础设施”。“Sora团队只有十几人,就说明,OpenAI给他们提供了重要的底层支持,组织架构、人才管理、基础设施,这才能让有想法的人,真正做出能影响世界的成果。”刘子纬对《中国新闻周刊》说…

    2024-03-15 数字经济
    3.2K
  • 49152个GPU!Meta最新算力集群曝光,扎克伯格:算力,算力,还是Meta的算力

    相信你或多或少对GPT有一定的了解,但我赌你没听说过bGPT。bGPT的意思是byte GPT,即字节GPT。 图片来源:由无界AI生成 Meta 近日披露了两个新的 GPU 集群,将用于训练下一代生成式人工智能模型,包括即将推出的 Llama 3,以及 GenAI 和其他领域的人工智能研究与开发。新的集群在硬件、网络、存储、设计、性能和软件等方面进行了定制优化。 Meta 公布的两个 GPU 集群 GPU 总共拥有 49152 个GPU,每个集群都装配了H100 GPU,而 Meta 此前 AI 研究超级集群 (RSC) GPU 集群约有 16000 个 A100 GPU 。RSC 在 Llama 和 Llama 2 的开发以及计算机视觉、NLP、语音识别、图像生成、编程等人工智能模型的开发中发挥了重要作用。 PyTorch 创始人,Meta 工程师 Soumith Chintala 在 X 上分享了关于 Llama 3 的一些细节:使用了 RoCEv2 网络,基于T ectonic/Hammerspace 的 NFS/FUSE 网络存储,标准版本的 PyTorch,带有一些补丁的 NCCL:补丁和交换机优化使集群具有相当高的网络带宽实现,各种调试和队列监控工具,例如 NCCL 异步调试、内存行重新映射检测等。 Meta 表示将使用新的 GPU 集群来微调现有的人工智能系统,并训练更强大的新系统,包括 Llama 3。此外,Meta 还透露正在对 PyTorch 人工智能框架进行升级,为支持更大规模的 GPU 训练需求做准备。 在算力军备的路上越走越远 新的 GPU 集群是 Meta AGI 路线图的一部分,目标是到 2024 年底,基础设施建设将包括350,000 个 NVIDIA H100 GPU,计算能力相当于将近 600,000个 H100 GPU。作为对比,OpenAI 训练 GPT-4,用了大约 25000 个 A100 GPU。而训练 GPT-5 预估需要 30000 到 50000 A100。 要保持在 AI 领域的领先地位,意味着对基础设施的大量投资,对于 Meta 来说,军备还远未结束。根据市调机构 Omdia 发布的报告,Meta 在 2023 年买了超过 15 万块 NVIDIA GPU,与之相当的只有微软,而亚马逊、甲骨文、谷歌、腾讯等都只拿到了 5 万块左右。2024 年 Meta 预计将购买超过 35 万块英伟达 H100 GPU,H100 售价为 2.5 万至 3 万美元(不考虑溢价),如果 Meta 支付的是较低的价格区间,那么将支付给英伟达接近 90 亿美元。 在 Dot-com 泡沫时代,任何人都可以以相对较低的基础设施成本启动一个网站,个人开发者和初创企业能够借助普及的智能设备和移动网络,在不同成本的范围内推出产品和业务。而现在,似乎只有那些互联网巨头和明星创业公司才能构建 AI 模型。所有这些公司都从投资者那里拿钱,然后再把钱交给云计算公司和英伟达,这或许就是为什么英伟达的股价在如此短时间内超过 2 万亿美元的原因之一。 更多架构细节 关于这两个 GPU 集群的具体架构细节,虽然这两个集群的 GPU 数量相同,通过 400Gbps 端点相互连接,但采用了不同的架构设计。网络方面,其中一个集群采用了一个集群采用了具有融合以太网远程直接内存访问 (RDMA) (RoCE) 网络结构解决方案,另一个则使用了 Nvidia 的网络架构技术 Quantum2 InfiniBand。 采用 RoCE 的 GPU 集群是迄今为止使用商用以太网基础设施建立的最大的 H100 GPU 集群 这两个集群均采用 Meta 的开源 GPU 硬件平台 Grand Teton 构建,该平台专为支持大规模AI工作负载而设计。据称,Grand Teton 的主机到 GPU 带宽是前代 Zion-EX 平台的四倍,计算和数据网络带宽是两倍,功率需求也是两倍。 Meta 表示,这些集群整合了其最新的 Open Rack 电源和机架基础架构架构,旨在为数据中心设计提供更大的灵活性。根据工程师们的说法,Open Rack v3 允许电源架可安装在机架的任何位置,而不是固定在母线上,从而实现更灵活的配置。 存储在 AI 训练中起着重要作用,尤其是处理大量的图像、视频和文本数据的多模态训练任务。存储方面,Meta 新集群使用自主开发的”Tectonic”分布式闪存存储解决方案满足数据和检查点需求,并与 Hammerspace 合作部署并行网络文件系统,解决了数千个 GPU 数据和检查点的需求。提高开发体验。 优化整个系统(软件、网络等)后,大型集群性能恢复到理想的 90%+ 范围 性能方面,Meta 建立大规模AI集群的原则是同时最大化性能和易用性,通过优化内部作业调度器和网络路由策略,以及与 NVIDIA 集体通信库(NCCL)的改进,提高了大型集群的性能,实现了与小型集群相同的优秀性能。在实际测试过程中,Meta 比较了小型集群和大型集群的性能,以发现瓶颈所在。在上图表中,展示了大量 GPU 在预期的屋顶线性能消息大小下相互通信时的 AllGather 集体性能(以0-100的标准化带宽表示)。 大型集群的开箱即用性能最初很差且不一致。为了解决这个问题,Meta 对内部作业调度器如何根据网络拓扑感知调度作业进行了多项改进,这在减少网络上层流量方面带来了延迟上的好处。 Meta 官方博文中的一个小标题,网友:我懂你意思 Meta 还提到,公司将继续全力支持在人工智能硬件技术栈方面的开放创新,Meta 强调了对开放式计算和开源技术,新的集群均基于 Grand Teton、OpenRack 和 PyTorch 等平台构建而成。 离 Llama 3 更进一步 在 AI 领域,Meta 去年推出了大型语言模型 Llama 2、定制芯片 MTIA、文生图广告工具以及聊天机器人Meta AI 。 其中,Llama 2 的发布以及开源可商用是开源模型社区的里程碑,扎克伯格曾表示,虽然 Llama 2 不是行业领先的模型,但它是最好的开源模型,而 Llama 3 及以后的版本的目标是构建处于行业领先地位的模型。 根据 The Information 的报道,Meta 计划于 7 月发布 Llama 3,可能达到超 1400 亿参数,比Llama 2 模型的最高参数翻了一倍。据内部人士透露,Llama 3 相对于 GPT-4、Gemini 和 Llama 2,放宽对安全限制的设定,即所谓的“安全围栏”。这意味着在处理具有争议性的问题时,Llama 3 旨在提供更好的回答。Meta 的这一举措显然是希望至少能够提供有关用户查询的相关上下文,而不是简单地忽略或拒绝回答用户提出的问题。简而言之,目的是提升用户体验,通过提供更多信息,而不是简单地限制对话。 新的基础设施,更多的 GPU 储备,扎克伯格 All in AGI 似乎比投入元宇宙更靠谱,股价也迎来上涨,招聘 AI 人才时也可以底气更足地说自己是“GPU RICH”,看上去一切都走上了正轨。 只不过还是没躲过美国网友的无情(无脑…

    2024-03-15 数字经济
    5.0K
的头像
已有 0 条评论 新浪微博