据悉▲○,2024年,凤凰数据安排分三批宣布更众高质地数据集,并正式上线AI陶冶平台○▲。同时,凤凰数据还将举办“Link+科技峰会”和“AI数据离间赛”等系列行为▲○,毗连各界,处分行业痛点,联合促进AI与华语文明的认知历程。面向高校及科研院所○,凤凰卫视宣布了“凤凰智媒AI筑巢安排”,供应个别数据集的免费授权,以助力学术酌量和更始○▲。凤凰AI数据官网于宣布会当天正式上线,为行业客户供应数据集试用下载效劳。
入场AI也是凤凰大马金刀更始邦际撒布的紧要方法。凤凰卫视行为海外最大的华语媒体集团,无间都正在为中邦与天下对话、中邦与天下相易搭修平台。正像凤凰卫视奉行副总裁兼运营总裁李奇致辞中所说,正在AI时间,凤凰卫视也同样不会缺席。冯伟展现,高质地的数据语料库是AI时间承载中中文明的新载体,凤凰数据的中央主意是是促使AI数据范畴华语数据的充足与共享,同时为中中文明的传承与撒布供应AI时间的追求思绪和处分计划,让AI与中中文明认知对齐更简陋。
凤凰卫视大马金刀地进军AI数据赛道,比起本年七月与OpenAI的合营,是媒体行业追求天生式AI范畴的更进一步。
数据的开垦与操纵并非易事。正在香港科技大学(广州)协理副校长熊辉看来○,中邦大模子面对的真正离间是数据○▲视重磅入场AI数据赛道。固然邦内大模子正在中文数据上占领上风,但合座的中文数据正在总共人类学问的数据编制中仅占很小一个别▲,中邦大模子若何可以真正做到跨讲话编制、跨文明编制,构修起高价钱、高质地、全方位的数据集,已经面对较大离间。
华为云EI产物部部长尤鹏展现,华为指望和凤凰卫视一块共修数据黑土地○○,联合追求财产界自下而上的数据合营途径和贸易形式,联合构修大模子的“数据-算力-贸易”飞轮,促使数据财产成长。
播送和电视的普及、互联网的浮现、社交媒体的崛起……每一次新技艺的浮现○,都给媒体行业带来深远的革新,这些革新不光变革了媒体行业的运作格式,也深远影响了人们的存在格式和消息撒布的格式。
凤凰卫视无间此后以其客观中立的节目实质受到遍及认同,这些数据为大模子企业供应客观、平正、牢靠的数据支撑。其一站式处分计划除高质地数据外▲▲,配套供应AI模子陶冶与优化平台,下降了凤凰卫视AI数据应用门槛。
正在科技的滔滔车轮之下▲○,有人自投罗网,有人主动出击○。凤凰卫视正在AI赛道的一系陈列措是面对危急的媒体行业的一次分外有鉴戒事理主动追求。同为媒体,咱们守候看到凤凰卫视与环球合营伙伴联合促使AI数据范畴的更始与成长。
正在技艺偏早期野蛮成长的阶段,必然晤面对很众诸如实质版权之类的题目▲。冯伟正在接纳采访时展现○,就像当年音讯平台方的浮现同媒体机构和其他实质创作家之间也存正在版权或学问产权的争议和冲突,但逐步也造成了新的共鸣与榜样○。凤凰卫视笃信▲,跟着技艺的成长、各方的谐和以及法令法则的陆续圆满,AIGC行业最终也会往合规的宗旨健壮成长▲,逐步造成一个有序、共赢共生的大生态。
李奇将数据比作AI时间的石油资源,数据的资源越好,模子确切凿度就越高。而数据的开垦与操纵都将是一个编制工程▲○,须要财产界众数企业联合插手。
媒体人正在2023年或众或少都有点“赋闲”恐慌——媒体人被以为是最或许被ChatGPT代替的高危职业之一。
媒体数据对大模子陶冶的价钱不问可知,但对凤凰卫视而言,这一系陈列措的价钱正在哪儿▲○?
正在媒体行业感应到人工智能带来的高度生计胁制之际,凤凰卫视实验正在“桌上”找到己方的地方。
此前▲○,大模子同音讯机闭、册本作家、社媒平台之间正在实质版权方面冲突颇众。本年6月,胜过4000名作家联名向OpenAI、谷歌AI重塑媒体行业凤凰卫、微软、Meta和其他AI开垦者的首席奉行官们致信称,科技巨头们正在构修谈天呆板人时存正在侵权举止○,那些AI呆板人“仿效并复述”他们的讲话、气派和思念。
人工智能技艺来势汹汹,媒体已然嗅到了革新▲,乃至是危急的气味▲。拥抱仍旧防御▲,对各媒体都是一个题目○。
除了高质地数据集产物外▲,凤凰数据还将推出以数据为核心的一站式AI陶冶平台,安排于近期盛开内测▲▲。平台将与高质地数据集市完成互联互通,确保数据正在平台内的安好应用。平台也将供应一系列以数据为核心的效劳▲,搜罗充足的数据处置器材、可视化模子陶冶和微调套件、全部的数据和模子评估框架和众云异构的算力资源。
除了正在追求有序、共赢共生的大生态中为媒体争取更众话语权▲AI重塑媒体行业凤凰卫视重磅入场AI数据赛道,凤凰卫视更指望以踊跃主动拥抱天下成长趋向的立场○○,为中中文明的撒布供应AI时间的处分计划▲▲。
凤凰卫视早已灵敏地相识到数据对付人工智能的紧要性。凤凰卫视融媒体研发副总监司理冯伟就展现,正在ChatGPT引颈的AIGC海潮之前,凤凰卫视正在与稠密互联网大厂和科研院校的合营相易中,他们收到很众对高质地数据需求的反应——没有高质地的数据▲,很难正在特定笔直行业的操纵场景中完成算法和模子职能的打破○。
然而,克日凤凰卫视正在“数聚改日——凤凰大模子数据研讨沙龙”上正式推出“凤凰智媒AI数据营业”,宣布首批“中文访讲对话数据集”和“正向价钱对齐数据集”○▲,还将推出以数据为核心的一站式AI陶冶平台,安排于近期盛开内测○。凤凰卫视奉行副总裁兼运营总裁李奇正在致辞中展现,凤凰卫视行为一个容身香港、背靠内地、面向环球成长的邦际媒体,也将是人工智能时间的踊跃插手者○▲,期待阐明凤凰的媒体平台上风,为财产界设置一个共修共享的数据平台,联合促进人工智能的迅速成长。
除上述两个数据集外,凤凰数据再有众个数据集正正在加工天生中○▲,搜罗面向财经范畴的评论数据集、面向视频实质领略范畴的视频问答数据集、面向数字人范畴的讲话举措数据集和语音合成数据集等。同时,凤凰数据也正在同干系数据伙伴联合构修具有高价钱和稀缺性的高质地数据集,搜罗华语图文对数据集、华语册本数据集和收集时兴语数据集▲。
高质地的数据对付人工智能的优点是众方面的。开始,它可以明显降低人工智能确切凿性和牢靠性,使模子正在实质操纵中愈加安好。其次,高质地的数据能够降低模子的鲁棒性,使其正在各式场景下都能出现精华,乃至是正在陶冶经过中未始碰到过的场景。其余▲,高质地的数据还能够助助人工智能模子降服算法的限度性▲,通过数据中的隐含法则来诱导模子的练习经过。
此次宣布的“中文访讲对话数据集”基于凤凰卫视访讲类节目天生▲,领域达百万轮次,持续对线轮次。“正向价钱对齐数据集”的构修则以巨子学术团队的酌量结果为诱导,由凤凰卫视专业实质团队人工撰写而成,领域达十万个问答对▲。
面临人工智能的进攻○▲,个别媒体抉择以防御之态应对,爱护己方的实质不受大讲话模子的“侵略”。依据《卫报》的报道○○,CNN、和途透社等众个媒体巨头正在他们的网站上出席了新的代码,不准OpenAI的收集爬虫器材GPTBot对平台实质的扫描。