小果果
2023-08-16
这篇文章不错,转发给大家看看
@表外表里:
B站的野望
免责声明:上述内容仅代表发帖人个人观点,不构成本平台的任何投资建议。
分享至
微信
复制链接
精彩评论
我们需要你的真知灼见来填补这片空白
打开APP,发表看法
APP内打开
发表看法
{"i18n":{"language":"zh_CN"},"detailType":1,"isChannel":false,"data":{"magic":2,"id":209655174639800,"tweetId":"209655174639800","gmtCreate":1692191017791,"gmtModify":1692191019089,"author":{"id":3481422369360684,"idStr":"3481422369360684","authorId":3481422369360684,"authorIdStr":"3481422369360684","name":"小果果","avatar":"https://static.laohu8.com/default-avatar.jpg","vip":1,"userType":1,"introduction":"","boolIsFan":false,"boolIsHead":false,"crmLevel":2,"crmLevelSwitch":0,"individualDisplayBadges":[],"fanSize":0,"starInvestorFlag":false},"themes":[],"images":[],"coverImages":[],"html":"<html><head></head><body><p>这篇文章不错,转发给大家看看</p></body></html>","htmlText":"<html><head></head><body><p>这篇文章不错,转发给大家看看</p></body></html>","text":"这篇文章不错,转发给大家看看","highlighted":1,"essential":1,"paper":1,"likeSize":0,"commentSize":0,"repostSize":0,"favoriteSize":0,"link":"https://laohu8.com/post/209655174639800","repostId":209214274298064,"repostType":1,"repost":{"magic":2,"id":209214274298064,"tweetId":"209214274298064","gmtCreate":1692113338055,"gmtModify":1692251211416,"gmtUserModify":1692251008228,"author":{"id":3585519170265559,"idStr":"3585519170265559","authorId":3585519170265559,"authorIdStr":"3585519170265559","name":"表外表里","avatar":"https://static.tigerbbs.com/50a2fc512ee88c19f868552a6550c7e4","vip":6,"userType":6,"introduction":"从财报故事,看价值投资。","boolIsFan":false,"boolIsHead":false,"crmLevel":1,"crmLevelSwitch":0,"individualDisplayBadges":[],"fanSize":540,"starInvestorFlag":false},"themes":[],"images":[{"img":"https://static.tigerbbs.com/f4fa4d5d848c02843b16834d2d71ac27","width":"1080","height":"460"},{"img":"https://static.tigerbbs.com/84e4b76fce2101a7ef8f632ba1008976","width":"1080","height":"492"},{"img":"https://static.tigerbbs.com/eea83126b40d683efb6a232e6e8ebd78","width":"1080","height":"237"},{"img":"https://static.tigerbbs.com/90bf87125e64a4e5c45c2a486e75b0e2","width":"886","height":"539"},{"img":"https://static.tigerbbs.com/fee6d17795789d0453ec622f73e14762","width":"803","height":"446"},{"img":"https://static.tigerbbs.com/1ece450d03de50c02cbce77623fb72ab","width":"779","height":"815"},{"img":"https://static.tigerbbs.com/039b0d3ea155e5e06bf301cf68c5667b","width":"1080","height":"602"},{"img":"https://static.tigerbbs.com/e910898f3c10c97abf7378f32bb37a55","width":"1078","height":"525"},{"img":"https://static.tigerbbs.com/346e4fbc1ee87fc5e8e2673c453745cd","width":"1306","height":"538"},{"img":"https://static.tigerbbs.com/8b5a7661c5d5954cb4b4ec2bdf9e3d91","width":"1080","height":"495"},{"img":"https://static.tigerbbs.com/cf94643fd1e7624b9077fea02c7bdca8","width":"1080","height":"718"},{"img":"https://static.tigerbbs.com/a9ed828ceabed1c28821d2d25f6664fe","width":"1080","height":"631"},{"img":"https://static.tigerbbs.com/d38def4ead79ad8773e524b854b83c0b","width":"1080","height":"297"},{"img":"https://static.tigerbbs.com/6e9c9093c742cca3a1b461897a04fef3","width":"775","height":"634"}],"coverImages":[{"img":"https://static.tigerbbs.com/f4fa4d5d848c02843b16834d2d71ac27","width":"1080","height":"460"}],"title":"B站的野望","html":"<html><head></head><body><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/f4fa4d5d848c02843b16834d2d71ac27\" tg-width=\"1080\" tg-height=\"460\"></p>\n<p style=\"text-align: left;\">本文来自微信公众号:表外表里(ID:excel-ers),作者:张冉冉 黑银轲 周霄,编辑:付晓玲 Reno</p>\n<p></p>\n<p>“未来的搜索形式会不断地发生变化,但是它的市场规模之大,恐怕远超很多人的想象。”</p>\n<p>李彦宏4年前打出的子弹,时至今日,似乎击中了百度自己。</p>\n<p>近期<em>(七月底)</em>B站投资者日上,管理层披露业务最新进展:“B站在搜索这块,有非常大的流量增长空间,<strong>今年Q2起,我们会增加搜索广告的尝试。</strong>”</p>\n<p>而更早之前,<strong>3月初B站开始陆续出现搜索广告。比如搜索“游戏”,搜索结果中的第三个位置展示了游戏广告</strong>。</p>\n<p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/84e4b76fce2101a7ef8f632ba1008976\" tg-width=\"1080\" tg-height=\"492\"></p>\n<p></p>\n<p>也就是说:B站给出商业化可能的答案,正是视频搜索。</p>\n<p>实际上,这不是无源之水,也不是无本之末。行业趋势便是如此,目前视频平台的搜索趋势都愈加明显。抖快均在去年上线搜索广告,Tiktok也在今年3月放开搜索广告。</p>\n<p>对于后面的发展,普遍信心十足。如快手2023Q1电话会议也说道:<em>搜索流量快速增长,搜索广告转化效率更高</em>。</p>\n<p>巧合的是,这都是最新一个季度发生的转变。这显然离不开过去半年AIGC的大热——<strong>行业由TensorFlow时代,发展至Transformer时代</strong>。</p>\n<p>当下,技术进步的催化,或许打开了视频搜索可能性。过去受制于视频搜索技术、时间效率、成本(人工、硬件)等难题,正在不同程度的一一发生变化。</p>\n<p>这自然会打破过去视频行业的商业化天花板。</p>\n<p>相比长视频(缺乏有用性)、短视频(纯粹奶头乐)的特征,B站独特的中视频、泛知识、通俗有趣等特征,匹配搜索行为的特定需求,会产生更好的化合效应。</p>\n<p>在AIGC时代,视频搜索或将成就B站的“野望”,同时,引发百度的“危机”。</p>\n<p></p>\n<h2>一、AI实现“看视频说话”,视频平台就能坐上金矿</h2>\n<p>很长的互联网发展周期里,视频搜索都被证明是一条很困难的赛道。</p>\n<p>难就难在,视频搜索的整个搜索流程里(输入关键词→解析关键词→召回→结果呈现),召回和结果呈现环节,都存在很大挑战。</p>\n<p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/eea83126b40d683efb6a232e6e8ebd78\" tg-width=\"1080\" tg-height=\"237\"></p>\n<p></p>\n<p>以召回环节来说,要实现这点——根据输入的关键词,与数据库内容进行匹配,检索出最符合的视频——不仅要求平台拥有丰富的视频内容池,还要有搜索的精准度。</p>\n<p>内容丰富度方面,视频内容因为创作门槛高、时间短等原因,在深度与厚度沉淀上有限。</p>\n<p>搜索精准度上,则存在更大的挑战。举个例子,在谷歌上搜索“边牧智商”,呈现的第一个搜索文章,内容里明确有边牧如何高智商的解释字眼。</p>\n<p>但如果在YouTube上有一个视频,从能听懂人话、完成指令等各个动态维度,更直观展示了边牧智商很高,可标题、字幕等却没有提及边牧智商等文字标签,这个视频就很难被搜到。</p>\n<p>之所以会这样,<strong>是因为视频融合了文字、图片等多模态信息,相比纯文章,内容理解要难得多</strong>——很难将视频里的狗子,识别成为边牧,更难把边牧的动作,和高智商挂钩。</p>\n<p>事实上,2017年Transformer架构被提出之后,多模态模型已不断进化。</p>\n<p>比如,先是谷歌由此架构提出了实现图像分类的ViT模型,将Transformer 带到了视觉领域,但该模型仍然只是单图像模态。</p>\n<p>在其之后,OpenAI提出了CLIP模型,可以基于文本对图片进行分类,<strong>包括图像处理和文本处理两方面的内容,打破了过去二者泾渭分明的界限,实现多模态</strong>。</p>\n<p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/90bf87125e64a4e5c45c2a486e75b0e2\" tg-width=\"886\" tg-height=\"539\"></p>\n<p></p>\n<p>而且,CLIP在GPT-3的启发下,可以直接全网数据爬虫,一图一文匹配,稍微做筛选即可,几乎不需要人工标注,实现了更高的成本和时间效率。</p>\n<p>要知道,过去的视觉模型都是基于人工标注的数据集训练,而一秒视频至少有24帧,短短一分钟的视频就能够提取出1440张图像,把其应用到视频识别上,成本极高。</p>\n<p>但尽管CLIP在识别常见物体上表现良好,却无法处理更抽象的任务,比如输出图片中物体的个数等需要一定逻辑思维推理的任务。</p>\n<p>也就是说,此时的图像识别,更像人的视网膜原理。但人不光是眼睛看到了当前的情况,大脑还得对情况有相应的反应。</p>\n<p>这需要算法具备像大脑一样的语义理解能力,才能够全面理解视频,更好地支撑关键词的召回匹配和排序。</p>\n<p>而几个月前发布的GPT-4,让这一问题有了解决的迹象。</p>\n<p>比如在对话中输入下图,GPT-4 的回答是“这是一棵生长在冰冻湖上的仙人掌,它周围长满了巨大的冰晶,远处还有白雪覆盖的山峰”。</p>\n<p>继续问“这种景象在现实世界中是否常见”,其解释很少有这样的景象,并给出相应原因。</p>\n<p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/fee6d17795789d0453ec622f73e14762\" tg-width=\"803\" tg-height=\"446\"></p>\n<p></p>\n<p>也就是说,<strong>最新的GPT 4已经具备了“看图说话”的能力——不仅做了物体的识别,还可以做很多语义的解读</strong>。</p>\n<p>以此后推,随着AI模型加速迭代,“看视频说话”也指日可待。当然,反过来也能够实现文本生成视频,降低制作视频的门槛。</p>\n<p>但GPT-4这个能力目前只在宣布阶段,还不存在一个完整的多模态大模型,需要一定时间的探索。</p>\n<p>况且,多模态大模型要以图像和视频等作为训练数据,文件大小远大于语言类模型,算力成本极高。</p>\n<p>比如,百度的文心一言虽然展示了视频生成能力,但因成本较高,现阶段还未对所有用户开放。</p>\n<p>而在结果呈现环节,视频也不能像文章一样快速浏览,ctrl+F查找,一个十分钟的视频,可能到后半段才有你要的信息,再加上暂停、记录,三十分钟都搞不定。</p>\n<p>但这个问题,国内已有音视频大模型破解:将视频信息归纳总结,想看哪一段,直接点击章节,就可以跳转到相应的时间段播放。</p>\n<p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/1ece450d03de50c02cbce77623fb72ab\" tg-width=\"779\" tg-height=\"815\"></p>\n<p></p>\n<p>总的来说,随着视频AI技术的应用,视频搜索在核心的内容丰富度以及搜索精准度,都有望解决。</p>\n<p>何况视频本身比文本就更加直观生动,更具吸引力——截止2022年6月,国内网民每天一半的网上娱乐时间都花在短视频平台上。</p>\n<p>种种利好叠加,<strong>到那时,视频或能代替文本成为搜索的主流</strong>。当下在海外,这种苗头已经出现。</p>\n<p>Chowdhury机构调研显示,近40%的年轻人在寻找吃饭的地方时,会在TikTok进行,而不是谷歌搜索。</p>\n<p>可以看到,海外年轻人平均每天都要沉浸在TikTok上近两个小时。在这两个小时内,但凡看到有趣的内容,自然触发搜索行为。</p>\n<p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/039b0d3ea155e5e06bf301cf68c5667b\" tg-width=\"1080\" tg-height=\"602\"></p>\n<p></p>\n<p>这样的情况,让谷歌深感威胁。据透露,谷歌数百名员工被分配到一个被称为“重要的搜索转移”的项目中工作,该项目的内容是让搜索结果显示更多图像和视频。</p>\n<p>显然,这对百度来说,也可能是未来会遇到的情况。</p>\n<p>但“惊喜”,远不止此。</p>\n<p>不同于文字,视频能润物细无声地植入广告,吸引用户点击。最早上线视频搜索广告的youtube曾表示,视频搜索广告带来的点击次数比插播广告,高出近五倍。</p>\n<p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/e910898f3c10c97abf7378f32bb37a55\" tg-width=\"1078\" tg-height=\"525\"></p>\n<p></p>\n<p>不止点击率,广告价格方面也是一样。视频平台本身在算法推荐上就具备优势,再与搜索结合,广告精准度提升,就有人买单。</p>\n<p>总的来说,视频搜索场景下,搜索广告的几大驱动因子——流量、加载率、点击率、价格等都有了进一步提高的可能。</p>\n<p>这样一来,<strong>意味着一旦技术突破,视频搜索可能会重构搜索广告的生态与逻辑,</strong>视频平台相当于坐上了金矿。</p>\n<p></p>\n<h2>二、“泼天富贵”终于轮到B站?</h2>\n<p>B站14周年庆上(6月召开),陈睿当着全国年轻人的面,向中长视频UP主服软称,“要用更真实的播放分钟数去替代播放次数,作为B站视频的主要外显数字。”</p>\n<p>那么,为何B站会口风大变呢?</p>\n<p>其实,<strong>管理层可能不是在讨好中长视频UP主们,而是要迎接自己的时代</strong>。</p>\n<p>众所周知,一直以来,抖快以沉浸式娱乐内容,在日活、用户时长上,压了视频号、B站等以泛知识内容为主的平台一头。</p>\n<p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/346e4fbc1ee87fc5e8e2673c453745cd\" tg-width=\"1306\" tg-height=\"538\"></p>\n<p></p>\n<p>但视频搜索场景下,两者的处境截然相反。</p>\n<p>YouTube相关负责人曾提到:“YouTube上,每周经由关键词搜索而产生的视频浏览量有数十亿次,许多风格偏实用的视频正是通过这种方式被发现的。”</p>\n<p>其所说的实用视频正是how to(如何...)类视频——Youtube上每天有数以百万计的搜索关键词当中包含“how to”,用户花在“how to”类视频的时间是“宠物和动物”的10倍。</p>\n<p>原因在于:<strong>视频搜索是有目的性的,偏知识类的内容,更符合搜索需求</strong>。</p>\n<p>而这也是B站的舒适区,可以看到,截至今年3月份,B站泛知识内容占比41%,“学习网站”的名头无意中越来越夯实。</p>\n<p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/8b5a7661c5d5954cb4b4ec2bdf9e3d91\" tg-width=\"1080\" tg-height=\"495\"></p>\n<p></p>\n<p>如此就不难理解,为何“睿帝”低头,调整激励方式。</p>\n<p>不过,内容优质只是一方面,视频搜索效率高,还要能提取足够多的关键词。</p>\n<p>这一点来看,同一关键词分别在抖音、B站搜索到的标题汇总显示:抖快视频标题很长,但大多数采用现成的tag,或者“标题党”类标题;</p>\n<p>相比之下,B站的标题简单,可大多具备关键词汇,也更加专业。</p>\n<p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/cf94643fd1e7624b9077fea02c7bdca8\" tg-width=\"1080\" tg-height=\"718\"></p>\n<p></p>\n<p>搜索内容呈现也是一样,以“山东地震”为例,抖音搜索结果聚焦在“肯定要先跑出去呀”、“啊啊啊啊啊,地震了”等博主本人感受。</p>\n<p>B站搜索到的诸如“山东为何突然爆发地震?”等知识科普,创作者更多运用“板块运动”“断裂带”等专业词汇讲解。</p>\n<p>也就是说,无论标题、内容,还是时长方面,<strong>中视频比短视频都更易提取关键词,与视频搜索更适配</strong>。</p>\n<p>且短视频平台的创作者想转向做中长视频,恐怕也有难度。可以看到,过去一年,不少千万粉丝的抖音创作者入驻B站后,粉丝量表现均不佳。</p>\n<p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/a9ed828ceabed1c28821d2d25f6664fe\" tg-width=\"1080\" tg-height=\"631\"></p>\n<p></p>\n<p>此外,用户自己搜索所需下,优质的内容能够获得更长的生命周期。</p>\n<p>仍以youtube为例,上述所说的How to(如何...)类视频生命周期极长,即使过去很长时间,依然能维持较高的热度,甚至是逆袭式的消费曲线。</p>\n<p>B站自己也有这样的畅想,2022Q4电话会议曾提到:<em>B站上面有很多知识类内容,都有很好的历史价值,几年以后大家也都会去看它。ChatGPT的搜索体验,它可以把B站的内容积累的价值,更充分地发挥出来</em>。</p>\n<p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/d38def4ead79ad8773e524b854b83c0b\" tg-width=\"1080\" tg-height=\"297\"></p>\n<p></p>\n<p>这样一来,会激励创作者产出更多优质内容,而不是像当下的Story Mode模式,不断冲击站内的中长视频UP主基本盘。</p>\n<p>有了更多的优质内容,就能够扩大搜索流量池,广告主闻利而来,创作者也能获得更多收益,社区生态整个良性循环。</p>\n<p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/6e9c9093c742cca3a1b461897a04fef3\" tg-width=\"775\" tg-height=\"634\"></p>\n<p></p>\n<p>换言之,<strong>如果技术实现突破,相比可能让B站陷入“死亡螺旋”的Story Mode模式,视频搜索广告才是良药</strong>。(详情请参考《B站能否避开死亡螺旋?》一文)</p>\n<p>更何况除了拉动正循环,搜索场景下,平台还掌握着宏观调控的权力。</p>\n<p>如YouTube,2020年提升了how-to类内容和高商业化KOL分发权重,当年广告营收达到198亿美元,相比2017年翻了超过3倍。</p>\n<p>B站来说,可以将搜索流量分发至更多中腰部up主的推广视频中,一定程度上可以带着up主“共同富裕”。</p>\n<p></p>\n<h2>小结</h2>\n<p>视频搜索的蓝图,让所有人垂涎。AI大模型加持下,技术正在突破ing,广阔的商业化变现空间,隐隐招手。</p>\n<p>而B战尤甚,中视频与视频搜索更适配,这意味着盘活平台的创作者生态,促进新一轮的生态发展。</p>\n<p>当然,预期总是美好的,但这一块短中期落地方面,仍存在较大的挑战。</p>\n<p>比如,视频训练成本高极高,同时AI联想能力并不可控,可能会导致不恰当关键词投放,让广告主落入负面风险中。</p></body></html>","htmlText":"<html><head></head><body><p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/f4fa4d5d848c02843b16834d2d71ac27\" tg-width=\"1080\" tg-height=\"460\"></p>\n<p style=\"text-align: left;\">本文来自微信公众号:表外表里(ID:excel-ers),作者:张冉冉 黑银轲 周霄,编辑:付晓玲 Reno</p>\n<p></p>\n<p>“未来的搜索形式会不断地发生变化,但是它的市场规模之大,恐怕远超很多人的想象。”</p>\n<p>李彦宏4年前打出的子弹,时至今日,似乎击中了百度自己。</p>\n<p>近期<em>(七月底)</em>B站投资者日上,管理层披露业务最新进展:“B站在搜索这块,有非常大的流量增长空间,<strong>今年Q2起,我们会增加搜索广告的尝试。</strong>”</p>\n<p>而更早之前,<strong>3月初B站开始陆续出现搜索广告。比如搜索“游戏”,搜索结果中的第三个位置展示了游戏广告</strong>。</p>\n<p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/84e4b76fce2101a7ef8f632ba1008976\" tg-width=\"1080\" tg-height=\"492\"></p>\n<p></p>\n<p>也就是说:B站给出商业化可能的答案,正是视频搜索。</p>\n<p>实际上,这不是无源之水,也不是无本之末。行业趋势便是如此,目前视频平台的搜索趋势都愈加明显。抖快均在去年上线搜索广告,Tiktok也在今年3月放开搜索广告。</p>\n<p>对于后面的发展,普遍信心十足。如快手2023Q1电话会议也说道:<em>搜索流量快速增长,搜索广告转化效率更高</em>。</p>\n<p>巧合的是,这都是最新一个季度发生的转变。这显然离不开过去半年AIGC的大热——<strong>行业由TensorFlow时代,发展至Transformer时代</strong>。</p>\n<p>当下,技术进步的催化,或许打开了视频搜索可能性。过去受制于视频搜索技术、时间效率、成本(人工、硬件)等难题,正在不同程度的一一发生变化。</p>\n<p>这自然会打破过去视频行业的商业化天花板。</p>\n<p>相比长视频(缺乏有用性)、短视频(纯粹奶头乐)的特征,B站独特的中视频、泛知识、通俗有趣等特征,匹配搜索行为的特定需求,会产生更好的化合效应。</p>\n<p>在AIGC时代,视频搜索或将成就B站的“野望”,同时,引发百度的“危机”。</p>\n<p></p>\n<h2>一、AI实现“看视频说话”,视频平台就能坐上金矿</h2>\n<p>很长的互联网发展周期里,视频搜索都被证明是一条很困难的赛道。</p>\n<p>难就难在,视频搜索的整个搜索流程里(输入关键词→解析关键词→召回→结果呈现),召回和结果呈现环节,都存在很大挑战。</p>\n<p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/eea83126b40d683efb6a232e6e8ebd78\" tg-width=\"1080\" tg-height=\"237\"></p>\n<p></p>\n<p>以召回环节来说,要实现这点——根据输入的关键词,与数据库内容进行匹配,检索出最符合的视频——不仅要求平台拥有丰富的视频内容池,还要有搜索的精准度。</p>\n<p>内容丰富度方面,视频内容因为创作门槛高、时间短等原因,在深度与厚度沉淀上有限。</p>\n<p>搜索精准度上,则存在更大的挑战。举个例子,在谷歌上搜索“边牧智商”,呈现的第一个搜索文章,内容里明确有边牧如何高智商的解释字眼。</p>\n<p>但如果在YouTube上有一个视频,从能听懂人话、完成指令等各个动态维度,更直观展示了边牧智商很高,可标题、字幕等却没有提及边牧智商等文字标签,这个视频就很难被搜到。</p>\n<p>之所以会这样,<strong>是因为视频融合了文字、图片等多模态信息,相比纯文章,内容理解要难得多</strong>——很难将视频里的狗子,识别成为边牧,更难把边牧的动作,和高智商挂钩。</p>\n<p>事实上,2017年Transformer架构被提出之后,多模态模型已不断进化。</p>\n<p>比如,先是谷歌由此架构提出了实现图像分类的ViT模型,将Transformer 带到了视觉领域,但该模型仍然只是单图像模态。</p>\n<p>在其之后,OpenAI提出了CLIP模型,可以基于文本对图片进行分类,<strong>包括图像处理和文本处理两方面的内容,打破了过去二者泾渭分明的界限,实现多模态</strong>。</p>\n<p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/90bf87125e64a4e5c45c2a486e75b0e2\" tg-width=\"886\" tg-height=\"539\"></p>\n<p></p>\n<p>而且,CLIP在GPT-3的启发下,可以直接全网数据爬虫,一图一文匹配,稍微做筛选即可,几乎不需要人工标注,实现了更高的成本和时间效率。</p>\n<p>要知道,过去的视觉模型都是基于人工标注的数据集训练,而一秒视频至少有24帧,短短一分钟的视频就能够提取出1440张图像,把其应用到视频识别上,成本极高。</p>\n<p>但尽管CLIP在识别常见物体上表现良好,却无法处理更抽象的任务,比如输出图片中物体的个数等需要一定逻辑思维推理的任务。</p>\n<p>也就是说,此时的图像识别,更像人的视网膜原理。但人不光是眼睛看到了当前的情况,大脑还得对情况有相应的反应。</p>\n<p>这需要算法具备像大脑一样的语义理解能力,才能够全面理解视频,更好地支撑关键词的召回匹配和排序。</p>\n<p>而几个月前发布的GPT-4,让这一问题有了解决的迹象。</p>\n<p>比如在对话中输入下图,GPT-4 的回答是“这是一棵生长在冰冻湖上的仙人掌,它周围长满了巨大的冰晶,远处还有白雪覆盖的山峰”。</p>\n<p>继续问“这种景象在现实世界中是否常见”,其解释很少有这样的景象,并给出相应原因。</p>\n<p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/fee6d17795789d0453ec622f73e14762\" tg-width=\"803\" tg-height=\"446\"></p>\n<p></p>\n<p>也就是说,<strong>最新的GPT 4已经具备了“看图说话”的能力——不仅做了物体的识别,还可以做很多语义的解读</strong>。</p>\n<p>以此后推,随着AI模型加速迭代,“看视频说话”也指日可待。当然,反过来也能够实现文本生成视频,降低制作视频的门槛。</p>\n<p>但GPT-4这个能力目前只在宣布阶段,还不存在一个完整的多模态大模型,需要一定时间的探索。</p>\n<p>况且,多模态大模型要以图像和视频等作为训练数据,文件大小远大于语言类模型,算力成本极高。</p>\n<p>比如,百度的文心一言虽然展示了视频生成能力,但因成本较高,现阶段还未对所有用户开放。</p>\n<p>而在结果呈现环节,视频也不能像文章一样快速浏览,ctrl+F查找,一个十分钟的视频,可能到后半段才有你要的信息,再加上暂停、记录,三十分钟都搞不定。</p>\n<p>但这个问题,国内已有音视频大模型破解:将视频信息归纳总结,想看哪一段,直接点击章节,就可以跳转到相应的时间段播放。</p>\n<p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/1ece450d03de50c02cbce77623fb72ab\" tg-width=\"779\" tg-height=\"815\"></p>\n<p></p>\n<p>总的来说,随着视频AI技术的应用,视频搜索在核心的内容丰富度以及搜索精准度,都有望解决。</p>\n<p>何况视频本身比文本就更加直观生动,更具吸引力——截止2022年6月,国内网民每天一半的网上娱乐时间都花在短视频平台上。</p>\n<p>种种利好叠加,<strong>到那时,视频或能代替文本成为搜索的主流</strong>。当下在海外,这种苗头已经出现。</p>\n<p>Chowdhury机构调研显示,近40%的年轻人在寻找吃饭的地方时,会在TikTok进行,而不是谷歌搜索。</p>\n<p>可以看到,海外年轻人平均每天都要沉浸在TikTok上近两个小时。在这两个小时内,但凡看到有趣的内容,自然触发搜索行为。</p>\n<p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/039b0d3ea155e5e06bf301cf68c5667b\" tg-width=\"1080\" tg-height=\"602\"></p>\n<p></p>\n<p>这样的情况,让谷歌深感威胁。据透露,谷歌数百名员工被分配到一个被称为“重要的搜索转移”的项目中工作,该项目的内容是让搜索结果显示更多图像和视频。</p>\n<p>显然,这对百度来说,也可能是未来会遇到的情况。</p>\n<p>但“惊喜”,远不止此。</p>\n<p>不同于文字,视频能润物细无声地植入广告,吸引用户点击。最早上线视频搜索广告的youtube曾表示,视频搜索广告带来的点击次数比插播广告,高出近五倍。</p>\n<p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/e910898f3c10c97abf7378f32bb37a55\" tg-width=\"1078\" tg-height=\"525\"></p>\n<p></p>\n<p>不止点击率,广告价格方面也是一样。视频平台本身在算法推荐上就具备优势,再与搜索结合,广告精准度提升,就有人买单。</p>\n<p>总的来说,视频搜索场景下,搜索广告的几大驱动因子——流量、加载率、点击率、价格等都有了进一步提高的可能。</p>\n<p>这样一来,<strong>意味着一旦技术突破,视频搜索可能会重构搜索广告的生态与逻辑,</strong>视频平台相当于坐上了金矿。</p>\n<p></p>\n<h2>二、“泼天富贵”终于轮到B站?</h2>\n<p>B站14周年庆上(6月召开),陈睿当着全国年轻人的面,向中长视频UP主服软称,“要用更真实的播放分钟数去替代播放次数,作为B站视频的主要外显数字。”</p>\n<p>那么,为何B站会口风大变呢?</p>\n<p>其实,<strong>管理层可能不是在讨好中长视频UP主们,而是要迎接自己的时代</strong>。</p>\n<p>众所周知,一直以来,抖快以沉浸式娱乐内容,在日活、用户时长上,压了视频号、B站等以泛知识内容为主的平台一头。</p>\n<p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/346e4fbc1ee87fc5e8e2673c453745cd\" tg-width=\"1306\" tg-height=\"538\"></p>\n<p></p>\n<p>但视频搜索场景下,两者的处境截然相反。</p>\n<p>YouTube相关负责人曾提到:“YouTube上,每周经由关键词搜索而产生的视频浏览量有数十亿次,许多风格偏实用的视频正是通过这种方式被发现的。”</p>\n<p>其所说的实用视频正是how to(如何...)类视频——Youtube上每天有数以百万计的搜索关键词当中包含“how to”,用户花在“how to”类视频的时间是“宠物和动物”的10倍。</p>\n<p>原因在于:<strong>视频搜索是有目的性的,偏知识类的内容,更符合搜索需求</strong>。</p>\n<p>而这也是B站的舒适区,可以看到,截至今年3月份,B站泛知识内容占比41%,“学习网站”的名头无意中越来越夯实。</p>\n<p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/8b5a7661c5d5954cb4b4ec2bdf9e3d91\" tg-width=\"1080\" tg-height=\"495\"></p>\n<p></p>\n<p>如此就不难理解,为何“睿帝”低头,调整激励方式。</p>\n<p>不过,内容优质只是一方面,视频搜索效率高,还要能提取足够多的关键词。</p>\n<p>这一点来看,同一关键词分别在抖音、B站搜索到的标题汇总显示:抖快视频标题很长,但大多数采用现成的tag,或者“标题党”类标题;</p>\n<p>相比之下,B站的标题简单,可大多具备关键词汇,也更加专业。</p>\n<p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/cf94643fd1e7624b9077fea02c7bdca8\" tg-width=\"1080\" tg-height=\"718\"></p>\n<p></p>\n<p>搜索内容呈现也是一样,以“山东地震”为例,抖音搜索结果聚焦在“肯定要先跑出去呀”、“啊啊啊啊啊,地震了”等博主本人感受。</p>\n<p>B站搜索到的诸如“山东为何突然爆发地震?”等知识科普,创作者更多运用“板块运动”“断裂带”等专业词汇讲解。</p>\n<p>也就是说,无论标题、内容,还是时长方面,<strong>中视频比短视频都更易提取关键词,与视频搜索更适配</strong>。</p>\n<p>且短视频平台的创作者想转向做中长视频,恐怕也有难度。可以看到,过去一年,不少千万粉丝的抖音创作者入驻B站后,粉丝量表现均不佳。</p>\n<p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/a9ed828ceabed1c28821d2d25f6664fe\" tg-width=\"1080\" tg-height=\"631\"></p>\n<p></p>\n<p>此外,用户自己搜索所需下,优质的内容能够获得更长的生命周期。</p>\n<p>仍以youtube为例,上述所说的How to(如何...)类视频生命周期极长,即使过去很长时间,依然能维持较高的热度,甚至是逆袭式的消费曲线。</p>\n<p>B站自己也有这样的畅想,2022Q4电话会议曾提到:<em>B站上面有很多知识类内容,都有很好的历史价值,几年以后大家也都会去看它。ChatGPT的搜索体验,它可以把B站的内容积累的价值,更充分地发挥出来</em>。</p>\n<p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/d38def4ead79ad8773e524b854b83c0b\" tg-width=\"1080\" tg-height=\"297\"></p>\n<p></p>\n<p>这样一来,会激励创作者产出更多优质内容,而不是像当下的Story Mode模式,不断冲击站内的中长视频UP主基本盘。</p>\n<p>有了更多的优质内容,就能够扩大搜索流量池,广告主闻利而来,创作者也能获得更多收益,社区生态整个良性循环。</p>\n<p class=\"t-img-caption\"><img src=\"https://static.tigerbbs.com/6e9c9093c742cca3a1b461897a04fef3\" tg-width=\"775\" tg-height=\"634\"></p>\n<p></p>\n<p>换言之,<strong>如果技术实现突破,相比可能让B站陷入“死亡螺旋”的Story Mode模式,视频搜索广告才是良药</strong>。(详情请参考《B站能否避开死亡螺旋?》一文)</p>\n<p>更何况除了拉动正循环,搜索场景下,平台还掌握着宏观调控的权力。</p>\n<p>如YouTube,2020年提升了how-to类内容和高商业化KOL分发权重,当年广告营收达到198亿美元,相比2017年翻了超过3倍。</p>\n<p>B站来说,可以将搜索流量分发至更多中腰部up主的推广视频中,一定程度上可以带着up主“共同富裕”。</p>\n<p></p>\n<h2>小结</h2>\n<p>视频搜索的蓝图,让所有人垂涎。AI大模型加持下,技术正在突破ing,广阔的商业化变现空间,隐隐招手。</p>\n<p>而B战尤甚,中视频与视频搜索更适配,这意味着盘活平台的创作者生态,促进新一轮的生态发展。</p>\n<p>当然,预期总是美好的,但这一块短中期落地方面,仍存在较大的挑战。</p>\n<p>比如,视频训练成本高极高,同时AI联想能力并不可控,可能会导致不恰当关键词投放,让广告主落入负面风险中。</p></body></html>","text":"本文来自微信公众号:表外表里(ID:excel-ers),作者:张冉冉 黑银轲 周霄,编辑:付晓玲 Reno “未来的搜索形式会不断地发生变化,但是它的市场规模之大,恐怕远超很多人的想象。” 李彦宏4年前打出的子弹,时至今日,似乎击中了百度自己。 近期(七月底)B站投资者日上,管理层披露业务最新进展:“B站在搜索这块,有非常大的流量增长空间,今年Q2起,我们会增加搜索广告的尝试。” 而更早之前,3月初B站开始陆续出现搜索广告。比如搜索“游戏”,搜索结果中的第三个位置展示了游戏广告。 也就是说:B站给出商业化可能的答案,正是视频搜索。 实际上,这不是无源之水,也不是无本之末。行业趋势便是如此,目前视频平台的搜索趋势都愈加明显。抖快均在去年上线搜索广告,Tiktok也在今年3月放开搜索广告。 对于后面的发展,普遍信心十足。如快手2023Q1电话会议也说道:搜索流量快速增长,搜索广告转化效率更高。 巧合的是,这都是最新一个季度发生的转变。这显然离不开过去半年AIGC的大热——行业由TensorFlow时代,发展至Transformer时代。 当下,技术进步的催化,或许打开了视频搜索可能性。过去受制于视频搜索技术、时间效率、成本(人工、硬件)等难题,正在不同程度的一一发生变化。 这自然会打破过去视频行业的商业化天花板。 相比长视频(缺乏有用性)、短视频(纯粹奶头乐)的特征,B站独特的中视频、泛知识、通俗有趣等特征,匹配搜索行为的特定需求,会产生更好的化合效应。 在AIGC时代,视频搜索或将成就B站的“野望”,同时,引发百度的“危机”。 一、AI实现“看视频说话”,视频平台就能坐上金矿 很长的互联网发展周期里,视频搜索都被证明是一条很困难的赛道。 难就难在,视频搜索的整个搜索流程里(输入关键词→解析关键词→召回→结果呈现),召回和结果呈现环节,都存在很大挑战。 以召回环节来说,要实现这点——根据输入的关键词,与数据库内容进行匹配,检索出最符合的视频——不仅要求平台拥有丰富的视频内容池,还要有搜索的精准度。 内容丰富度方面,视频内容因为创作门槛高、时间短等原因,在深度与厚度沉淀上有限。 搜索精准度上,则存在更大的挑战。举个例子,在谷歌上搜索“边牧智商”,呈现的第一个搜索文章,内容里明确有边牧如何高智商的解释字眼。 但如果在YouTube上有一个视频,从能听懂人话、完成指令等各个动态维度,更直观展示了边牧智商很高,可标题、字幕等却没有提及边牧智商等文字标签,这个视频就很难被搜到。 之所以会这样,是因为视频融合了文字、图片等多模态信息,相比纯文章,内容理解要难得多——很难将视频里的狗子,识别成为边牧,更难把边牧的动作,和高智商挂钩。 事实上,2017年Transformer架构被提出之后,多模态模型已不断进化。 比如,先是谷歌由此架构提出了实现图像分类的ViT模型,将Transformer 带到了视觉领域,但该模型仍然只是单图像模态。 在其之后,OpenAI提出了CLIP模型,可以基于文本对图片进行分类,包括图像处理和文本处理两方面的内容,打破了过去二者泾渭分明的界限,实现多模态。 而且,CLIP在GPT-3的启发下,可以直接全网数据爬虫,一图一文匹配,稍微做筛选即可,几乎不需要人工标注,实现了更高的成本和时间效率。 要知道,过去的视觉模型都是基于人工标注的数据集训练,而一秒视频至少有24帧,短短一分钟的视频就能够提取出1440张图像,把其应用到视频识别上,成本极高。 但尽管CLIP在识别常见物体上表现良好,却无法处理更抽象的任务,比如输出图片中物体的个数等需要一定逻辑思维推理的任务。 也就是说,此时的图像识别,更像人的视网膜原理。但人不光是眼睛看到了当前的情况,大脑还得对情况有相应的反应。 这需要算法具备像大脑一样的语义理解能力,才能够全面理解视频,更好地支撑关键词的召回匹配和排序。 而几个月前发布的GPT-4,让这一问题有了解决的迹象。 比如在对话中输入下图,GPT-4 的回答是“这是一棵生长在冰冻湖上的仙人掌,它周围长满了巨大的冰晶,远处还有白雪覆盖的山峰”。 继续问“这种景象在现实世界中是否常见”,其解释很少有这样的景象,并给出相应原因。 也就是说,最新的GPT 4已经具备了“看图说话”的能力——不仅做了物体的识别,还可以做很多语义的解读。 以此后推,随着AI模型加速迭代,“看视频说话”也指日可待。当然,反过来也能够实现文本生成视频,降低制作视频的门槛。 但GPT-4这个能力目前只在宣布阶段,还不存在一个完整的多模态大模型,需要一定时间的探索。 况且,多模态大模型要以图像和视频等作为训练数据,文件大小远大于语言类模型,算力成本极高。 比如,百度的文心一言虽然展示了视频生成能力,但因成本较高,现阶段还未对所有用户开放。 而在结果呈现环节,视频也不能像文章一样快速浏览,ctrl+F查找,一个十分钟的视频,可能到后半段才有你要的信息,再加上暂停、记录,三十分钟都搞不定。 但这个问题,国内已有音视频大模型破解:将视频信息归纳总结,想看哪一段,直接点击章节,就可以跳转到相应的时间段播放。 总的来说,随着视频AI技术的应用,视频搜索在核心的内容丰富度以及搜索精准度,都有望解决。 何况视频本身比文本就更加直观生动,更具吸引力——截止2022年6月,国内网民每天一半的网上娱乐时间都花在短视频平台上。 种种利好叠加,到那时,视频或能代替文本成为搜索的主流。当下在海外,这种苗头已经出现。 Chowdhury机构调研显示,近40%的年轻人在寻找吃饭的地方时,会在TikTok进行,而不是谷歌搜索。 可以看到,海外年轻人平均每天都要沉浸在TikTok上近两个小时。在这两个小时内,但凡看到有趣的内容,自然触发搜索行为。 这样的情况,让谷歌深感威胁。据透露,谷歌数百名员工被分配到一个被称为“重要的搜索转移”的项目中工作,该项目的内容是让搜索结果显示更多图像和视频。 显然,这对百度来说,也可能是未来会遇到的情况。 但“惊喜”,远不止此。 不同于文字,视频能润物细无声地植入广告,吸引用户点击。最早上线视频搜索广告的youtube曾表示,视频搜索广告带来的点击次数比插播广告,高出近五倍。 不止点击率,广告价格方面也是一样。视频平台本身在算法推荐上就具备优势,再与搜索结合,广告精准度提升,就有人买单。 总的来说,视频搜索场景下,搜索广告的几大驱动因子——流量、加载率、点击率、价格等都有了进一步提高的可能。 这样一来,意味着一旦技术突破,视频搜索可能会重构搜索广告的生态与逻辑,视频平台相当于坐上了金矿。 二、“泼天富贵”终于轮到B站? B站14周年庆上(6月召开),陈睿当着全国年轻人的面,向中长视频UP主服软称,“要用更真实的播放分钟数去替代播放次数,作为B站视频的主要外显数字。” 那么,为何B站会口风大变呢? 其实,管理层可能不是在讨好中长视频UP主们,而是要迎接自己的时代。 众所周知,一直以来,抖快以沉浸式娱乐内容,在日活、用户时长上,压了视频号、B站等以泛知识内容为主的平台一头。 但视频搜索场景下,两者的处境截然相反。 YouTube相关负责人曾提到:“YouTube上,每周经由关键词搜索而产生的视频浏览量有数十亿次,许多风格偏实用的视频正是通过这种方式被发现的。” 其所说的实用视频正是how to(如何...)类视频——Youtube上每天有数以百万计的搜索关键词当中包含“how to”,用户花在“how to”类视频的时间是“宠物和动物”的10倍。 原因在于:视频搜索是有目的性的,偏知识类的内容,更符合搜索需求。 而这也是B站的舒适区,可以看到,截至今年3月份,B站泛知识内容占比41%,“学习网站”的名头无意中越来越夯实。 如此就不难理解,为何“睿帝”低头,调整激励方式。 不过,内容优质只是一方面,视频搜索效率高,还要能提取足够多的关键词。 这一点来看,同一关键词分别在抖音、B站搜索到的标题汇总显示:抖快视频标题很长,但大多数采用现成的tag,或者“标题党”类标题; 相比之下,B站的标题简单,可大多具备关键词汇,也更加专业。 搜索内容呈现也是一样,以“山东地震”为例,抖音搜索结果聚焦在“肯定要先跑出去呀”、“啊啊啊啊啊,地震了”等博主本人感受。 B站搜索到的诸如“山东为何突然爆发地震?”等知识科普,创作者更多运用“板块运动”“断裂带”等专业词汇讲解。 也就是说,无论标题、内容,还是时长方面,中视频比短视频都更易提取关键词,与视频搜索更适配。 且短视频平台的创作者想转向做中长视频,恐怕也有难度。可以看到,过去一年,不少千万粉丝的抖音创作者入驻B站后,粉丝量表现均不佳。 此外,用户自己搜索所需下,优质的内容能够获得更长的生命周期。 仍以youtube为例,上述所说的How to(如何...)类视频生命周期极长,即使过去很长时间,依然能维持较高的热度,甚至是逆袭式的消费曲线。 B站自己也有这样的畅想,2022Q4电话会议曾提到:B站上面有很多知识类内容,都有很好的历史价值,几年以后大家也都会去看它。ChatGPT的搜索体验,它可以把B站的内容积累的价值,更充分地发挥出来。 这样一来,会激励创作者产出更多优质内容,而不是像当下的Story Mode模式,不断冲击站内的中长视频UP主基本盘。 有了更多的优质内容,就能够扩大搜索流量池,广告主闻利而来,创作者也能获得更多收益,社区生态整个良性循环。 换言之,如果技术实现突破,相比可能让B站陷入“死亡螺旋”的Story Mode模式,视频搜索广告才是良药。(详情请参考《B站能否避开死亡螺旋?》一文) 更何况除了拉动正循环,搜索场景下,平台还掌握着宏观调控的权力。 如YouTube,2020年提升了how-to类内容和高商业化KOL分发权重,当年广告营收达到198亿美元,相比2017年翻了超过3倍。 B站来说,可以将搜索流量分发至更多中腰部up主的推广视频中,一定程度上可以带着up主“共同富裕”。 小结 视频搜索的蓝图,让所有人垂涎。AI大模型加持下,技术正在突破ing,广阔的商业化变现空间,隐隐招手。 而B战尤甚,中视频与视频搜索更适配,这意味着盘活平台的创作者生态,促进新一轮的生态发展。 当然,预期总是美好的,但这一块短中期落地方面,仍存在较大的挑战。 比如,视频训练成本高极高,同时AI联想能力并不可控,可能会导致不恰当关键词投放,让广告主落入负面风险中。","highlighted":1,"essential":2,"paper":2,"link":"https://laohu8.com/post/209214274298064","repostId":0,"isVote":1,"tweetType":1,"commentLimit":10,"symbols":["BIDU","BILI","09626"],"verified":2,"subType":0,"readableState":1,"langContent":"CN","currentLanguage":"CN","warmUpFlag":false,"orderFlag":false,"shareable":true,"causeOfNotShareable":"","featuresForAnalytics":[],"commentAndTweetFlag":false,"andRepostAutoSelectedFlag":false,"upFlag":false,"length":7608,"xxTargetLangEnum":"ZH_CN"},"isVote":1,"tweetType":1,"viewCount":893,"commentLimit":10,"likeStatus":false,"favoriteStatus":false,"reportStatus":false,"symbols":[],"verified":2,"subType":0,"readableState":1,"langContent":"CN","currentLanguage":"CN","warmUpFlag":false,"orderFlag":false,"shareable":true,"causeOfNotShareable":"","featuresForAnalytics":[],"commentAndTweetFlag":false,"andRepostAutoSelectedFlag":false,"upFlag":false,"length":27,"xxTargetLangEnum":"ZH_CN"},"commentList":[],"isCommentEnd":true,"isTiger":false,"isWeiXinMini":false,"url":"/m/post/209655174639800"}
精彩评论