DataFunTalk

其他

腾讯大数据实时湖仓智能优化实践

高级工程师编辑整理|李笑宇内容校对|李瑶出品社区|DataFun01湖仓架构腾讯大数据的湖仓架构如下图所示:这里分为三个部分,分别是数据湖计算、数据湖管理和数据湖存储。数据湖计算部分,Spark
9月9日 下午 1:00
其他

大模型数据建设探索与实践

工程化实践中的数据配比调整在工程化实践中,数据配比的调整是一个主动触发的过程,主要思路如下:主动触发配比调整:在模型训练初期和中期,根据评测指标主动触发配比调整。先导模型辅助:使用先导模型(如
9月8日 下午 1:01
其他

一念 LLM 大语言模型推理加速

扩大的时候,这里的显存就会成倍地上涨。从显存角度来看待的话,可以列个很简单的公式,首先是模型占用了多少参数,然后在模型的推理过程中有很多的中间变量其实也会占用一部分参数,另外有多少
9月7日 下午 12:01
其他

数据治理全景:技术成熟度曲线深度分析

CCPA)赋予了消费者更完整的个人信息控制权。欧盟,在2018年5月生效的《通用数据保护条例》(General
9月6日 下午 1:00
其他

主动元数据平台——实现持续、主动、长效数据治理的基石

全面传统的元数据管理,主要聚焦于表、列等基础数据及数仓内任务的监管。今天,我们需要全面管理更为广泛的元数据范畴,包括脚本、模型、指标、报表以及数据使用行为等与数据相关的所有元数据。2.
9月5日 下午 1:00
其他

基于ChatBI的Text2SQL应用实践探索!

数据产品踩坑方法论?大模型如何重塑数据产品新形态?数据产品背后有怎样的数据指标逻辑?ChatBI如何加持Text2SQL?NL2SQL是否还有其他路径?如何制定有效的产品策略并验证效果?9月22日,09:00-17:00,DataFun将联合业内多位知名产品专家举办DataFunSummit2024:数据产品在线峰会,探讨大模型时代的数据产品设计理念与方法论,并分享他们的最新思考与落地实践经验。感兴趣的小伙伴欢迎识别二维码免费报名,收看直播:扫码免费报名,收看直播峰会日程精彩推荐:详细介绍:王成栋
9月4日 下午 1:00
其他

创新 IAA 技术:360 引领语言模型在多模态理解中的无损进化

内部适配器结构来说,如果使用过高的学习率,会导致训练损失的不稳定甚至溢出。为了解决这个问题,我们设计了一个两阶段的预训练策略。在第一阶段,我们的模型结构由三个部分组成:图像编码器、MLP
9月3日 下午 1:00
其他

火山引擎发布《A/B测试消费行业实践指南》,企业增长盈利新指引(附下载地址)

驱动企业盈利增长的A/B实验究竟有什么“魔力”?👇👇网页设计、优惠券下发推送文案、产品UI、搜索算法让数据驱动业务优化助力企业精准决策【左滑了解】A/B实验实践案例左滑了解A/B实验实践案例强大的A/B实验,能使用哪些场景?👇👇产品功能设计
9月2日 下午 1:00
其他

LLM 快速发展时代下图基础模型初探

的基本思想是:将异质语义和结构属性保留为可转移的知识稀疏化大规模异构图,实现高效的预训练具体细节如下图,在此不做详细介绍。实验情况如下:从以上数据可以看到,相比其他预训练模型,PT-HGNN
9月2日 下午 1:00
其他

货拉拉利用大模型打造多场景个人、办公助理实践

的框架和原则:清晰明了地提供业务背景和角色定位,简单直接地描述任务,清晰罗列业务特殊情况,并提供必要的引导。这些要素结合起来,能够使大模型更好地解决专业问题。当然
9月1日 下午 1:01
其他

京东搜索重排:基于互信息的用户偏好导向模型

中国计算机学会专业会员,研究方向为大模型、强化学习,目前在京东从事主搜排序及生成式召排工作。李明明博士:中科院信工所博士,亦城优秀人才,CCF
8月31日 下午 1:00
其他

阿里巴巴AIGC技术与数据分析的融合实践

导读:在数字化转型浪潮中,数据分析和商业智能(BI)工具成为企业洞察数据、优化决策的关键,场景化应用也日益广泛。伴随生成式AI发展,新一代BI与大模型深度融合,引领商业智能的新变革。作为连续五年入选Gartner
8月30日 下午 1:00
其他

Data+AI时代来临,哪些领域要被颠覆?

在Data+AI时代来临的背景下,各行各业正面临一场深刻的变革。此时代的核心驱动力在于数据的力量和人工智能的潜力结合,催生出新的商业模式和运营思维。GenAI模型如何颠覆现有行业格局?数据和智能是融合还是独立?现阶段的数据智能技术瓶颈在哪里?Data+AI时代,我们需要什么样的数据基建?团队要如何建设?个人发展如何前进?这些颠覆性转变即将来临,企业和个人要做哪些选择?8月30日19:30-20:30,DA数智大会「前瞻」栏目特别策划圆桌论坛,全面探讨
8月29日 下午 1:00
自由知乎 自由微博
其他

哔哩哔哩基于 Iceberg 的智能数据组织优化实践

任务调度开销;二是通过优先级调度防止历史数据回刷对实时数据优化造成影响。此外,我们还针对优化任务进行了一些资源管理控制,如限制总体计算资源和单表的并发控制等。目前在高并发提交场景下,Iceberg
8月29日 下午 1:00
其他

视频生成领域最新开源!360AI 研究院提出 FancyVideo:在消费级显卡上定制你的 AI 视频!

操作。这样做好处是,一方面生成视频整体画质更高;另一方面所需训练数据量和训练代价更低。在进行运动性模块计算时,FancyVideo
8月28日 下午 1:01
其他

大模型可以撞破金融落地的天花板吗?

如何撞破金融大模型落地的天花板?RAG、Agent怎样应用?因果推断、Uplift模型仍然发挥作用?最新的大数据和数据治理实践?金融公司数智化三部曲是什么?8月31日,09:00-17:00,DataFun将联合业内多位知名专家举办DataFunSummit2024:数智金融技术峰会,并和大家一起探讨大模型领衔的数据和智能技术的最新态势,分享各自的研究成果与实践经验,共同推动大模型及相关技术在金融领域的深入应用。感兴趣的小伙伴欢迎识别二维码免费报名,收看直播:扫码免费报名,收看直播峰会日程论坛日程详细介绍①
8月27日 下午 1:00
其他

快手数据成本白盒化治理实践

和内存的需求,自适应扩缩容,防止错配。(2)优化任务分片:通过分析任务时长,灵活调整分片参数,以防止过短或过长。(3)任务优化功能参数:通过调整小文件合并、压缩算法、Broadcast
8月27日 下午 1:00
其他

EasyRec 推荐算法训练推理优化

的训练推理架构之前,先来谈谈推荐模型的发展趋势和面临的挑战。近年来,推荐模型的发展呈现出以下一些趋势:首先,特征数量越来越多,从几百个增加到上千个,还有许多交叉特征;同时,Embedding
8月26日 下午 1:00
其他

无需等待:电商领域重排模型在线学习可以先于用户反馈

编辑整理|杨昕玥内容校对|李瑶出品社区|DataFun01Background:实时在线学习&重排模型基本概念首先介绍一些实时在线学习和重排模型相关的基本概念。1.
8月25日 下午 1:01
其他

增强大模型智能:数学推理能力的提升策略与实践

曲线表现很好。A2:这个问题很好,也是我们目前在做的,我们数据组尤其关注合成数据。为什么要做合成数据?因为现有指令少,尤其是数学类的。我们需要更多的指令,同时要提高指令的难度。比如,现有的
8月24日 下午 2:00
其他

Data+AI 一体架构的产品创新

物化视图智能化其二,要介绍的能力是物化视图智能化。物化视图本质上是一种预计算,能够把一些耗时操作(JOIN,AGGREGATE)的结果保存下来,以便在查询时直接复用,从而实现加速计算的目的。AI
8月23日 下午 1:00
其他

数据产品方法论:踩坑与超越!

数据产品踩坑方法论?大模型如何重塑数据产品新形态?数据产品背后有怎样的数据指标逻辑?产品眼中的生成式数据产品如何做?洞察数据奥秘的基础产品范式?如何制定有效的产品策略并验证效果?从数据产品的方法论到落地上线,其中涉及各个复杂而又精细化的环节。9月22日,09:00-17:00,DataFun将联合业内多位知名产品专家举办DataFunSummit2024:数据产品在线峰会,探讨大模型时代的数据产品设计理念与方法论,并分享他们的最新思考与落地实践经验。感兴趣的小伙伴欢迎识别二维码免费报名,收看直播:扫码免费报名,收看直播峰会日程论坛介绍与核心看点:①
8月22日 下午 1:01
其他

Apache Paimon 实时湖仓存储底座

结构很简单,它是一个排好序的层次结构。它给湖格式更新带来的最大好处是,在进行压缩(compaction)时,不需要全部重写一遍。从图中可以看到,它实际上是一个三角形,越底层的数据量越大。LSM
8月21日 下午 1:01
其他

LLM+RAG:大模型在金融场景的落地探索

垂直金融大模型如何落地?RAG、Agent怎样应用?因果推断、Uplift模型仍然发挥作用?最新的大数据和数据治理实践?金融公司数智化三部曲是什么?目前LLM和RAG在金融场景已有不少应用。8月31日,09:00-17:00,DataFun将联合业内多位知名专家举办DataFunSummit2024:数智金融技术峰会,并和大家一起探讨大模型领衔的数据和智能技术的最新态势,分享各自的研究成果与实践经验,共同推动大模型及相关技术在金融领域的深入应用。感兴趣的小伙伴欢迎识别二维码免费报名,收看直播:扫码免费报名,收看直播峰会日程论坛介绍详细介绍王心怡
8月20日 下午 1:00
其他

95% 向量资源节省,火山引擎云搜索 RAG 技术体系演进

社区的建设,不仅为产品带来了新的功能和特性,也提升了产品的稳定性和性能。”而且,“遵守开源开放的标准,也让我们没有任何商业化和开源产品上的矛盾,也能帮助客户解决被某一家云厂商绑定的顾虑。”
8月19日 下午 1:01
其他

天穹数仓自治能力在大模型时代的新实践

观测力通过对采集数据进行指标的聚合和抽象,建立以健康分为核心的数据体系,实现任务进程粒度的数据上卷和下钻操作,使大数据生态的“黑盒”更加透明化,发现底层指标或异常问题。3.
8月18日 下午 1:00
其他

推荐系统融合排序的多目标寻优技术

文件已经非常久没更新了,我们有自己的内部文档和示例库,这些无法对外公布。如果你在使用过程中遇到具体问题,可以直接找到我,我们有相关的用户群,提供一些共享数据和示例,但我目前没有太多精力去更新
8月17日 下午 1:01
其他

GenAI时代的实时数据分析:Apache Pinot与向量索引技术探秘

典型的数据分析技术栈上图是一个典型的数据分析技术栈。左边是数据的生成端,在各种设备上,生成各种原始数据;中间是基于用户或产品特性的数据,比如,电商的订单数据,广告的事件数据,这些数据存到
8月16日 下午 1:00
其他

金融,大模型落地的关键场景!

垂直金融大模型如何落地?RAG、Agent怎样应用?因果推断、Uplift模型仍然发挥作用?最新的大数据和数据治理实践?金融公司数智化三部曲是什么?作为大模型应用的关键场景之一,金融既接受大模型技术的快速引入,也同时对大模型提出了各种苛刻的要求。8月31日,09:00-17:00,DataFun将联合业内多位知名专家举办DataFunSummit2024:数智金融技术峰会,并和大家一起探讨大模型领衔的数据和智能技术的最新态势,分享各自的研究成果与实践经验,共同推动大模型及相关技术在金融领域的深入应用。感兴趣的小伙伴欢迎识别二维码免费报名,收看直播:扫码免费报名,收看直播峰会日程论坛介绍详细介绍王心怡
8月15日 下午 1:00
其他

打造 LLMOps 时代 Prompt 数据驱动引擎

在零样本日志分析场景中表现良好,减少了对训练数据的依赖。我们首先看左边,日志解析中的零样本场景是指算法没有任何训练输入,每个日志都是新的,没有历史日志。相比之下,传统算法需要训练数据。我们使用10%
8月14日 下午 1:00
其他

基于大模型的数据治理应用新范式

目前数据治理的前沿话题有哪些?基于大模型的数据治理应用范式?数据资产入表的方法论与实践?数据血缘核心技术路线?Databricks和SnowFlake带🔥的元数据管理?从元数据管理到数据血缘分析,是做好数据治理的必由之路。8月17日,09:00-17:00,DataFun将联合业内多位知名专家举办DataFunSummit2024:数据治理在线峰会,将深度探讨大模型时代数据治理的最新态势,分享各自的研究成果与实践经验,共同推动数据治理在各个领域的深入应用,并产生价值。感兴趣的小伙伴欢迎识别二维码免费报名,收看直播:扫码免费报名,收看直播峰会日程精彩议题详细介绍①
8月13日 下午 1:00
其他

阿里云智能大数据演进

Engine(原生引擎)的概念日益受到关注,其核心优势在于能够直接在底层存储系统上运行,无需通过中间层或框架进行数据访问,从而显著提升数据处理的性能和效率。今年我们计划在云栖大会上发布Flink
8月12日 下午 1:00
其他

Agent+Copilot:大模型在智能运维领域的应用

IDC,但对于我们来说,没有那么大的投入。我们的业务目前分布在混合云上、云下等多种环境,然而在这种复杂环境中,面对如此多的开源组件,暴露给黑客攻击的点也是非常多的,所以黑客的攻击也呈现出多样性。4.
8月11日 下午 1:00
其他

小米数据中台建设实践赋能业务增长!

在线数据、分析数据进行建模,建立语义模型,再进行审核认证,发布到集团指标库,与数据百科进行联动。在指标消费侧,用户可以通过数据百科进行查询指标口径详情、上游血缘、维度等,数据百科与公司的
8月10日 上午 10:02
其他

从0到1,掌握大模型RAG技术原理与应用

AI夏令营,由Datawhale主办,联合科大讯飞、阿里云天池、蚂蚁集团、英特尔、浪潮信息、魔搭社区等国内外顶尖人工智能企业。AI夏令营目前,已经吸引了来自全球
8月10日 上午 10:02
其他

社交传播和影响力算法在腾讯游戏中的应用实践

的最佳落地实践从大数据到大模型:搜索推荐技术的前沿探索大模型最强实战经验分享,就问你City不City?小红书去中心化内容分发技术数据治理成败关键:元数据+数据血缘!点个在看你最好看SPRING
8月9日 下午 1:01
其他

明明线上免费会议那么多,我为什么还要去参加线下大会?

最近我们在筹备DA数智大会,这是一场线下的技术大会,将在10月25-26日在深圳机场凯悦酒店举办,今天正好是7折早鸟票最后2天。很多朋友在问我们,明明线上免费会议那么多,我为什么还要去参加线下大会?希望我们给个能说服他们的理由。我们认为,线下去参加技术大会有很多线上无法取代的地方。最重要的是真实连接。面对面交流:你可以直接与业内顶尖的专家以及同行聊聊,建立关系,这种面对面的沟通远比线上碎片式的对话更为有效、深刻,深聊以后搞不好还能有合作机会。即时反馈:现场都是和你一样高水平的专家,大家思维同频,有啥问题现场交流,马上就能得到建议和反馈,想法也能更快地优化。拓展人脉:结识各路大牛,拓宽你的人脉圈,说不定未来的合作伙伴和客户就在这里。比起线上简单的一问一答,面对面的互动更能增进彼此之间的信任和理解,这样的深度交流,能够帮你建立起更坚实的人际关系。更不用说,现场参与感很强,感觉自己完全融入在里面,不像线上,总会有其他事情打断你。而且现场有演讲、互动交流还有各种私享会,形式多样,让你更直观、更全面地吸收新知识,做到真正的沉浸式学习。一千个专家聚在一起讨论,在这样的场合,你是真的可以在短时间内学到很多新东西,不管是技能、经验还是认知,都会蹭蹭往上涨。特别是在我们现在都在落地大模型,去年还处于探索阶段,而今年必须转向关注实际的业务收益和ROI了,更需要实际看看别人是如何做的,达到什么样的进展,是否和你遇到了相同的问题,以及他们是怎么解决这些问题的。有一些东西,大家是不可能在线上告诉你的,只有面对面聊,才有可能聊到位。这种面对面的高质量的线下学习和交流,搞不好可以让你在短短的两天时间里学到的东西,足以让你和你的团队少走一年的弯路。时间太紧张了,资源也太紧缺了,所以我们策划的论坛方向,都是目前被验证过能给业务带来实际收益的方向,你可以看看。当然,我们也意识到,各个企业目前都在缩减开支,外出参会学习的预算相比以往有所减少。然而,这种投资是非常有价值的——你能从大会中带回去的收获,远远超过门票的费用,可能节省几十万甚至几百万的资源,或者带来百倍的业务价值回报。为了让更多企业能够负担得起并受益于这次盛会,我们调整了会议的定价,推出了折扣体系,使参会更加实惠。最后再说一次,今天是早鸟票倒计时2天,想要参会的抓紧联系会议小助手宋福利抢占最后名额,团购有更多优惠,详情咨询她即可。会议持续筹备中,精彩议题陆续更新到官网,扫描海报上的二维码,或者点击阅读原文,都可直达官网,查看最新动态。10月25-26日,深圳见!点击下面的原文阅读,直达大会官网!
8月8日 下午 1:01
其他

58用户画像数据仓库建设实践

的最佳落地实践从大数据到大模型:搜索推荐技术的前沿探索大模型最强实战经验分享,就问你City不City?小红书去中心化内容分发技术数据治理成败关键:元数据+数据血缘!分析性能提升
8月8日 下午 1:01
其他

多场景多任务统一建模在网易云音乐的算法实践

的最佳落地实践从大数据到大模型:搜索推荐技术的前沿探索大模型最强实战经验分享,就问你City不City?小红书去中心化内容分发技术数据治理成败关键:元数据+数据血缘!分析性能提升
8月7日 下午 1:00
其他

Data+LLM:数据治理新范式探索

目前数据治理的前沿话题有哪些?基于大模型的数据治理应用范式?数据资产入表的方法论与实践?数据血缘核心技术路线?Databricks和SnowFlake带🔥的元数据管理?从元数据管理到数据血缘分析,是做好数据治理的必由之路。8月17日,09:00-17:00,DataFun将联合业内多位知名专家举办DataFunSummit2024:数据治理在线峰会,将深度探讨大模型时代数据治理的最新态势,分享各自的研究成果与实践经验,共同推动数据治理在各个领域的深入应用,并产生价值。感兴趣的小伙伴欢迎识别二维码免费报名,收看直播:扫码免费报名,收看直播峰会日程精彩议题部分议题详细介绍兰晨
8月6日 下午 1:07
其他

数据工程师如何应对巨量的取数需求?

个以上的字段,使用时将需要的字段拖到右边指标栏即可过滤:过滤栏有两个必选字段,也是分区字段、日期和数据标志,其中的数据标志在这里实际上是事件的分类,,将维度和指标拖到过滤栏即可。2.
8月6日 下午 1:07
其他

展示广告预估技术最新突破:基于原生图文信息的多模态预估模型

一、摘要目前,搜索推荐及广告领域的预估模型主要基于大规模稀疏ID特征结合MLP构建。然而,ID特征难以刻画item的内容语义信息,因此业界一直在探索如何引入原生多模态内容信息以提升模型性能。为此,需要思考几个关键问题:多模态信息在预估模型中带来效果提升的关键,以及如何设计预训练任务以获取多模态表征;在基于ID体系的预估模型中如何释放多模态表征的效果。本文将介绍阿里妈妈展示广告团队在预估模型与多模态结合方向上的最新突破。我们发现,多模态信息能否大幅提升效果的关键在于,其能否通过精准建模“目标商品”和“用户历史行为商品”之间的语义相似度,从而实现相较于ID特征更优的行为序列建模。为此,我们首先设计了语义感知的对比学习预训练SCL方法,让多模态编码器能够从多模态原始信息中抽取出其蕴含的电商业务语义信息。随后,我们提出了SimTier和MAKE算法,利用多模态表征的语义判别能力进行行为序列建模。通过这些技术创新,我们取得了显著成果——精排CTR模型的GAUC提升超过1个百分点,这是近几年来展示广告离线效果提升最大的迭代,在目前的高技术水位下显得尤为可贵。目前,多模态的应用也在粗排等其他模型中全面上线,均取得显著的线上收益。基于这一工作的研究论文已被CIKM
8月5日 下午 1:00
其他

社群推荐算法在腾讯游戏的实践

等国际学术会议。活动推荐往期推荐从大数据到大模型:搜索推荐技术的前沿探索大模型最强实战经验分享,就问你City不City?小红书去中心化内容分发技术数据治理成败关键:元数据+数据血缘!分析性能提升
8月4日 下午 1:00
其他

赖耶 AI 工厂-基于 NVIDIA AI Enterprise 的最佳落地实践

库、工具的指导,最新的安全修复程序、维护版本以及合作伙伴之间的协调支持,还有灵活的部署,一个适用于所有平台的许可证,并提供关于控制升级、维护计划的长期支持。增值技术支持包括,专用客户支持服务和
8月3日 下午 1:00
其他

从大数据到大模型:搜索推荐技术的前沿探索

平台上,百炼模型服务平台是面向开发者的大模型开发平台。百炼整合了达摩院通义实验室的多项大模型能力,如图像处理的通义-万相、语音识别的通义-听悟,以及文本处理的通义-千问。此外,还包括了开源社区
8月2日 下午 1:00
其他

大模型最强实战经验分享,就问你City不City?

如何从0到1训练千亿大模型?怎样提升大模型长文本能力?抖音RAG技术方案选型LLM在大数据、数据分析中落地探索大模型在搜索、推荐、广告、金融等领域的应用再好的大模型,也需要落地应用,才能产生价值。8月3日,09:00-17:00,DataFun将联合业内多位知名专家举办DataFunSummit2024:大模型技术峰会,并和大家一起探讨大模型技术的最新态势,分享各自的研究成果与实践经验,共同推动大模型技术在各个领域的深入应用。感兴趣的小伙伴欢迎识别二维码免费报名,收看直播:扫码免费报名,收看直播峰会日程论坛介绍详细介绍①
8月1日 下午 1:00
其他

小红书去中心化内容分发技术

放在一起同时做训练,对用户中长尾兴趣和长期兴趣的捕捉取得了不错的补充效果。(2)排序方面初排方面,考虑到初排的线上性能压力,直接通过多模表征做相似检索的性能是难以接受的,所以在初排我们是通过多模
7月31日 下午 1:01
其他

分析性能提升 40%,阿里云 Hologres 流量场景最佳实践

的冷存能力,将查询频次较低的数据存储在冷存中,以降低存储成本。同时,冷存也能保证在查询性能不受影响的前提下,有效管理大量数据。由于埋点数据大多以事件为标准,因此事件名称是一个很好的过滤条件。建议在
7月29日 下午 1:00
其他

智能时代的数据炼金术:从特征工程到组件化建模

里面有特征重要度的分析,通过组件进行训练之后,可以分析出来哪些特征是重要的,哪些特征是不重要的,如果想做特征的裁剪,可以通过这一功能把那些重要的特征保留出来,把不重要的去掉,比如你之前有
7月28日 下午 1:00
其他

快手指标中台建设实践

建设。当前在快手从事指标体系、数据建模、数据分析等领域工作,在大数据数据分析服务领域有丰富的实践经验。往期推荐大模型+企业数据=下一个时代的决胜关键新一代实时数仓:阿里云数据库
7月27日 下午 1:00