您好，我是小DAI，专注于数据库管理员相关的技术问答，请问有什么可以帮您？

返回首页 | 小DAI,小DAI，你在么？

个人空间 - OSCHINA - 中文开源技术交流社区

全部博文

630

全部博文

开源技术

资讯

问答

排序

按时间

按阅读量

创作历程

全部

2026年(10篇)

2026/01

2025年(271篇)

2025/12

2025/11

2025/10

2025/09

2025/08

2025/07

2025/06

2025/05

2025/04

2025/03

2025/02

2025/01

2024年(170篇)

2024/12

2024/11

2024/10

2024/09

2024/08

2024/07

2024/06

2024/05

2024/04

2024/03

2024/01

2023年(110篇)

2023/12

2023/11

2023/10

2023/09

2023/08

2023/07

2023/06

2023/05

2023/04

2023/03

2023/02

2023/01

2022年(69篇)

2022/12

2022/11

2022/10

2022/09

2022/08

2022/07

2022/06

2022/05

2022/04

2022/03

顶

原

荐

基于Hologres向量计算与大模型免费定制专属聊天机器人

简介：本文为您介绍如何基于Hologres向量计算能力，结合大模型的阅读理解和信息整合能力，对该垂直行业的问题提供更贴切的回答，即费、快速定制专属聊天机器人。背景信息大模型可以广泛应用...

聊天机器人

langchain

data

anaconda

hologres

yaml

jsonb

server

文档数据库

https

2023/07/26 10:15

728

原

荐

Hologres Dynamic Table在淘天价格力的业务实践

作者：闵加坤 | 淘天集团价格平台开发工程师业务介绍淘天价格力团队作为平台价格治理的核心部门，承载着淘宝天猫全域商品价格管理的重要职责。团队掌握着淘内外所有商品的全量价格信息，包...

价格力

动态表

增量刷新

全量刷新

数据圈选

实时报表

今天 18:15

157

原

一套底座支撑多场景：高德地图基于 Paimon + StarRocks 轨迹服务实践

作者：赵宇(司忱)/数据开发工程师导读：本文整理自高德数据开发工程师、赵宇在 Streaming Lakehouse Meetup上的分享。聚焦高德地图轨迹服务在实时湖仓方向的落地实践。面对轨迹数据“高实...

轨迹服务

实时湖仓

数据分层

Paimon+StarRocks

流批一体

性能优化

01/09 16:51

原

AI时代最大的宝藏，也藏得最深：80%的企业知识沉睡在非结构化数据中

2026年，AI进入"应用爆发年"，但一个残酷现实浮出水面：模型越来越聪明，输入却越来越混乱。正如全球知名风险投资机构 a16z 在《"Big Ideas 2026" (https://a16z.com/newsletter/big-ideas...

AI应用爆发年

非结构化数据

数据熵

HSAP1.0

HSAP2.0

AI原生数据引擎

01/08 15:49

原

面向 Interleaved Thinking 的大模型 Agent 蒸馏实践

前言大语言模型Agent在复杂任务中展现出卓越能力。相比传统线性推理链(Chain-of-Thought)，"交错思维"(Interleaved Thinking)通过"思考→行动→观察→再思考"的闭环机制，有效解决了状态漂移...

交错思维

ReAct范式

教师轨迹数据

行为克隆训练

教师纠错训练

模型蒸馏

01/07 18:06

原

迅雷基于阿里云 EMR Serverless Spark 实现数仓资源效率与业务提升

分布式技术

P2P传输

边缘计算

海量数据

实时治理

联邦计算

01/07 16:32

108

原

【NeurIPS2025】阿里云 PAI 团队动态数据调度方案 Skrull 入选

2025 年 12 月，第 39 届神经信息处理系统大会（NeurIPS：Annual Conference on Neural Information Processing System）在美国加利福尼亚州圣迭戈顺利召开。NeurIPS 是机器学习领域的顶级会...

NeurIPS会议

机器学习

长上下文微调

Skrull方案

训练效率

负载均衡

2025/12/24 17:29

136

原

1TB数据，ES却收到了2TB？揪出那个客户端中的“隐形复读机”

你是否经历过这样的“灵异事件”：业务监控显示，你的日志服务每秒只写入了 50MB 的数据，全天累计写入 1TB。但在云厂商的账单，或者内网交换机的监控上，流量却高达 100MB/s，全天消耗了 ...

非抢先认证

带宽翻倍

流量黑洞

401试探

APIKey

端到端监控

2025/12/24 16:34

143

原

DataWorks 又又又升级了，这次我们通过 Arrow 列存格式让数据同步速度提升10倍！

引言在大数据时代，数据集成作为企业数据流转的核心枢纽，承担着异构数据源之间高效同步的重要职责。随着数据量的爆炸式增长，传统的行存同步方式在面对大规模列存数据处理时，逐渐显露出性...

数据集成

Apache Arrow

列存同步

零拷贝

内存复用

高性能同步

数据流转

2025/12/23 17:45

286

原

Hologres Dynamic Table：高效增量刷新，构建实时统一数仓的核心利器

在企业数据架构逐步走向实时化与一体化的过程中，如何高效处理“大量历史 + 少量新增”的业务数据，已成为建设统一数仓与实时数仓时绕不开的关键挑战。传统全量刷新方式在面对亿级历史数据时...

增量刷新

动态表

实时数仓

Hologres

有状态计算

计算效率

2025/12/22 18:20

138

原

OmniThoughtV：面向多模态深度思考的高质量数据蒸馏

作者：岳元浩(顾城)、汪诚愚(熊兮)、黄俊(临在) 背景近年来，多模态人工智能技术迅猛发展，推动了视觉、语言、语音等多种模态信息的深度融合与理解。尤其在多模态深度推理任务中， GPT-4V 等...

多模态人工智能

深度推理任务

GPT-4V

跨模态推理

SOTA模型

EasyDistill

2025/12/19 18:38

170

原

基于 PAI 和 CosyVoice2.0 搭建高性能语音合成服务

技术背景 CosyVoice2.0 是阿里巴巴达摩院自研的新一代高保真语音合成模型，具备语音克隆功能，仅需30秒以内的 Prompt 音频即可克隆目标音色，支持跨语种复刻。阿里云人工智能平台 PAI 支持快...

CosyVoice2.0

语音克隆

推理速度

资源利用率

流式生成

架构解耦

2025/12/19 17:10

287

原

打破 IK 分词“架构陷阱”——阿里云 ES Serverless 索引级词典的完美热更新实践

在做过 Elasticsearch 中文搜索研发的同学中，IK 分词器几乎是标配。它简单、高效，覆盖了大多数中文业务场景，被广泛用于电商、资讯、社区等搜索系统。然而，在一些业务场景中，IK 分词器可...

IK分词器

搜索稳定性

热更新

索引级词典

时空错乱

Serverless

2025/12/18 18:48

245

加载更多

文章删除后无法恢复，确定删除此文章吗？

取消

确定

动弹删除后，数据将无法恢复

取消

确定

工信部

开源软件推进联盟

指定官方社区

社区规范

京ICP备2025119063号

顶部

原文链接: [https://my.oschina.net/u/5583868](https://my.oschina.net/u/5583868)