跳到主要内容

datadata-api

datadata-api 是一个封装了 Datadata API 调用逻辑的 skill script,AI Agent 在需要执行 SQL 查询、检查元数据、管理 Data Spaces 等操作时自动调用。用户无需直接使用。

功能

查询数据

  • 搜索数据源 — 支持社区公开搜索、私有数据源搜索、username/name 精确查找
  • 元数据查询 — 检查数据源信息、列出表、描述列结构
  • 元数据增强 — 设置表注释和列注释,提升数据可理解性
  • 执行 SQL 查询 — 通过 execute-adhoc 执行 SELECT 查询,支持 DuckDB 和 ClickHouse 引擎
  • 结果下载 — 以 NDJSON 或 CSV 格式下载查询结果
  • Schema 扫描 — 触发异步扫描,刷新数据源的表元数据

录入数据

  • Data Spaces 表管理 — 在 ducklake 数据空间中创建表、批量插入数据、删除表
  • 录入的数据同样可通过 execute-adhoc 查询

用户信息

  • 当前用户及 API Key 权限 — 通过 whoami 获取用户资料、API Key 元数据及权限列表

工作流

1. 配置认证(设备授权自动签发,或手动设置 API Key)
2. 搜索数据源 → 查询元信息 → 执行查询 → 获取结果

概念

  • Datasource — 查询目标的数据源。不同类型(ducklake、MySQL、ClickHouse、CSV 等)有不同的表命名约定
  • Data space — 录入数据的目标。ducklake 类型 datasource 独有的能力
  • Query只读抽象,包含 SQL 脚本、datasource 绑定和引擎类型
  • Execution — 运行查询的抽象。每次 execute-adhoc 返回一个 executionId

认证

CLI 缺少 API Key 时会自动引导完成设备授权——打开链接完成登录即可,密钥缓存 90 天。

也可手动设置环境变量:

export DATADATA_API_KEY="ak_xxxxxxxxxxxxxxxx"
export DATADATA_BASE_URL="https://www.datadata.com"

与其他 skill 的分工

场景使用 skill
直接通过 Agent 交互查询datadata-mcp(MCP Server)
生成 Python 脚本(爬虫/ETL/批处理)datadata-api
复杂数据处理脚本datadata-dql
跨会话持久化记忆datadata-memory