
什么是 BigQuery
BigQuery 是 Google Cloud 出品的 全托管、无服务器 数据与 AI 平台,提供从数据摄取、存储、治理到分析与 AI 的一体化能力。它支持企业在云端以近实时速度对 PB 级数据执行 SQL 分析,并与 Looker、Vertex AI 等生态深度集成,形成统一的“数智底座”。官方将其定位为“从数据到 AI 决策的自治平台”,现已提供 Gemini in BigQuery 的智能体验,并纳入现行定价模型。
作为云原生数据仓库与“湖仓一体”核心,BigQuery 通过 BigLake 将开源表格式(如 Apache Iceberg/Parquet)和多云对象存储纳入统一治理与加速访问,无需移动数据即可联邦查询,实现数据湖与数据仓库的无缝打通。其控制面与 SQL 体验集中在 BigQuery Studio,面向分析师、数据工程师与数据科学家提供端到端开发环境。
在底层技术上,BigQuery 基于 Google 内部的列式分析系统 Dremel 与分布式存储 Colossus 的分离式架构:计算与存储解耦、列式存储与向量化执行、以及大规模资源池化的“slot”调度,使其能在无需运维集群的情况下对万亿行数据进行交互式分析,并自动扩缩容以匹配负载。
总体来看,BigQuery 从“云数据仓库”演进为“数据到 AI 平台”:在保留成熟 SQL/BI 能力的同时,新增内建 向量检索(Vector Search)、BigQuery ML、Serverless Spark、地理空间分析与统一治理能力,面向企业级数智化与生成式 AI 场景。
- 2025-10:BigQuery Studio 推出全新控制台体验(Explorer 视图、Reference 面板、作业历史等),显著提升可发现性与开发效率。
- 2025-06:发布 Serverless Spark 直嵌 BigQuery 的 GA,使 Spark 代码可在 Studio 内交互式开发与运行。
- 2025-10/11:BigQuery Workload Management 更新(预留公平性、可预测性与安全性提升;新增预留标签与 Autoscaler 改进),进一步优化多租与繁忙环境下的资源保障。
🚀 BigQuery 能做什么 · 主要功能解释
无服务器 SQL 分析与弹性并发
BigQuery 采用“slot”为单位的分布式执行,按需在共享计算池中水平扩缩,可在一个项目内自动获得最高约数千并发 slot。用户只需提交 GoogleSQL(标准 SQL)即可对 PB 级数据做交互式/批处理分析,无需集群运维;同时支持配额与预算控制,避免失控费用。
湖仓一体与 BigLake(含 Iceberg)
通过 BigLake,可在 BigQuery 中将开源湖格式(如 Apache Iceberg)与多云对象存储注册为外表,统一施加细粒度权限与缓存加速,在“一份数据”上被 BigQuery 与第三方/开源引擎共同访问,构建开放互通的 Lakehouse 形态。
向量检索(RAG/检索增强)
BigQuery 原生提供 VECTOR_SEARCH() 函数与 CREATE VECTOR INDEX 语法,支持基于嵌入向量的相似度搜索;索引采用近似最近邻(ANN),可大幅提升检索性能(以召回率为代价)。在 Standard 版中不支持使用向量索引(可用暴力搜索),Enterprise/Enterprise Plus 支持索引能力,适合 RAG、推荐、日志异常检测等 AI 场景。
BigQuery ML 与 Gemini in BigQuery
以 SQL 驱动构建/训练/预测(如线性模型、树模型、时序等),并能调用 Vertex AI 的远程模型(Remote models);查询远程模型将产生 BigQuery 计算费用与相应 Vertex AI 费用。借助 Gemini in BigQuery,可获得基于大模型的智能补全、代码生成与分析助手体验。
地理空间分析(BigQuery GIS)
内建 GEOGRAPHY 类型与 ST_* 系列函数,支持点/线/面空间关系判断与缓冲、测距、叠加等空间操作,可与 Google Maps/地球引擎数据结合,服务选址、交通与资产识别等位置智能场景。
实时/批量数据摄取与对接
支持 Cloud Storage 批量装载(免费)、Data Transfer Service、Datastream、以及 Storage Write API 低成本实时写入(每月前 2 TiB 免费)。同时提供 Read API 流式读取、批量导出(免费)等方式,贯通上下游数据管道。
工作负载与容量治理
通过 On-demand(按扫描字节)或 Editions(预留 slot 容量,Standard/Enterprise/Enterprise Plus)两种计费模型,结合 Reservation、Autoscaler、预留标签与并发控制,既可保障关键任务 SLA,也能抑制突发成本与资源争用。
💡 BigQuery 的实用进阶技巧
🧩 用分区 + 聚簇降低扫描字节
按时间、范围或哈希字段分区,并选取高选择性列聚簇;只扫描需要的分片/数据块,显著减少按字节计费与查询延迟。
⚖️ 选择合适的计费模型
负载“突发/不稳定”优先 On-demand(每月首 1 TiB 免费);负载“稳定/全天候”考虑 Editions 预留 slot(可配 Autoscaler)。关键任务建议使用 Enterprise 及以上以获得更稳的资源与功能。
🛡️ 设置预算、配额与项目级限额
启用预算报警,结合 自定义查询配额 控制每日可计费 TiB;在 Studio 预览“将处理的字节数”,避免一次性扫描巨表。
🧭 用 INFORMATION_SCHEMA 观测成本
查询 INFORMATION_SCHEMA.JOBS 统计 total_bytes_billed / PRICE_PER_TIB,识别高费用 SQL;表与数据集可用 storage 相关视图对比 逻辑 与 物理 计费模型。
🔎 向量检索先“预过滤”,再相似度计算
在 WHERE 子句先按分区/业务键过滤候选集,再执行 VECTOR_SEARCH();在需要时创建向量索引(企业版),并评估召回-性能权衡。
💳 BigQuery 是否免费 · 收费套餐与订阅方式
各组件价格与功能要点
| 类别 | 方案 / 项目 | 价格(USD,因区域而异) | 要点 |
|---|---|---|---|
| 计算(分析) | On-demand | $6.25 / TiB 扫描;每账号每月首 1 TiB 免费 | 按扫描字节计费,默认可用至约 2,000 并发 slot;适合突发/探索型查询 |
| 计算(分析) | Editions(Standard / Enterprise / Enterprise Plus) | 起价 $0.04 / slot-hour | 预留容量 + Autoscaler;Standard 不支持向量索引,Enterprise 及以上支持更多企业特性 |
| 存储 | 逻辑存储(Logical) | 起价 $0.01 / GiB·月;每月前 10 GiB 免费 | 按“未压缩字节”计费;修改 90 天内视为 Active |
| 存储 | 物理存储(Physical) | 起价 $0.02 / GiB·月;每月前 10 GiB 免费 | 按“压缩字节”计费;适用于含 Time Travel/Failsafe 的物理账单模型 |
| 数据摄取 | 批量装载(Cloud Storage → BQ) | 免费(使用共享 slot 池) | 推荐大批量/离线装载 |
| 数据摄取 | Streaming inserts | $0.01 / 200 MiB 成功写入 | 面向行级流式写入 |
| 数据摄取 | Storage Write API | $0.025 / GiB;每月前 2 TiB 免费 | 低成本/高吞吐实时写入,推荐替代旧 insertAll |
| 数据读取 | Storage Read API | 起价 $1.10 / TiB 读取 | 面向下游引擎的高效流式读 |
| 免费层 | Free Tier & Sandbox | 10 GiB 存储 + 1 TiB/月 查询免费;新客户可获 $300 试用金 | Sandbox 无需信用卡;试用后转按需/预留 |
订阅方式
在 Google Cloud 控制台启用 BigQuery,按需计费或购买 Editions 预留容量;支持信用卡/发票等企业付款方式。建议通过 价格计算器 预估区域化成本,并结合预算/配额进行成本治理。Sandbox 可零成本体验,亦可申请 $300 新户试用金。
⚠️ 价格说明:BigQuery 价格按区域与版本有所差异,且可能更新;请以官网价格页与计算器为准。
❓BigQuery 常见问题解答(FAQ)
Q1: 我该选 On-demand 还是 Editions(预留 slot)?
A: 负载“零散/突发/探索型”优先 On-demand($6.25/TiB,首 1 TiB 免费);负载“稳定/全天候/有 SLA”优先 Editions(起 $0.04/slot-hour,可设 Autoscaler 与预留标签)。关键任务或需向量索引等高级功能,建议 Enterprise 及以上。
Q2: 如何避免查询费用“暴涨”?
A: 三步:① 设计上用分区/聚簇/谓词下推,减少扫描字节;② 在 Studio 先看“将处理的字节数”;③ 设定预算告警与项目自定义配额(如每日 TiB 上限),并用 INFORMATION_SCHEMA 统计高费用 SQL 及时优化。
Q3: 向量检索如何计费?Standard 能用索引吗?
A: VECTOR_SEARCH() 按 BigQuery 计算计费:On-demand 依据扫描字节;Editions 依据所需 slot。Standard 不支持向量索引(可做暴力精确搜索);Enterprise/Enterprise Plus 支持创建索引,并产生相应的存储费用(索引占用的 Active Storage)。
Q4: 实时写入走 Streaming inserts 还是 Storage Write API?
A: 推荐 Storage Write API:单价 $0.025/GiB,且每月前 2 TiB 免费;Streaming inserts 为 $0.01/200 MiB。批量离线导入(Cloud Storage → BigQuery)通常免费(共享 slot 池)。
Q5: 逻辑存储与物理存储如何选择?
A: 逻辑存储按未压缩字节计费(起 $0.01/GiB·月),物理存储按压缩字节计费(起 $0.02/GiB·月)。若数据压缩比高或需要 Time Travel/Failsafe 全额计量,可评估物理账单模型;否则默认逻辑账单通常更直观。
Q6: BigLake 外表与“原生”表的取舍?
A: BigLake 适合“数据不搬家”的湖仓一体,统一授权、加速和缓存;原生表适合对延迟与功能有更高要求、或需要完整 BigQuery 特性的场景。两者可并存,按数据域分层管理。
Q7: 使用 BigQuery ML/远程模型会如何计费?
A: 在 BigQuery 内训练/预测消耗 BigQuery 计算;如调用 Vertex AI 远程模型(Remote models),将同时产生 Vertex AI 的相应费用。建议将训练/推理作业纳入 Reservations,并在 INFORMATION_SCHEMA 追踪作业成本。
Q8: GIS 场景有哪些常用做法?
A: 使用 GEOGRAPHY 类型存储空间要素,配合 ST_DWithin/ST_Intersects/ST_Buffer 等函数做空间筛选与分析;与 Google Maps/地球引擎数据结合可做选址、路网与资产识别等分析。务必结合分区/聚簇减少空间大表扫描。
相关导航

