✨AI PromptLab

新手指南登录注册

搜索 “数据工程” 的结果

共找到 18 个提示词

📊 金融财经高级

金融数据爬取清洗助手

金融数据获取与清洗方案：股票/基金/期货/宏观数据的免费与付费数据源对比、Python爬取模板（Tushare/AkShare/Baostock/Wind API）、数据清洗pipeline（缺失值/异常值/复权/对齐）。让数据准备从'最耗时的环节'变成'几行代码的事'

金融科技数据爬虫

8,687 次使用

💻 IT / 互联网中级

Airflow 工作流编排——DAG 设计与最佳实践

Airflow实战指南：DAG设计模式→Operator选型→动态DAG生成→XCom数据传递→SLA与告警→回填（Backfill）→Sensor设计→执行器选择→生产环境运维→DAG版本管理

数据工程Airflow工作流

11,897 次使用

💻 IT / 互联网高级

Kafka 消息系统深度设计——「不只是消息队列，是事件流平台」

Kafka架构深度设计：Topic/Partition/Consumer Group→生产者确认与幂等→消费者Offset管理→消息语义（At-most-once/At-least-once/Exactly-once）→压缩策略→数据保留→与RabbitMQ/Pulsar/NATS对比→多数据中心复制（MirrorMaker）→Kafka Streams vs Flink

Kafka消息队列事件驱动

6,130 次使用

💻 IT / 互联网高级

CDC 变更数据捕获——让数据库的每一次变更都成为事件

实施CDC方案：Debezium+Kafka Connect→MySQL binlog/PostgreSQL WAL→实时数据同步→多目标同步（数据湖/缓存/搜索索引）→Schema变更处理→数据转换（SMT）→Exactly-Once保证→监控和运维

数据工程CDCDebezium

8,989 次使用

💻 IT / 互联网高级

数据湖架构——从HDFS到Lakehouse的演进

设计数据湖架构：数据湖vs数据仓库的选择→分层存储（Bronze/Silver/Gold）→Delta Lake/Iceberg/Hudi表格式→Schema演进→ACID事务→元数据管理→数据治理→查询引擎（Trino/Presto/Spark）

数据湖大数据架构

9,709 次使用

💻 IT / 互联网高级

数据隐私工程——GDPR合规的技术实现

实现数据隐私技术方案：数据分类与标记→数据脱敏（静态/动态）→数据删除（硬删除/软删除/匿名化）→数据导出（Right to Access）→同意管理→数据留存策略→审计日志→隐私影响评估（DPIA）

数据工程隐私GDPR

13,578 次使用

💻 IT / 互联网中级

数据质量框架——「Garbage in, Garbage out」的防御体系

构建数据质量框架：六维度质量评估（完整性/准确性/一致性/及时性/唯一性/有效性）→自动化质量检查→异常告警→数据血缘→质量Dashboard→Great Expectations/Soda/Deequ工具实战

数据工程数据质量ETL

12,448 次使用

💻 IT / 互联网中级

数据留存与归档策略——「不是所有数据都值得永远保存」

设计数据生命周期管理：数据分级（热/温/冷/冻）→归档策略→存储成本优化→查询性能权衡→合规留存要求→自动归档Pipeline→数据恢复流程→归档格式选择（Parquet/Avro/ORC）

数据工程归档存储

13,861 次使用

💻 IT / 互联网高级

数据仓库建模——星型模型与雪花模型实战

设计数据仓库模型：维度建模方法论→事实表与维度表→星型模型vs雪花模型→缓慢变化维（SCD Type1/2/3）→聚合表设计→ETL物化策略→与数据湖的互补

数据仓库建模SQL

10,170 次使用

💻 IT / 互联网中级

dbt 数据转换最佳实践——SQL驱动的数据建模

dbt数据工程实战：项目结构→Model分层（staging/intermediate/mart）→Jinja宏→测试（Generic+Singular）→文档自动生成→增量模型→Snapshot→CI/CD集成→与Airflow/Prefect的配合

数据工程dbtSQL

19,129 次使用

💻 IT / 互联网高级

图数据库建模——Neo4j 社交关系与推荐场景实战

使用图数据库解决关系型问题：图建模vs关系建模→Cypher查询语言→图遍历算法→推荐引擎（协同过滤的图版本）→反欺诈（环检测）→知识图谱→与PostgreSQL的混合架构

数据库图数据库Neo4j

4,386 次使用

💻 IT / 互联网高级

机器学习流水线设计——从数据处理到模型部署的完整工程

设计ML工程流水线：数据采集→特征工程→训练→评估→部署→监控→模型更新。涵盖Feature Store、MLflow实验管理、模型版本化、A/B测试部署、数据漂移检测

机器学习MLOpsPython

4,675 次使用

💻 IT / 互联网高级

NLP 流水线设计——从原始文本到结构化知识的工程化方法

设计NLP处理流水线：文本预处理→分词/分句→命名实体识别→关系抽取→文本分类→情感分析→摘要生成→实体链接→多语言支持→模型更新策略→在线vs批处理

NLPAI数据工程

19,037 次使用

💻 IT / 互联网高级

实时流处理——Flink/Kafka Streams 流计算实战

设计实时流处理系统：事件时间vs处理时间→Watermark→窗口（Tumbling/Hopping/Session）→状态管理→Checkpoint→Exactly-Once语义→CEP复杂事件处理→与批处理的Lambda/Kappa架构

大数据Flink流处理

10,472 次使用

💻 IT / 互联网高级

推荐系统架构——从协同过滤到深度学习推荐

设计推荐系统架构：召回层（协同过滤/向量召回/GBDT+LR）→排序层（CTR预估/多目标优化）→重排序层（多样性/新鲜度/业务规则）→实时特征→冷启动→A/B实验→在线学习

推荐系统架构AI

15,595 次使用

💻 IT / 互联网高级

Spark 大数据任务优化——「从跑2小时到跑15分钟」

诊断和优化Spark任务：Shuffle优化→数据倾斜解决→内存管理→分区策略→广播变量→序列化优化→推测执行→动态资源分配。包含优化前后的配置和代码对比

大数据Spark性能优化

3,479 次使用

💻 IT / 互联网中级

时序数据库选型与设计——InfluxDB/TimescaleDB 对比实战

时序数据库方案设计：InfluxDB vs TimescaleDB vs Prometheus vs TDengine→数据模型→下采样与保留策略→连续聚合→高基数问题→压缩策略→与关系数据库的配合

数据库时序数据库监控

19,308 次使用

💻 IT / 互联网高级

向量数据库与RAG系统设计——「让大模型用你的数据回答问题」

设计RAG（检索增强生成）系统：文档切分策略→Embedding模型选型→向量数据库（Pinecone/Milvus/Weaviate/Qdrant）→检索优化→重排序→引用溯源→评估框架→生产部署架构

AI向量数据库RAG

5,042 次使用