共找到 18 个提示词
金融数据获取与清洗方案:股票/基金/期货/宏观数据的免费与付费数据源对比、Python爬取模板(Tushare/AkShare/Baostock/Wind API)、数据清洗pipeline(缺失值/异常值/复权/对齐)。让数据准备从'最耗时的环节'变成'几行代码的事'
Airflow实战指南:DAG设计模式→Operator选型→动态DAG生成→XCom数据传递→SLA与告警→回填(Backfill)→Sensor设计→执行器选择→生产环境运维→DAG版本管理
Kafka架构深度设计:Topic/Partition/Consumer Group→生产者确认与幂等→消费者Offset管理→消息语义(At-most-once/At-least-once/Exactly-once)→压缩策略→数据保留→与RabbitMQ/Pulsar/NATS对比→多数据中心复制(MirrorMaker)→Kafka Streams vs Flink
实施CDC方案:Debezium+Kafka Connect→MySQL binlog/PostgreSQL WAL→实时数据同步→多目标同步(数据湖/缓存/搜索索引)→Schema变更处理→数据转换(SMT)→Exactly-Once保证→监控和运维
设计数据湖架构:数据湖vs数据仓库的选择→分层存储(Bronze/Silver/Gold)→Delta Lake/Iceberg/Hudi表格式→Schema演进→ACID事务→元数据管理→数据治理→查询引擎(Trino/Presto/Spark)
实现数据隐私技术方案:数据分类与标记→数据脱敏(静态/动态)→数据删除(硬删除/软删除/匿名化)→数据导出(Right to Access)→同意管理→数据留存策略→审计日志→隐私影响评估(DPIA)
构建数据质量框架:六维度质量评估(完整性/准确性/一致性/及时性/唯一性/有效性)→自动化质量检查→异常告警→数据血缘→质量Dashboard→Great Expectations/Soda/Deequ工具实战
设计数据生命周期管理:数据分级(热/温/冷/冻)→归档策略→存储成本优化→查询性能权衡→合规留存要求→自动归档Pipeline→数据恢复流程→归档格式选择(Parquet/Avro/ORC)
设计数据仓库模型:维度建模方法论→事实表与维度表→星型模型vs雪花模型→缓慢变化维(SCD Type1/2/3)→聚合表设计→ETL物化策略→与数据湖的互补
dbt数据工程实战:项目结构→Model分层(staging/intermediate/mart)→Jinja宏→测试(Generic+Singular)→文档自动生成→增量模型→Snapshot→CI/CD集成→与Airflow/Prefect的配合
使用图数据库解决关系型问题:图建模vs关系建模→Cypher查询语言→图遍历算法→推荐引擎(协同过滤的图版本)→反欺诈(环检测)→知识图谱→与PostgreSQL的混合架构
设计ML工程流水线:数据采集→特征工程→训练→评估→部署→监控→模型更新。涵盖Feature Store、MLflow实验管理、模型版本化、A/B测试部署、数据漂移检测
设计NLP处理流水线:文本预处理→分词/分句→命名实体识别→关系抽取→文本分类→情感分析→摘要生成→实体链接→多语言支持→模型更新策略→在线vs批处理
设计实时流处理系统:事件时间vs处理时间→Watermark→窗口(Tumbling/Hopping/Session)→状态管理→Checkpoint→Exactly-Once语义→CEP复杂事件处理→与批处理的Lambda/Kappa架构
设计推荐系统架构:召回层(协同过滤/向量召回/GBDT+LR)→排序层(CTR预估/多目标优化)→重排序层(多样性/新鲜度/业务规则)→实时特征→冷启动→A/B实验→在线学习
诊断和优化Spark任务:Shuffle优化→数据倾斜解决→内存管理→分区策略→广播变量→序列化优化→推测执行→动态资源分配。包含优化前后的配置和代码对比
时序数据库方案设计:InfluxDB vs TimescaleDB vs Prometheus vs TDengine→数据模型→下采样与保留策略→连续聚合→高基数问题→压缩策略→与关系数据库的配合
设计RAG(检索增强生成)系统:文档切分策略→Embedding模型选型→向量数据库(Pinecone/Milvus/Weaviate/Qdrant)→检索优化→重排序→引用溯源→评估框架→生产部署架构