2022.9-2023.11 枫森商城实时系统 大数据开发
项目架构:Flume+FlinkCDC+Flink+Redis+Clickhouse+DataV+Hadoop+Zookeeper+Kafka+Mysql
项目描述:
实时商城系统是一个创新的电子商务平台,致力于提供高效、实时的商品交易体验。该系统利用先进的技术和算法,确保库存管理和订单处理的实时性和准确性。实时库存管理是商城实时系统的核心,它采用智能化的库存管理系统,实时监控商品库存数量。这种系统能够准确反映库存情况,及时更新库存信息,避免超卖和缺货现象。通过设定合理的库存阈值,系统能够自动提醒商家及时补货,确保商品持续供应。商城实时系统还为商家提供了实时的销售数据报
职责描述:
通过Flume程序实时监控采集商城日志数据文件,实时采集到kafka作为原始日志数据
使用FlinkCDC实时迁移Mysql中的用户行为数据存到kafka中构建ods层
调用重分区算子,rescale,rebalance,shuffle解决kafka的topic分区之间数据不均匀,防止数据倾斜
负责构建dwd层通过Flink应用程序使用操作符对ods层数据进行清洗,过滤等操作
使用redis作为热点数据的旁路缓存,使用Flink的异步IO实现对外部系统的异步访问,提高程序性能
构建DWS宽表:通过预加载,双流join,lookupjoin实现维度关联,将宽表数据存入Clickhouse
使用异步IO实现连续发送多个请求,提高并发效果,减少多请求等待带来的消耗
通过ReplacingMergeTree保证最终一致性,查询时的sql语法加上去重逻辑,保证ClickHouse的一致性
利用web ui定位,查看火焰图平顶,并分析GC日志,调整资源解决Flink反压
ADS层指标:产品总数,上架商品的sku/spu数,交易成功指标数,浏览下单数,支付买家数等
使用DataV调用接口进行可视化报表展示
参与将项目部署到Flink on Yarn,通过WebUI查看资源使用,以提高集群的资源利用率