数据分析与大数据技术

探索数据科学、机器学习与统计分析的世界,记录学习和实践的旅程。

阅读最新博客 →

关于我

👨‍💻

数据科学学习者

大数据与人工智能方向

个人简介

我是一名对数据科学和大数据技术充满热情的学生。目前正在学习和实践各种数据分析技术, 包括 PySpark 分布式计算、统计建模、机器学习以及数据可视化等方向。

研究兴趣

主要研究兴趣包括:生存分析、客户流失预测、客户生命周期价值计算、 以及大规模数据处理与分析。

技术栈

Python PySpark SQL Pandas Matplotlib Lifelines Scikit-learn MySQL Git Jupyter

博客文章

生存分析

电信客户流失生存分析:从 Kaplan-Meier 到客户生命周期价值

2026-04-28 | 阅读约 15 分钟

使用 IBM Telco 数据集,应用 Kaplan-Meier、Cox 比例风险模型和加速失效时间模型 进行全面的生存分析,并计算客户生命周期价值。

阅读全文 →
SQL 分析

LLM 生成 SQL 的局限性:三个典型失败案例

2026-04-28 | 阅读约 8 分钟

探讨大语言模型在 SQL 代码生成任务中的常见错误,包括方言混淆、 语义错误和 NULL 值处理缺失等问题。

阅读全文 →
大数据

PySpark 数据处理实战:Bronze-Silver-Gold 架构

2026-04-28 | 阅读约 10 分钟

介绍如何使用 PySpark 构建数据湖架构,从原始数据加载到数据清洗、 转换和分析的完整流程。

阅读全文 →