教育背景 · 2022.07 – 2026.06
浙大城市学院 · 数据科学与大数据技术(本科)
- 主修课程:回归分析、统计学、Python 程序设计、数据结构、贝叶斯统计、数据挖掘、 深度学习(TensorFlow)、人工智能、大数据计算等。
- 补充学习:系统自学 408 相关课程(数据结构、计算机组成原理等),对程序运行机制与计算机基础有较扎实的理解。
姓名:谢扬帆 | 本科就读于浙大城市学院数据科学与大数据技术专业,系统学习统计分析、机器学习和大数据计算等课程。
具备扎实的数据处理与建模基础,能够使用 Python、R、SQL 等工具完成数据清洗、建模与结果分析,并在实习和竞赛中将方法应用到实际业务场景。
Job Objective
意向岗位
数据分析师 / 数据建模工程师 / 数据科学实习生
教育与经历
本科阶段的课程学习情况、实习经历以及与 AI 和数据分析相关的实践项目。
教育背景 · 2022.07 – 2026.06
实习经历 · 2025.08 – 2025.11
实践与竞赛
项目实战
统计建模、高维数据处理与大规模清洗与推断,覆盖回归诊断、分类预测与健康数据分析。
回归建模与异方差修正
从数据清洗到模型诊断的完整回归分析流程,重点解决异方差对估计的影响。
基于多元线性回归建立价格预测模型,使用逐步回归与 Lasso 进行变量筛选,并通过 WLS(加权最小二乘法)修正异方差,提升估计稳健性。
核心结论
异方差修正后,模型预测稳健性提升约 15%,残差分布更符合假设。
统计诊断与变量选择
将统计诊断与正则化结合,完成从探索性分析到最终模型的闭环。
针对农业性状数据建立回归模型,结合统计诊断(残差分析、影响分析)与正则化方法(Lasso)进行变量选择与模型简化。
核心结论
在保证解释力的前提下简化模型结构,便于实际应用与结果解读。
高维特征与分类建模
从高维特征到二分类预警的完整建模与评估流程。
处理 360+ 维财务特征,利用 K-means 填充缺失值,以 Random Forest 与 SVM 构建分类流水线,通过 GridSearchCV 进行超参数调优,并基于 AUC 等指标评估模型表现。
核心结论
在测试集上取得较高 AUC,验证了非线性模型在财务造假识别场景下的泛化能力。
光谱数据与回归/分类
光谱高维数据的清洗、特征与建模实践。
针对 700+ 维光谱数据开展特征构建与建模,结合机器学习方法进行氨基酸相关预测,通过 RMSE 等指标评估回归或分类效果。
核心结论
在测试集上实现较低 RMSE,验证了模型在生物光谱场景下的预测能力。
大规模数据清洗与推断统计
对大量体检记录进行 IQR 异常值清洗与质量检查;运用 ANOVA(方差分析)与卡方检验分析健康指标间的关联,探索多因子交互效应。
核心结论
识别出糖尿病与收入水平、生活习惯等的显著交互作用,为群体健康预警提供统计依据。
技术栈
主要技能与常用库、工具一览,便于快速了解技术栈。
| 技能 / 工具 | 说明 | 常用库与工具 |
|---|---|---|
| Python | 数据处理、统计分析与可视化,机器学习建模与脚本开发。 | pandas, NumPy, scikit-learn, Matplotlib, Seaborn, TensorFlow |
| R | 统计分析与可视化,探索性数据分析、统计检验与图表输出。 | tidyverse, ggplot2, shiny, caret |
| SQL | 关系型数据库与复杂查询、多表关联与性能优化,业务报表与数据提取。 | MySQL, 多表 JOIN, 子查询, 索引优化 |
| Java / Spring | 后端服务与数据流转的基本理解,便于在数据分析中理解数据来源与接口。 | Spring Boot, MVC, REST API |
| ComfyUI | 图像生成工作流搭建,节点编排与模型调用、推理流程的标准化与复用。 | 节点编排, Checkpoint, LoRA, 工作流导出 |
| 机器学习流程 | 特征工程到建模与评估的完整流程,TF-IDF、逻辑回归等文本分类及准确率、召回率评估。 | TF-IDF, 逻辑回归, GridSearchCV, 准确率/召回率 |
| Jupyter / 笔记本 | 探索性分析与实验记录,代码、图表与注释结合,便于复盘与协作。 | Jupyter, Markdown, 代码+图表 |
Python
数据处理、统计分析与可视化,机器学习建模与脚本开发。
pandas, NumPy, scikit-learn, Matplotlib, Seaborn, TensorFlow
R
统计分析与可视化,探索性数据分析、统计检验与图表输出。
tidyverse, ggplot2, shiny, caret
SQL
关系型数据库与复杂查询、多表关联与性能优化,业务报表与数据提取。
MySQL, 多表 JOIN, 子查询, 索引优化
Java / Spring
后端服务与数据流转的基本理解,便于在数据分析中理解数据来源与接口。
Spring Boot, MVC, REST API
ComfyUI
图像生成工作流搭建,节点编排与模型调用、推理流程的标准化与复用。
节点编排, Checkpoint, LoRA, 工作流导出
机器学习流程
特征工程到建模与评估的完整流程,TF-IDF、逻辑回归等文本分类及准确率、召回率评估。
TF-IDF, 逻辑回归, GridSearchCV, 准确率/召回率
Jupyter / 笔记本
探索性分析与实验记录,代码、图表与注释结合,便于复盘与协作。
Jupyter, Markdown, 代码+图表
目前常驻杭州市,期待交流与合作。