个人介绍

姓名：谢扬帆 | 本科就读于浙大城市学院数据科学与大数据技术专业，系统学习统计分析、机器学习和大数据计算等课程。

具备扎实的数据处理与建模基础，能够使用 Python、R、SQL 等工具完成数据清洗、建模与结果分析，并在实习和竞赛中将方法应用到实际业务场景。

联系我

数据科学可视化数据库

求职意向

Job Objective

意向岗位

数据分析师 / 数据建模工程师 / 数据科学实习生

系统学习统计学、计算机知识。
掌握 Python、R 数据提取与处理，大规模数据的清洗与建模实践经验。
熟悉 SQL 的运用，有数据库的 CRUD 经历。
熟悉常用机器学习算法及统计诊断方法，通过统计学知识优化回归模型精度。
擅长数据可视化分析，能熟练运用 ggplot2、Matplotlib 等工具将复杂模型结果转化为直观的分析图表。

教育与经历

教育背景与实践经验

本科阶段的课程学习情况、实习经历以及与 AI 和数据分析相关的实践项目。

教育背景 · 2022.07 – 2026.06

浙大城市学院 · 数据科学与大数据技术（本科）

主修课程：回归分析、统计学、Python 程序设计、数据结构、贝叶斯统计、数据挖掘、深度学习（TensorFlow）、人工智能、大数据计算等。
补充学习：系统自学 408 相关课程（数据结构、计算机组成原理等），对程序运行机制与计算机基础有较扎实的理解。

实习经历 · 2025.08 – 2025.11

杭州市墨盒软件工作室 · 数据分析实习生

数据仓库与 ETL：负责 MySQL 数据库日常维护，独立完成多表关联的 ETL 数据清洗，保证数据源的准确性与完整性。
业务指标分析与可视化：根据业务需求设计核心指标，进行统计分析并产出可视化报告，为部门决策提供数据支撑。
查询性能优化：针对高频报表的提取需求，通过 SQL 语句优化，提升报表生成效率。

实践与竞赛

AI 工具落地 · 机器学习建模 · 比赛历程

AI 工具与本地部署：深入研究 ComfyUI 工作流，了解模型调用与推理流程；在本地成功部署 Upscayl、Nextchat 等开源项目，熟悉模型下载、依赖配置与运行环境搭建。
机器学习实践：使用 Python 完成文本识别 / 文本分类项目，尝试 TF-IDF + 逻辑回归等方法建模，进行参数调优与模型评估（如准确率、召回率等）。
竞赛经历：参与 ACM 程序设计竞赛、数学建模竞赛和互联网 AI 创客大赛，在真实问题中锻炼算法能力、建模思维与团队协作。

项目实战

数据科学与机器学习项目

统计建模、高维数据处理与大规模清洗与推断，覆盖回归诊断、分类预测与健康数据分析。

二手车定价分析
回归建模与异方差修正
从数据清洗到模型诊断的完整回归分析流程，重点解决异方差对估计的影响。
基于多元线性回归建立价格预测模型，使用逐步回归与 Lasso 进行变量筛选，并通过 WLS（加权最小二乘法）修正异方差，提升估计稳健性。
多元线性回归LassoWLSR
核心结论
异方差修正后，模型预测稳健性提升约 15%，残差分布更符合假设。
玉米性状分析
统计诊断与变量选择
将统计诊断与正则化结合，完成从探索性分析到最终模型的闭环。
针对农业性状数据建立回归模型，结合统计诊断（残差分析、影响分析）与正则化方法（Lasso）进行变量选择与模型简化。
回归分析统计诊断RLasso可视化
核心结论
在保证解释力的前提下简化模型结构，便于实际应用与结果解读。
财务造假预警
高维特征与分类建模
从高维特征到二分类预警的完整建模与评估流程。
处理 360+ 维财务特征，利用 K-means 填充缺失值，以 Random Forest 与 SVM 构建分类流水线，通过 GridSearchCV 进行超参数调优，并基于 AUC 等指标评估模型表现。
PythonRandom ForestSVMK-meansGridSearchCV
核心结论
在测试集上取得较高 AUC，验证了非线性模型在财务造假识别场景下的泛化能力。
氨基酸预测
光谱数据与回归/分类
光谱高维数据的清洗、特征与建模实践。
针对 700+ 维光谱数据开展特征构建与建模，结合机器学习方法进行氨基酸相关预测，通过 RMSE 等指标评估回归或分类效果。
Python特征工程回归/分类可视化
核心结论
在测试集上实现较低 RMSE，验证了模型在生物光谱场景下的预测能力。
医疗体检大数据研究
大规模数据清洗与推断统计
对大量体检记录进行 IQR 异常值清洗与质量检查；运用 ANOVA（方差分析）与卡方检验分析健康指标间的关联，探索多因子交互效应。
PythonANOVA卡方检验IQR 清洗推断统计
核心结论
识别出糖尿病与收入水平、生活习惯等的显著交互作用，为群体健康预警提供统计依据。

技术栈

技能与工具

主要技能与常用库、工具一览，便于快速了解技术栈。

技能 / 工具	说明	常用库与工具
Python	数据处理、统计分析与可视化，机器学习建模与脚本开发。	pandas, NumPy, scikit-learn, Matplotlib, Seaborn, TensorFlow
R	统计分析与可视化，探索性数据分析、统计检验与图表输出。	tidyverse, ggplot2, shiny, caret
SQL	关系型数据库与复杂查询、多表关联与性能优化，业务报表与数据提取。	MySQL, 多表 JOIN, 子查询, 索引优化
Java / Spring	后端服务与数据流转的基本理解，便于在数据分析中理解数据来源与接口。	Spring Boot, MVC, REST API
ComfyUI	图像生成工作流搭建，节点编排与模型调用、推理流程的标准化与复用。	节点编排, Checkpoint, LoRA, 工作流导出
机器学习流程	特征工程到建模与评估的完整流程，TF-IDF、逻辑回归等文本分类及准确率、召回率评估。	TF-IDF, 逻辑回归, GridSearchCV, 准确率/召回率
Jupyter / 笔记本	探索性分析与实验记录，代码、图表与注释结合，便于复盘与协作。	Jupyter, Markdown, 代码+图表

Python

数据处理、统计分析与可视化，机器学习建模与脚本开发。

pandas, NumPy, scikit-learn, Matplotlib, Seaborn, TensorFlow

统计分析与可视化，探索性数据分析、统计检验与图表输出。

tidyverse, ggplot2, shiny, caret

SQL

关系型数据库与复杂查询、多表关联与性能优化，业务报表与数据提取。

MySQL, 多表 JOIN, 子查询, 索引优化

Java / Spring

后端服务与数据流转的基本理解，便于在数据分析中理解数据来源与接口。

Spring Boot, MVC, REST API

ComfyUI

图像生成工作流搭建，节点编排与模型调用、推理流程的标准化与复用。

节点编排, Checkpoint, LoRA, 工作流导出

机器学习流程

特征工程到建模与评估的完整流程，TF-IDF、逻辑回归等文本分类及准确率、召回率评估。

TF-IDF, 逻辑回归, GridSearchCV, 准确率/召回率

Jupyter / 笔记本

探索性分析与实验记录，代码、图表与注释结合，便于复盘与协作。

Jupyter, Markdown, 代码+图表

联系与合作

目前常驻杭州市，期待交流与合作。

邮箱：2241448814@qq.com

微信：

所在城市：杭州市

浙大城市学院 · 数据科学与大数据技术（本科）

杭州市墨盒软件工作室 · 数据分析实习生

AI 工具落地 · 机器学习建模 · 比赛历程

二手车定价分析

玉米性状分析

财务造假预警

氨基酸预测

医疗体检大数据研究

联系与合作