个人介绍

姓名:谢扬帆 | 本科就读于浙大城市学院数据科学与大数据技术专业,系统学习统计分析、机器学习和大数据计算等课程。

具备扎实的数据处理与建模基础,能够使用 Python、R、SQL 等工具完成数据清洗、建模与结果分析,并在实习和竞赛中将方法应用到实际业务场景。

联系我
数据科学可视化数据库

求职意向

Job Objective

意向岗位

数据分析师 / 数据建模工程师 / 数据科学实习生

  • 系统学习统计学、计算机知识。
  • 掌握 Python、R 数据提取与处理,大规模数据的清洗与建模实践经验。
  • 熟悉 SQL 的运用,有数据库的 CRUD 经历。
  • 熟悉常用机器学习算法及统计诊断方法,通过统计学知识优化回归模型精度。
  • 擅长数据可视化分析,能熟练运用 ggplot2、Matplotlib 等工具将复杂模型结果转化为直观的分析图表。

教育与经历

教育背景与实践经验

本科阶段的课程学习情况、实习经历以及与 AI 和数据分析相关的实践项目。

教育背景 · 2022.07 – 2026.06

浙大城市学院 · 数据科学与大数据技术(本科)

  • 主修课程:回归分析、统计学、Python 程序设计、数据结构、贝叶斯统计、数据挖掘、 深度学习(TensorFlow)、人工智能、大数据计算等。
  • 补充学习:系统自学 408 相关课程(数据结构、计算机组成原理等),对程序运行机制与计算机基础有较扎实的理解。

实习经历 · 2025.08 – 2025.11

杭州市墨盒软件工作室 · 数据分析实习生

  • 数据仓库与 ETL:负责 MySQL 数据库日常维护,独立完成多表关联的 ETL 数据清洗,保证数据源的准确性与完整性。
  • 业务指标分析与可视化:根据业务需求设计核心指标,进行统计分析并产出可视化报告,为部门决策提供数据支撑。
  • 查询性能优化:针对高频报表的提取需求,通过 SQL 语句优化,提升报表生成效率。

实践与竞赛

AI 工具落地 · 机器学习建模 · 比赛历程

  • AI 工具与本地部署:深入研究 ComfyUI 工作流,了解模型调用与推理流程;在本地成功部署 Upscayl、Nextchat 等开源项目,熟悉模型下载、依赖配置与运行环境搭建。
  • 机器学习实践:使用 Python 完成文本识别 / 文本分类项目,尝试 TF-IDF + 逻辑回归等方法建模,进行参数调优与模型评估(如准确率、召回率等)。
  • 竞赛经历:参与 ACM 程序设计竞赛、数学建模竞赛和互联网 AI 创客大赛,在真实问题中锻炼算法能力、建模思维与团队协作。

项目实战

数据科学与机器学习项目

统计建模、高维数据处理与大规模清洗与推断,覆盖回归诊断、分类预测与健康数据分析。

  • 二手车定价分析

    回归建模与异方差修正

    从数据清洗到模型诊断的完整回归分析流程,重点解决异方差对估计的影响。

    基于多元线性回归建立价格预测模型,使用逐步回归与 Lasso 进行变量筛选,并通过 WLS(加权最小二乘法)修正异方差,提升估计稳健性。

    多元线性回归LassoWLSR

    核心结论

    异方差修正后,模型预测稳健性提升约 15%,残差分布更符合假设。

    玉米性状分析

    统计诊断与变量选择

    将统计诊断与正则化结合,完成从探索性分析到最终模型的闭环。

    针对农业性状数据建立回归模型,结合统计诊断(残差分析、影响分析)与正则化方法(Lasso)进行变量选择与模型简化。

    回归分析统计诊断RLasso可视化

    核心结论

    在保证解释力的前提下简化模型结构,便于实际应用与结果解读。

  • 财务造假预警

    高维特征与分类建模

    从高维特征到二分类预警的完整建模与评估流程。

    处理 360+ 维财务特征,利用 K-means 填充缺失值,以 Random Forest 与 SVM 构建分类流水线,通过 GridSearchCV 进行超参数调优,并基于 AUC 等指标评估模型表现。

    PythonRandom ForestSVMK-meansGridSearchCV

    核心结论

    在测试集上取得较高 AUC,验证了非线性模型在财务造假识别场景下的泛化能力。

    氨基酸预测

    光谱数据与回归/分类

    光谱高维数据的清洗、特征与建模实践。

    针对 700+ 维光谱数据开展特征构建与建模,结合机器学习方法进行氨基酸相关预测,通过 RMSE 等指标评估回归或分类效果。

    Python特征工程回归/分类可视化

    核心结论

    在测试集上实现较低 RMSE,验证了模型在生物光谱场景下的预测能力。

  • 医疗体检大数据研究

    大规模数据清洗与推断统计

    对大量体检记录进行 IQR 异常值清洗与质量检查;运用 ANOVA(方差分析)与卡方检验分析健康指标间的关联,探索多因子交互效应。

    PythonANOVA卡方检验IQR 清洗推断统计

    核心结论

    识别出糖尿病与收入水平、生活习惯等的显著交互作用,为群体健康预警提供统计依据。

技术栈

技能与工具

主要技能与常用库、工具一览,便于快速了解技术栈。

Python

数据处理、统计分析与可视化,机器学习建模与脚本开发。

pandas, NumPy, scikit-learn, Matplotlib, Seaborn, TensorFlow

R

统计分析与可视化,探索性数据分析、统计检验与图表输出。

tidyverse, ggplot2, shiny, caret

SQL

关系型数据库与复杂查询、多表关联与性能优化,业务报表与数据提取。

MySQL, 多表 JOIN, 子查询, 索引优化

Java / Spring

后端服务与数据流转的基本理解,便于在数据分析中理解数据来源与接口。

Spring Boot, MVC, REST API

ComfyUI

图像生成工作流搭建,节点编排与模型调用、推理流程的标准化与复用。

节点编排, Checkpoint, LoRA, 工作流导出

机器学习流程

特征工程到建模与评估的完整流程,TF-IDF、逻辑回归等文本分类及准确率、召回率评估。

TF-IDF, 逻辑回归, GridSearchCV, 准确率/召回率

Jupyter / 笔记本

探索性分析与实验记录,代码、图表与注释结合,便于复盘与协作。

Jupyter, Markdown, 代码+图表

联系与合作

目前常驻杭州市,期待交流与合作。

邮箱:2241448814@qq.com

微信:

所在城市:杭州市