作者: cyxcc

  • 课程后记:待挖掘的数据挖掘课程

    写作时间:2025.06.20

    教师姓名:zw

    一、课程初印象

    从课程大纲看,聚类、分类等内容让我一开始觉得这门课与已修的统计机器学习、深度学习、人工智能等课程存在大块重叠。

    二、老师给我的印象

    老师来自本部,风格较年轻,讲课像在开讲座,内容覆盖面广但不深入,可能是首次教授这门课。但发现我们已有相关基础后,他主动调整方向,引入了更多前沿拓展内容,这让我对数据挖掘有了更广阔的认识。

    三、最让我印象深刻的课堂时刻

    在讲解时,老师拓展讲述了中位数搜索、流网络、凸包等算法,课程意外地在算法层面提供了许多启发。

    四、我的最大收获

    这门课程让我意识到:即使是综述型的讲座课,也能通过主动学习获取有价值的信息。笔记不必事无巨细,抓住重点、认真听讲即可。

    复习阶段,我首次尝试使用AI辅助进行系统学习,整体流程如下:

    1. 内容提取:我将课程PPT和考试大纲输入Gemini,让它快速生成标注好每个知识点对应课件页码的复习框架。
    2. 笔记生成:在阅读PPT时,我一边结合AI给出复习框架,一边将重要内容整理到框架中,把它拓展成复习笔记,同时把AI未提及但我认为重要的部分补充进去。
    3. 习题生成与自测:笔记完成后,我将它们交给AI,让它基于内容设计章节习题,包括选择题和简答题,帮助我检测对知识点的掌握。
    4. 强化记忆:完成第一轮复习与测试后,我进行第二轮复习笔记的背诵与自测,形成知识的巩固与闭环。

    这是我第一次完整利用AI完成一门课的复习,效率和效果都显著提升,也让我意识到AI在学习中的巨大潜力。

    五、如果可以重来一次

    整体复习过程已非常顺利。如果能重来,我会更早引入AI工具,节省更多时间。

    六、一句话总结这门课

    一门包罗万象的综述型数据挖掘课程,每个人都能从中获得不同层次的收获。

  • 单词辨析

    opposite,opposed,opposing

    opposite:相反方向/特征(静态)→ sit opposite, opposite meaning

    opposed:立场反对(态度)→ be opposed to sth

    opposing:对抗中(动态)→ opposing teams/views

    opposite views/arguments:静态内容相反

    opposing views/arguments:对抗/交锋中的观点,更自然常用

    parliament,chamber

    parliament:整个议会/国家立法机构 → UK Parliament = Commons(下议院)+ Lords(上议院)

    chamber:议会中“一院”或会议厅 → upper/lower chamber of parliament

    motive,motivation

    motive:具体原因(常用于分析别人行为)→ motive for crime

    motivation:内在驱动力/动力(多用于自我)→ motivation to succeed

    intelligent,intellectual,intelligence

    intelligent:形容词,聪明的 → an intelligent child

    intellectual:形容词/名词,理性思考的;知识分子 → intellectual debate / a leading intellectual

    intelligence:名词,智力;情报 → human intelligence / classified intelligence

    personal,private

    personal:个人的,强调“属于自己”或“亲自的” → personal opinion / personal experience

    private:私密的,不公开的,强调“隐私保护” → private life / private room

    • She doesn’t like to share her personal life on social media. → 她不喜欢让她的生活细节暴露在公共场合。
    • She keeps her private life very private. → 她非常保护她的隐私部分,不让人知道。

    maintain,sustain

    sustain:持续承受、支持(强调长期或承受压力)→ sustain energy / sustain damage

    maintain:保持状态不变、防止恶化(强调保持现状)→ maintain order / maintain machines

    maintain a positive attitude = 维持、保持一个心理状态。

    sustain 更适合用来表示“支撑、维持(力量、能量、生命等)”的动作。

    • She maintains a positive attitude despite difficulties.(保持积极态度,防止消极。)——很自然。
    • She sustains her energy despite difficulties.(在困难中维持体力。)——强调体力需要支撑。

    reject,refuse

    reject:拒绝接受/认可(偏判断,侧重判断和标准)→ reject an offer / reject a proposal

    refuse:拒绝做某事(偏主动不愿意,侧重行为和意愿)→ refuse to help / refuse an invitation

    sector,department

    sector,department

    sector:行业、领域(大的分类)→ public sector / tech sector

    department:组织机构内部的部门(小单位)→ HR department / physics department

  • 书单&影单

  • 课程后记:复杂又简单的图像分割

    写作时间:2025.04.24

    教师姓名:yyy

    一、课程初印象

    课程从泛函的概念入手,让我第一次接触到如此抽象的数学工具,感受到很有难度且陌生。

    二、老师给我的印象

    杨老师的教学风格非常出色。在课堂上,老师能够引导我们保持清晰且有逻辑的思路,让我们在大方向上稳步前进,同时又不会错过任何一个有价值的细节。对于容易产生疑问的小细节,老师总是能够准确而及时地进行讲解。这种教学方式不仅体现了老师对课程内容的深刻理解和丰富经验,也让我在学习过程中保持了高度的专注和兴趣。

    三、最让我印象深刻的课堂时刻

    课程内容以一种非常流畅且环环相扣的方式展开。从 GAC 模型利用边界梯度信息进行分割,到 CV 模型和 RSF 模型的演化,再到 GCCV 和 GCRSF 模型通过凸化能量泛函求解,最后发展到结合先验信息的优化模型。这一系列演进过程清晰地展现了图像分割技术的发展脉络,让我对理论体系和内在逻辑有了更深刻的理解。此外,课程还引入了结合深度学习的活动轮廓模型,以及针对牙齿图像分割等具体应用领域的模型,拓宽了我的视野。

    四、我的最大收获

    通过这门课程,我深刻认识到理论与实践结合的重要性。在实验课上,我动手实现了几个重要的图像分割模型,切实体会到模型中各个参数的实际意义,并意识到选择合适的方法对不同图像至关重要。这种判断力的培养需要对理论知识有深刻的理解,同时需要通过大量实践操作来积累经验。此外,我也明白了坚持学习的重要性。最初,面对抽象的泛函概念,我感到困惑,但在老师的反复讲解和自己的坚持努力下,我最终克服了困难,收获了知识。

    五、如果可以重来一次

    我觉得这次我已经做得很棒。再来一次可能是跟随老师的日程上课吧!

    六、一句话总结这门课

    我掌握了图像分割的理论与实践技能,还激发了我对图像处理领域的浓厚兴趣。

  • 课程后记:多元统计分析

    写作时间:2025.05.05

    教师姓名:fzh

    一、课程初印象

    课程从矩阵运算和多元正态分布入手,与高等代数和统计学紧密相连。起初,我担心自己基础薄弱,难以跟上进度。

    二、老师给我的印象

    冯老师的教学风格细致且直击本质。在讲解每个章节时,知识点的展开逻辑清晰,例如在判别分析中,从两总体到多总体,再到贝叶斯方法和正态分布方法(包括协方差矩阵相等的 LDA 和不等的 QDA),层次分明。老师还特别关注容易让学生困惑的细节,如随机向量和矩阵的符号表示,讲解细致入微。这种教学方式让我受益匪浅,学习过程十分顺畅。

    三、最让我印象深刻的课堂时刻

    冯老师对主成分分析在图像处理中的应用进行了深入解读。他展示了两种方法:一是将图像的每一行视为一个样本,更具工科实用性;二是将每张图像视为一个样本,与理论更契合,更具解释性。当我在第一种方法上产生疑惑时,老师很快回应了我的疑问,极大地满足了我的好奇心。

    四、我的最大收获

    我深刻认识到数学理论对方法应用的重要性。扎实的数学基础能帮助我们更好地理解方法的使用条件,例如 LDA 和 PCA 等,从而更准确地解释结果。

    五、如果可以重来一次

    我会在每节课后坚持制作思维导图,同时补充高等代数和统计学的相关知识,以巩固学习内容。

    六、一句话总结这门课

    这是一门让人愉悦且收获满满的统计学拓展课程,能帮助我们找到常用数学建模方法背后的严谨统计学理论。

  • 数理统计发展史

    数理统计发展史

    一、伯努利分布(1713)与二项分布(1713)

    1. 伯努利分布

    • 发明背景
      • 核心问题:雅各布·伯努利(Jacob Bernoulli)试图用数学描述单次随机试验(如抛硬币)的结果。
      • 数学家思考
        • 将二元结果抽象为(X \in {0,1}),概率质量函数定义为(P(X=1)=p, P(X=0)=1-p),成为离散概率的基石。
        • 伯努利意识到,二元结果(成功/失败)可以用一个简单变量表示,其概率仅由单一参数(p)控制。
        • 他强调结果的“互斥性”和“完备性”:每次试验只能有一种结果,且所有结果概率之和为1。
      • 最初应用:赌博问题(如轮盘赌结果预测)、遗传学中的显隐性特征分析。
    • 严谨定义 概率质量函数: [ P(X=1) = p, \quad P(X=0) = 1-p ] 其中(X \in {0,1}),(p)为成功概率。
    • 后续主要应用
      • 逻辑回归中的响应变量建模。
      • 质量控制中的缺陷品检测(如生产线良率统计)。

    2. 二项分布

    • 发明背景
      • 核心问题:伯努利在《猜度术》(Ars Conjectandi)中研究(n)次独立伯努利试验的成功次数。
      • 数学家思考
        • 推导出概率质量函数(P(X=k)=\binom{n}{k} p^k (1-p)^{n-k}),并证明大数定律:当(n \to \infty)时,频率趋近于概率(p)。
        • 通过组合数学计算不同成功次数(k)的可能性,发现系数(\binom{n}{k})是核心权重。
        • 提出“大数定律”雏形:当(n)极大时,实际频率会收敛到理论概率(p)。
      • 最初应用:人口统计中的性别比例预测、保险业中的死亡率估算。
    • 严谨定义 概率质量函数: [ P(X=k) = \binom{n}{k} p^k (1-p)^{n-k} ] 其中(k \in {0,1,\dots,n}),(\binom{n}{k})为组合数。
    • 后续主要应用
      • A/B测试中的转化率比较。
      • 医学试验中药物有效病例数估计。

    二、均匀分布(1774)

    • 发明背景
      • 核心问题:拉普拉斯(Pierre-Simon Laplace)研究无先验信息时的概率分配问题,试图为“完全未知”的场景赋予概率。
      • 数学家思考
        • 提出“无差别原理”(Principle of Insufficient Reason),认为若事件结果对称且无偏好,则概率应均匀分配。
        • 将离散均匀(如骰子)推广到连续情形(如圆周上的随机角度)。
    • 最初应用
      • 古典概率问题(如骰子点数、转盘角度分布)。
      • 几何概率(如布丰投针实验中针落地位置的均匀性假设)。
    • 严谨定义
      • 离散型:若(X)有(k)个等可能取值,则(P(X=x_i) = \frac{1}{k})。
      • 连续型:概率密度函数: [ f(x) = \frac{1}{b-a} \quad (a \leq x \leq b) ]
    • 后续主要应用
      • 随机数生成:蒙特卡洛模拟的基础分布(如Mersenne Twister算法)。
      • 贝叶斯统计:作为无信息先验分布(如参数空间均匀覆盖)。

    三、几何分布与负二项分布(18世纪)

    1. 几何分布

    • 发明背景
      • 核心问题:帕斯卡(Blaise Pascal)与费马(Pierre de Fermat)研究首次成功所需的伯努利试验次数。
      • 数学家思考
        • 发现几何级数的衰减模式:每次失败的概率是前一次的((1-p))倍。
        • 提出“无记忆性”:已失败(k)次后,仍需继续尝试的规律与从头开始相同。
      • 最初应用:赌博策略设计(如首次出现“6点”所需投骰次数)。
    • 严谨定义 概率质量函数: [ P(X=k) = p(1-p)^{k-1} \quad (k=1,2,\dots) ]
    • 后续主要应用
      • 网络传输中的重试机制建模。
      • 生态学中物种首次观测时间预测。

    2. 负二项分布

    • 发明背景
      • 核心问题:蒙特莫特(Pierre Rémond de Montmort)扩展几何分布,研究第(r)次成功所需的试验次数。
      • 数学家思考
        • 将问题分解为前(k-1)次试验中有(r-1)次成功,最后一次成功。
        • 通过组合数(\binom{k-1}{r-1})分配不同路径的可能性。
        • 泊松-伽玛混合分布的特例。
      • 最初应用:战争伤亡次数建模、流行病学中疾病复发间隔分析。
    • 严谨定义 概率质量函数: [ P(X=k) = \binom{k-1}{r-1} p^r (1-p)^{k-r} \quad (k=r,r+1,\dots) ]
    • 后续主要应用
      • 保险业中的索赔次数预测(处理过离散数据)。
      • 生态学中物种分布的空间聚集性分析。

    四、超几何分布(1838)

    • 发明背景
      • 核心问题:德摩根(Augustus De Morgan)研究无放回抽样中的成功次数概率。
      • 数学家思考
        • 类比扑克抽牌:若牌堆中已知有(K)张目标牌,抽取(n)张时成功数的概率受剩余牌影响。
        • 组合数比值(\frac{\binom{K}{k}\binom{N-K}{n-k}}{\binom{N}{n}})直观反映有利情况与总情况的比例。
        • 强调有限总体修正效应。
    • 最初应用
      • 产品质量抽检(如一批产品中次品数的无放回检测)。
      • 生物多样性调查(如标记重捕法中的个体捕获概率)。
    • 严谨定义 概率质量函数: [ P(X=k) = \frac{\binom{K}{k} \binom{N-K}{n-k}}{\binom{N}{n}} ] 其中(k \leq \min(K,n))且(n-k \leq N-K)。
    • 后续主要应用
      • 医学研究:病例对照研究中的暴露因素关联性检验。
      • 选举预测:小选区投票结果的抽样推断。

    五、指数分布(1838)与伽玛分布(1838)

    1. 指数分布

    • 发明背景
      • 核心问题:泊松(Siméon Poisson)研究事件间隔时间的无记忆性分布。
      • 数学家思考
        • 从泊松过程出发,若事件发生率恒定,则间隔时间服从指数分布。
        • 提出“无记忆性”:已等待时间(s)不影响剩余等待时间的分布。
      • 最初应用:放射性衰变时间间隔、机械故障间隔建模。
    • 后续主要应用
      • 排队论中的服务时间建模(如M/M/1队列)。
      • 生存分析中的风险率恒定假设(如电子元件寿命)。

    2. 伽玛分布

    • 发明背景
      • 核心问题:拉普拉斯希望描述多个独立指数事件叠加后的总时间分布。 将阶乘推广到实数,提出伽玛函数(\Gamma(\alpha)=\int_0^\infty x^{\alpha-1} e^{-x} dx)。
      • 数学家思考
        • 若(X_1,X_2,\dots,X_n \overset{\text{iid}}{\sim} \text{Exp}(\lambda)),则(X_1+\dots+X_n)服从伽玛分布。
        • 形状参数(\alpha)控制分布形态(偏态程度),尺度参数(\beta)控制分散程度。
        • 定义伽玛分布为(f(x)=\frac{\beta^\alpha}{\Gamma(\alpha)} x^{\alpha-1} e^{-\beta x}),作为指数分布的叠加((\alpha)为整数时)。
      • 最初应用:保险业中的累积索赔金额建模、气象学中的降雨量分布。
    • 严谨定义 概率密度函数: [ f(x) = \frac{\beta^\alpha}{\Gamma(\alpha)} x^{\alpha-1} e^{-\beta x} \quad (x > 0) ]
    • 后续主要应用
      • 贝叶斯统计中的共轭先验(如泊松率(\lambda)的推断)。
      • 金融工程中的随机波动率建模(如Heston模型)。

    六、威布尔分布(1939)

    • 发明背景
      • 核心问题:威布尔(Waloddi Weibull)研究材料疲劳寿命的分布规律。
      • 数学家思考
        • 通过幂函数变换(T = (X/\lambda)^k)将指数分布推广,使风险率可递增/递减。
        • 形状参数(k)解释实际失效机理(如(k>1)表示磨损累积)。
    • 最初应用
      • 金属疲劳断裂时间预测。
      • 风速分布建模(风能资源评估)。
    • 严谨定义 概率密度函数: [ f(x) = \frac{k}{\lambda} \left( \frac{x}{\lambda} \right)^{k-1} e^{-(x/\lambda)^k} \quad (x \geq 0) ]
    • 后续主要应用
      • 可靠性工程:机械零件寿命的加速失效测试。
      • 生存分析:癌症患者生存时间建模(考虑风险率随时间变化)。

    七、贝塔分布(1763)

    • 发明背景
      • 核心问题:贝叶斯(Thomas Bayes)研究二项分布参数(p)的先验概率建模。
      • 数学家思考
        • 选择共轭先验形式,使得后验分布仍为贝塔分布,便于计算。
        • 参数(\alpha,\beta)可理解为“伪试验次数”(如(\alpha-1)次成功,(\beta-1)次失败)。
    • 最初应用
      • 二项分布参数(p)的贝叶斯推断(如选举支持率估计)。
      • 比例数据的先验信息量化(如药物有效率范围设定)。
    • 严谨定义 概率密度函数: [ f(p) = \frac{p^{\alpha-1} (1-p)^{\beta-1}}{B(\alpha,\beta)} \quad (0 \leq p \leq 1) ] 其中(B(\alpha,\beta)=\frac{\Gamma(\alpha)\Gamma(\beta)}{\Gamma(\alpha+\beta)})为贝塔函数。
    • 后续主要应用
      • 金融模型:随机波动率建模(混合贝塔分布描述收益率高峰厚尾)。
      • 可靠性分析:系统可靠度的贝叶斯拟合(利用两点优化法减少误差)。
      • 能源预测:风电功率波动区间估计(结合偏态数据拟合)。

    八、对数正态分布(1879)

    • 发明背景
      • 核心问题:高尔顿(Francis Galton)研究乘积效应下的分布形态(如财富积累)。
      • 数学家思考
        • 若(X=e^{Y})且(Y \sim N(\mu,\sigma^2)),则(X)的分布右偏,适用于“增长速率随机”的场景。
        • 对数变换将乘法效应转化为加法效应,从而利用正态分布性质。
    • 最初应用
      • 经济学中的收入分布建模(帕累托定律补充)。
      • 生物学中的细胞分裂时间分析。
    • 严谨定义 概率密度函数: [ f(x) = \frac{1}{x\sigma\sqrt{2\pi}} e^{-\frac{(\ln x – \mu)^2}{2\sigma^2}} \quad (x > 0) ]
    • 后续主要应用
      • 寿命分析:机械零件疲劳寿命建模(与威布尔分布互补)。
      • 环境科学:污染物浓度分布拟合(如PM2.5浓度)。
      • 金融衍生品定价:股票价格随机过程建模(Black-Scholes模型假设)。

    九、F分布(1924)与方差分析

    1. F分布

    • 发明背景
      • 核心问题:费舍尔(Ronald Fisher)比较两组方差以判断均值差异显著性。
      • 数学家思考
        • 构造方差比统计量(F = \frac{\text{组间方差}}{\text{组内方差}}),其分布反映随机波动与真实效应的比例。
        • 通过卡方分布与自由度调整,适应不同样本量场景。
      • 最初应用:农业试验中的肥料效果比较(如小麦产量方差分析)。
    • 严谨定义 概率密度函数: [ f(x) = \frac{\sqrt{\frac{(d_1 x)^{d_1} d_2^{d_2}}{(d_1 x + d_2)^{d_1 + d_2}}}}{x B(d_1/2, d_2/2)} \quad (x > 0) ]
    • 后续主要应用
      • 多元回归模型的整体显著性检验(如ANOVA表)。
      • 金融风险管理中的波动率比率检验(如GARCH模型参数)。

    总结:分布发展的时间轴与逻辑脉络

    1. 古典概率(17–18世纪) :伯努利、均匀、二项、几何、负二项分布,解决赌博与人口统计问题。
    2. 连续分布革命(19世纪) :正态、指数、伽玛、超几何分布,推动误差分析与物理建模。
    3. 现代统计奠基(20世纪初) :卡方、t、F分布,支撑小样本推断与实验设计。
    4. 工程与金融扩展(20世纪中后期) :威布尔、贝塔、对数正态分布,解决可靠性、贝叶斯推断与非对称数据。
    5. 计算与高维时代(21世纪) :Copula、极值分布,应对复杂依赖与极端风险。

    这一框架从单变量到多变量、从对称到偏态、从频率学派到贝叶斯学派,为多元统计分析提供了完整的分布基础。

  • 视频笔记之WordPress插件

    WordPress必备插件2025

    1 内容管理类插件

    1.1 Autopost Pro自动采集插件

    • 自动抓取网页内容进行信息采集
    • 支持定时采集和内容过滤功能

    1.2 All in One Migration一键迁移插件

    • 全站打包迁移(含文章/视频/插件)
    • 支持云端存储与本地下载
    • 应用场景:服务器更换时保持数据完整性

    2 存储优化类插件

    2.1 WP Office Media静态存储插件

    • 支持阿里云等云存储对接
    • 替代传统服务器扩容方案

    3 运营推广类插件

    3.1 Yoast SEO搜索引擎优化插件

    • 提供SEO优化建议
    • 流量来源分析(SEO/社媒)
    • 备注:目前不需要

    3.2 Google相关工具

    • Google Sitemap(站点地图生成)
    • Google Analytics(流量分析)

    4 电商与支付插件

    4.1 Woocommerce电商系统

    • 国际物流对接
    • 支持多种跨境支付方式

    建站必备插件类型

    1 性能优化类

    1.1 缓存插件

    • WP Rocket(付费)
    • WP Super Cache(免费)
    • W3 Total Cache(免费)

    2 内容编辑类

    2.1 Elementor页面编辑器

    • 可视化拖拽编辑
    • 基础版满足常规需求

    2.2 Smartideo视频嵌入插件

    • 支持B站等平台视频外链
    • 有效节省服务器带宽资源

    3 安全防护类

    3.1 反垃圾插件

    • Akismet Spam Protection

    3.2 安全防护

    • Wordfence Security(部分免费)
    • Sucuri Security(免费)

    4 运维管理类

    4.1 WP Mail SMTP发信插件

    • 保障系统邮件正常发送
    • 支持登录/注册验证场景

    4.2 WPvivid Backup备份插件

    • 自动定时备份
    • 支持增量备份

    5 辅助工具类

    5.1 Find&Replace全局替换

    • 全站内容批量替换

    5.2 Easy Table目录生成

    • 自动创建内容目录

  • 2025 Vision Board

    我在2025对未来的梦想

    做个独立勇敢时尚有阅读量的女人,小家有四个家庭成员:一只边牧、一只萨摩耶、一只黑猫和自己。

  • 微信群组消息可视化尝试

    1 项目简介

    这个项目始于一次偶然的灵光一闪——当我在微信群里翻找半年前的某条消息时,突然好奇:这些日积月累的聊天记录里,是否藏着我们未曾察觉的默契与趣味?于是用Python搭建起一座数据桥梁,将散落的对话碎片重新拼接:观察深夜时分的发言如何勾勒出群成员的生物钟图谱,统计表情包使用频率时发现某人竟是”熊猫头专业户”,甚至通过词云捕捉到我们独有的”群聊暗语”。这些发现无关商业价值,却让日常的对话突然有了考古般的乐趣。

    2 探索价值

    这个项目就像为自己打造的数字化手账,用代码的理性丈量情感的浓度,在字节与字节之间,打捞那些容易被时间冲淡的微小感动。

    2.1 发现隐藏的聊天DNA

    • 从时间维度观察:原来每周五下午是群内摸鱼高峰
    • 通过词频分析:发现大家集体养成了相似的用词习惯

    2.2 私人化的群组时光机

    • 用日历热力图标记特殊日期:生日祝福刷屏的日子像星星般密集闪烁
    • 成员活跃度排行暗藏惊喜:平日寡言的成员竟是节日祝福的”劳模”

    2.3 技术玩家的解谜游戏

    • 将正则表达式化作考古刷,从原始数据中筛出值得封存的”数字化石”
    • 用pyecharts搭建动态展厅,让每次代码迭代都成为新的发现之旅

    2.4 数据温度的实验场

    • 当代码遇上聊天记录里的”啊啊啊”,技术突然有了人情味。
    • 在分析家人群的”吃饭了吗”高频词时,数据曲线竟勾勒出牵挂的形状

    3 成果画廊

    share weal and woe together 的2024年度报告

    我和3个8年朋友的年度聊天报告。