本文介绍了一种改进的机器学习建模方法,用于预测腹泻病例数量。通过引入自回归特征(滞后1周和2周的疾病计数)、HSA固定效应、更严格的特征筛选(选取前10个气候特征)、更好的超参数调优以及采用更简单且正则化的模型,提升了预测性能。实验比较了多种模型(如岭回归、Lasso、随机森林、梯度提升和XGBoost)在不同特征组合下的表现,最终基于验证集R^2;选出最优模型,并展示了相对于基线模型的显著提升。 适合人群:具备一定机器学习基础的数据科学家或研究人员,熟悉Python建模流程,有时间序列预测经验者更佳;适用于公共卫生、流行病学与环境健康领域的数据分析人员。 使用场景及目标:①应用于传染病发病率的时间序列预测任务,特别是结合气候因素与历史发病数据进行建模;②指导如何通过特征工程(如滞后特征、特征选择)和模型优化提高预测精度;③为政策制定提供短期疾病风险预警支持。 阅读建议:建议读者结合代码实践,重点关注自回归特征构建、特征选择策略与模型对比分析过程,注意数据预处理细节(如季节变量编码、标准化),并可进一步探索更多特征或模型优化方向。