中国管理科学 ›› 2024, Vol. 32 ›› Issue (8): 25-35.doi: 10.16381/j.cnki.issn1003-207x.2021.0084cstr: 32146.14.j.cnki.issn1003-207x.2021.0084
收稿日期:2021-01-12
修回日期:2023-01-08
出版日期:2024-08-25
发布日期:2024-08-29
通讯作者:
肖炜麟
E-mail:wlxiao@zju.edu.cn
基金资助:
Xiaojian Yu1,2,Guopeng Liu1,Jianlin Liu1,Weilin Xiao3(
)
Received:2021-01-12
Revised:2023-01-08
Online:2024-08-25
Published:2024-08-29
Contact:
Weilin Xiao
E-mail:wlxiao@zju.edu.cn
摘要:
投资决策受投资者行为偏好的影响,因此合理地捕捉投资者情绪有助于预测股票市场未来变化趋势。结合机器学习算法,分析金融市场投资者情绪,利用SVM情感分类算法,对股吧个股评论中的文本数据进行分析,从而构建出反映投资者情绪的市场情绪指标。进一步使用LSTM深度学习网络,提取市场情绪指标特征,对上证50指数进行短期预测,并对比多种传统时间序列分析模型和机器学习模型。研究结果表明,LSTM神经网络在金融时间序列预测上具有更高的准确率和精确度;加入市场情绪特征后,能进一步提升LSTM模型预测结果的准确率和精确度,说明了投资者市场情绪对于市场指数预测的有效性和适用性;此外,对LSTM模型预测结果进行误差修正,能够有效优化LSTM模型的预测结果。
中图分类号:
于孝建,刘国鹏,刘建林, 等. 基于LSTM网络和文本情感分析的股票指数预测[J]. 中国管理科学, 2024, 32(8): 25-35.
Xiaojian Yu,Guopeng Liu,Jianlin Liu, et al. Stock Index Prediction Based on LSTM Network and Text Sentiment Analysis[J]. Chinese Journal of Management Science, 2024, 32(8): 25-35.
表1
金融文本数据格式"
| 股票代码 | 发布时间 | 评论内容 |
|---|---|---|
| 600519 | 2022-06-06 | 震荡中下探可能性不大了,现在入场酒ETF512690性价比不错,估值都很有吸引力了 |
| 600031 | 2021-11-04 | 中国兴起挖山填沟造新城,在建新城面积庞大,完全不占用耕地,这是山区城建的典范。三一新能源建机助力推山造城 |
| 601318 | 2019-04-12 | 2018年度,燕塘乳业公司最坏、最差、最艰难的业绩和岁月已经过去,将一去不复返。炒股炒未来,2019年度,燕塘乳业将大腾飞、财源广进、势不可挡 |
| 601899 | 2016-07-07 | 中报业绩预测最高0.06到0.1元/股?黄金增产20%左右,金价上涨10%左右;锌增产40%左右,锌价下跌10%左右,锌产生的增利基本可以对冲铜价下跌的损失。中报业绩预测基本与去年相当,应该有所增加 |
| 600010 | 2017-05-23 | 一斤苹果6块,一股包钢股份还不足3块!转增后才两块多!慧眼者应该投点!别犹豫了 |
表2
各情感分类器分类性能"
| SVM-SGD | 一般SVM | Logistic | 贝叶斯 | KNN | 决策树 | 随机森林 | AdaBoost | |
|---|---|---|---|---|---|---|---|---|
| Accuracy | 88.235% | 88.159% | 88.083% | 87.964% | 82.092% | 79.510% | 84.751% | 77.166% |
| Precision | 88.239% | 88.054% | 87.902% | 88.214% | 80.825% | 81.337% | 86.943% | 79.713% |
| Recall | 88.172% | 88.248% | 88.294% | 87.602% | 84.090% | 76.516% | 81.759% | 79.865% |
| F1_Sccore | 88.203% | 88.148% | 88.090% | 87.904% | 82.420% | 78.848% | 84.265% | 76.520% |
表4
各模型样本外指标测算结果"
| 模型 | 涨跌预测准确率 | 皮尔森相关系数 | RMSE | MAE | Theil |
|---|---|---|---|---|---|
| 收益率特征LSTM | 0.484 | -0.0215 | 0.0211 | 0.0165 | 1.65E-07 |
| 加入基本特征LSTM | 0.554 | 0.1071 | 0.0208 | 0.0162 | 8.42E-06 |
| 加入技术特征LSTM | 0.514 | 0.1100 | 0.0210 | 0.0164 | 2.35E-05 |
| 加入混合特征LSTM | 0.526 | 0.1348 | 0.0208 | 0.0162 | 1.97E-05 |
| 线性回归 | 0.484 | -0.0658 | 0.0211 | 0.0165 | 5.47E-07 |
| Huber回归 | 0.484 | 0.0658 | 0.0211 | 0.0165 | 5.26E-10 |
| SVM回归 | 0.450 | -0.0565 | 0.0213 | 0.0167 | 8.93E-05 |
| 随机森林回归 | 0.506 | 0.0189 | 0.0282 | 0.0218 | 5.35E-03 |
| XGBoost回归 | 0.510 | 0.0239 | 0.0245 | 0.0188 | 2.63E-03 |
| LightGBM回归 | 0.490 | -0.0386 | 0.0225 | 0.0179 | 7.82E-04 |
| Logistic回归 | 0.484 | — | — | — | — |
| SVM分类器 | 0.484 | — | — | — | — |
| 决策树分类器 | 0.498 | — | — | — | — |
| 随机森林分类器 | 0.508 | — | — | — | — |
| XGBoost分类器 | 0.514 | — | — | — | — |
表5
Diebold-Mariano检验结果"
模型一 模型二 | 加入混合特征LSTM | 加入技术特征LSTM | 加入基本特征LSTM | XGBoost回归模型 | SVM回归模型 | 随机森林回归模型 | 线性回归模型 | LightGBM回归模型 | Huber回归模型 |
|---|---|---|---|---|---|---|---|---|---|
| 收益率特征LSTM | 2.6986(0.9965) | 1.8429(0.9673) | 2.3730(0.9912) | -3.3873(0.0004)*** | -1.8999(0.0287)** | -6.3101(0.0000)*** | 2.2757(0.9886) | -4.3255(0.0000)*** | 2.7277(0.9968) |
| 加入混合特征LSTM | — | -1.7251(0.0423)** | -0.5420(0.2939) | -3.6702(0.0001)*** | -3.6888(0.0001)*** | -6.6030(0.0000)*** | -2.6535(0.0040)** | -5.2861(0.0000)*** | -2.6239(0.0043)** |
| 加入技术特征LSTM | — | — | 1.0927(0.8627) | -3.5220(0.0002)*** | -2.8833(0.0020)** | -6.4358(0.0000)*** | -1.2573(0.1043) | -4.7491(0.0000)*** | -1.2374(0.1080) |
| 加入基本特征LSTM | — | — | -3.6534(0.0001)*** | -3.5010(0.0002)*** | -6.6063(0.0000)*** | -2.3205(0.0102)** | -5.1009(0.0000)*** | -2.2692(0.0116)** | |
| XGBoost回归 | — | — | — | — | 3.1911(0.9993) | -5.9527(0.0000)*** | 3.4345(0.9997) | 2.1551(0.9844) | 3.4382(0.9997) |
| SVM回归 | — | — | — | — | — | -6.1227(0.0000)*** | 2.6597(0.9961) | -3.7022(0.0001)*** | 2.5736(0.9950) |
| 随机森林回归 | — | — | — | — | — | — | 6.3572(1.0000) | 5.6786(1.0000) | 6.3628(1.0000) |
| 线性回归 | — | — | — | — | — | — | — | -4.5052(0.0000)*** | 0.2852(0.6123) |
| LightGBM回归 | — | — | — | — | — | — | — | — | 4.5355(1.0000) |
表6
收益率特征作为基础特征的样本外预测结果"
| 模型预测评价指标 | 未加入情绪指标 | 使用市场情绪原始指标 | 使用市场情绪10天平滑指标 | 使用市场情绪20天平滑指标 |
|---|---|---|---|---|
| 涨跌预测准确率 | 0.492000 | 0.522000 | 0.492000 | 0.492000 |
| 误差修正预测准确率 | 0.525050 | 0.555110 | 0.527054 | 0.476954 |
| 皮尔森相关系数 | 0.064788 | 0.061685 | 0.055351 | -0.016354 |
| 误差修正皮尔森相关系数 | 0.057859 | 0.064494 | 0.057459 | 0.055011 |
| RMSE | 0.012598 | 0.012571 | 0.012596 | 0.012704 |
| 误差修正RMSE | 0.012623 | 0.012580 | 0.012614 | 0.012721 |
| MAE | 0.009485 | 0.009460 | 0.009478 | 0.009584 |
| 误差修正MAE | 0.009500 | 0.009464 | 0.009491 | 0.009588 |
| Theil | 0.000003 | 0.000006 | 0.000002 | 0.000003 |
| 误差修正Theil | 1.935019 | 6.572913 | 2.160985 | 0.316569 |
表7
基本特征作为基础特征的样本外预测结果"
| 模型预测评价指标 | 未加入情绪指标 | 使用市场情绪原始指标 | 使用市场情绪10天平滑指标 | 使用市场情绪20天平滑指标 |
|---|---|---|---|---|
| 涨跌预测准确率 | 0.506000 | 0.512000 | 0.518000 | 0.482000 |
| 误差修正预测准确率 | 0.525050 | 0.527054 | 0.553106 | 0.507014 |
| 皮尔森相关系数 | 0.046972 | 0.079583 | 0.048100 | 0.054421 |
| 误差修正皮尔森相关系数 | 0.068690 | 0.069382 | 0.064191 | 0.068507 |
| RMSE | 0.012585 | 0.012560 | 0.012567 | 0.012599 |
| 误差修正RMSE | 0.012581 | 0.012550 | 0.012561 | 0.012602 |
| MAE | 0.009527 | 0.009478 | 0.009472 | 0.009509 |
| 误差修正MAE | 0.009539 | 0.009475 | 0.009470 | 0.009510 |
| Theil | 0.000010 | 0.000002 | 0.000003 | 0.000006 |
| 误差修正Theil | 0.518428 | 1.159622 | 14.178460 | 1.625473 |
表8
技术特征作为基础特征的样本外预测结果"
| 模型预测评价指标 | 未加入情绪指标 | 使用市场情绪原始指标 | 使用市场情绪10天平滑指标 | 使用市场情绪20天平滑指标 |
|---|---|---|---|---|
| 涨跌预测准确率 | 0.492000 | 0.524000 | 0.494000 | 0.492000 |
| 误差修正预测准确率 | 0.521042 | 0.547094 | 0.553106 | 0.470942 |
| 皮尔森相关系数 | 0.038885 | 0.075019 | 0.087067 | 0.034035 |
| 误差修正皮尔森相关系数 | 0.060856 | 0.076921 | 0.079413 | 0.061371 |
| RMSE | 0.012613 | 0.012570 | 0.012580 | 0.012723 |
| 误差修正RMSE | 0.012616 | 0.012566 | 0.012581 | 0.012751 |
| MAE | 0.009509 | 0.009462 | 0.009469 | 0.009603 |
| 误差修正MAE | 0.009509 | 0.009452 | 0.009461 | 0.009612 |
| Theil | 0.000001 | 0.000008 | 0.000007 | 0.000002 |
| 误差修正Theil | 1.266358 | 3.967419 | 1.947114 | 0.267313 |
表9
混合特征作为基础特征的样本外预测结果"
| 模型预测评价指标 | 未加入情绪指标 | 使用市场情绪原始指标 | 使用市场情绪10天平滑指标 | 使用市场情绪20天平滑指标 |
|---|---|---|---|---|
| 涨跌预测准确率 | 0.492000 | 0.506000 | 0.498000 | 0.488000 |
| 误差修正预测准确率 | 0.529058 | 0.535070 | 0.515030 | 0.523046 |
| 皮尔森相关系数 | -0.002153 | 0.024695 | 0.026056 | 0.042483 |
| 误差修正皮尔森相关系数 | 0.060492 | 0.074401 | 0.070201 | 0.065961 |
| RMSE | 0.012573 | 0.012573 | 0.012582 | 0.012599 |
| 误差修正RMSE | 0.012554 | 0.012544 | 0.012565 | 0.012598 |
| MAE | 0.009498 | 0.009523 | 0.009508 | 0.009504 |
| 误差修正MAE | 0.009485 | 0.009507 | 0.009494 | 0.009511 |
| Theil | 0.000004 | 0.000013 | 0.000010 | 0.000004 |
| 误差修正Theil | 3.215613 | 0.827300 | 5.755369 | 1.757989 |
| 1 | 张贵生,张信东.基于近邻互信息的SVM-GARCH股票价格预测模型研究[J]. 中国管理科学, 2016, 24(9):11-20. |
| Zhang G S, Zhang X D. A SVM-GARCH model for stock price forecasting based on neighborhood mutual information[J]. Chinese Journal of Management Science, 2016, 24(9):11-20. | |
| 2 | 王燕,郭元凯.改进的XGBoost模型在股票预测中的应用[J]. 计算机工程与应用, 2019,55 (20): 202-207. |
| Wang Y, Guo Y K. Application of improved XGBoost model in stock forecasting[J]. Computer Engineering and Applications, 2019, 55(20):202-207. | |
| 3 | 乔若羽.基于神经网络的股票预测模型[J].运筹与管理,2019,28(10):132-140. |
| Qiao R Y. Stock prediction model based on neural network[J]. Operations Research and Management Science, 2019, 28(10):132-140. | |
| 4 | Baek Y, Kim H Y. ModAugNet: A new forecasting framework for stock market index value with an overfitting prevention LSTM module and a prediction LSTM module[J]. Expert Systems with Applications, 2018, 113(15): 457-480. |
| 5 | 欧阳红兵,黄亢,闫洪举. 基于LSTM神经网络的金融时间序列预测[J].中国管理科学,2020,28(4):27-35. |
| Ouyang H B, Huang K, Yan H J. Prediction of financial time series based on LSTM neural network[J]. Chinese Journal of Management Science, 2020, 28(4):27-35. | |
| 6 | Lin Y, Yan Y, Xu J, et al. Forecasting stock index price using the CEEMDAN-LSTM model[J]. The North American Journal of Economics and Finance, 2021, 57: 101421. |
| 7 | 方雪清,吴春胤,俞守华,等.基于EEMD-LSTM的农产品价格短期预测模型研究[J].中国管理科学,2021,29(11):68-77. |
| Fang X Q, Wu C Y, Yu S H, et al.Research on short-term forecast model of agricultural product price based on EEMD-LSTM[J].Chinese Journal of Management Science, 2021,29(11):68-77. | |
| 8 | Frank M Z, Sanati A. How does the stock market absorb shocks?[J]. Journal of Financial Economics, 2018, 129(1):136-153. |
| 9 | Chen H, De P, Hu Y J, et al. H Wisdom of crowds: The value of stock opinions transmitted through social media[J]. Review of Financial Studies, 2014, 27(5):1367-1403. |
| 10 | Bollen J, Mao H, Zeng X. Twitter mood predicts the stock market[J]. Journal of Computational Science, 2011, 2(1):1-8. |
| 11 | 孙书娜,孙谦.投资者关注和股市表现——基于雪球关注度的研究[J]. 管理科学学报, 2018, 21(6):60-71. |
| Sun S N, Sun Q. Investor attention and market performance: Evidence based on “Xueqiu attention”[J]. Journal of Management Sciences in China, 2018, 21(6):60-71. | |
| 12 | 石善冲,朱颖楠,赵志刚,等.基于微信文本挖掘的投资者情绪与股票市场表现[J].系统工程理论与实践,2018,38(6):1404-1412. |
| Shi S C, Zhu Y N, Zhao Z G, et al. The investor sentiment mined from WeChat text and stock market performance[J]. Systems Engineering-Theory & Practice, 2018, 38(6):1404-1412. | |
| 13 | 姜富伟,孟令超,唐国豪.媒体文本情绪与股票回报预测[J].经济学(季刊),2021,21(4):1323-1344. |
| Jiang F W, Meng L C, Tang G H. Media textual sentiment and Chinese stock return predictability[J]. China Economic Quarterly, 2021, 21(4):1323-1344. | |
| 14 | Loughran T, McDonald B. When is a liability not a liability? Textual analysis, dictionaries, and 10-Ks[J]. The Journal of finance, 2011, 66(1): 35-65. |
| 15 | 尹海员,寇文娟.基于朴素贝叶斯法的投资者情绪度量及其对股票特质风险的影响[J].中国管理科学, 2024, 32(4): 38-47. |
| Yi H Y, Kou W J. Investor sentiment based on naive bayes method and its impact on stock idiosyncratic Risk[J]. Chinese Journal of Management Science, 2024, 32(4): 38-47. | |
| 16 | Kumbure M M, Lohrmann C, Luukka P, et al. Machine learning techniques and data for stock market forecasting: A literature review[J]. Expert Systems with Applications, 2022,197: 116659. |
| 17 | 杨青,王晨蔚.基于深度学习LSTM神经网络的全球股票指数预测研究[J].统计研究, 2019, 36(3):65-77. |
| Yang Q, Wang C W. A study on forecast of global stock indices based on deep LSTM neural network[J]. Statistical Research, 2019, 36(3):65-77. | |
| 18 | Diebold F, Mariano R. Comparing predictive accuracy [J]. Journal of Business and Economic Statistics 1995, 13(3):253-263. |
| 19 | Niu H, Xu K, Wang W. A hybrid stock price index forecasting model based on variational mode decomposition and LSTM network[J]. Applied Intelligence, 2020, 50: 4296-4309. |
| [1] | 陈镇喜, 李京翰, 张维. 股价同步性——信息与噪声的统一框架[J]. 中国管理科学, 2026, 34(1): 41-59. |
| [2] | 欧阳资生, 周学伟. 中国金融机构系统性风险回测与关联研究[J]. 中国管理科学, 2025, 33(6): 14-26. |
| [3] | 冯浩原, 吴颉, 于安琪, 郭琨. 杠杆交易会提高股票市场的流动性吗?——基于微观个股层面的实证分析[J]. 中国管理科学, 2025, 33(4): 1-11. |
| [4] | 王纲金, 马欣宇, 谢赤. 基于尾部风险溢出网络的全球外汇市场关联性研究[J]. 中国管理科学, 2025, 33(3): 13-23. |
| [5] | 马梦迪, 李烁, 王玉涛. 中国分析师报告有效性研究:特定信息与投资者有限关注[J]. 中国管理科学, 2025, 33(2): 38-49. |
| [6] | 李星毅, 李仲飞, 李其谦, 刘昱君, 唐文金. 基于机器学习的资产收益率预测研究综述[J]. 中国管理科学, 2025, 33(1): 311-322. |
| [7] | 陈张杭健, 任飞. 交互作用视角下股吧信息扩散与股价联动关系研究[J]. 中国管理科学, 2024, 32(12): 25-36. |
| [8] | 王春岚, 施文, 孙芳芳, 叶强. 金融市场中的信息传递机制[J]. 中国管理科学, 2024, 32(12): 15-24. |
| [9] | 尹海员,寇文娟. 基于朴素贝叶斯法的投资者情绪度量及其对股票特质风险的影响[J]. 中国管理科学, 2024, 32(4): 38-47. |
| [10] | 康文津, 章康. 中国A股市场流动性冲击与股票回报率关系研究[J]. 中国管理科学, 2023, 31(7): 68-77. |
| [11] | 尹海员, 吴兴颖. 投资者日度情绪、订单流不均衡与股票流动性[J]. 中国管理科学, 2023, 31(5): 60-70. |
| [12] | 陈淼鑫, 黄振伟. 股价波动的长记忆性与横截面股票收益——基于中国市场的实证研究[J]. 中国管理科学, 2023, 31(4): 1-10. |
| [13] | 梁墨, 李鸿翔, 张顺明. 基于ST预测的财务困境测度与股票横截面收益[J]. 中国管理科学, 2023, 31(2): 138-149. |
| [14] | 何朝林, 张棋翔, 曹旺栋. 基于异质价格信念的金融资产泡沫形成机制[J]. 中国管理科学, 2022, 30(12): 162-173. |
| [15] | 刘超, 郭亚东. 多时间尺度下行业间系统性金融风险溢出及拓扑结构分析[J]. 中国管理科学, 2022, 30(10): 46-59. |
| 阅读次数 | ||||||
|
全文 |
|
|||||
|
摘要 |
|
|||||
|
||