您的位置：网站首页 > 经济论文 > 养老保险论文 > 金融学文本大数据挖掘方法浅议

金融学文本大数据挖掘方法浅议　

中华智刊网中华智刊网日期：2020-12-20 11:48:00人气：870

摘要：通过回顾历史文献可知，传统研究主要研究文本分析常用方法，对于文本大数据挖掘实施过程关注较少。本文阐述了文本大数据挖掘的主要方法，阐述在此过程中获取、预处理、表示文档和抽取文档特征的方法，总结文本大数据挖掘信息来源，结合文本信息来源分析金融学领域文本大数据挖掘应用发展趋势，从而为金融学领域文本大数据应用提供参考。

关键词：金融学研究；文本大数据；数据挖掘；深度学习

在针对金融学领域进行实证研究时，传统研究方法通常选择结构化数据作为研究依据，常见类型如股票市场数据、财务报表等。大数据技术发展后，计算机技术逐渐成熟，在实证研究中可获取更加多样化的数据，非结构化文本大数据得到应用，例如：P2P网络借贷文本、财经媒体报道、网络搜索指数、上市公司披露文本、社交网络文本等。本文探讨了相关文本可读性、相似性、语气语调与语义特征等。

1.在金融学研究中文本大数据的挖掘方法

传统研究方法通常采用人工阅读方法对文本信息进行识别，因为文本数量庞大、信息构成复杂，人工识别效率较低，而且信息识别质量不稳定，信息识别效果受到阅读者专业素养、理解能力等多方面因素影响。计算机技术发展后逐渐被应用于分析文本大数据，利用计算机技术获取语料，对文本资料进行预处理、文本表示、抽取特征等操作。完成上述步骤后，在研究分析中使用文档特征，从而开展深入分析[1]。在分析文本大数据时，主要采取如下流程：（1）从众多信息来源中获取语料，对语料文档进行解析，明确文本定位，清洗数据，获得文本分词，标注词性，将其中停用词清除。（2）构建词云、词嵌入、词袋模型与主题模型。（3）分析文本情绪、可读性、相似性，分析语义关联性。（4）监督机器学习、词典语法处理[2]。

1.1获取语料

获取语料的方法主要分为两种：（1）人工获取；（2）利用网络工具爬取或抓取。其中人工获取语料投入成本较高，耗时较长，需要投入大量人力，因此网络抓取的可行性相对较高[3]。网络抓取方法可有效应对大量文本量，在一定程度上降低文本大数据获取难度。在网络抓取语料时，需要借助编程语言，通过直接抓取或爬取的方法获取文本大数据。采用此种语料获取模式具有两方面显著优势，不仅获取文本信息耗时较短，效率较高，而且可直接使用编程语言整理内容和规范形式，为后续文本分析工作奠定基础[4]。

1.2预处理环节

获取目标语料后，前期需要预处理文本，解析、定位文本，清洗数据，标注分词与词性，最后去除停用词。金融市场通常要求企业采用PDF格式作为信息披露文档格式，文本预处理中首先需要解析富格式文档，获取文档信息。定位文本和清洗数据环节中，利用计算机程序定位文本信息[5]。在该类研究中，MD＆A研究热度较高，使用正则表达式进行财务报告正文MD＆A定位首尾信息部分，提取上述信息。此外，文本信息中除核心内容结构外，还包括超文本标记语文、脚本语等代码信息、图片信息、广告信息等，该类信息在文本分析中属于噪声内容，需要删除和清洗相关信息，从文本中筛选有价值的核心内容[6]。文本分词处理与文本语言密切相关。英文文本使用空格划分单词，即自然存在分词形式，也可采取提取词干、还原词形等方法划分单词。中文文本中不使用空格分词，根据中文语言习惯，词语为最小语言单位，可独立使用。基于此种背景，分析文本时需要专门分词处理中文文本，例如：使用Python开源“jieba”中的中文分词处理模块处理文本，股票论坛帖子文本、年度业绩说明会以及企业财务报告均可使用该类工具处理，完成分词。在针对中文文本进行分词处理时，其中实施难度较高的部分是识别新词、歧义词与控制切分颗粒度。在处理歧义词时，需要科学选择分词方法，采用“jieba”针对文本进行分词处理时，选择分词模式是否科学直接影响分词精准度。分词处理新词时，需要用户在相应模块中自行添加新词，完善自定义词典，从而使分词软件识别新词[7]。语义信息被识别的关键依据是词性等语法特征，词语切分后标记词语词性操作被称为词性标注。词性标注操作可帮助计算机进行词语种类识别，避免词语歧义，对语法结构进行有效识别，从而促进计算机顺利进行语义分析。词性标注时，中英文操作方法不同，词性划分英文单词要求比较严谨，利用词尾变化反映词性变化。在英文词汇中，许多固定词尾可提示详细词性信息。在处理中文词语中，并无明确词性指示，词性识别依据主要为语法、语义等。简言之，英文词性识别标记注重形式，汉语词性标记以语义为主。在处理文本信息时，需要将文本信息中停用词去除，从而保证文本挖掘信息具有较高精度。所谓停用词，即自身词义表达有限，然而对于句子语法结构完整性而言非常重要的词语。停用词导致文本数据具有更繁琐维度，导致分析文本的成本较高。英文中动词、连词、冠词均为常见停用词。中文处理方法比较复杂，必须结合语言习惯分析停用词，不仅需要处理特殊符号、标点符号，还需要处理连词、俚语。除此之外，应根据具体研究内容确定停用词。在进行文本情绪研究时，特定标点符号、语气词等会影响文本表达的情感信息，对于此类信息需要予以保留，从而保证文本情感程度得到准确分析。

1.3文档表示环节

文本数据为高维度数据，具有稀疏特点，使用计算机处理文本数据时难度较高，预处理实施后，必须通过特定方式表示文档信息，通过此种处理降低后续计算机分析和人工研究难度。词云、词嵌入、词袋模型、主题模型均为核心表示方法[8]。词语技术具有可视化特点，是文本大数据技术之一。所谓本文可视化，即使用视觉符号显示复杂内容，展示文本规律。根据生物特性，人们习惯于通过视觉获取文本信息，实现文本可视化可提高信息提取效率。使用词云技术可有效描述文本中词汇使用频率，采用醒目形式显示高频词汇。词袋模型的构建基础是无严格语序要求的文字词组存在[9]，以此种假设为前提，文本相当于众多词语集合，采用向量化方法表达文本，在此过程中只计算各个词语出现频率。在词袋模型中含有两种构建方法：（1）独热表示法；（2）词频-逆文档频率法。前者的应用优势是可行性较高，操作难度较低。例如：现有如下两个文档：（1）文档一：“经济学中文本大数据使用”；（2）文档二：“金融学中文本大数据使用”。以文档一、文档二为基础建设词表，根据词序实施词袋化处理，确定词袋向量。对于出现的词，以“1”表示，未出现的词以“0”表示。但是在实际操作中，不同词语在文档中出现频率存在差异，通常文本中高频词数量较少，许多词汇使用频率较低。为体现文档中不同词语的作用，对单词词语赋予权重。TF-IDF是计算文档中特定词语权重的有效方法。含有词语i文档数描述为dfi，集合中文档总量描述为N，逆文档频率描述为idfi，第j个文件中词语i频率描述为tfi,j，第j个文档内词语数量描述为aj，第i个文档内词语i权重描述为tf-idfi,j，则公式应表示为[10]其中的前提条件是不低于1，0定义为其他情况。较之独热表示法，TF-IDF方法的特点是对每个单词赋予不同权重。在赋予其权重的基本方法时文本中该词汇出现频率越高，其重要性越高，与此同时语料库中该词汇出现频率越高，则其重要性相应降低。词嵌入处理中，主要是在低纬度连续向量空间嵌入指定高维空间，该高维空间维数包括全部词数量。在金融学领域中进行文本研究时，词嵌入技术通常采用Word2vec技术，该技术中主要使用CBOW技术与Skip-Gram神经网络模型，针对神经网络进行训练，促使其有效捕获词语中包含的上下文信息，对词语进行向量化映射，得到的向量语义信息更加丰富，信息密度更大，信息维度更低。主题模型中应用频率较高的是LDA模型，应用此种模型进行文本分析属于无监督机器学习法，通过此种方法才能够大量集中语料中提取主题信息。在应用该方法时，将生成文档的过程分为两步，首先假定各文档具有对应主题，从这些主题中抽取一个主题，然后假定文档具有对应词汇，对比之前抽取的主题，从词语中选取一个与主题对应的词语。完成上述迭代后，将其与文档中各词语拟合，从而获得各文档主题、主题中词语分布情况。LDA模型主要优势是，与手动编码相比，该模型性能更完善，可有效分类大规模文档。该模型做出的文本主题分类支持复制，准确性较高，而采用人工手段分类文本时较易受到主观性影响。此外，使用此种模型时，无需人工分类进行关键词、规则设定。LDA模型的缺点是在主题预设个数时，受到研究者主观因素影响，选择主题个数的数量受此影响显著，因此生成主题过程与归类文本主题时较易受到相关影响。

1.4抽取文本特征的方法

文本特征是指文本可读性、相似性、文本情绪以及语义关联性。其中文本可读性即读者在阅读文本时是否可较容易地理解文本信息。在编辑文本时应保证文本具有较高可读性，保证投资者通过阅读文本可有效理解文本信息，即确保文本对投资者投资行为产生积极影响。有研究者在文本分析中使用迷雾指数，该类研究认为，迷雾指数与年报可读性呈负相关。年报文本字数、电子文档规格也是影响年报可读性的重要因素。在使用迷雾指数评价文本可读性时，常见的问题是，随机排序句子中词语将导致文本难以理解，然而正常文本和经过随机排序处理的文本在分析计算时，显示相同迷雾指数。不仅如此，在进行商业文本测量时采用迷雾指数作为依据具有显著缺陷，例如，当对企业披露信息进行可读性分析时，难以有效划分年报可读性与该企业实际复杂性。基于此种背景，在针对年报文本可读性进行评价时，需要结合企业业务复杂性等影响，提出非文本因素[11]。在提取文本情绪时，通常采用有监督机器学习法与词典法进行提取操作。词典法即在文本情绪、语气语调研究中使用情绪词典辅助分析。词典确定后，该类研究即支持复制。不仅如此，建设词典时还需要融合大量金融学专业知识，从而使词典与金融文本分析需求一致。使用现有多种类词典、文献等分析媒体报道情绪，针对财务报告进行语气语调分析，以及进行电话会议等进行语气语调分析等。中文大数据分析时，通常是以英文词典、词库等为模板，构建中文情绪词典。使用该类词典辅助分析股票成交量、收益率，评估股市崩盘风险高低。在词典法应用中需要结合加权法进行文本情绪分析[12]。有监督机器学习法包括支持向量机、朴素贝叶斯等方法。采用此类方法时，重点环节在于对分类效果进行检验和评价。交叉验证法是常见检验方法。有监督机器学习法的缺点是必须人工编码设置训练集，工作量较大，并且人工编码较易受到主观因素影响，分类效果鲁棒性较差，并且研究难以复制。其优点是分类精确度较好。

2.文本大数据分析

大数据分析主要是进行财务报告等公司披露文本信息、搜索指数、社交网络文本以及财经媒体报道等进行分析。通过文本挖掘从海量文本中抽取核心特征，分析其可行性、相似性、语义特征、语气语调等，然后分析股票市场行为与文本特征等相关性。分析披露文本信息时，主要是利用文本信息对企业财务、经营、管理层长效经营信息等进行研究。在进行此类研究时，重点是分析文本可读性、相似性，以及分析语气语调。披露文本可读性较高时，有利于投资者有效获取公司信息，影响投资行为。迷雾指数理论认为，财务报告具有较高可读性的企业通常具有更长久的利润。此外，有研究者提出，财务报告可读性直接影响盈余预测离散性和可靠性。财务报告可读性较低时，公司为减轻此种消极影响，可采取自愿披露措施缓解消极影响。管理者通过控制财务报告可读性可对投资者行为做出影响[13]。在针对企业发展情况和股票市场发展趋势进行分析时，披露文本语气语调具有重要参考价值。相关研究认为，MD＆A语气内含有增量信息，该类信息为企业长效经营能力进行预测，同时可根据该类信息分析企业破产风险。管理者情绪状态可表现在电话会议语气中，此种语气分散情况与经营决策具有相关性，同时语气对投资者感知、分析师评价产生影响。分析财经媒体报道时，主要关注媒体情绪，分析媒体报道着眼点，针对经济政策进行分析，了解其不确定性，此外还需要研究媒体报道偏向信息、假新闻等。进行社交网络文本研究时，主要是分析策略性信息披露情况与文本情绪。搜索指数研究方面，主要通过搜索指数了解投资者关注度。

3结语

综上所述，在金融学领域中针对文本进行大数据挖掘时，主要分析流程是获取语料、预处理文本、文档表示以及抽取文档特征。在分析文本大数据时，可通过分析上市公司披露文本信息、研究财经报道、分析社交网络文本和搜索指数等，评价文本的可读性、相似性，分析语义语气，了解文本情绪，获取有价值的文本信息。

胡丹郑州升达经贸管理学院

成本控制论文中小企业论文企业发展论文市场营销论文经济学论文国际贸易论文低碳经济论文农业经济论文循环经济论文中国经济论文世界经济论文建筑经济论文市场经济论文海洋经济论文煤炭经济论文工程经济论文经济师论文农村经济论文经济发展论文对外贸易经济论文经济增长论文经贸发展论文贸易合作论文实体经济论文虚拟经济论文经济纠纷论文国民经济论文绿色经济论文科学发展论文林业经济论文

关键字：课外阅读论文篇

上一篇：思政元素货币金融学教学探索
下一篇：行为金融学下房地产价格波动分析

栏目分类

期刊知识