数据处理

数据处理在金融领域中占据核心地位，它是将原始数据转化为有价值信息的关键环节。在金融行业，数据不仅是数字的简单堆砌，更是一种洞察力和决策依据的来源。有效的数据处理能够揭示市场趋势、评估投资风险、优化资产配置、提升交易策略，并加强风险管理。在大数据时代，金融机构不仅需要收集和存储海量的数据，更需要通过高级算法和强大的计算能力对这些数据进行清洗、整合、分析和解释。数据处理技术的进步，如人工智能和机器学习，使得金融企业能够更准确地预测未来市场动向，为客户提供个性化服务，以及自动化和优化内部运营。因此，对于金融行业来说，掌握先进的数据处理技术并将其应用于实践，是保持竞争优势和实现持续增长的关键。

介绍

本地上传csv文件并读取
和其他数据联合使用

实现

dai处理文件

生成一个csv文件作为测试，包括日期、股票代码、当日涨跌幅。
使用dai直接操作csv，如果是本地csv文件则直接拖拽至资源管理器。

输入特征联合使用

将操作后的csv输入：mafactor.csv中的factor_001因子。
表达式特征中输入cn_stock_prefactors中的股息率排名作为sc

更新时间：2024-05-15 03:34

导语

大家在使用平台过程中常常会遇到一些问题，有些问题出现频率很高，这里，小编为大家进行了整理， 包含“数据”、“策略开发”、“模拟实盘”、“订阅”等多类问题 ，大家在遇到问题后可以先尝试在本贴中寻找答案，希望可以帮助大家第一时间解决心中的疑惑。

数据问题

BigQuant平台提供哪些数据?

答：平台支持包括沪深A股、期货、场内基金、期权数据、宏观经济数据、部分港股、美股等丰富的数据，详细内容均在 “数据” 板块中列出，大家可以直接前往文档板块查

更新时间：2024-05-15 02:31

导语

不熟悉BigQuant平台的回测机制，可能使刚接触BigQuant平台的小伙伴有些困惑，不知该如何编写策略。当使用某一回测平台时，如果不能对其回测处理机制了解清楚，我们很可能出现偷价漏价、未来函数等问题，这些问题对策略的影响是致命的。即使不出现这样的问题，很多时候，用户可能写的策略并没有达到预期的目的，因此了解回测机制非常重要。

事件驱动机制

在策略回测中应用最为广泛的就是 事件驱动机制。先看定义：某个新的事件被推送到程序中时，程序立即调用和这个事件相对应的处理函数进行相关的操作。举个“栗子”让大家更好理解。

比如开发一个股指策略，交易程序对股指TICK数据进

更新时间：2024-05-15 02:10

类别	显示名称	名称	类型	描述	必填/默认
输入端	输入数据	input_data	通用	输入数据	*必填
输入参数	指数证券代码	instruments	str	指数证券代码，多个代码用英文逗号分隔	000905.HIX
输出端	数据	data	通用	数据

导语

完成了数据处理，接下来就可利用平台集成的各算法进行模型训练和模型预测啦。本文将详细介绍“模型训练”、“模型预测”两大模块操作、原理。

模型训练和模型预测是AI策略区别于传统量化策略的核心，我们通过模型训练模块利用训练集因子和标注数据构建一个模型，并通过模型预测模型将预测集的因子数据输入模型进行预测。 \n {w:100}{w:100}{w:100}{w:100}

在模块列表的 机器学习 、 **深度学习

更新时间：2024-05-15 02:10

换手率的市值中性化怎么sql操作啊

neutralize(sum(turn_0,90), total_market_cap) as hsl, 报错。

更新时间：2024-05-02 09:55

介绍

BigQuant是专业但易用的AI量化投资平台。如下知识可以帮助我们更好的开始策略开发。

如果没有特别说明，请在 AIStuido 3.0使用。

编程

BigQuant平台同时支持可视化编程开发和代码编程开发，并且两种模式可以无缝切换和融合

可视化：无需学习复杂的编程，支持低代码/零代码开发策略。BigQuant提供策略了海量模块、模版、学院、策略社区、知识库

更新时间：2024-04-29 11:14

最近读到中金量化多因子系列中提到一些高频因子，比如50分钟K线最高与最低价相关系数平方的均值、成交量最高50根K线成交量收益率动量等等，那么根据分钟行情数据构建出来的话，应该是计算出多行的数据，那么对于我们量化爱好者来说，做因子测试的话是利用这些日内多行的数据吗？还是需要做降频处理到每日只取一行数据？之前听万老师讲课听过一般会对高频因子做降频处理，这样处理数据算力负担不会太大。所以有些疑惑，一、想确认下刚才所讲的这两个高频因子是需要取多行数据还是可以降频处理？二、如果可以做降频处理，那么采用什么方式处理比较好？比如取它们均值还是什么？

更新时间：2024-03-26 12:56

求助：格式化时间会报错

    with t1 as (
    SELECT
        date,
        date_format(date,"%Y-%m-%d") as new_date,
        instrument,
        close,
    FROM
        cn_stock_bar1m
    WHERE
        1 = 1
        AND date >= '2024-03-01'
        AND date <= '2024-03-02'
    )   
    SELECT * FROM t

更新时间：2024-03-25 09:10

模拟交易中使用到CSV文件怎么处理呢

模拟交易中使用到CSV文件怎么处理呢

更新时间：2024-03-19 09:30

71st Meetup

选取了IC较高的因子后，如何合成一个策略，一般步骤是什么

在因子开发研究完之后，选取了|IC|较高的几个因子后，一般如何合成一个策略，即在工程方法论上的一般步骤是什么？比如应该如何选择哪些模型进行合成（树模型or深度学习模型，是否有规律），分别是否都必须在训练前进行特征工程的处理再训练（去极值、中性化去除相关性），比如是否需要探查各个因子的相关性（如果多个因子存在一定的相关性，一般相关度大于多少需要进行处理，是否需要逐对特征两两取残差）

“水中行舟”研报如何用dai的SQL方式来实现？

方正的==“水中行舟”研报==中提到“取市场上所有股票在当日“不分化时刻”的成交额序列

更新时间：2024-03-15 03:36

因子分析如果要分析预计算因子该如何调用

/home/aiuser/work/因子分析.ipynb

https://bigquant.com/wiki/doc/5zug5a2q5yig5p6q-Tzo0w3iZgs

“因子分析”的使用文档是如下的调用，实际操作可行

m2 = M.input_features.v1(
    features='f

更新时间：2024-03-06 07:11

NaTType does not support strftime

默认可视化线性模板里，sql就加了几个条件，其他没改，就回测不了，提示日期为空或属性不存在，能帮忙看下吗？\n策略：https://bigquant.com/codeshare/6316cf34-e449-4b15-87b1-1754a9b5a2e5
```
回测时出现错误
ValueError: NaTType does not support strftime
添加“缺失数据模块”后，出现这个错误
AttributeError: 'DataSource' object has no attribute 'iter_df'
怎么解决？
```

更新时间：2024-02-19 05:57

自定义数据如何使用

join_area_data = M.sql_join_2.v1(
    sql1=ori_data.data,  # 标签数据
    sql2=area_ds,  # 地区数据
    sql_join="""WITH
sql1 AS (
    {sql1}
),
sql2 AS (
    {sql2}
)

SELECT * FROM sql1 JOIN sql2 USING (instrument)
"""
)

area_ds是自定义数据集，类型为dai.DataSource，在使用Join的时候报错：**ArrowInva

更新时间：2024-02-15 07:44

老代码运行问题

[2024-02-05 12:37:18.977789] INFO StockRanker训练: 31d53250 准备训练: 686765 行数, test: 0 rows
[2024-02-05 12:37:18.997786] INFO StockRanker训练: AI模型训练，将在686765*18=1236.18万数据上对模型训练进行3轮迭代训练。预计将需要2～3分钟。请耐心等待。
[2024-02-05 12:37:19.348217] ERROR: moduleinvoker:2279671359.py:392:<module> module name

更新时间：2024-02-05 04:59

numpy和pandas的区别关系及作用

Numpy（Numerical Python）和Pandas两个库是Python编程语言中两个极其重要的库，尤其在数据科学、金融分析和量化投资领域。尽管它们在处理数据方面有所重叠，但各自设计的初衷和优势领域有所不同。

Numpy简介

核心功能：Numpy是一个开源的Python库，用于科学计算。它提供了一个高性能的多维数组对象和这些数组的操作工具。
设计初衷：为数学运算、尤

更新时间：2024-02-01 08:48

如何调优，数据小于20万行，择时，StockRanker训练

更新时间：2024-01-23 03:53

请教个问题

如何构建跨周期数据项，并利用这些数据项构建因子？

平时处理的都是日线数据，但如果需要用日线和上月的月线数据进行一些计算形成一些因子，我应该如何构建？

更新时间：2024-01-12 02:34

构建行业中性化哑变量矩阵时，1月数据，跑10分钟都跑不出来原因是？

#提取一级行业，可以获得5000多只股票的行业列表。

sql ='''
select *
from cn_stock_industry_component
where date between '2023-0-01' and '2023-01-07'
'''
import dai
ww = dai.query(sql).df()
www_uni = ww.drop_duplicates(subset='instrument')

www_uni

#获取cn_stock_bar1d表数据

sql = '''
select *

更新时间：2024-01-12 02:31

这代码中的DELAY 的函数是什么意思

OPEN/DELAY(CLOSE,1)-1 这代码中的DELAY 的函数是什么意思

更新时间：2023-12-15 02:22

请问DELAY 这个函数是什么意思

OPEN/DELAY(CLOSE,1)-1   这个函数中DELAY 是什么意思

更新时间：2023-12-14 07:32

导语

本文继续讲解Pandas库在数据分析和处理上的一些应用。

https://bigquant.com/experimentshare/07c4ac37ae7946909653473c22b73bd3

本文由BigQuant宽客学院推出，版权归BigQuant所有，转载请注明出处。

更新时间：2023-11-26 16:58

分页第1页第2页第3页第4页