光伏电站的PR值(Performance Ratio,性能比)是衡量电站实际发电量与理论最大发电量之比的关键指标。性能基准分析是通过对PR值的深入考察,来评估光伏电站的运行效率和性能。 本报告旨在通过对选定的Station,2021年、2022年、2023年三年的日度性能比(PR值)数据进行深入分析,以评估电站的整体运行状况。 此外,本分析也将识别电站的季节性发电趋势,为公司制定年度运维计划和未来的投资决策提供数据支持和决策基础。通过对这些关键数据的综合评估,我们旨在揭示电站运营中的优势与潜在的改进区域,确保电站能够在不同条件下实现最优运行。
性能基准分析是通过对PR值的深入考察,来评估光伏电站的运行效率和性能。以下是进行光伏电站PR值性能基准分析的常见目的:
PR值作为评估光伏电站发电效率的关键指标,不仅反映了电站设备的运行状况和效率,还能显示出电站对环境变化的适应性。通过长期的PR值分析,我们可以监测到设备性能退化的趋势、操作失误、以及可能的维护不足等问题,从而及时调整运维策略,预防故障的发生。此外,PR值分析还能帮助我们理解季节性变化对发电效率的影响,这对于在不同季节调整运维资源和优化发电策略至关重要。因此,这种分析对于提升电站的经济效益和环境效益都具有重大意义。
本报告主要面向公司的高层管理者、技术团队以及维护部门。对于管理层,本报告将提供关于电站长期运行效率和投资回报的关键见解,帮助他们做出更加明智的战略决策。对于技术团队和维护部门,分析结果将指导他们在技术维护和日常运营中更有效地识别问题和优化操作。通过这些跨部门的合作,我们能够确保电站资产的最大化利用和持续的性能改进。
辐照数据采集问题
由于以下五点原因,辐照数据收集不准确会造成PR值计算不准确:
PR值数据采集问题
辐照数据参与PR值的计算,辐照数据收集问题确实会影响PR值的准确性,进而影响不同电站之间进行性能基准分析的有效性。 因此,目前阶段进行同一站点的不同时期对比是一个合理的方法。
数据质量分析
目的在于确保用于分析的数据是可靠且可用的,这样得出的结论才会准确反映实际情况。具体来说包括:
数据异常分析
数据异常分析旨在识别和处理与数据集整体趋势不一致的异常数据点,这些点可能是由于错误或者某些特殊情况导致的,以确保数据的准确性和可靠性。
描述性分析
描述性分析(Descriptive Analysis)是数据分析的一种类型,它使用汇总统计数据来描述数据集的基本特征。这些特征可能包括数据的中心趋势(如均值、中位数、众数)、分布形态(如标准差、方差)、以及数据的范围和其他关键指标。 描述性分析的主要目的是总结数据,并以一种简洁的方式呈现信息,使得非专业人士也能理解数据的基本情况。通常包括两个主要部分:
相关性分析
相关性分析用于探讨各变量之间的关系及其对PR值的影响。通过相关性分析,可以深入理解各变量间的关系及其对PR值的综合影响,从而为优化和决策提供重要依据。
因果分析 因果分析是一种统计方法,旨在确定两个或多个变量之间的因果关系。与描述性分析不同,因果分析不仅仅描述变量间的关系,而是试图解释一个变量(称为原因变量或自变量)如何影响另一个变量(称为结果变量或因变量)。
分类分析 是一种监督学习技术,其目标是根据输入变量(特征)来预测离散的输出变量(类别)。简单来说,分类就是将数据对象归入预定义的类别中。分类算法通常需要一个带有标签的数据集来进行训练,即每个样本都已经被标记了正确的类别。常见的分类算法包括逻辑回归、决策树、支持向量机(SVM)、随机森林和神经网络等。
时间序列分析 做这个分析的主要目的是为了理解光伏电站发电效率随时间和季节的变化规律,以便更好地管理和优化电站的运营。
合计3年,日PR值原始数据1095条。汇总统计数据如下:
原始数据中包含三种类型的数据:数值、字符串和日期,根据以下处理原则对原始数据进行检查:
均值
;空串
;缺失值检查
原始数据中不存在缺失值,无需处理。
PR值为0的情况
原始数据中PR值为0的有3条。
日期 | 天气 | 光伏电站PR值 | 限电情况描述 |
---|---|---|---|
2022-10-28 | 多云转小雨 | 0 | 无 |
2022-10-27 | 晴 | 0 | 无 |
2023-12-14 | 大雪 | 0 | 无 |
考虑进行异常值分析以做进一步的分析和排查。
高性能PR值的情况
低性PR值的情况
数据来源确定,不存在不同特征之间量纲不一致或数量级不同的情况(例如温度统一以℃为单位,最大负荷以万kW为单位,而日发电量以万kw.h为单位等等)。
3年,日PR值原始数据1095条,数据完全一致,不存在同一日期有多条记录的情况。
数据解读
整体表现:
从PR均值来看,电站的整体表现呈现出逐年下降的趋势。2021年的PR均值为0.795,2022年略微下降至0.788,而2023年则显著下降至0.689。这表明光伏电站的发电效率在逐渐降低,可能与设备老化、维护不足或环境因素有关。此外,方差和标准差也显示出一定的波动性,但变化不大,这意味着虽然平均性能在下降,但系统的稳定性相对保持一致。
极值分析:
2022年的PR最大值达到了1.933,这是一个异常高的数值,可能是由于辐照数据采集问题或其他外部因素导致的数据异常。而最小值方面,2022年和2023年的PR最小值都为0,这可能表明某些天存在严重故障或停机情况。相比之下,2021年的最大值(1.272)和最小值(0.331)更为合理,没有出现极端异常情况。
波动性:
各年份的PR标准差基本保持在0.134到0.141之间,这表明各年度之间的波动性相对稳定。然而,由于PR均值在逐年下降,即使波动幅度不大,也会对整体发电效率产生负面影响。较大的波动性通常意味着系统运行的不稳定性增加,需要更多运维资源来确保系统正常运行。
高性能天数比例:
高性能天数比例从2021年的19.2%(70/365)逐步下降到2022年的11%(40/365),再到2023年的仅3.3%(12/365)。这表明光伏系统的高效运行天数正在急剧减少,对电站整体经济效益有明显负面影响。这种趋势可能反映了设备老化、维护不足或者外部环境条件恶化等问题。
总体分析:
综合来看,该光伏电站在过去三年中的发电效率持续下滑,高性能天数比例显著减少,同时出现了一些极端异常数据。虽然每年的日照时数和辐照量变化不大,但限电损失有所增加,这可能进一步加剧了发电效率的下降。因此,从长期角度看,该光伏电站需要进行深入检查,以确定是否存在设备老化、维护不足或其他潜在问题。
特定年份的详细观察:
重点观察2023年,该年度不仅PR均值最低(0.689),而且低性能PR占比高达52.6%,远超前两年。同时,高性能天数比例仅为3%,几乎可以忽略不计。此外,总限电损失也显著增加至3786
MWh,相比前两年有明显上升。这些迹象表明该年度可能存在较为严重的问题,如设备故障频繁、限电影响加剧等,因此需要特别关注这一年度并采取针对性的措施进行改善。
结论
该光伏电站自2021年以来,其发电效率呈现出明显下滑趋势。尤其是到2023年,不仅高性能天数急剧减少,而且低性能占比大幅上升。此外,还出现了一些极端异常数据,如过高或过低的PR值,这提示我们需要进一步调查这些异常背后的原因。总限电影响也逐渐增多,对整体发电量产生了负面影响。因此,有必要加强设备维护,并优化运维策略以提高未来几年的发电效率。
进一步分析建议
异常值分析:
通过箱线图识别并剔除极端异常点,例如2022年出现的最大PR值(1.933)以及多个年份中最小为零的数据点。这些数据很可能是由传感器故障、数据录入错误或其他外部因素引起,需要进一步调查其来源并排除干扰。
描述性分析:
在剔除异常数据后,可以重新计算各项统计指标,包括均值、中位数、方差等,以获得更准确的数据描述。这将帮助我们更好地理解实际情况,并制定更加有效的运维策略。
本部分旨在识别和处理与数据集整体趋势不一致的异常数据点,这些点可能是由于错误或者某些特殊情况导致的,以确保数据的准确性和可靠性。
确保数据集是干净的、无缺失和无错误的。在PR值数据质量分析中,已经做了完整性、一致性等检查。
在本次分析中,我们采用了两种主要的异常值检测方法:箱线图(IQR)和孤立森林(Isolation Forest)。这些方法有助于识别数据集中潜在的异常点。
箱线图(IQR)
箱线图是一种基于四分位距(Interquartile Range, IQR)的异常值检测方法,适用于单变量数据和对称分布数据。
通过绘制1095条原始数据的箱线图,发现了29条异常数据。这些异常数据在箱线图中位于上下“胡须”之外,表明它们显著偏离数据的集中趋势。
孤立森林(Isolation Forest)
孤立森林是一种适用于多维数据和各种分布数据的异常检测方法。通过对1095条原始数据建立孤立森林模型,我们检测到了55条异常数据。孤立森林通过创建随机决策树来隔离数据点,并计算每个数据点的异常得分,从而识别出异常数据。
异常值的初步识别与统计
通过上述两种方法,识别了数据集中的异常点。由于孤立森林能更好地处理多维数据,并且异常检测结果相比箱线图更为丰富和全面,最终选择孤立森林的检测结果进行详细分析。
在对孤立森林检测的55条异常数据进行深入分析后,根据天气、限电情况描述、限电损失电量、日辐照量、日照时等因素,将异常数据分为以下几类:
根据上述异常原因分析,对异常数据进行了相应的处理。处理策略包括删除、替换和标记。
经过异常数据处理,最终有效数据为1075条。处理后的数据集更加干净和有序,能够更准确地反映光伏电站的运行状况和发电效率:
在进行异常值检测和处理的过程中,我们识别并处理了由气候环境、外部人为因素、内部设备故障以及数据录入错误等多种原因导致的异常数据。我们发现:
1095条原始数据,经过异常处理后,有效数据1075条,其中标记异常的数据35条。
针对上述异常原因,我们提出以下改进建议,以优化光伏电站的运行和数据质量:
在未来的工作中,我们将进一步优化光伏电站的数据分析和异常检测方法,以提高电站的运行效率和数据质量。以下是我们计划开展的工作:
通过上述措施,我们将进一步提高光伏电站的数据质量和管理水平,为光伏发电的优化和提升提供有力支持,不断推动光伏产业的发展和进步。特别是通过引入基于线性回归模型的PR值预测,我们能够更加准确地预见和应对光伏电站的性能变化,确保其长期稳定高效运行。
本部分分析旨在评估各项指标的整体情况和分布,特别关注PR值的时间序列变化趋势,以便为后续分析提供基础数据支持。
通过之前在PR值数据质量分析和异常值分析中,已经做了对数据集做了完整性、一致性等检查,并剔除及标记了异常值。目前有效数据1075条。
计算并展示各项指标的基本统计量,如均值、标准差、中位数等。
日发电量(万kw.h) | 日上网电量(万kw.h) | 最大负荷(万kW) | 利用小时(h) | 限电损失电量(万kw.h) | 日辐照量(MJ/m2) | 日照时 | 峰值利用小时数(h) | 光伏电站PR值 | 日购网电量(万kw.h) | |
---|---|---|---|---|---|---|---|---|---|---|
计数 | 1075 | 1075 | 1075 | 1075 | 1075 | 1075 | 1075 | 1075 | 1075 | 1075 |
均值 | 79.544 | 78.214 | 13.158 | 4.124 | 9.023 | 19.357 | 11.247 | 1.289 | 0.757 | 1.066 |
标准差 | 29.745 | 29.248 | 3.365 | 5.082 | 10.224 | 7.274 | 1.879 | 0.571 | 0.142 | 3.335 |
最小值 | 0 | 0 | 0 | 0 | 0 | 0.2 | 1 | 0 | 0 | 0 |
25%分位数 | 60.857 | 59.84 | 11.869 | 0 | 2.794 | 15.161 | 9 | 0.88 | 0.675 | 0 |
中位数 | 84.126 | 82.72 | 14.2 | 0 | 6.328 | 21.045 | 11 | 1.32 | 0.773 | 0 |
75%分位数 | 103.815 | 102.08 | 15.316 | 9 | 11.234 | 24.255 | 13 | 1.76 | 0.85 | 1.76 |
最大值 | 136.034 | 133.76 | 18.594 | 13 | 71.268 | 38.486 | 25.952 | 5.548 | 1.933 | 51.48 |
PR | |
---|---|
计数 | 1075 |
均值 | 0.757 |
标准差 | 0.142 |
最小值 | 0 |
25%分位数 | 0.675 |
中位数 | 0.773 |
75%分位数 | 0.85 |
最大值 | 1.933 |
PR值分布
其他关键指标分布
年 | PR均值 | PR最大值 | PR最小值 | PR标准差 | PR方差 | PR计数 | 平均日发电量 | 平均日上网电量 | 总发电量 | 总上网电量 | 总限电损失 |
---|---|---|---|---|---|---|---|---|---|---|---|
2021 | 0.793 | 1.272 | 0.331 | 0.133 | 0.018 | 349 | 82.516 | 81.137 | 28798 | 28316.6 | 2754.28 |
2022 | 0.791 | 1.933 | 0 | 0.134 | 0.018 | 362 | 79.468 | 78.14 | 28767.6 | 28286.7 | 3159.04 |
2023 | 0.688 | 1.169 | 0 | 0.132 | 0.017 | 364 | 76.77 | 75.487 | 27944.2 | 27477.1 | 3786.48 |
PR值趋势
其他关键指标趋势
主要发现
PR值整体表现:从2021年到2023年,PR值的均值呈现下降趋势,分别为0.793、0.791和0.688。特别是2023年的PR均值显著低于前两年,表明光伏电站的发电效率有所下降。
高性能与低性能PR值分布:高性能PR值(通常定义为较高的PR值)在2021年占比17.8%,2022年降至11%,而在2023年仅占3%。相反,低性能PR值的数量逐渐增加,从2021年的24.6%上升到2023年的52.7%。这表明光伏电站的运行效率在逐步恶化。
温度与辐照量变化:平均温度和日辐照量在三年间波动不大,但可以看到2023年的平均日辐照量略有上升(20.634 MJ/m²),而平均温度也保持稳定。这意味着环境条件并没有显著恶化,但设备或管理问题可能导致了PR值下降。
限电损失影响:限电损失逐渐增加,从2021年的2754万kWh上升到2023年的3786万kWh,这可能对整体发电效率产生了负面影响。
发电量与上网电量变化:尽管总发电量和总上网电量在三年间变化不大,但购网电量逐渐增加,尤其是从2021年的318万kWh增长到2023年的436万kWh,这可能表明自发自用比例降低或系统故障率提高。
异常数据情况:异常数据数量相对较少,每年都控制在合理范围内(11, 5, 19条),但需要进一步分析这些异常数据是否对整体结论有重大影响。
进一步分析建议
主要发现
PR值整体表现:从2021年到2023年,PR值的均值呈现下降趋势,分别为0.793、0.791和0.688。特别是2023年的PR均值显著低于前两年,表明光伏电站的发电效率有所下降。
高性能与低性能PR值分布:高性能PR值(通常定义为较高的PR值)在2021年占比17.8%,2022年降至11%,而在2023年仅占3%。相反,低性能PR值的数量逐渐增加,从2021年的24.6%上升到2023年的52.7%。这表明光伏电站的运行效率在逐步恶化。
温度与辐照量变化:平均温度和日辐照量在三年间波动不大,但可以看到2023年的平均日辐照量略有上升(20.634 MJ/m²),而平均温度也保持稳定。这意味着环境条件并没有显著恶化,但设备或管理问题可能导致了PR值下降。
限电损失影响:限电损失逐渐增加,从2021年的2754万kWh上升到2023年的3786万kWh,这可能对整体发电效率产生了负面影响。
发电量与上网电量变化:尽管总发电量和总上网电量在三年间变化不大,但购网电量逐渐增加,尤其是从2021年的318万kWh增长到2023年的436万kWh,这可能表明自发自用比例降低或系统故障率提高。
异常数据情况:异常数据数量相对较少,每年都控制在合理范围内(11, 5, 19条),但需要进一步分析这些异常数据是否对整体结论有重大影响。
进一步分析建议
本部分分析旨在探讨电站的各种因素与PR值之间的关系及其对PR值的影响。
尽管目前的PR值是依据发电量、装机容量、辐照数据三个参数进行计算的,平均日辐照量和平均日发电量与PR值直接相关,但在相关性分析中仍然需要考察这些变量。 这不仅是为了验证数据的一致性和准确性,还可以帮助我们理解环境和运营因素对PR值的具体影响,从而为后续回归分析和优化电站运营提供重要参考。
Pearson相关系数
年度、季度、月度PR值与其他变量Pearson相关系数如下:
平均温度 | 平均日辐照量 | 平均日照时数 | 限电损失 | 平均日发电量 | 平均利用小时数 | 类型 |
---|---|---|---|---|---|---|
-0.08 | -0.95 | -0.09 | -0.95 | 0.86 | 0.63 | 年度 |
0.24 | -0.43 | 0.26 | -0.42 | 0.64 | 0.48 | 季度 |
0.26 | -0.37 | 0.25 | -0.36 | 0.52 | 0.41 | 月度 |
Spearman相关系数
年度、季度、月度PR值与其他变量Spearman相关系数如下:
平均温度 | 平均日辐照量 | 平均日照时数 | 限电损失 | 平均日发电量 | 平均利用小时数 | 类型 |
---|---|---|---|---|---|---|
0.5 | -0.5 | -0.5 | -1 | 1 | 1 | 年度 |
0.14 | -0.29 | 0.25 | -0.27 | 0.62 | 0.5 | 季度 |
0.32 | -0.1 | 0.33 | -0.32 | 0.56 | 0.48 | 月度 |
年度数据分析
在年度数据中,“平均日发电量(mean_daily_generated_electrical)”与PR值的皮尔逊相关系数为0.86,Spearman相关系数为1,表明它是一个高度正相关的因素。也就是说,当发电量增加时,PR值也会显著提升。
“平均限电损失(mean_curtailment_loss)”与PR值的皮尔逊相关系数为-0.95,Spearman相关系数为-1,这意味着限电损失对PR值有极强的负面影响。减少限电损失可能会显著提高PR值。
此外,“平均日辐照量(mean_irradiation)”与PR值的皮尔逊相关系数为-0.95,Spearman相关系数为-0.5,也表现出较强的负相关性。这表明虽然辐照量增加通常意味着更多的发电机会,但过高的辐照量可能导致设备效率下降,从而降低PR值。
其他变量如”平均温度(mean_temperature)“和”平均利用小时数(mean_useHours)“,虽然在Spearman分析中显示了一定程度的正向关系,但其皮尔逊相关性较低,因此对年度数据中的影响相对有限。
季度数据分析
在季度数据中,“平均日发电量(mean_daily_generated_electrical)”依然是一个重要因素,其皮尔逊相关系数为0.64,Spearman相关系数为0.62。这表明即使在季度层面上,它仍然是影响PR值的重要正向因素。
其次是“平均限电损失(mean_curtailment_loss)”,其皮尔逊和Spearman相关系数分别为-0.42和-0.27。尽管相比年度数据,其负面影响有所减弱,但仍然需要关注,因为它依旧对PR值产生了显著的不利影响。
“平均日辐照量(mean_irradiation)”与PR值呈现出一定程度的负相关性,其皮尔逊和Spearman相关系数分别为-0.43和-0.29。这说明在季度尺度上,高辐照量同样可能导致设备效率下降,从而降低PR值。
值得注意的是,“平均温度(mean_temperature)”在季度层面的正向关联增强了,其皮尔逊和Spearman相关性分别达到了0.24和0.14,这表明温度变化对季节性运营有一定影响,但尚不足以成为主要驱动因素。
月度数据分析
月度数据中,“平均日发电量(mean_daily_generated_electrical)”继续保持着较高的正向关联,其皮尔逊和Spearman相关性分别为0.52和0.56。尽管相比年度或季度略微减弱,但它仍然是一个关键变量,对月度层面的PR值有重要贡献。
“平均限电损失(mean_curtailment_loss)”同样表现出明显的负面作用,其皮尔逊和Spearman关联分别为-0.36和-0.32。在月度尺度上,这一变量依旧具有显著影响,需要重点管理以减少其对整体效率的不利作用。
“平均日辐照量(mean_irradiation)”则表现出更弱的负向关系,其皮尔逊和Spearman关联分别仅有-0.37和-0.1。这表明,在短期(月度)的时间尺度上,高辐照并不会像年度或季度那样显著拉低设备效率,但仍需谨慎应对极端天气条件下可能出现的问题。
另外,“平均温度(mean_temperature)”在月度层面的正向关联进一步增强了,其皮尔逊关联达到 0.26,而 Spearman 关联则达到 0.32。这表明温度波动对于短期内光伏系统运行状态有更大的潜在影响,应予以适当关注。
综合评估
通过比较不同时间精度的数据,可以得出以下结论:
平均日发电量(mean_daily_generated_electrical) 在所有时间尺度上都与 PR 值呈现高度正向关系,是最稳定且最具代表性的关键因素。
平均限电损失(mean_curtailment_loss) 在所有时间尺度上均表现出强烈负面作用,无论是长期还是短期,都需要将其作为优化目标。
平均日辐照量(mean_irradiation) 虽然总体呈现负向关系,但随着时间尺度缩短,该变量的重要性有所减弱。在长周期下,它可能由于设备过热等原因导致 PR 值下降,而短周期内这种效应不太明显。
环境温度(mean_temperature) 对 PR 值存在一定程度上的正向作用,并且随着时间周期缩短,这种作用逐渐增强。因此,在季节或月度运营管理中,应更加重视环境温度变化带来的潜在效益或风险。
其他变量如 平均利用小时数(mean_useHours) 和 平均日照时长(mean_illumination_hours) 的影响相对较小,不构成主要驱动因素。
建议
基于上述综合评估,可以得出以下分析结论和建议:
平均日发电量(mean_daily_generated_electrical):这是与 PR 值高度正向关联的重要因素,应作为核心指标进行持续监控。提高设备维护水平、优化调配策略,以确保最大化发电能力,将直接提升 PR 值。
平均限电损失(mean_curtailment_loss):该变量始终与 PR 值呈现高度负面关系,因此减少限电影响至关重要。建议加强与当地供网机构协调,提高并网能力,同时考虑储能技术,以减少因外部限制造成的不必要损耗。
平均日辂照量(mean_irradiation):尽管该指标总体呈现负向关系,但其具体效应取决于时间周期及环境条件。在高辂照情况下,应采取有效措施,如安装冷却系统或调整组件角度,以避免因过热导致效率下降。同时,在低辂照情况下,可通过智能调控系统优化运行策略,提高光伏组件利用率。
在识别了3个相关因素“平均日辐照量(mean_irradiation)、限电损失(mean_curtailment_loss)、平均日发电量(mean_daily_generated_electrical)”的基础上,使用月度数据建立Statsmodels多变量回归模型,以量化各变量对PR值的影响。下面是Statsmodels模型的回归结果摘要:
OLS Regression Results
==============================================================================
Dep. Variable: mean_pr R-squared: 0.946
Model: OLS Adj. R-squared: 0.941
Method: Least Squares F-statistic: 185.4
Date: Sat, 05 Oct 2024 Prob (F-statistic): 2.65e-20
Time: 17:07:05 Log-Likelihood: 87.413
No. Observations: 36 AIC: -166.8
Df Residuals: 32 BIC: -160.5
Df Model: 3
Covariance Type: nonrobust
===================================================================================================
coef std err t P>|t| [0.025 0.975]
---------------------------------------------------------------------------------------------------
const 0.7031 0.030 23.701 0.000 0.643 0.764
mean_irradiation -0.0334 0.002 -18.342 0.000 -0.037 -0.030
mean_curtailment_loss 0.0011 0.001 1.003 0.324 -0.001 0.003
mean_daily_generated_electrical 0.0087 0.000 20.930 0.000 0.008 0.010
==============================================================================
Omnibus: 1.041 Durbin-Watson: 1.565
Prob(Omnibus): 0.594 Jarque-Bera (JB): 0.308
Skew: 0.141 Prob(JB): 0.857
Kurtosis: 3.355 Cond. No. 654.
==============================================================================
Notes:
[1] Standard Errors assume that the covariance matrix of the errors is correctly specified.
Statsmodels 回归结果摘要,包括了各种统计量和诊断信息。以下是一些关键部分的解释:
模型整体评估
该回归模型的决定系数(R-squared)为0.946,调整后的决定系数(Adj. R-squared)为0.941。这表明模型能够解释94.1%到94.6%的”平均PR值(mean_pr)“的方差,说明模型对数据的拟合程度非常高。此外,F检验统计量(F-statistic)为185.4,对应的p值(Prob (F-statistic))为2.65e-20,远小于0.05,这意味着整个模型在统计上显著。
个别系数解释
常数项(const):
常数项表示当所有自变量(例如”平均辐照度(mean_irradiation)“、”平均限电损失(mean_curtailment_loss)“和”平均日发电量(mean_daily_generated_electrical)“)都为零时,”平均PR值(mean_pr)“的基线水平。由于p值非常小(< 0.05),常数项在统计上显著。
平均辐照度(mean_irradiation):
“平均辐照度(mean_irradiation)”与”平均PR值(mean_pr)“呈负相关关系。每增加一个单位的辐照度,PR值将减少约0.0334个单位。由于p值极小(< 0.05),该变量在统计上显著。
平均限电损失(mean_curtailment_loss):
“平均限电损失(mean_curtailment_loss)”对”平均PR值(mean_pr)“影响较小且不显著(p > 0.05)。这表明限电损失对PR值没有明显影响。
平均日发电量(mean_daily_generated_electrical):
建议
可以利用已经建立的多变量回归模型做后续的分析和考察:
通过这些分析和考察,光伏电站的运营管理者可以更好地理解和优化电站的运行,提高发电效率和经济效益。
本节旨在探讨影响PR值的关键因素,并通过Granger因果检验进行验证。在进行Granger因果检验时,探索不同变量组合间的因果关系尤为重要。鉴于不同变量之间可能存在复杂的交互作用,找到最有效且最显著的因果关系组合将有助于我们更好地理解系统动态,并优化光伏电站的运营与管理。具体步骤如下:
上述过程足以形成一份详尽的因果性分析报告,但由于篇幅限制,本次性能基准分析报告仅聚焦于因果性分析相关的单变量组合和多变量组合这两部分内容。
尽管我们已经进行了相关性分析,但某些变量即便在相关性分析中未显示出显著的相关性,理论上仍可能扮演重要角色。因此,我们不能仅仅基于相关性分析的结果就决定排除某个变量。
同样地,尽管PR值是基于发电量、装机容量和辐照数据这三个参数计算得出,而且日辐照量和日发电量与PR值直接相关,但在因果性分析中仍需深入考察这些变量。这样做不仅有助于验证数据的一致性和准确性,还能帮助我们理解环境和运营因素对PR值的具体影响,从而为后续的多元Granger因果检验及电站运营优化提供重要的参考信息。
Granger因果检验
lag | F检验p值 | 卡方检验p值 | 似然比检验P值 | 参数检验P值 |
---|---|---|---|---|
1 | 0.02 | 0.02 | 0.02 | 0.02 |
2 | 0.255 | 0.253 | 0.253 | 0.255 |
3 | 0.518 | 0.514 | 0.515 | 0.518 |
4 | 0.659 | 0.655 | 0.656 | 0.659 |
5 | 0.677 | 0.672 | 0.672 | 0.677 |
lag | F检验p值 | 卡方检验p值 | 似然比检验P值 | 参数检验P值 |
---|---|---|---|---|
1 | 0.501 | 0.5 | 0.5 | 0.501 |
2 | 0.477 | 0.475 | 0.475 | 0.477 |
3 | 0.481 | 0.478 | 0.478 | 0.481 |
4 | 0.564 | 0.56 | 0.56 | 0.564 |
5 | 0.695 | 0.69 | 0.691 | 0.695 |
lag | F检验p值 | 卡方检验p值 | 似然比检验P值 | 参数检验P值 |
---|---|---|---|---|
1 | 0.053 | 0.052 | 0.053 | 0.053 |
2 | 0.292 | 0.29 | 0.29 | 0.292 |
3 | 0.489 | 0.485 | 0.486 | 0.489 |
4 | 0.378 | 0.373 | 0.374 | 0.378 |
5 | 0.424 | 0.417 | 0.419 | 0.424 |
lag | F检验p值 | 卡方检验p值 | 似然比检验P值 | 参数检验P值 |
---|---|---|---|---|
1 | 0.013 | 0.013 | 0.013 | 0.013 |
2 | 0 | 0 | 0 | 0 |
3 | 0 | 0 | 0 | 0 |
4 | 0 | 0 | 0 | 0 |
5 | 0.001 | 0.001 | 0.001 | 0.001 |
lag | F检验p值 | 卡方检验p值 | 似然比检验P值 | 参数检验P值 |
---|---|---|---|---|
1 | 0.521 | 0.52 | 0.52 | 0.521 |
2 | 0.394 | 0.392 | 0.392 | 0.394 |
3 | 0.687 | 0.685 | 0.685 | 0.687 |
4 | 0.831 | 0.828 | 0.829 | 0.831 |
5 | 0.925 | 0.923 | 0.923 | 0.925 |
lag | F检验p值 | 卡方检验p值 | 似然比检验P值 | 参数检验P值 |
---|---|---|---|---|
1 | 0 | 0 | 0 | 0 |
2 | 0 | 0 | 0 | 0 |
3 | 0 | 0 | 0 | 0 |
4 | 0 | 0 | 0 | 0 |
5 | 0.001 | 0.001 | 0.001 | 0.001 |
结果分析
结论
进一步分析建议
使用多元Granger因果分析来同时考察多个变量,如“平均温度(averageTemperature)、限电损失(curtailmentLoss)、利用小时数(useHours)”等变量共同作用下,对“光伏电站PR(PR)” 的综合影响,以便更全面地理解其相互作用机制。
建议进行时间序列分解,将“光伏电站PR(PR)” 分解为趋势成分、季节性成分和随机成分,从而识别不同时间维度下各因素对于“光伏电站PR(PR)” 的具体贡献情况。
考虑引入更多环境与运营相关的数据,例如风速(wind speed)、湿度(humidity)、设备维护记录等,以进一步完善模型并探索潜在的重要因素,这将有助于提高预测精度并优化光伏系统运行。
由于直接做多元Granger因果检验,输入各项数据的形状不符合模型的要求,所以使用向量自回归(VAR)模型。VAR 模型可以处理多个时间序列变量,并分析它们之间的相互影响。
多变量因果关系分析结果
下面是使用 VAR 模型进行多变量因果关系分析的结果,其中PR作为因变量(即被检验的变量),其他参数作为自变量(即用于预测因变量的变量):
Granger causality F-test. H_0: ['averageTemperature', 'dailyIrradiation', 'curtailmentLoss', 'dailyIlluminationHours', 'dailyGeneratedElectrical', 'useHours'] do not Granger-cause PR. Conclusion: reject H_0 at 5% significance level.
================================================
Test statistic Critical value p-value df
------------------------------------------------
2.550 1.461 0.000 (30, 7238)
------------------------------------------------
模型整体评估
该回归模型的决定系数(R-squared)为0.946,调整后的决定系数(Adj. R-squared)为0.941。这表明模型能够解释94.1%到94.6%的”平均PR值(mean_pr)“的方差,说明模型对数据的拟合程度非常高。此外,F检验统计量(F-statistic)为185.4,对应的p值(Prob (F-statistic))为2.65e-20,远小于0.05,这意味着整个模型在统计上显著。
个别系数解释
常数项(const):
常数项表示当所有自变量(例如”平均辐照度(mean_irradiation)“、”平均限电损失(mean_curtailment_loss)“和”平均日发电量(mean_daily_generated_electrical)“)都为零时,”平均PR值(mean_pr)“的基线水平。由于p值非常小(< 0.05),常数项在统计上显著。
平均辐照度(mean_irradiation):
“平均辐照度(mean_irradiation)”与”平均PR值(mean_pr)“呈负相关关系。每增加一个单位的辐照度,PR值将减少约0.0334个单位。由于p值极小(< 0.05),该变量在统计上显著。
平均限电损失(mean_curtailment_loss):
“平均限电损失(mean_curtailment_loss)”对”平均PR值(mean_pr)“影响较小且不显著(p > 0.05)。这表明限电损失对PR值没有明显影响。
平均日发电量(mean_daily_generated_electrical):
本章主要探讨分类分析对PR值进行高性能和低性能分类,分析高性能与低性能之间的差异。
高、低性能的PR值阈值
首先,高性能和低性能之间的PR值阈值有两种依据可以选择:
分类模型选择
常用的分类模型有逻辑回归(Logistic Regression)、支持向量机(SVM)、决策树(Decision Trees)、随机森林(Random Forest)、K近邻(KNN)、朴素贝叶斯(Naive Bayes)等。 根据各自模型的特点及本报告的篇幅,本次分类模型同时选择了决策树(Decision Trees)、随机森林(Random Forest)和梯度提升树,以便找到更高的准确率和更好的泛化能力的模型。
特征选择
根据相关性分析和因果分析的结果,选取的特征有:日发电量(万kw.h)(dailyGeneratedElectrical)、平均温度(℃)(averageTemperature)、利用小时(h)(useHours)、光伏电站PR值(PR)、日辐照量(MJ/m2)(dailyIrradiation)、限电损失电量(万kw.h)(curtailmentLoss)。
模型训练和验证
性能比较和模型选择
基于两种阈值,三种模型,共完成了6套训练模型,因篇幅现在只将准确率最高的结果打印如下(其余模型结果见附录):
Accuracy:0.8511627906976744
Confusion Matrix:[[ 56 0 11]
[ 0 8 7]
[ 11 3 119]]
Classification Report: precision recall f1-score support
0 0.84 0.84 0.84 67
1 0.73 0.53 0.62 15
2 0.87 0.89 0.88 133
accuracy 0.85 215
macro avg 0.81 0.75 0.78 215
weighted avg 0.85 0.85 0.85 215
总体准确率(Accuracy):模型的总体准确率为 0.8511627906976744(约 85.1%),这意味着模型在所有测试样本中有 85.1% 的预测是正确的。
混淆矩阵(Confusion Matrix):
分类报告:
宏平均(Macro avg):对每个类别的指标进行简单平均,不考虑类别的不平衡。
加权平均(Weighted avg):对每个类别的指标进行加权平均,考虑类别的不平衡。
交叉验证(Cross VAL):使用交叉验证来评估模型的稳定性和泛化能力。
单次折叠结果:
平均交叉验证精度:
超参数调优(Grid Search):使用网格搜索来找到最优的决策树参数。
特征重要性(Feature Importances):哪些特征对模型的决策影响最大。
数据增强(过采样SMOTE): 平衡数据集,解决类别不平衡问题。使用SMOTE(合成少数类过采样技术)来平衡数据集,重新训练模型。
数据解读
总体模型表现
梯度提升(Gradient
Boosting)模型在基于经验设置的PR值阈值分类中表现最佳,准确率(Accuracy)达到了0.8511。这表明模型能够较好地区分高性能和低性能的光伏电站状态。F1-score也显示了不同类别之间的平衡性,特别是类别2(高性能)的F1-score为0.88,说明该模型对高性能电站的识别能力较强。
交叉验证
交叉验证结果显示平均准确率为0.8363,且各折之间的波动不大(从0.786到0.865),这表明模型具有良好的泛化能力,不容易过拟合或欠拟合。交叉验证进一步证明了该梯度提升模型在不同数据集上的稳定性。
超参数调优
最佳超参数组合为max_depth=10
、min_samples_leaf=1
、min_samples_split=2
。这些参数表明决策树可以深入到较大的深度,并且允许叶节点包含少量样本,这可能有助于捕捉复杂的数据模式。然而,调优后的最佳得分为0.8139,比最终测试集上的准确率略低,这可能是由于数据增强或其他因素导致的差异。
特征重要性
特征重要性分析显示”日辐照量(dailyIrradiation)“和”日发电量(dailyGeneratedElectrical)“是最关键的两个特征,分别占比36.88%和28.44%。这符合预期,因为光伏电站的发电效率与辐照量密切相关。”限电损失电量(curtailmentLoss)“的重要性也较高,占比22.99%,说明限电影响也是影响PR值的重要因素。
数据增强
使用SMOTE技术进行数据增强后,平衡准确率(Balanced
Accuracy)达到了0.7581。这意味着通过平衡类别分布,有效提高了对少数类(如低性能类别)的识别能力,但整体效果仍然需要进一步优化。
分类结果分析结论
模型有效性
梯度提升模型在分类任务中的表现相当出色,总体准确率超过85%,并且在交叉验证中保持了稳定的表现。因此,该模型可以作为光伏电站PR值分类任务中的一个可靠工具,用于区分高性能与低性能状态。
特征重要性
“日辐照量(dailyIrradiation)”和”日发电量(dailyGeneratedElectrical)“是影响PR值最显著的两个变量,这与光伏系统依赖太阳能资源直接相关。”限电损失电量(curtailmentLoss)“的重要性也不可忽视,它反映了外部环境对发电效率的不利影响。因此,在实际运营中,需要重点关注这些变量,以提高整体系统效率。
数据增强与平衡
数据增强通过SMOTE技术改善了少数类样本(如低性能类别)的识别能力,但仍然存在一定局限。例如,对于类别1(中等性能),召回率仅为53%,说明即使经过数据增强,中等性能状态下的数据仍然难以被完全正确分类。这提示我们可能需要更多的数据或更精细化的特征工程来进一步优化这一部分。
类别分析
从混淆矩阵来看,高性能类别(2类)具有最高的召回率(89%)和精确率(87%),而中等性能类别(1类)的表现相对较弱,其召回率仅为53%。这表明当前模型对于极端情况(高/低性能)有较好的区分能力,但对于介于两者之间的情况则存在一定误判风险。在实际应用中,可以考虑引入更多细粒度指标来帮助区分这些边界模糊的数据点。
环境因素影响
“平均温度(averageTemperature)”虽然在特征重要性排名靠后,但它仍然对PR值有一定影响。温度过高会降低光伏组件效率,因此未来可以考虑将温度变化纳入更复杂的非线性建模框架,以更好地捕捉其潜在影响。此外,还可以结合其他环境因素,如湿度、风速等,以进一步完善预测模型。
调优方向
尽管当前超参数调优已经取得了一定成果,但还可以尝试更多高级方法,如贝叶斯优化或遗传算法,以探索更广泛的参数空间。此外,可以考虑引入更多非线性的特征转换方法,例如多项式特征扩展或使用神经网络进行自动特征提取,从而提高对复杂关系建模能力。同时,也可以针对中等性能类别进行专门优化,提高其召回率和精确率。
总结
通过此次基于PR值阈值划分光伏电站运行状态,我们成功构建并评估了多个机器学习分类模型,其中梯度提升(Gradient Boosting)表现最佳,总体准确率达到85%以上,并且在交叉验证中展现出良好的泛化能力。主要发现包括:首先,“日辐照量(dailyIrradiation)”和“日发电量(dailyGeneratedElectrical)”是决定PR值的重要因素,而“限电损失(curtailmentLoss)”也起到了显著作用;其次,通过SMOTE技术进行的数据增强有效改善了少数类样本识别问题,但对于中间状态仍需进一步优化;最后,环境因素如“平均温度(averageTemperature)”虽然权重较小,但其潜在影响不容忽视,应继续探索其非线性的作用机制。在未来工作中,我们建议继续优化超参数,同时引入更多环境变量及高级特征工程手段,以进一步提升分类效果,为光伏产业提供更加精准、高效的数据支持
本部分分析旨在探讨电站的PR值在年度和季节性层面的趋势和表现,以理解光伏电站发电效率随时间和季节的变化规律。
年度PR值变化趋势
平均PR值(mean_pr)的长期趋势:从2021年到2023年,光伏电站的”平均PR值(mean_pr)“呈现出一定的波动性。2021年的”平均PR值(mean_pr)“较高,尤其是在4月和6月达到0.929和0.897,但在2022年有所下降,尤其是11月和12月分别降至0.7和0.727。到了2023年,”平均PR值(mean_pr)“继续下降,例如7月份仅为0.525。因此,总体来看,”平均PR值(mean_pr)“有一个逐渐下降的趋势。
最大最小PR值(max_pr, min_pr)的波动:最大最小PR值存在显著波动。例如,在2021年6月,“最大PR值(max_pr)”达到了1.272,而在同一年9月,“最小PR值(min_pr)”则低至0.352。同样地,在2023年4月,“最大PR值(max_pr)”达到了1.169,但在12月份出现了最小的极端情况,即”最小PR值(min_pr)“为0。这表明光伏电站在不同年份中经历了较大的性能波动。
波动性(标准差std_pr)的变化:从数据来看,不同月份之间的波动性差异较大。例如,在2021年的9月份,标准差(std_pr)达到了最高点,为0.189,而在其他月份,如2022年的6月份,其标准差仅为0.051,这表明该期间内系统运行相对稳定。然而,到2023年7月时,标准差再次上升到0.095,这意味着系统的不稳定性增加。
年度PR值分布特征
中位数(median_pr)及其代表的数据分布状态:中位数(median_pr)可以反映数据分布的中心位置。从数据来看,中位数与平均数接近,但在某些月份如2023年5月,中位数(0.642)略低于平均数(0.632),这可能暗示该期间内存在一些极端低效的数据点。此外,从整体上看,中位数随着时间推移也呈现出下降趋势,与前述的“平均PR”一致。
极端高低比例(pr_greater_0_95_ratio 和 pr_less_0_8_ratio):
年度PR值与环境变量的关系
温度(mean_temperature):温度对光伏发电效率有显著影响。在夏季高温时段,如2023年的7、8两个月份,当”平均温度(mean_temperature)“分别达到24°C以上时,对应的”平均PR值(mean_pr)“却明显降低,仅为约 0.525 和 0.676。这说明高温可能导致组件效率下降,从而影响发电性能。
辐照量(mean_daily_generated_electrical):“日辐照量(mean_daily_generated_electrical)”与 PR 值之间存在一定关联。在辐照量较高的时候,例如在每年的夏季(如6-8 月),虽然理论上应该提高发电效率,但由于过热等原因实际效果并不理想。例如,在 2023 年 6 月份尽管辐照量很高(27 kWh/m²),但 PR 值却只有 0.616。
日照时长(mean_daily_generated_electrical):“日照时长(mean_daily_generated_electrical)”与 PR 值之间也存在一定关联。在日照时间较长的时候,如每年的夏季(例如7、8 月),虽然理论上应该提高发电效率,但由于过热等原因实际效果并不理想。特别是在 2023 年 7 月份尽管日照时长达到13小时以上,但 PR 值却只有约 52%。
限电影响
限电影响通过字段“限电损失(curtailment loss)”来衡量。从数据可以看到:
值得注意的是,有些年份如2019年或部分冬季月份,由于用电需求相对较少,因此限电影响相对较轻微,对系统表现影响有限。
总结
总体而言,从给定的数据集中可以观察到以下几点:
从年度角度看,自从2019年以来,“平均 PR 值”呈现出逐步下降趋势。特别是进入到夏季,高温天气导致组件性能受损,使得发电效率降低。
最大最小 PR 波动较大,每个年份都有一些极端情况发生,例如某些月份出现了非常低效甚至接近零效能的数据点,这可能与设备故障或者外部环境因素有关。
中位数以及极端高低比例显示出近年来光伏系统性能变得更加不稳定,并且越来越多的数据点落入低效区间(即“小于80%的比例增多”)。
环境因素如温度、辐照量以及日照时长都对系统表现产生了重要影响。特别是高温天气会显著降低组件效率,而过多或过少的辐射都会使得系统无法保持最佳工作状态。
限电影响也是一个不可忽视的重要因素。在某些年份或特定时期内,由于用电需求不足或者政策限制,大规模限电影响了整个系统表现
季节性PR值变化趋势
从数据中可以看出,“PR值(Performance Ratio)”在不同季度之间存在明显的季节性波动。通常,“第二季度(Q2)”和”第三季度(Q3)“的”平均PR值(mean_pr)“较高,而”第一季度(Q1)“和”第四季度(Q4)“的PR值相对较低。例如,在2021年,Q2的平均PR值为0.897,而Q1仅为0.689。同样的趋势也出现在2022年和2023年,这表明光伏电站在春夏季(Q2、Q3)的发电效率更高,而在秋冬季(Q1、Q4)则有所下降。
此外,从标准差(“标准差(std_pr)”)来看,某些季度如2022年的Q1,其波动较大(std_pr = 0.195),而其他季度如2022年的Q2波动较小(std_pr = 0.067)。这可能与环境条件的不稳定性有关,如天气变化或设备维护等因素。
季节性PR值与环境变量的关系
通过分析”环境变量(environmental variables)“,我们可以发现:
“温度(temperature)”:一般来说,当温度升高时,光伏组件的效率会有所下降。然而,从数据中看到,在温暖月份(如Q2、Q3),尽管温度上升,但由于日照时间长且辐照量充足,整体PR值仍然保持较高水平。例如,在2021年的Q3,尽管平均温度(mean_temperature)达到22.838°C,但该季度的平均PR值(mean_pr)仍为0.828。
“日照时数(illumination hours)”:日照时数对光伏发电有直接影响。通常情况下,日照时数越多,发电量越大。在每年的第二和第三季度,由于日照时间最长,因此这些季度往往具有最高的平均PR值。例如,在2021年的Q2和Q3中,分别有11.922小时和12.775小时的平均日照时数(mean_illumination_hours),对应着相对较高的PR值。
“辐照量(irradiation)”: 辐照量是影响光伏发电的重要因素之一。数据显示,每当辐照量增加时,对应的PR值也会有所提升。例如,在2023年第二季度(Q2),虽然温度略低于前一年,但由于辐照量(mean_irradiation)达到了23.447 kWh/m²,该季度依然保持了不错的发电效率。
综上所述,可以推测出:虽然温度升高可能会降低组件效率,但只要有足够长时间且强烈的太阳辐射,总体上的发电效率仍能维持在一个较好的水平。
限电影响
限电影响(“curtailment loss”)是影响光伏系统实际输出功率的重要因素之一。从数据中可以看到,不同年份和不同季节中的限电损失情况各不相同,并且对”PR值(PR value)“产生了显著影响。
例如:
在2023年第三季度(Q3),限电影响非常显著,该季度记录了14.523 kWh/m² 的限电损失(mean_curtailment_loss),这导致该季度的平均PR值降至0.641,这是一个相对较低的数据。
相比之下,在限电影响较小的时候,例如2021年的第二季度(Q2),其限电损失仅为6.606 kWh/m²,而该时期内光伏系统表现出了更好的性能,其平均PR达到了0.897。
因此,我们可以得出结论:随着限电影响增加,会直接导致系统无法充分利用可用资源,从而降低整体发电效率。因此,需要特别关注那些限电影响大的时期,以优化调度策略并减少不必要的能源浪费。
总结
通过分析多个年度的数据,可以总结出以下几点:
总体而言,通过深入分析这些数据,我们能够更好地理解光伏系统在不同环境条件下如何运行,并据此制定更加合理有效的发展策略以提高整体运营效益。
PR值整体下降趋势:从2021年到2023年,光伏电站的PR值呈现明显下降趋势,尤其是2023年,PR均值显著低于前两年。这表明电站的发电效率在逐步恶化。
高性能天数减少:高性能PR值的占比从2021年的17.8%下降到2023年的3%,而低性能PR值的占比则从24.6%上升到52.7%。这意味着光伏电站的运行效率大幅降低。
限电影响加剧:限电损失逐渐增加,从2021年的2754万kWh上升到2023年的3786万kWh,对整体发电量产生了负面影响。
设备或管理问题导致效率下降:尽管环境条件(如温度和辐照量)没有显著变化,但设备故障、维护不当或管理问题可能是导致PR值下降的重要原因。
异常数据较少但需关注:每年异常数据数量相对较少,但需要进一步分析这些异常数据是否对整体结论有重大影响,特别是由人为因素和设备故障引起的异常情况。
回归模型拟合效果良好:多变量回归模型能够解释94%以上的PR值方差,说明该模型对数据有很好的拟合效果。平均日发电量与PR值呈正相关,而平均辐照度与其呈负相关。
季节性波动明显:每年的第二季度通常表现最好,而第三、第四季度由于高温天气和限电影响,表现较差。尤其是2023年第三季度,由于极端气候条件和限电影响,系统表现尤为不佳。
环境因素影响显著:温度、辐照量等环境因素对光伏系统性能有重要影响。特别是在夏季,高温会导致组件效率降低,而过多或过少的辐射都会使得系统无法保持最佳工作状态。
(略)
展示PR值数据分布情况。
识别出PR值高性能和低性能的变化趋势。
通过方差与标准差,了解每年PR值的波动性和稳定性。
比较不同时期内同一季度的变化。
展示各季度在全年的重要性。
比较不同时期的PR值分布,展示变化和异常值。
考察线性相关性。
考察非线性相关性。
VAR模型中,残差指的是模型预测值与实际观测值之间的差异。
VAR模型中,PR值作为脉冲变量(即因变量),对其他变量的脉冲响应。方差分解帮助量化每个变量在预测误差中的贡献度
VAR模型中,方差分解帮助量化每个变量在预测误差中的贡献度。
Accuracy:0.8511627906976744
Confusion Matrix:[[ 56 0 11]
[ 0 8 7]
[ 11 3 119]]
Classification Report: precision recall f1-score support
0 0.84 0.84 0.84 67
1 0.73 0.53 0.62 15
2 0.87 0.89 0.88 133
accuracy 0.85 215
macro avg 0.81 0.75 0.78 215
weighted avg 0.85 0.85 0.85 215
总体准确率(Accuracy):模型的总体准确率为 0.7534883720930232(约 75.3%),这意味着模型在所有测试样本中有 75.3% 的预测是正确的。
混淆矩阵(Confusion Matrix):
分类报告:
宏平均(Macro avg):对每个类别的指标进行简单平均,不考虑类别的不平衡。
加权平均(Weighted avg):对每个类别的指标进行加权平均,考虑类别的不平衡。
交叉验证(Cross VAL):使用交叉验证来评估模型的稳定性和泛化能力。
单次折叠结果:
平均交叉验证精度:
超参数调优(Grid Search):使用网格搜索来找到最优的决策树参数。
特征重要性(Feature Importances):哪些特征对模型的决策影响最大。
数据增强(过采样SMOTE): 平衡数据集,解决类别不平衡问题。使用SMOTE(合成少数类过采样技术)来平衡数据集,重新训练模型。
Accuracy:0.8511627906976744
Confusion Matrix:[[ 56 0 11]
[ 0 8 7]
[ 11 3 119]]
Classification Report: precision recall f1-score support
0 0.84 0.84 0.84 67
1 0.73 0.53 0.62 15
2 0.87 0.89 0.88 133
accuracy 0.85 215
macro avg 0.81 0.75 0.78 215
weighted avg 0.85 0.85 0.85 215
总体准确率(Accuracy):模型的总体准确率为 0.8046511627906977(约 80.5%),这意味着模型在所有测试样本中有 80.5% 的预测是正确的。
混淆矩阵(Confusion Matrix):
分类报告:
宏平均(Macro avg):对每个类别的指标进行简单平均,不考虑类别的不平衡。
加权平均(Weighted avg):对每个类别的指标进行加权平均,考虑类别的不平衡。
交叉验证(Cross VAL):使用交叉验证来评估模型的稳定性和泛化能力。
单次折叠结果:
平均交叉验证精度:
超参数调优(Grid Search):使用网格搜索来找到最优的决策树参数。
特征重要性(Feature Importances):哪些特征对模型的决策影响最大。
数据增强(过采样SMOTE): 平衡数据集,解决类别不平衡问题。使用SMOTE(合成少数类过采样技术)来平衡数据集,重新训练模型。
Accuracy:0.8511627906976744
Confusion Matrix:[[ 56 0 11]
[ 0 8 7]
[ 11 3 119]]
Classification Report: precision recall f1-score support
0 0.84 0.84 0.84 67
1 0.73 0.53 0.62 15
2 0.87 0.89 0.88 133
accuracy 0.85 215
macro avg 0.81 0.75 0.78 215
weighted avg 0.85 0.85 0.85 215
总体准确率(Accuracy):模型的总体准确率为 0.8418604651162791(约 84.2%),这意味着模型在所有测试样本中有 84.2% 的预测是正确的。
混淆矩阵(Confusion Matrix):
分类报告:
宏平均(Macro avg):对每个类别的指标进行简单平均,不考虑类别的不平衡。
加权平均(Weighted avg):对每个类别的指标进行加权平均,考虑类别的不平衡。
交叉验证(Cross VAL):使用交叉验证来评估模型的稳定性和泛化能力。
单次折叠结果:
平均交叉验证精度:
超参数调优(Grid Search):使用网格搜索来找到最优的决策树参数。
特征重要性(Feature Importances):哪些特征对模型的决策影响最大。
数据增强(过采样SMOTE): 平衡数据集,解决类别不平衡问题。使用SMOTE(合成少数类过采样技术)来平衡数据集,重新训练模型。
Accuracy:0.8511627906976744
Confusion Matrix:[[ 56 0 11]
[ 0 8 7]
[ 11 3 119]]
Classification Report: precision recall f1-score support
0 0.84 0.84 0.84 67
1 0.73 0.53 0.62 15
2 0.87 0.89 0.88 133
accuracy 0.85 215
macro avg 0.81 0.75 0.78 215
weighted avg 0.85 0.85 0.85 215
总体准确率(Accuracy):模型的总体准确率为 0.813953488372093(约 81.4%),这意味着模型在所有测试样本中有 81.4% 的预测是正确的。
混淆矩阵(Confusion Matrix):
分类报告:
宏平均(Macro avg):对每个类别的指标进行简单平均,不考虑类别的不平衡。
加权平均(Weighted avg):对每个类别的指标进行加权平均,考虑类别的不平衡。
交叉验证(Cross VAL):使用交叉验证来评估模型的稳定性和泛化能力。
单次折叠结果:
平均交叉验证精度:
超参数调优(Grid Search):使用网格搜索来找到最优的决策树参数。
特征重要性(Feature Importances):哪些特征对模型的决策影响最大。
数据增强(过采样SMOTE): 平衡数据集,解决类别不平衡问题。使用SMOTE(合成少数类过采样技术)来平衡数据集,重新训练模型。
Accuracy:0.8511627906976744
Confusion Matrix:[[ 56 0 11]
[ 0 8 7]
[ 11 3 119]]
Classification Report: precision recall f1-score support
0 0.84 0.84 0.84 67
1 0.73 0.53 0.62 15
2 0.87 0.89 0.88 133
accuracy 0.85 215
macro avg 0.81 0.75 0.78 215
weighted avg 0.85 0.85 0.85 215
总体准确率(Accuracy):模型的总体准确率为 0.7906976744186046(约 79.1%),这意味着模型在所有测试样本中有 79.1% 的预测是正确的。
混淆矩阵(Confusion Matrix):
分类报告:
宏平均(Macro avg):对每个类别的指标进行简单平均,不考虑类别的不平衡。
加权平均(Weighted avg):对每个类别的指标进行加权平均,考虑类别的不平衡。
交叉验证(Cross VAL):使用交叉验证来评估模型的稳定性和泛化能力。
单次折叠结果:
平均交叉验证精度:
超参数调优(Grid Search):使用网格搜索来找到最优的决策树参数。
特征重要性(Feature Importances):哪些特征对模型的决策影响最大。
数据增强(过采样SMOTE): 平衡数据集,解决类别不平衡问题。使用SMOTE(合成少数类过采样技术)来平衡数据集,重新训练模型。
Accuracy:0.8511627906976744
Confusion Matrix:[[ 56 0 11]
[ 0 8 7]
[ 11 3 119]]
Classification Report: precision recall f1-score support
0 0.84 0.84 0.84 67
1 0.73 0.53 0.62 15
2 0.87 0.89 0.88 133
accuracy 0.85 215
macro avg 0.81 0.75 0.78 215
weighted avg 0.85 0.85 0.85 215
总体准确率(Accuracy):模型的总体准确率为 0.8511627906976744(约 85.1%),这意味着模型在所有测试样本中有 85.1% 的预测是正确的。
混淆矩阵(Confusion Matrix):
分类报告:
宏平均(Macro avg):对每个类别的指标进行简单平均,不考虑类别的不平衡。
加权平均(Weighted avg):对每个类别的指标进行加权平均,考虑类别的不平衡。
交叉验证(Cross VAL):使用交叉验证来评估模型的稳定性和泛化能力。
单次折叠结果:
平均交叉验证精度:
超参数调优(Grid Search):使用网格搜索来找到最优的决策树参数。
特征重要性(Feature Importances):哪些特征对模型的决策影响最大。
数据增强(过采样SMOTE): 平衡数据集,解决类别不平衡问题。使用SMOTE(合成少数类过采样技术)来平衡数据集,重新训练模型。
计算PR值的主要目的是评估光伏电站的性能和运行状况。通过对比实际发电量与理想条件下的发电量,可以了解到电站的运行是否达到预期效果,同时也可以帮助识别系统中存在的问题,比如设备故障、遮挡损失、维护不当等因素导致的发电量下降。此外,PR值还可以用于比较不同光伏电站的性能,帮助投资者、运营商做出更好的决策。
计算PR值的基本公式如下:
PR值=发电量/(装机容量 * (辐照数据/3.6))
标准分数(Z-Score)
Z-Score(标准分数)是一种统计测量方式,用来表示一个值与平均值的偏离程度,以标准差为单位。Z-Score可以告诉我们一个观测值在数据集中的相对位置,它是标准化过程中常用的一种方法。
Z-Score有助于识别异常值,即那些远离均值的极端值。一般而言,如果一个观测值的Z-Score绝对值大于3(对于正态分布而言),那么这个值可能被认为是异常值。
IQR(Interquartile Range,四分位距)
IQR(Interquartile Range,四分位距)是一种用于描述数据集中趋势的统计量,它表示一组数据中间50%的范围。IQR 是通过计算第三四分位数(Q3)与第一四分位数(Q1)之间的差值得到的。
四分位数的定义:
皮尔森(Pearson)相关系数
Pearson相关系数(Pearson’s correlation coefficient),通常用符号 ( r ) 表示,是一种度量两个变量间线性关系强度和方向的统计量。它由卡尔·皮尔逊(Karl Pearson)提出,并且是描述两个随机变量或两组数据间线性依赖性的最常用方法之一。
Pearson相关系数只衡量线性关系,并不能捕捉到非线性的依赖关系。此外,计算Pearson相关系数时需要确保数据满足一定的前提条件,比如数据应当呈线性关系并且服从正态分布等。
Spearman相关系数
Spearman相关系数(Spearman’s rank correlation coefficient)是一种非参数统计量,用于衡量两个变量之间的单调关系(即一个变量增加时另一个变量也增加,或一个变量减少时另一个变量也减少的关系)。它是由英国心理学家查尔斯·斯皮尔曼(Charles Spearman)在1904年提出的。
与Pearson相关系数不同,Spearman相关系数并不假设数据服从正态分布或者变量之间是线性关系。它基于变量值的排序(秩次,ranks),而不是实际观测到的数值大小。因此,它可以用来分析任何类型的有序数据。
Statsmodels
Statsmodels 是一个 Python 库,用于探索数据、估计统计模型以及执行统计测试。它是建立在 SciPy 和 NumPy 基础之上的,提供了一种方便的方式来加载数据、估计模型并检查结果,包括诊断和改进模型拟合的方法。
Statsmodels 支持多种统计模型,如线性回归模型、时间序列分析、非参数方法、离散选择模型(例如逻辑回归)、工具变量回归等。它还提供了多种工具来进行数据预处理和模型验证。
孤立森林(Isolation Forest)
孤立森林(Isolation Forest,简称 iForest)是一种用于识别数据集中异常值或离群点的无监督学习算法。与传统的异常检测方法不同,孤立森林不依赖于数据的距离或密度测量,而是基于离群点的“孤立”特性来检测异常。
局部异常因子(Local Outlier Factor, LOF)
局部异常因子(Local Outlier Factor, LOF)是一种用于识别数据集中潜在异常值的方法,特别是那些在局部环境中显得与众不同的数据点。LOF 是一种基于密度的异常检测算法,由 Markus M. Breunig、Hans-Peter Kriegel、Raymond T. Ng 和 Jörg Sander 在 2000 年提出。
折线图 (Line Chart)
折线图(Line Chart 或 Line Graph)是一种图表类型,用于显示一段时间内数据的变化趋势。它通过将数据点连接成连续的线条来展示数据随时间或其他连续变量的变化情况。
箱线图 (Box Plot):
箱线图(Box Plot),也称为盒须图或箱形图,是一种用于展示一组数据分布情况的统计图表。它能够提供关于数据分散程度和中心位置的信息,并且能够帮助识别异常值(outliers)。
小提琴图 (Violin Plot):
小提琴图(Violin Plot)是一种用于展示数据分布的统计图表,它结合了箱线图和核密度估计图的特点。与传统的箱线图相比,小提琴图不仅显示了数据的五数概括(最小值、第一四分位数、中位数、第三四分位数、最大值),还能展示数据分布的形状,从而提供了更多的信息。
柱图 (Bar Chart):
柱状图(Bar Chart 或 Bar Graph)是一种常用的统计图表类型,主要用于比较不同类别之间的数量差异。柱状图由一系列等宽的条形组成,这些条形的高度或长度代表每个类别的值的大小。柱状图可以帮助直观地理解数据之间的关系,比如比较各个类别的频率、总量或其他度量指标。
饼图 (Pie Chart):
饼图(Pie Chart)是一种用于展示数据集中各部分所占比例的图表。它将一个圆形分割成不同的扇区,每个扇区代表整体的一部分,其大小对应于该部分所占的比例。饼图非常适合用来表示部分与整体之间的关系,特别是当您想强调某一部分相对于整体的重要性时。
散点图 (Scatter Plot)
散点图(Scatter Plot)是一种统计图表,用于展示两个变量之间的关系。在散点图中,每个点代表一个观测值,其中横坐标(X轴)上的值表示一个变量的数值,而纵坐标(Y轴)上的值表示另一个变量的数值。每个点的位置反映了这两个变量之间的一对值。
直方图(Histogram)
直方图(Histogram)是一种用于展示数据分布情况的统计图表。它通过将数据分成若干区间(称为“区间”、“箱”或“bins”),并将落在每个区间内的数据点数量绘制成柱状图,来直观地显示数据的频数分布。直方图可以用来观察数据的分布特性,如中心趋势、离散程度、偏斜性和模态(单峰或多峰)等。
这些措施通常是电力系统运行过程中为保证系统稳定、安全、经济运行而采取的不同方式。它们各自针对不同的问题,并且在实际应用中往往是相互配合使用的。