性能基准分析 PR值分析报告(脱敏)

光伏电站的PR值(Performance Ratio,性能比)是衡量电站实际发电量与理论最大发电量之比的关键指标。性能基准分析是通过对PR值的深入考察,来评估光伏电站的运行效率和性能。 本报告旨在通过对选定的Station2021年、2022年、2023年三年的日度性能比(PR值)数据进行深入分析,以评估电站的整体运行状况。 此外,本分析也将识别电站的季节性发电趋势,为公司制定年度运维计划和未来的投资决策提供数据支持和决策基础。通过对这些关键数据的综合评估,我们旨在揭示电站运营中的优势与潜在的改进区域,确保电站能够在不同条件下实现最优运行。

1. 报告概述

1.1 目的

性能基准分析是通过对PR值的深入考察,来评估光伏电站的运行效率和性能。以下是进行光伏电站PR值性能基准分析的常见目的:

1.2 重要性

PR值作为评估光伏电站发电效率的关键指标,不仅反映了电站设备的运行状况和效率,还能显示出电站对环境变化的适应性。通过长期的PR值分析,我们可以监测到设备性能退化的趋势、操作失误、以及可能的维护不足等问题,从而及时调整运维策略,预防故障的发生。此外,PR值分析还能帮助我们理解季节性变化对发电效率的影响,这对于在不同季节调整运维资源和优化发电策略至关重要。因此,这种分析对于提升电站的经济效益和环境效益都具有重大意义。

1.3 预期读者

本报告主要面向公司的高层管理者、技术团队以及维护部门。对于管理层,本报告将提供关于电站长期运行效率和投资回报的关键见解,帮助他们做出更加明智的战略决策。对于技术团队和维护部门,分析结果将指导他们在技术维护和日常运营中更有效地识别问题和优化操作。通过这些跨部门的合作,我们能够确保电站资产的最大化利用和持续的性能改进。

2. 数据和方法

2.1 数据与基本信息

2.1.1 电站数据

2.1.2 电站基本信息

2.2 分析方法

2.2.1 数据采集

  1. 辐照数据采集问题

    由于以下五点原因,辐照数据收集不准确会造成PR值计算不准确:

    • 辐照仪品牌不同取值不同;
    • 辐照仪安装角度会影响取值;
    • 辐照仪有直射,总量数据,由于是人工填写,数据标准可能不一致;
    • 有些分布式站没有安装辐照仪,取的是附近站点的数据;
    • 对于托管的站,辐照数据第三方公司提供,他们会尽量降低辐照数据值,以显得生产效率高。
  2. PR值数据采集问题

    辐照数据参与PR值的计算,辐照数据收集问题确实会影响PR值的准确性,进而影响不同电站之间进行性能基准分析的有效性。 因此,目前阶段进行同一站点的不同时期对比是一个合理的方法。

2.2.2 常见的数据分析方法

3. 数据分析

3.1 PR值数据质量分析

合计3年,日PR值原始数据1095条。汇总统计数据如下:

3.1.1 完整性检查

原始数据中包含三种类型的数据:数值、字符串和日期,根据以下处理原则对原始数据进行检查:

缺失值检查

原始数据中不存在缺失值,无需处理。

PR值为0的情况

原始数据中PR值为0的有3条。

日期 天气 光伏电站PR值 限电情况描述
2022-10-28 多云转小雨 0
2022-10-27 0
2023-12-14 大雪 0

考虑进行异常值分析以做进一步的分析和排查。

高性能PR值的情况

低性PR值的情况

3.1.2 一致性检查

数据来源确定,不存在不同特征之间量纲不一致或数量级不同的情况(例如温度统一以℃为单位,最大负荷以万kW为单位,而日发电量以万kw.h为单位等等)。

3年,日PR值原始数据1095条,数据完全一致,不存在同一日期有多条记录的情况。

3.1.3 数据解读

数据解读

  1. 整体表现
    从PR均值来看,电站的整体表现呈现出逐年下降的趋势。2021年的PR均值为0.795,2022年略微下降至0.788,而2023年则显著下降至0.689。这表明光伏电站的发电效率在逐渐降低,可能与设备老化、维护不足或环境因素有关。此外,方差和标准差也显示出一定的波动性,但变化不大,这意味着虽然平均性能在下降,但系统的稳定性相对保持一致。

  2. 极值分析
    2022年的PR最大值达到了1.933,这是一个异常高的数值,可能是由于辐照数据采集问题或其他外部因素导致的数据异常。而最小值方面,2022年和2023年的PR最小值都为0,这可能表明某些天存在严重故障或停机情况。相比之下,2021年的最大值(1.272)和最小值(0.331)更为合理,没有出现极端异常情况。

  3. 波动性
    各年份的PR标准差基本保持在0.134到0.141之间,这表明各年度之间的波动性相对稳定。然而,由于PR均值在逐年下降,即使波动幅度不大,也会对整体发电效率产生负面影响。较大的波动性通常意味着系统运行的不稳定性增加,需要更多运维资源来确保系统正常运行。

  4. 高性能天数比例
    高性能天数比例从2021年的19.2%(70/365)逐步下降到2022年的11%(40/365),再到2023年的仅3.3%(12/365)。这表明光伏系统的高效运行天数正在急剧减少,对电站整体经济效益有明显负面影响。这种趋势可能反映了设备老化、维护不足或者外部环境条件恶化等问题。

  5. 总体分析
    综合来看,该光伏电站在过去三年中的发电效率持续下滑,高性能天数比例显著减少,同时出现了一些极端异常数据。虽然每年的日照时数和辐照量变化不大,但限电损失有所增加,这可能进一步加剧了发电效率的下降。因此,从长期角度看,该光伏电站需要进行深入检查,以确定是否存在设备老化、维护不足或其他潜在问题。

  6. 特定年份的详细观察
    重点观察2023年,该年度不仅PR均值最低(0.689),而且低性能PR占比高达52.6%,远超前两年。同时,高性能天数比例仅为3%,几乎可以忽略不计。此外,总限电损失也显著增加至3786 MWh,相比前两年有明显上升。这些迹象表明该年度可能存在较为严重的问题,如设备故障频繁、限电影响加剧等,因此需要特别关注这一年度并采取针对性的措施进行改善。

结论

该光伏电站自2021年以来,其发电效率呈现出明显下滑趋势。尤其是到2023年,不仅高性能天数急剧减少,而且低性能占比大幅上升。此外,还出现了一些极端异常数据,如过高或过低的PR值,这提示我们需要进一步调查这些异常背后的原因。总限电影响也逐渐增多,对整体发电量产生了负面影响。因此,有必要加强设备维护,并优化运维策略以提高未来几年的发电效率。

进一步分析建议

  1. 异常值分析
    通过箱线图识别并剔除极端异常点,例如2022年出现的最大PR值(1.933)以及多个年份中最小为零的数据点。这些数据很可能是由传感器故障、数据录入错误或其他外部因素引起,需要进一步调查其来源并排除干扰。

  2. 描述性分析
    在剔除异常数据后,可以重新计算各项统计指标,包括均值、中位数、方差等,以获得更准确的数据描述。这将帮助我们更好地理解实际情况,并制定更加有效的运维策略。

3.2 异常值分析

本部分旨在识别和处理与数据集整体趋势不一致的异常数据点,这些点可能是由于错误或者某些特殊情况导致的,以确保数据的准确性和可靠性。

3.2.1 数据预处理

确保数据集是干净的、无缺失和无错误的。在PR值数据质量分析中,已经做了完整性、一致性等检查。

3.2.2 检测异常值

在本次分析中,我们采用了两种主要的异常值检测方法:箱线图(IQR)和孤立森林(Isolation Forest)。这些方法有助于识别数据集中潜在的异常点。

3.2.3 异常原因分析

在对孤立森林检测的55条异常数据进行深入分析后,根据天气、限电情况描述、限电损失电量、日辐照量、日照时等因素,将异常数据分为以下几类:

3.2.4 异常数据处理

根据上述异常原因分析,对异常数据进行了相应的处理。处理策略包括删除、替换和标记。

经过异常数据处理,最终有效数据为1075条。处理后的数据集更加干净和有序,能够更准确地反映光伏电站的运行状况和发电效率:

PR值及其异常值(孤立森林) 有效数据

3.2.5 总结与建议

总结主要发现

在进行异常值检测和处理的过程中,我们识别并处理了由气候环境、外部人为因素、内部设备故障以及数据录入错误等多种原因导致的异常数据。我们发现:

  1. 气候环境影响:13条数据由于气候因素(如阴天、雨天等)导致光伏电站发电量显著异常。
  2. 外部人为因素:14条数据因调峰、限电、断面受限及商务等外部人为因素导致异常。
  3. 内部设备与线路故障:8条数据因设备故障或内部检修导致异常。
  4. 数据录入错误:20条数据存在疑似录入错误,显著偏离正常范围。

1095条原始数据,经过异常处理后,有效数据1075条,其中标记异常的数据35条。

改进建议

针对上述异常原因,我们提出以下改进建议,以优化光伏电站的运行和数据质量:

  1. 气候环境导致的限电
    • 优化电站设计:考虑在光伏电站设计时,采用更先进的技术和材料,如双面光伏组件和跟踪系统,以提高在不同天气条件下的发电效率。
    • 增加储能设备:引入储能系统,如电池储能,可以在天气不佳时储存电能,以应对短期内的发电波动。
  2. 人为因素
    • 改善电站调度和限电策略:优化电站的调度系统,减少不必要的限电和调峰操作。可以通过建立更智能化的电力调度系统来实现这一目标。
    • 协调多方利益:加强与电网公司的沟通协调,合理安排电站发电计划,减少断面受限和商务原因导致的限电。
  3. 内部设备故障
    • 加强设备维护和监控:建立定期检修和维护的制度,及时发现和解决设备故障。引入先进的监控系统,实时监测设备运行状态。
    • 预防性维护:采用预测性维护技术,通过分析历史数据,预测设备可能的故障点并提前进行维护。
  4. 数据录入错误
    • 严格的数据录入和验证机制:建立数据录入的标准流程和验证机制,减少人为错误。例如,采用双重录入验证或自动化录入系统。
    • 培训和监督:加强对数据录入人员的培训,提高其数据录入的准确性和责任感,同时增加数据录入过程中的监督和抽查机制。

3.2.6 未来工作展望

在未来的工作中,我们将进一步优化光伏电站的数据分析和异常检测方法,以提高电站的运行效率和数据质量。以下是我们计划开展的工作:

  1. 实时异常检测系统的开发
    • 建立实时监控系统:开发实时异常检测系统,通过实时监测和分析电站运行数据,及时发现并处理异常。此系统可以结合实时数据流处理技术和机器学习算法,实现高效的异常检测和报警。
    • 自动化异常处理:结合实时监控系统,实现异常数据的自动处理和修正,减少人工干预,提高效率。
  2. 更加精准的预测模型
    • 引入先进的预测模型:利用深度学习和大数据技术,构建更为精准的光伏发电量预测模型,以提前预知发电变化趋势,优化电站调度和运行。
    • 多因素综合分析:在预测模型中引入更多的影响因素,如天气预报、电网需求和设备健康状态等,以提高预测的准确性。
  3. 基于线性回归模型的PR值预测
    • 建立线性回归模型:利用历史数据,建立线性回归模型对光伏电站的PR值(性能比)进行预测。该模型将根据输入的多维数据(如日辐照量、温度、设备状态等),预测未来一段时间内的PR值。
    • 模型应用:预测模型可以帮助运营人员提前了解光伏电站的性能变化趋势,及时采取优化措施。例如,若预测到PR值将下降,可以提前进行设备维护或调整运行策略,以确保电站的高效运行。
  4. 持续的数据质量提升措施
    • 数据质量审计:定期进行数据质量审计,发现并解决数据中的问题,确保数据的完整性和准确性。
    • 数据管理系统升级:升级和完善数据管理系统,引入数据治理框架,明确数据管理和维护的责任,确保数据的一致性和可追溯性。
    • 用户反馈机制:建立用户反馈机制,及时收集和处理用户关于数据质量的问题和建议,不断改进数据管理和维护工作。

通过上述措施,我们将进一步提高光伏电站的数据质量和管理水平,为光伏发电的优化和提升提供有力支持,不断推动光伏产业的发展和进步。特别是通过引入基于线性回归模型的PR值预测,我们能够更加准确地预见和应对光伏电站的性能变化,确保其长期稳定高效运行。

3.3 描述性统计分析

本部分分析旨在评估各项指标的整体情况和分布,特别关注PR值的时间序列变化趋势,以便为后续分析提供基础数据支持。

3.3.1 数据预处理

通过之前在PR值数据质量分析和异常值分析中,已经做了对数据集做了完整性、一致性等检查,并剔除及标记了异常值。目前有效数据1075条。

3.3.2 基本统计量计算

计算并展示各项指标的基本统计量,如均值、标准差、中位数等。

日发电量(万kw.h) 日上网电量(万kw.h) 最大负荷(万kW) 利用小时(h) 限电损失电量(万kw.h) 日辐照量(MJ/m2) 日照时 峰值利用小时数(h) 光伏电站PR值 日购网电量(万kw.h)
计数 1075 1075 1075 1075 1075 1075 1075 1075 1075 1075
均值 79.544 78.214 13.158 4.124 9.023 19.357 11.247 1.289 0.757 1.066
标准差 29.745 29.248 3.365 5.082 10.224 7.274 1.879 0.571 0.142 3.335
最小值 0 0 0 0 0 0.2 1 0 0 0
25%分位数 60.857 59.84 11.869 0 2.794 15.161 9 0.88 0.675 0
中位数 84.126 82.72 14.2 0 6.328 21.045 11 1.32 0.773 0
75%分位数 103.815 102.08 15.316 9 11.234 24.255 13 1.76 0.85 1.76
最大值 136.034 133.76 18.594 13 71.268 38.486 25.952 5.548 1.933 51.48
PR
计数 1075
均值 0.757
标准差 0.142
最小值 0
25%分位数 0.675
中位数 0.773
75%分位数 0.85
最大值 1.933

3.3.3 数据分布

PR值分布

PR值分布
PR值 箱线图

其他关键指标分布

日发电量分布
日发电量 箱线图
日上网电量分布
日上网电量 箱线图

3.3.4 数据趋势

PR均值 PR最大值 PR最小值 PR标准差 PR方差 PR计数 平均日发电量 平均日上网电量 总发电量 总上网电量 总限电损失
2021 0.793 1.272 0.331 0.133 0.018 349 82.516 81.137 28798 28316.6 2754.28
2022 0.791 1.933 0 0.134 0.018 362 79.468 78.14 28767.6 28286.7 3159.04
2023 0.688 1.169 0 0.132 0.017 364 76.77 75.487 27944.2 27477.1 3786.48

PR值趋势

PR值趋势

其他关键指标趋势

日发电量趋势

3.3.5 结论

主要发现

  1. PR值整体表现:从2021年到2023年,PR值的均值呈现下降趋势,分别为0.793、0.791和0.688。特别是2023年的PR均值显著低于前两年,表明光伏电站的发电效率有所下降。

  2. 高性能与低性能PR值分布:高性能PR值(通常定义为较高的PR值)在2021年占比17.8%,2022年降至11%,而在2023年仅占3%。相反,低性能PR值的数量逐渐增加,从2021年的24.6%上升到2023年的52.7%。这表明光伏电站的运行效率在逐步恶化。

  3. 温度与辐照量变化:平均温度和日辐照量在三年间波动不大,但可以看到2023年的平均日辐照量略有上升(20.634 MJ/m²),而平均温度也保持稳定。这意味着环境条件并没有显著恶化,但设备或管理问题可能导致了PR值下降。

  4. 限电损失影响:限电损失逐渐增加,从2021年的2754万kWh上升到2023年的3786万kWh,这可能对整体发电效率产生了负面影响。

  5. 发电量与上网电量变化:尽管总发电量和总上网电量在三年间变化不大,但购网电量逐渐增加,尤其是从2021年的318万kWh增长到2023年的436万kWh,这可能表明自发自用比例降低或系统故障率提高。

  6. 异常数据情况:异常数据数量相对较少,每年都控制在合理范围内(11, 5, 19条),但需要进一步分析这些异常数据是否对整体结论有重大影响。

进一步分析建议

  1. 相关性分析
    • 建议计算各变量(如平均温度、日辐照量、日照时数等)与PR值之间的相关系数,以确定哪些因素对PR值有显著影响。初步猜测日辐照量和限电影响可能较大。
    • 可以建立多元线性回归模型,将各个变量作为自变量,PR值作为因变量,定量评估每个因素对光伏系统效率的贡献程度。
  2. 因果分析
    • 除了相关性,还应深入探讨因果关系。例如,通过时间序列滞后效应分析,可以研究限电影响是否直接导致了次日或当月的PR下降。此外,也可以考虑设备老化或维护不足是否是造成长期效率下降的重要原因。
    • 对于限电影响,需要结合政策背景和实际操作情况进行更详细的调查,以确认其是否是导致低效运行的重要原因。
  3. 分类分析
    • 将数据按高性能(如 PR > 0.85)和低性能(如 PR < 0.65)进行分类,并比较两类之间其他指标(如温度、辐照、限电影响等)的差异。这将帮助识别哪些因素更容易出现在高效或低效运行期间。
    • 特别关注不同年份中,高性能与低性能之间的数据分布差异,以便找出潜在改进点。
  4. 时间序列分析
    • 对每一年度的数据进行趋势分析,可以观察到光伏系统效率随时间推移发生了怎样的变化。通过季节性分解方法,可以检查是否存在季节性波动,例如夏季由于高温或者冬季由于短日照时数导致的效率波动。
    • 基于历史数据,可以使用ARIMA模型等时间序列预测方法,对未来几个月甚至几年的PR表现做出预测,为运营决策提供支持。

主要发现

  1. PR值整体表现:从2021年到2023年,PR值的均值呈现下降趋势,分别为0.793、0.791和0.688。特别是2023年的PR均值显著低于前两年,表明光伏电站的发电效率有所下降。

  2. 高性能与低性能PR值分布:高性能PR值(通常定义为较高的PR值)在2021年占比17.8%,2022年降至11%,而在2023年仅占3%。相反,低性能PR值的数量逐渐增加,从2021年的24.6%上升到2023年的52.7%。这表明光伏电站的运行效率在逐步恶化。

  3. 温度与辐照量变化:平均温度和日辐照量在三年间波动不大,但可以看到2023年的平均日辐照量略有上升(20.634 MJ/m²),而平均温度也保持稳定。这意味着环境条件并没有显著恶化,但设备或管理问题可能导致了PR值下降。

  4. 限电损失影响:限电损失逐渐增加,从2021年的2754万kWh上升到2023年的3786万kWh,这可能对整体发电效率产生了负面影响。

  5. 发电量与上网电量变化:尽管总发电量和总上网电量在三年间变化不大,但购网电量逐渐增加,尤其是从2021年的318万kWh增长到2023年的436万kWh,这可能表明自发自用比例降低或系统故障率提高。

  6. 异常数据情况:异常数据数量相对较少,每年都控制在合理范围内(11, 5, 19条),但需要进一步分析这些异常数据是否对整体结论有重大影响。

进一步分析建议

  1. 相关性分析
    • 建议计算各变量(如平均温度、日辐照量、日照时数等)与PR值之间的相关系数,以确定哪些因素对PR值有显著影响。初步猜测日辐照量和限电影响可能较大。
    • 可以建立多元线性回归模型,将各个变量作为自变量,PR值作为因变量,定量评估每个因素对光伏系统效率的贡献程度。
  2. 因果分析
    • 除了相关性,还应深入探讨因果关系。例如,通过时间序列滞后效应分析,可以研究限电影响是否直接导致了次日或当月的PR下降。此外,也可以考虑设备老化或维护不足是否是造成长期效率下降的重要原因。
    • 对于限电影响,需要结合政策背景和实际操作情况进行更详细的调查,以确认其是否是导致低效运行的重要原因。
  3. 分类分析
    • 将数据按高性能(如 PR > 0.85)和低性能(如 PR < 0.65)进行分类,并比较两类之间其他指标(如温度、辐照、限电影响等)的差异。这将帮助识别哪些因素更容易出现在高效或低效运行期间。
    • 特别关注不同年份中,高性能与低性能之间的数据分布差异,以便找出潜在改进点。
  4. 时间序列分析
    • 对每一年度的数据进行趋势分析,可以观察到光伏系统效率随时间推移发生了怎样的变化。通过季节性分解方法,可以检查是否存在季节性波动,例如夏季由于高温或者冬季由于短日照时数导致的效率波动。
    • 基于历史数据,可以使用ARIMA模型等时间序列预测方法,对未来几个月甚至几年的PR表现做出预测,为运营决策提供支持。

3.4 相关性分析

本部分分析旨在探讨电站的各种因素与PR值之间的关系及其对PR值的影响。

3.4.1 变量与PR值线性相关性分析

尽管目前的PR值是依据发电量、装机容量、辐照数据三个参数进行计算的,平均日辐照量和平均日发电量与PR值直接相关,但在相关性分析中仍然需要考察这些变量。 这不仅是为了验证数据的一致性和准确性,还可以帮助我们理解环境和运营因素对PR值的具体影响,从而为后续回归分析和优化电站运营提供重要参考。

Pearson相关系数

年度、季度、月度PR值与其他变量Pearson相关系数如下:

平均温度 平均日辐照量 平均日照时数 限电损失 平均日发电量 平均利用小时数 类型
-0.08 -0.95 -0.09 -0.95 0.86 0.63 年度
0.24 -0.43 0.26 -0.42 0.64 0.48 季度
0.26 -0.37 0.25 -0.36 0.52 0.41 月度

Spearman相关系数

年度、季度、月度PR值与其他变量Spearman相关系数如下:

平均温度 平均日辐照量 平均日照时数 限电损失 平均日发电量 平均利用小时数 类型
0.5 -0.5 -0.5 -1 1 1 年度
0.14 -0.29 0.25 -0.27 0.62 0.5 季度
0.32 -0.1 0.33 -0.32 0.56 0.48 月度

年度数据分析

在年度数据中,“平均日发电量(mean_daily_generated_electrical)”与PR值的皮尔逊相关系数为0.86,Spearman相关系数为1,表明它是一个高度正相关的因素。也就是说,当发电量增加时,PR值也会显著提升。

“平均限电损失(mean_curtailment_loss)”与PR值的皮尔逊相关系数为-0.95,Spearman相关系数为-1,这意味着限电损失对PR值有极强的负面影响。减少限电损失可能会显著提高PR值。

此外,“平均日辐照量(mean_irradiation)”与PR值的皮尔逊相关系数为-0.95,Spearman相关系数为-0.5,也表现出较强的负相关性。这表明虽然辐照量增加通常意味着更多的发电机会,但过高的辐照量可能导致设备效率下降,从而降低PR值。

其他变量如”平均温度(mean_temperature)“和”平均利用小时数(mean_useHours)“,虽然在Spearman分析中显示了一定程度的正向关系,但其皮尔逊相关性较低,因此对年度数据中的影响相对有限。

季度数据分析

在季度数据中,“平均日发电量(mean_daily_generated_electrical)”依然是一个重要因素,其皮尔逊相关系数为0.64,Spearman相关系数为0.62。这表明即使在季度层面上,它仍然是影响PR值的重要正向因素。

其次是“平均限电损失(mean_curtailment_loss)”,其皮尔逊和Spearman相关系数分别为-0.42和-0.27。尽管相比年度数据,其负面影响有所减弱,但仍然需要关注,因为它依旧对PR值产生了显著的不利影响。

“平均日辐照量(mean_irradiation)”与PR值呈现出一定程度的负相关性,其皮尔逊和Spearman相关系数分别为-0.43和-0.29。这说明在季度尺度上,高辐照量同样可能导致设备效率下降,从而降低PR值。

值得注意的是,“平均温度(mean_temperature)”在季度层面的正向关联增强了,其皮尔逊和Spearman相关性分别达到了0.24和0.14,这表明温度变化对季节性运营有一定影响,但尚不足以成为主要驱动因素。

月度数据分析

月度数据中,“平均日发电量(mean_daily_generated_electrical)”继续保持着较高的正向关联,其皮尔逊和Spearman相关性分别为0.52和0.56。尽管相比年度或季度略微减弱,但它仍然是一个关键变量,对月度层面的PR值有重要贡献。

“平均限电损失(mean_curtailment_loss)”同样表现出明显的负面作用,其皮尔逊和Spearman关联分别为-0.36和-0.32。在月度尺度上,这一变量依旧具有显著影响,需要重点管理以减少其对整体效率的不利作用。

“平均日辐照量(mean_irradiation)”则表现出更弱的负向关系,其皮尔逊和Spearman关联分别仅有-0.37和-0.1。这表明,在短期(月度)的时间尺度上,高辐照并不会像年度或季度那样显著拉低设备效率,但仍需谨慎应对极端天气条件下可能出现的问题。

另外,“平均温度(mean_temperature)”在月度层面的正向关联进一步增强了,其皮尔逊关联达到 0.26,而 Spearman 关联则达到 0.32。这表明温度波动对于短期内光伏系统运行状态有更大的潜在影响,应予以适当关注。

综合评估

通过比较不同时间精度的数据,可以得出以下结论:

  1. 平均日发电量(mean_daily_generated_electrical) 在所有时间尺度上都与 PR 值呈现高度正向关系,是最稳定且最具代表性的关键因素。

  2. 平均限电损失(mean_curtailment_loss) 在所有时间尺度上均表现出强烈负面作用,无论是长期还是短期,都需要将其作为优化目标。

  3. 平均日辐照量(mean_irradiation) 虽然总体呈现负向关系,但随着时间尺度缩短,该变量的重要性有所减弱。在长周期下,它可能由于设备过热等原因导致 PR 值下降,而短周期内这种效应不太明显。

  4. 环境温度(mean_temperature) 对 PR 值存在一定程度上的正向作用,并且随着时间周期缩短,这种作用逐渐增强。因此,在季节或月度运营管理中,应更加重视环境温度变化带来的潜在效益或风险。

  5. 其他变量如 平均利用小时数(mean_useHours) 和 平均日照时长(mean_illumination_hours) 的影响相对较小,不构成主要驱动因素。

建议

基于上述综合评估,可以得出以下分析结论和建议:

3.4.2 多变量回归分析

在识别了3个相关因素“平均日辐照量(mean_irradiation)、限电损失(mean_curtailment_loss)、平均日发电量(mean_daily_generated_electrical)”的基础上,使用月度数据建立Statsmodels多变量回归模型,以量化各变量对PR值的影响。下面是Statsmodels模型的回归结果摘要:

                            OLS Regression Results                            
==============================================================================
Dep. Variable:                mean_pr   R-squared:                       0.946
Model:                            OLS   Adj. R-squared:                  0.941
Method:                 Least Squares   F-statistic:                     185.4
Date:                Sat, 05 Oct 2024   Prob (F-statistic):           2.65e-20
Time:                        17:07:05   Log-Likelihood:                 87.413
No. Observations:                  36   AIC:                            -166.8
Df Residuals:                      32   BIC:                            -160.5
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
===================================================================================================
                                      coef    std err          t      P>|t|      [0.025      0.975]
---------------------------------------------------------------------------------------------------
const                               0.7031      0.030     23.701      0.000       0.643       0.764
mean_irradiation                   -0.0334      0.002    -18.342      0.000      -0.037      -0.030
mean_curtailment_loss               0.0011      0.001      1.003      0.324      -0.001       0.003
mean_daily_generated_electrical     0.0087      0.000     20.930      0.000       0.008       0.010
==============================================================================
Omnibus:                        1.041   Durbin-Watson:                   1.565
Prob(Omnibus):                  0.594   Jarque-Bera (JB):                0.308
Skew:                           0.141   Prob(JB):                        0.857
Kurtosis:                       3.355   Cond. No.                         654.
==============================================================================

Notes:
[1] Standard Errors assume that the covariance matrix of the errors is correctly specified.

Statsmodels 回归结果摘要,包括了各种统计量和诊断信息。以下是一些关键部分的解释:

模型整体评估

该回归模型的决定系数(R-squared)为0.946,调整后的决定系数(Adj. R-squared)为0.941。这表明模型能够解释94.1%到94.6%的”平均PR值(mean_pr)“的方差,说明模型对数据的拟合程度非常高。此外,F检验统计量(F-statistic)为185.4,对应的p值(Prob (F-statistic))为2.65e-20,远小于0.05,这意味着整个模型在统计上显著。

个别系数解释

  1. 常数项(const)

    • 回归系数(coef):0.7031
    • 标准误差(std err):0.030
    • t检验统计量(t):23.701
    • p值(P>|t|):0.000

    常数项表示当所有自变量(例如”平均辐照度(mean_irradiation)“、”平均限电损失(mean_curtailment_loss)“和”平均日发电量(mean_daily_generated_electrical)“)都为零时,”平均PR值(mean_pr)“的基线水平。由于p值非常小(< 0.05),常数项在统计上显著。

  2. 平均辐照度(mean_irradiation)

    • 回归系数(coef):-0.0334
    • 标准误差(std err):0.002
    • t检验统计量(t):-18.342
    • p值(P>|t|):0.000

    “平均辐照度(mean_irradiation)”与”平均PR值(mean_pr)“呈负相关关系。每增加一个单位的辐照度,PR值将减少约0.0334个单位。由于p值极小(< 0.05),该变量在统计上显著。

  3. 平均限电损失(mean_curtailment_loss)

    • 回归系数(coef):0.0011
    • 标准误差(std err):0.001
    • t检验统计量(t):1.003
    • p值(P>|t|):0.324

    “平均限电损失(mean_curtailment_loss)”对”平均PR值(mean_pr)“影响较小且不显著(p > 0.05)。这表明限电损失对PR值没有明显影响。

  4. 平均日发电量(mean_daily_generated_electrical)

    • 回归系数(coef):0.0087
    • 标准误差(std err):< 0 .001>
    • t检验统计量(t):20,930

建议

可以利用已经建立的多变量回归模型做后续的分析和考察:

  1. 敏感性分析
    • 通过改变某个变量(如温度或辐照量)的值,考察其对PR值的影响,评估光伏电站对不同环境条件的敏感性。
  2. 情景分析
    • 设定不同的环境条件(如不同的温度、辐照量、限电损失等),利用回归模型预测PR值和发电量,评估光伏电站在不同情景下的表现。
  3. 绩效评估
    • 利用回归模型的预测结果与实际数据进行对比,评估光伏电站的运行绩效,发现运营中的不足并加以改进。
  4. 优化策略制定
    • 根据回归模型的结果,制定提高PR值和发电量的优化策略,例如改善电站布局、调整设备维护计划、优化限电管理等。

通过这些分析和考察,光伏电站的运营管理者可以更好地理解和优化电站的运行,提高发电效率和经济效益。

3.5 因果性分析

本节旨在探讨影响PR值的关键因素,并通过Granger因果检验进行验证。在进行Granger因果检验时,探索不同变量组合间的因果关系尤为重要。鉴于不同变量之间可能存在复杂的交互作用,找到最有效且最显著的因果关系组合将有助于我们更好地理解系统动态,并优化光伏电站的运营与管理。具体步骤如下:

上述过程足以形成一份详尽的因果性分析报告,但由于篇幅限制,本次性能基准分析报告仅聚焦于因果性分析相关的单变量组合和多变量组合这两部分内容。

3.5.1 单变量组合

尽管我们已经进行了相关性分析,但某些变量即便在相关性分析中未显示出显著的相关性,理论上仍可能扮演重要角色。因此,我们不能仅仅基于相关性分析的结果就决定排除某个变量。

同样地,尽管PR值是基于发电量、装机容量和辐照数据这三个参数计算得出,而且日辐照量和日发电量与PR值直接相关,但在因果性分析中仍需深入考察这些变量。这样做不仅有助于验证数据的一致性和准确性,还能帮助我们理解环境和运营因素对PR值的具体影响,从而为后续的多元Granger因果检验及电站运营优化提供重要的参考信息。

Granger因果检验

lag F检验p值 卡方检验p值 似然比检验P值 参数检验P值
1 0.02 0.02 0.02 0.02
2 0.255 0.253 0.253 0.255
3 0.518 0.514 0.515 0.518
4 0.659 0.655 0.656 0.659
5 0.677 0.672 0.672 0.677
lag F检验p值 卡方检验p值 似然比检验P值 参数检验P值
1 0.501 0.5 0.5 0.501
2 0.477 0.475 0.475 0.477
3 0.481 0.478 0.478 0.481
4 0.564 0.56 0.56 0.564
5 0.695 0.69 0.691 0.695
lag F检验p值 卡方检验p值 似然比检验P值 参数检验P值
1 0.053 0.052 0.053 0.053
2 0.292 0.29 0.29 0.292
3 0.489 0.485 0.486 0.489
4 0.378 0.373 0.374 0.378
5 0.424 0.417 0.419 0.424
lag F检验p值 卡方检验p值 似然比检验P值 参数检验P值
1 0.013 0.013 0.013 0.013
2 0 0 0 0
3 0 0 0 0
4 0 0 0 0
5 0.001 0.001 0.001 0.001
lag F检验p值 卡方检验p值 似然比检验P值 参数检验P值
1 0.521 0.52 0.52 0.521
2 0.394 0.392 0.392 0.394
3 0.687 0.685 0.685 0.687
4 0.831 0.828 0.829 0.831
5 0.925 0.923 0.923 0.925
lag F检验p值 卡方检验p值 似然比检验P值 参数检验P值
1 0 0 0 0
2 0 0 0 0
3 0 0 0 0
4 0 0 0 0
5 0.001 0.001 0.001 0.001

结果分析

  1. 温度(averageTemperature)对PR值的影响
    • 在滞后期1,F检验、卡方检验、似然比检验和参数检验的p值均为0.02,表明在滞后期1时”平均温度(averageTemperature)“对”PR值(PR)“有显著的因果关系。
    • 从滞后期2到滞后期5,所有检验的p值均大于0.05,说明在这些滞后期内”平均温度(averageTemperature)“对”PR值(PR)“没有显著影响。
  2. 辐照量(dailyIrradiation)对PR值的影响
    • 在所有滞后期(从1到5),F检验、卡方检验、似然比检验和参数检验的p值都大于0.05。特别是在滞后期1,p值为0.501,这表明”日辐照量(dailyIrradiation)“对”PR值(PR)“没有显著的因果关系。
  3. 日照时数(dailyIlluminationHours)对PR值的影响
    • 在滞后期1,F检验、卡方检验、似然比检验和参数检验的p值接近显著性水平(0.053),这意味着在滞后期1时”日照时数(dailyIlluminationHours)“可能对”PR值(PR)“有一定程度上的影响,但未达到严格统计学意义上的显著性。
    • 从滞后期2到5,所有p值均大于0.05,因此在这些时期内没有显示出显著影响。
  4. 限电损失(curtailmentLoss)对PR值的影响
    • 在所有滞后期(从1到5),F检验、卡方检验、似然比检验和参数检验的p值均小于0.05,其中部分甚至为0。这表明”限电损失(curtailmentLoss)“与”PR值(PR)“之间存在非常强烈且持续性的因果关系。
  5. 发电量(dailyGeneratedElectrical)对PR值的影响
    • 在所有滞后期(从1到5),各项统计测试(p 值)均大于 0.05。例如,在滞后期 1 的 p 值为 0.521。这表明 “日发电量(dailyGeneratedElectrical)” 对 “PR 值 (PR)” 没有明显或持续性的因果关系。
  6. 利用小时数(useHours)对 PR 值 的影响
    • 在所有滞后期间 (从 1 到 5),各项统计测试(p 值) 均小于 0.05,并且部分 p 值甚至为 0。这表明 “利用小时数(useHours)” 与 ” PR 值 ( PR ) ” 存在非常强烈且持续性的因果关系。

结论

进一步分析建议

3.5.2 多变量组合

由于直接做多元Granger因果检验,输入各项数据的形状不符合模型的要求,所以使用向量自回归(VAR)模型。VAR 模型可以处理多个时间序列变量,并分析它们之间的相互影响。

多变量因果关系分析结果

下面是使用 VAR 模型进行多变量因果关系分析的结果,其中PR作为因变量(即被检验的变量),其他参数作为自变量(即用于预测因变量的变量):


Granger causality F-test. H_0: ['averageTemperature', 'dailyIrradiation', 'curtailmentLoss', 'dailyIlluminationHours', 'dailyGeneratedElectrical', 'useHours'] do not Granger-cause PR. Conclusion: reject H_0 at 5% significance level.
================================================
Test statistic Critical value p-value     df    
------------------------------------------------
         2.550          1.461   0.000 (30, 7238)
------------------------------------------------

模型整体评估

该回归模型的决定系数(R-squared)为0.946,调整后的决定系数(Adj. R-squared)为0.941。这表明模型能够解释94.1%到94.6%的”平均PR值(mean_pr)“的方差,说明模型对数据的拟合程度非常高。此外,F检验统计量(F-statistic)为185.4,对应的p值(Prob (F-statistic))为2.65e-20,远小于0.05,这意味着整个模型在统计上显著。

个别系数解释

  1. 常数项(const)

    • 回归系数(coef):0.7031
    • 标准误差(std err):0.030
    • t检验统计量(t):23.701
    • p值(P>|t|):0.000

    常数项表示当所有自变量(例如”平均辐照度(mean_irradiation)“、”平均限电损失(mean_curtailment_loss)“和”平均日发电量(mean_daily_generated_electrical)“)都为零时,”平均PR值(mean_pr)“的基线水平。由于p值非常小(< 0.05),常数项在统计上显著。

  2. 平均辐照度(mean_irradiation)

    • 回归系数(coef):-0.0334
    • 标准误差(std err):0.002
    • t检验统计量(t):-18.342
    • p值(P>|t|):0.000

    “平均辐照度(mean_irradiation)”与”平均PR值(mean_pr)“呈负相关关系。每增加一个单位的辐照度,PR值将减少约0.0334个单位。由于p值极小(< 0.05),该变量在统计上显著。

  3. 平均限电损失(mean_curtailment_loss)

    • 回归系数(coef):0.0011
    • 标准误差(std err):0.001
    • t检验统计量(t):1.003
    • p值(P>|t|):0.324

    “平均限电损失(mean_curtailment_loss)”对”平均PR值(mean_pr)“影响较小且不显著(p > 0.05)。这表明限电损失对PR值没有明显影响。

  4. 平均日发电量(mean_daily_generated_electrical)

    • 回归系数(coef):0.0087
    • 标准误差(std err):< 0 .001>
    • t检验统计量(t):20,930

3.6 分类分析

本章主要探讨分类分析对PR值进行高性能和低性能分类,分析高性能与低性能之间的差异。

3.6.1 工作步骤

  1. 高、低性能的PR值阈值

    首先,高性能和低性能之间的PR值阈值有两种依据可以选择:

    • IQR计算的阈值:利用数据的四分位距(IQR)计算PR值的界限。通常,高性能可以定义为高于第三四分位数(Q3),低性能可以定义为低于第一四分位数(Q1)。高性能阈值:0.85,低性能阈值:0.67。
    • 经验设置的阈值:直接应用电站根据经验设定的PR值阈值。高性能阈值:0.9;低性能阈值:0.7。
  2. 分类模型选择

    常用的分类模型有逻辑回归(Logistic Regression)、支持向量机(SVM)、决策树(Decision Trees)、随机森林(Random Forest)、K近邻(KNN)、朴素贝叶斯(Naive Bayes)等。 根据各自模型的特点及本报告的篇幅,本次分类模型同时选择了决策树(Decision Trees)、随机森林(Random Forest)和梯度提升树,以便找到更高的准确率和更好的泛化能力的模型。

  3. 特征选择

    根据相关性分析和因果分析的结果,选取的特征有:日发电量(万kw.h)(dailyGeneratedElectrical)、平均温度(℃)(averageTemperature)、利用小时(h)(useHours)、光伏电站PR值(PR)、日辐照量(MJ/m2)(dailyIrradiation)、限电损失电量(万kw.h)(curtailmentLoss)。

  4. 模型训练和验证

    • 将数据随机分为训练集和测试集(80%/20%)
    • 计算模型的准确率、精确率、召回率和F1-score等指标
    • 使用交叉验证(K折)评估模型的泛化能力
    • 做了超参数调优:使用网格搜索来找到最优的决策树参数
    • 特征重要性:分析哪些特征对模型的决策影响最大
    • 数据增强:使用SMOTE(合成少数类过采样技术)来平衡数据集,重新训练模型

3.6.2 模型训练成果

性能比较和模型选择

基于两种阈值,三种模型,共完成了6套训练模型,因篇幅现在只将准确率最高的结果打印如下(其余模型结果见附录):

    Accuracy:0.8511627906976744

 Confusion Matrix:[[ 56   0  11]
 [  0   8   7]
 [ 11   3 119]]

Classification Report:               precision    recall  f1-score   support

           0       0.84      0.84      0.84        67
           1       0.73      0.53      0.62        15
           2       0.87      0.89      0.88       133

    accuracy                           0.85       215
   macro avg       0.81      0.75      0.78       215
weighted avg       0.85      0.85      0.85       215
  1. 总体准确率(Accuracy):模型的总体准确率为 0.8511627906976744(约 85.1%),这意味着模型在所有测试样本中有 85.1% 的预测是正确的。

  2. 混淆矩阵(Confusion Matrix)

    • 类 0(低性能)
      • 总样本数:67(56 + 0 + 11)
      • 被正确分类:56
      • 被错误分类:11
    • 类 1(中性能)
      • 总样本数:15(0 + 8 + 7)
      • 被正确分类:8
      • 被错误分类:7
    • 类 2(高性能)
      • 总样本数:133(11 + 3 + 119)
      • 被正确分类:119
      • 被错误分类:14
  3. 分类报告

    • 类0(低性能):
      • 精确率(Precision):0.84,表示所有被预测为类 0 的样本中有 84% 是正确的。
      • 召回率(Recall):0.84,表示所有实际为类 0 的样本中有 84% 被正确分类。
      • F1 分数(F1-score):0.84,精确率和召回率的调和平均数。
      • 类1(中性能):
      • 精确率(Precision):0.73,表示所有被预测为类 1 的样本中有 73% 是正确的。
      • 召回率(Recall):0.53,表示所有实际为类 1 的样本中有 53% 被正确分类。
      • F1 分数(F1-score):0.62,精确率和召回率的调和平均数。
      • 类2(高性能):
      • 精确率(Precision):0.87,表示所有被预测为类 2 的样本中有 87% 是正确的。
      • 召回率(Recall):0.89,表示所有实际为类 2 的样本中有 89% 被正确分类。
      • F1 分数(F1-score):0.88,精确率和召回率的调和平均数。
  4. 宏平均(Macro avg):对每个类别的指标进行简单平均,不考虑类别的不平衡。

    • 精确率:0.81
    • 召回率:0.75
    • F1 分数:0.78
  5. 加权平均(Weighted avg):对每个类别的指标进行加权平均,考虑类别的不平衡。

    • 精确率:0.85
    • 召回率:0.85
    • F1 分数:0.85
  6. 交叉验证(Cross VAL):使用交叉验证来评估模型的稳定性和泛化能力。

    • 单次折叠结果

      • 第1次折叠: 78.60%
      • 第2次折叠: 83.26%
      • 第3次折叠: 84.65%
      • 第4次折叠: 85.12%
      • 第5次折叠: 86.51%
    • 平均交叉验证精度

      • 平均精度:所有折叠的精度分数的平均值为0.8362790697674418,这代表模型的总体稳定性和泛化能力。
  7. 超参数调优(Grid Search):使用网格搜索来找到最优的决策树参数。

    • 最优参数:{‘max_depth’: 10, ‘min_samples_leaf’: 1, ‘min_samples_split’: 2}
    • 最好成绩:0.8151162790697676
  8. 特征重要性(Feature Importances):哪些特征对模型的决策影响最大。

    • 特征:dailyIrradiation,重要性:0.37004479988301014
    • 特征:dailyGeneratedElectrical,重要性:0.28362770762348
    • 特征:curtailmentLoss,重要性:0.22971553180245263
    • 特征:useHours,重要性:0.062223420529108814
    • 特征:averageTemperature,重要性:0.05438854016194829
  9. 数据增强(过采样SMOTE): 平衡数据集,解决类别不平衡问题。使用SMOTE(合成少数类过采样技术)来平衡数据集,重新训练模型。

    • 平衡后的精度:0.7674418604651163(约 76.7%)
特征重要性

3.6.3 结论与总结

数据解读

  1. 总体模型表现
    梯度提升(Gradient Boosting)模型在基于经验设置的PR值阈值分类中表现最佳,准确率(Accuracy)达到了0.8511。这表明模型能够较好地区分高性能和低性能的光伏电站状态。F1-score也显示了不同类别之间的平衡性,特别是类别2(高性能)的F1-score为0.88,说明该模型对高性能电站的识别能力较强。

  2. 交叉验证
    交叉验证结果显示平均准确率为0.8363,且各折之间的波动不大(从0.786到0.865),这表明模型具有良好的泛化能力,不容易过拟合或欠拟合。交叉验证进一步证明了该梯度提升模型在不同数据集上的稳定性。

  3. 超参数调优
    最佳超参数组合为max_depth=10min_samples_leaf=1min_samples_split=2。这些参数表明决策树可以深入到较大的深度,并且允许叶节点包含少量样本,这可能有助于捕捉复杂的数据模式。然而,调优后的最佳得分为0.8139,比最终测试集上的准确率略低,这可能是由于数据增强或其他因素导致的差异。

  4. 特征重要性
    特征重要性分析显示”日辐照量(dailyIrradiation)“和”日发电量(dailyGeneratedElectrical)“是最关键的两个特征,分别占比36.88%和28.44%。这符合预期,因为光伏电站的发电效率与辐照量密切相关。”限电损失电量(curtailmentLoss)“的重要性也较高,占比22.99%,说明限电影响也是影响PR值的重要因素。

  5. 数据增强
    使用SMOTE技术进行数据增强后,平衡准确率(Balanced Accuracy)达到了0.7581。这意味着通过平衡类别分布,有效提高了对少数类(如低性能类别)的识别能力,但整体效果仍然需要进一步优化。

分类结果分析结论

  1. 模型有效性
    梯度提升模型在分类任务中的表现相当出色,总体准确率超过85%,并且在交叉验证中保持了稳定的表现。因此,该模型可以作为光伏电站PR值分类任务中的一个可靠工具,用于区分高性能与低性能状态。

  2. 特征重要性
    “日辐照量(dailyIrradiation)”和”日发电量(dailyGeneratedElectrical)“是影响PR值最显著的两个变量,这与光伏系统依赖太阳能资源直接相关。”限电损失电量(curtailmentLoss)“的重要性也不可忽视,它反映了外部环境对发电效率的不利影响。因此,在实际运营中,需要重点关注这些变量,以提高整体系统效率。

  3. 数据增强与平衡
    数据增强通过SMOTE技术改善了少数类样本(如低性能类别)的识别能力,但仍然存在一定局限。例如,对于类别1(中等性能),召回率仅为53%,说明即使经过数据增强,中等性能状态下的数据仍然难以被完全正确分类。这提示我们可能需要更多的数据或更精细化的特征工程来进一步优化这一部分。

  4. 类别分析
    从混淆矩阵来看,高性能类别(2类)具有最高的召回率(89%)和精确率(87%),而中等性能类别(1类)的表现相对较弱,其召回率仅为53%。这表明当前模型对于极端情况(高/低性能)有较好的区分能力,但对于介于两者之间的情况则存在一定误判风险。在实际应用中,可以考虑引入更多细粒度指标来帮助区分这些边界模糊的数据点。

  5. 环境因素影响
    “平均温度(averageTemperature)”虽然在特征重要性排名靠后,但它仍然对PR值有一定影响。温度过高会降低光伏组件效率,因此未来可以考虑将温度变化纳入更复杂的非线性建模框架,以更好地捕捉其潜在影响。此外,还可以结合其他环境因素,如湿度、风速等,以进一步完善预测模型。

  6. 调优方向
    尽管当前超参数调优已经取得了一定成果,但还可以尝试更多高级方法,如贝叶斯优化或遗传算法,以探索更广泛的参数空间。此外,可以考虑引入更多非线性的特征转换方法,例如多项式特征扩展或使用神经网络进行自动特征提取,从而提高对复杂关系建模能力。同时,也可以针对中等性能类别进行专门优化,提高其召回率和精确率。

总结

通过此次基于PR值阈值划分光伏电站运行状态,我们成功构建并评估了多个机器学习分类模型,其中梯度提升(Gradient Boosting)表现最佳,总体准确率达到85%以上,并且在交叉验证中展现出良好的泛化能力。主要发现包括:首先,“日辐照量(dailyIrradiation)”和“日发电量(dailyGeneratedElectrical)”是决定PR值的重要因素,而“限电损失(curtailmentLoss)”也起到了显著作用;其次,通过SMOTE技术进行的数据增强有效改善了少数类样本识别问题,但对于中间状态仍需进一步优化;最后,环境因素如“平均温度(averageTemperature)”虽然权重较小,但其潜在影响不容忽视,应继续探索其非线性的作用机制。在未来工作中,我们建议继续优化超参数,同时引入更多环境变量及高级特征工程手段,以进一步提升分类效果,为光伏产业提供更加精准、高效的数据支持

3.7 时间序列分析

本部分分析旨在探讨电站的PR值在年度和季节性层面的趋势和表现,以理解光伏电站发电效率随时间和季节的变化规律。

3.7.1 年度趋势分析

年度趋势图

年度PR值变化趋势

  1. 平均PR值(mean_pr)的长期趋势:从2021年到2023年,光伏电站的”平均PR值(mean_pr)“呈现出一定的波动性。2021年的”平均PR值(mean_pr)“较高,尤其是在4月和6月达到0.929和0.897,但在2022年有所下降,尤其是11月和12月分别降至0.7和0.727。到了2023年,”平均PR值(mean_pr)“继续下降,例如7月份仅为0.525。因此,总体来看,”平均PR值(mean_pr)“有一个逐渐下降的趋势。

  2. 最大最小PR值(max_pr, min_pr)的波动:最大最小PR值存在显著波动。例如,在2021年6月,“最大PR值(max_pr)”达到了1.272,而在同一年9月,“最小PR值(min_pr)”则低至0.352。同样地,在2023年4月,“最大PR值(max_pr)”达到了1.169,但在12月份出现了最小的极端情况,即”最小PR值(min_pr)“为0。这表明光伏电站在不同年份中经历了较大的性能波动。

  3. 波动性(标准差std_pr)的变化:从数据来看,不同月份之间的波动性差异较大。例如,在2021年的9月份,标准差(std_pr)达到了最高点,为0.189,而在其他月份,如2022年的6月份,其标准差仅为0.051,这表明该期间内系统运行相对稳定。然而,到2023年7月时,标准差再次上升到0.095,这意味着系统的不稳定性增加。

年度PR值分布特征

  1. 中位数(median_pr)及其代表的数据分布状态:中位数(median_pr)可以反映数据分布的中心位置。从数据来看,中位数与平均数接近,但在某些月份如2023年5月,中位数(0.642)略低于平均数(0.632),这可能暗示该期间内存在一些极端低效的数据点。此外,从整体上看,中位数随着时间推移也呈现出下降趋势,与前述的“平均PR”一致。

  2. 极端高低比例(pr_greater_0_95_ratio 和 pr_less_0_8_ratio)

    • “pr_greater_0_95_ratio”(大于 0.95 的 PR 值占比):这一比例自2021年以来逐渐减少。例如,在2021年的4月至6月,该比例分别为53%、24%和39%,而到2023年几乎没有超过 0.95 的 PR 值。
    • “pr_less_0_8_ratio”(小于 0.8 的 PR 值占比):这一比例则呈现上升趋势。例如,在2023年的5月至7月,小于 0.8 的 PR 值占比分别达到90%、93%和100%。这表明近年来光伏电站整体效率有所下降。

年度PR值与环境变量的关系

  1. 温度(mean_temperature):温度对光伏发电效率有显著影响。在夏季高温时段,如2023年的7、8两个月份,当”平均温度(mean_temperature)“分别达到24°C以上时,对应的”平均PR值(mean_pr)“却明显降低,仅为约 0.525 和 0.676。这说明高温可能导致组件效率下降,从而影响发电性能。

  2. 辐照量(mean_daily_generated_electrical):“日辐照量(mean_daily_generated_electrical)”与 PR 值之间存在一定关联。在辐照量较高的时候,例如在每年的夏季(如6-8 月),虽然理论上应该提高发电效率,但由于过热等原因实际效果并不理想。例如,在 2023 年 6 月份尽管辐照量很高(27 kWh/m²),但 PR 值却只有 0.616。

  3. 日照时长(mean_daily_generated_electrical):“日照时长(mean_daily_generated_electrical)”与 PR 值之间也存在一定关联。在日照时间较长的时候,如每年的夏季(例如7、8 月),虽然理论上应该提高发电效率,但由于过热等原因实际效果并不理想。特别是在 2023 年 7 月份尽管日照时长达到13小时以上,但 PR 值却只有约 52%。

限电影响

限电影响通过字段“限电损失(curtailment loss)”来衡量。从数据可以看到:

值得注意的是,有些年份如2019年或部分冬季月份,由于用电需求相对较少,因此限电影响相对较轻微,对系统表现影响有限。

总结

总体而言,从给定的数据集中可以观察到以下几点:

3.7.2 季节性分析

季节趋势图

季节性PR值变化趋势

从数据中可以看出,“PR值(Performance Ratio)”在不同季度之间存在明显的季节性波动。通常,“第二季度(Q2)”和”第三季度(Q3)“的”平均PR值(mean_pr)“较高,而”第一季度(Q1)“和”第四季度(Q4)“的PR值相对较低。例如,在2021年,Q2的平均PR值为0.897,而Q1仅为0.689。同样的趋势也出现在2022年和2023年,这表明光伏电站在春夏季(Q2、Q3)的发电效率更高,而在秋冬季(Q1、Q4)则有所下降。

此外,从标准差(“标准差(std_pr)”)来看,某些季度如2022年的Q1,其波动较大(std_pr = 0.195),而其他季度如2022年的Q2波动较小(std_pr = 0.067)。这可能与环境条件的不稳定性有关,如天气变化或设备维护等因素。

季节性PR值与环境变量的关系

通过分析”环境变量(environmental variables)“,我们可以发现:

综上所述,可以推测出:虽然温度升高可能会降低组件效率,但只要有足够长时间且强烈的太阳辐射,总体上的发电效率仍能维持在一个较好的水平。

限电影响

限电影响(“curtailment loss”)是影响光伏系统实际输出功率的重要因素之一。从数据中可以看到,不同年份和不同季节中的限电损失情况各不相同,并且对”PR值(PR value)“产生了显著影响。

例如:

因此,我们可以得出结论:随着限电影响增加,会直接导致系统无法充分利用可用资源,从而降低整体发电效率。因此,需要特别关注那些限电影响大的时期,以优化调度策略并减少不必要的能源浪费。

总结

通过分析多个年度的数据,可以总结出以下几点:

  1. 显著上升或下降年份及原因
    • 2021年第二季度(Q2)是一个显著上升期,其主要原因是该期间内良好的气候条件,包括适宜的温度(16°C)、充足的辐射(19 kWh/m²)以及最少程度上的限电影响。这使得这一时期成为全年中表现最好的阶段。
    • 相反地,2023年第三、第四两个季度出现了明显下降。尤其是在第三季度,由于极高的限电影响(14 kWh/m²)以及相对炎热天气(22°C以上),导致该阶段内系统表现不佳。此外,这一时期还伴随着大量低于预期水平的小于0.8 PR比例(pr_less_0_8_ratio)。
  2. 年度间的一致性与差异
    • 各个年度之间存在一定的一致性,即每年的第二、三两个季节通常表现最好,而第一、四两个季节则受制于寒冷天气及短暂日照时间而表现欠佳。
    • 然而,不同年份之间也存在一些差异。例如,相比于前两年,2023年整体表现偏弱,这可能与更频繁或严重的限电影响以及气候异常有关。

总体而言,通过深入分析这些数据,我们能够更好地理解光伏系统在不同环境条件下如何运行,并据此制定更加合理有效的发展策略以提高整体运营效益。

4. 结论与建议

4.1 结论

  1. PR值整体下降趋势:从2021年到2023年,光伏电站的PR值呈现明显下降趋势,尤其是2023年,PR均值显著低于前两年。这表明电站的发电效率在逐步恶化。

  2. 高性能天数减少:高性能PR值的占比从2021年的17.8%下降到2023年的3%,而低性能PR值的占比则从24.6%上升到52.7%。这意味着光伏电站的运行效率大幅降低。

  3. 限电影响加剧:限电损失逐渐增加,从2021年的2754万kWh上升到2023年的3786万kWh,对整体发电量产生了负面影响。

  4. 设备或管理问题导致效率下降:尽管环境条件(如温度和辐照量)没有显著变化,但设备故障、维护不当或管理问题可能是导致PR值下降的重要原因。

  5. 异常数据较少但需关注:每年异常数据数量相对较少,但需要进一步分析这些异常数据是否对整体结论有重大影响,特别是由人为因素和设备故障引起的异常情况。

  6. 回归模型拟合效果良好:多变量回归模型能够解释94%以上的PR值方差,说明该模型对数据有很好的拟合效果。平均日发电量与PR值呈正相关,而平均辐照度与其呈负相关。

  7. 季节性波动明显:每年的第二季度通常表现最好,而第三、第四季度由于高温天气和限电影响,表现较差。尤其是2023年第三季度,由于极端气候条件和限电影响,系统表现尤为不佳。

  8. 环境因素影响显著:温度、辐照量等环境因素对光伏系统性能有重要影响。特别是在夏季,高温会导致组件效率降低,而过多或过少的辐射都会使得系统无法保持最佳工作状态。

4.2 建议

  1. 加强设备维护与管理
    • 建立设备全生命周期管理体系,通过定期检查、保养和维护来延长设备寿命,并减少因设备故障导致的发电效率下降。
    • 针对已经识别出的内部设备故障问题,应立即采取措施进行修复,以避免进一步恶化。
  2. 优化运维策略以应对限电影响
    • 制定更灵活的调度计划,以减少限电影响带来的损失。可以考虑通过储能技术来平衡供需关系,从而降低限电损失。
    • 与当地政府及电网公司协商,争取更多用电配额,以减轻外部人为因素(如调峰、断面受限等)带来的负面影响。
  3. 实时监控与异常检测系统开发
    • 利用已经建立的回归模型开发实时异常检测系统,通过实时监测关键指标(如日发电量、辐照量等),及时发现并处理异常情况。
    • 实现自动化异常处理功能,将人��干预降至最低,提高运营效率,并确保数据准确性。
  4. 引入精准预测模型进行预估分析
    • 利用深度学习技术构建更为精准的预测模型,用于提前预估未来几天或几周内可能出现的PR值变化趋势,以及潜在发电量和限电影响。
    • 在预测模型中引入更多外部变量,如天气预报、电网需求等,以提高预测精度,为决策提供支持。
  5. 敏感性分析以优化运营策略
    • 基于多变量回归模型进行敏感性分析,通过改变不同环境条件(如温度、辐照量)的输入参数来评估其对PR值和发电效率的影响,从而制定针对性的优化策略。
  6. 提升分类算法精度以改进运营决策支持
    • 继续优化机器学习分类算法(如梯度提升),并引入更多高级特征工程手段,以提高分类精确率。这将帮助更好地识别高效与低效运行状态,并据此调整运营策略。
  7. 加强季节性调控措施以应对气候波动
    • 针对夏季高温天气导致组件性能受损的问题,可以考虑采用冷却技术或选择耐热性更强的新型组件材料。此外,在冬季短暂日照时段,应合理安排检修时间,以最大化利用有效日照资源。
  8. 持续跟踪并优化长期趋势分析结果
    • 定期更新并审视年度及季度趋势分析结果,根据最新的数据调整长期规划。例如,如果未来几年仍然存在类似于2023年的下滑趋势,则需要重新评估整个项目投资回报率,并适时调整战略方向。

5. 附录和参考资料

5.1 原始数据集

(略)

5.2 图表和图形

展示PR值数据分布情况。

PR值月度数据分布

识别出PR值高性能和低性能的变化趋势。 极端值占比

通过方差与标准差,了解每年PR值的波动性和稳定性。 波动性分析

比较不同时期内同一季度的变化。 同季节的年度比较

展示各季度在全年的重要性。 季度PR值当年占比

比较不同时期的PR值分布,展示变化和异常值。

PR值月度分布(原始数据)
PR值季度分布(原始数据)
PR值 有效数据箱线图

考察线性相关性。

年度数据 PR值与各因素的线性相关性热力图
季度数据 PR值与各因素的线性相关性热力图
月度数据 PR值与各因素的线性相关性热力图

考察非线性相关性。

年度数据 PR值与各因素的非线性相关性热力图
季度数据 PR值与各因素的非线性相关性热力图
月度数据 PR值与各因素的非线性相关性热力图

VAR模型中,残差指的是模型预测值与实际观测值之间的差异。

VAR模型的残差

VAR模型中,PR值作为脉冲变量(即因变量),对其他变量的脉冲响应。方差分解帮助量化每个变量在预测误差中的贡献度

PR值未来10期的脉冲响应

VAR模型中,方差分解帮助量化每个变量在预测误差中的贡献度。

PR值未来10期的方差分解

5.3 分类分析的训练模型

    Accuracy:0.8511627906976744

 Confusion Matrix:[[ 56   0  11]
 [  0   8   7]
 [ 11   3 119]]

Classification Report:               precision    recall  f1-score   support

           0       0.84      0.84      0.84        67
           1       0.73      0.53      0.62        15
           2       0.87      0.89      0.88       133

    accuracy                           0.85       215
   macro avg       0.81      0.75      0.78       215
weighted avg       0.85      0.85      0.85       215
  1. 总体准确率(Accuracy):模型的总体准确率为 0.7534883720930232(约 75.3%),这意味着模型在所有测试样本中有 75.3% 的预测是正确的。

  2. 混淆矩阵(Confusion Matrix)

    • 类 0(低性能)
      • 总样本数:58(39 + 4 + 15)
      • 被正确分类:39
      • 被错误分类:19
    • 类 1(中性能)
      • 总样本数:40(1 + 29 + 10)
      • 被正确分类:29
      • 被错误分类:11
    • 类 2(高性能)
      • 总样本数:117(4 + 19 + 94)
      • 被正确分类:94
      • 被错误分类:23
  3. 分类报告

    • 类0(低性能):
      • 精确率(Precision):0.89,表示所有被预测为类 0 的样本中有 89% 是正确的。
      • 召回率(Recall):0.67,表示所有实际为类 0 的样本中有 67% 被正确分类。
      • F1 分数(F1-score):0.76,精确率和召回率的调和平均数。
      • 类1(中性能):
      • 精确率(Precision):0.56,表示所有被预测为类 1 的样本中有 56% 是正确的。
      • 召回率(Recall):0.72,表示所有实际为类 1 的样本中有 72% 被正确分类。
      • F1 分数(F1-score):0.63,精确率和召回率的调和平均数。
      • 类2(高性能):
      • 精确率(Precision):0.79,表示所有被预测为类 2 的样本中有 79% 是正确的。
      • 召回率(Recall):0.8,表示所有实际为类 2 的样本中有 80% 被正确分类。
      • F1 分数(F1-score):0.80,精确率和召回率的调和平均数。
  4. 宏平均(Macro avg):对每个类别的指标进行简单平均,不考虑类别的不平衡。

    • 精确率:0.74
    • 召回率:0.73
    • F1 分数:0.73
  5. 加权平均(Weighted avg):对每个类别的指标进行加权平均,考虑类别的不平衡。

    • 精确率:0.77
    • 召回率:0.75
    • F1 分数:0.76
  6. 交叉验证(Cross VAL):使用交叉验证来评估模型的稳定性和泛化能力。

    • 单次折叠结果

      • 第1次折叠: 68.37%
      • 第2次折叠: 71.16%
      • 第3次折叠: 69.77%
      • 第4次折叠: 71.63%
      • 第5次折叠: 79.07%
    • 平均交叉验证精度

      • 平均精度:所有折叠的精度分数的平均值为0.72,这代表模型的总体稳定性和泛化能力。
  7. 超参数调优(Grid Search):使用网格搜索来找到最优的决策树参数。

    • 最优参数:{‘max_depth’: 10, ‘min_samples_leaf’: 5, ‘min_samples_split’: 2}
    • 最好成绩:0.7558139534883721
  8. 特征重要性(Feature Importances):哪些特征对模型的决策影响最大。

    • 特征:dailyIrradiation,重要性:0.37004479988301014
    • 特征:dailyGeneratedElectrical,重要性:0.28362770762348
    • 特征:curtailmentLoss,重要性:0.22971553180245263
    • 特征:useHours,重要性:0.062223420529108814
    • 特征:averageTemperature,重要性:0.05438854016194829
  9. 数据增强(过采样SMOTE): 平衡数据集,解决类别不平衡问题。使用SMOTE(合成少数类过采样技术)来平衡数据集,重新训练模型。

    • 平衡后的精度:0.7767441860465116(约 77.7%)
    Accuracy:0.8511627906976744

 Confusion Matrix:[[ 56   0  11]
 [  0   8   7]
 [ 11   3 119]]

Classification Report:               precision    recall  f1-score   support

           0       0.84      0.84      0.84        67
           1       0.73      0.53      0.62        15
           2       0.87      0.89      0.88       133

    accuracy                           0.85       215
   macro avg       0.81      0.75      0.78       215
weighted avg       0.85      0.85      0.85       215
  1. 总体准确率(Accuracy):模型的总体准确率为 0.8046511627906977(约 80.5%),这意味着模型在所有测试样本中有 80.5% 的预测是正确的。

  2. 混淆矩阵(Confusion Matrix)

    • 类 0(低性能)
      • 总样本数:58(39 + 1 + 18)
      • 被正确分类:39
      • 被错误分类:19
    • 类 1(中性能)
      • 总样本数:40(0 + 33 + 7)
      • 被正确分类:33
      • 被错误分类:7
    • 类 2(高性能)
      • 总样本数:117(2 + 14 + 101)
      • 被正确分类:101
      • 被错误分类:16
  3. 分类报告

    • 类0(低性能):
      • 精确率(Precision):0.95,表示所有被预测为类 0 的样本中有 95% 是正确的。
      • 召回率(Recall):0.67,表示所有实际为类 0 的样本中有 67% 被正确分类。
      • F1 分数(F1-score):0.79,精确率和召回率的调和平均数。
      • 类1(中性能):
      • 精确率(Precision):0.69,表示所有被预测为类 1 的样本中有 69% 是正确的。
      • 召回率(Recall):0.82,表示所有实际为类 1 的样本中有 82% 被正确分类。
      • F1 分数(F1-score):0.75,精确率和召回率的调和平均数。
      • 类2(高性能):
      • 精确率(Precision):0.8,表示所有被预测为类 2 的样本中有 80% 是正确的。
      • 召回率(Recall):0.86,表示所有实际为类 2 的样本中有 86% 被正确分类。
      • F1 分数(F1-score):0.83,精确率和召回率的调和平均数。
  4. 宏平均(Macro avg):对每个类别的指标进行简单平均,不考虑类别的不平衡。

    • 精确率:0.81
    • 召回率:0.79
    • F1 分数:0.79
  5. 加权平均(Weighted avg):对每个类别的指标进行加权平均,考虑类别的不平衡。

    • 精确率:0.82
    • 召回率:0.80
    • F1 分数:0.80
  6. 交叉验证(Cross VAL):使用交叉验证来评估模型的稳定性和泛化能力。

    • 单次折叠结果

      • 第1次折叠: 66.98%
      • 第2次折叠: 80.93%
      • 第3次折叠: 77.21%
      • 第4次折叠: 71.63%
      • 第5次折叠: 80.00%
    • 平均交叉验证精度

      • 平均精度:所有折叠的精度分数的平均值为0.7534883720930232,这代表模型的总体稳定性和泛化能力。
  7. 超参数调优(Grid Search):使用网格搜索来找到最优的决策树参数。

    • 最优参数:{‘max_depth’: 10, ‘min_samples_leaf’: 5, ‘min_samples_split’: 2}
    • 最好成绩:0.7558139534883721
  8. 特征重要性(Feature Importances):哪些特征对模型的决策影响最大。

    • 特征:dailyIrradiation,重要性:0.37004479988301014
    • 特征:dailyGeneratedElectrical,重要性:0.28362770762348
    • 特征:curtailmentLoss,重要性:0.22971553180245263
    • 特征:useHours,重要性:0.062223420529108814
    • 特征:averageTemperature,重要性:0.05438854016194829
  9. 数据增强(过采样SMOTE): 平衡数据集,解决类别不平衡问题。使用SMOTE(合成少数类过采样技术)来平衡数据集,重新训练模型。

    • 平衡后的精度:0.7767441860465116(约 77.7%)
    Accuracy:0.8511627906976744

 Confusion Matrix:[[ 56   0  11]
 [  0   8   7]
 [ 11   3 119]]

Classification Report:               precision    recall  f1-score   support

           0       0.84      0.84      0.84        67
           1       0.73      0.53      0.62        15
           2       0.87      0.89      0.88       133

    accuracy                           0.85       215
   macro avg       0.81      0.75      0.78       215
weighted avg       0.85      0.85      0.85       215
  1. 总体准确率(Accuracy):模型的总体准确率为 0.8418604651162791(约 84.2%),这意味着模型在所有测试样本中有 84.2% 的预测是正确的。

  2. 混淆矩阵(Confusion Matrix)

    • 类 0(低性能)
      • 总样本数:58(45 + 0 + 13)
      • 被正确分类:45
      • 被错误分类:13
    • 类 1(中性能)
      • 总样本数:40(0 + 34 + 6)
      • 被正确分类:34
      • 被错误分类:6
    • 类 2(高性能)
      • 总样本数:117(1 + 14 + 102)
      • 被正确分类:102
      • 被错误分类:15
  3. 分类报告

    • 类0(低性能):
      • 精确率(Precision):0.98,表示所有被预测为类 0 的样本中有 98% 是正确的。
      • 召回率(Recall):0.78,表示所有实际为类 0 的样本中有 78% 被正确分类。
      • F1 分数(F1-score):0.87,精确率和召回率的调和平均数。
      • 类1(中性能):
      • 精确率(Precision):0.71,表示所有被预测为类 1 的样本中有 71% 是正确的。
      • 召回率(Recall):0.85,表示所有实际为类 1 的样本中有 85% 被正确分类。
      • F1 分数(F1-score):0.77,精确率和召回率的调和平均数。
      • 类2(高性能):
      • 精确率(Precision):0.84,表示所有被预测为类 2 的样本中有 84% 是正确的。
      • 召回率(Recall):0.87,表示所有实际为类 2 的样本中有 87% 被正确分类。
      • F1 分数(F1-score):0.86,精确率和召回率的调和平均数。
  4. 宏平均(Macro avg):对每个类别的指标进行简单平均,不考虑类别的不平衡。

    • 精确率:0.84
    • 召回率:0.83
    • F1 分数:0.83
  5. 加权平均(Weighted avg):对每个类别的指标进行加权平均,考虑类别的不平衡。

    • 精确率:0.85
    • 召回率:0.84
    • F1 分数:0.84
  6. 交叉验证(Cross VAL):使用交叉验证来评估模型的稳定性和泛化能力。

    • 单次折叠结果

      • 第1次折叠: 71.16%
      • 第2次折叠: 80.00%
      • 第3次折叠: 78.60%
      • 第4次折叠: 77.21%
      • 第5次折叠: 84.65%
    • 平均交叉验证精度

      • 平均精度:所有折叠的精度分数的平均值为0.7832558139534884,这代表模型的总体稳定性和泛化能力。
  7. 超参数调优(Grid Search):使用网格搜索来找到最优的决策树参数。

    • 最优参数:{‘max_depth’: 10, ‘min_samples_leaf’: 5, ‘min_samples_split’: 2}
    • 最好成绩:0.7558139534883721
  8. 特征重要性(Feature Importances):哪些特征对模型的决策影响最大。

    • 特征:dailyIrradiation,重要性:0.37004479988301014
    • 特征:dailyGeneratedElectrical,重要性:0.28362770762348
    • 特征:curtailmentLoss,重要性:0.22971553180245263
    • 特征:useHours,重要性:0.062223420529108814
    • 特征:averageTemperature,重要性:0.05438854016194829
  9. 数据增强(过采样SMOTE): 平衡数据集,解决类别不平衡问题。使用SMOTE(合成少数类过采样技术)来平衡数据集,重新训练模型。

    • 平衡后的精度:0.7767441860465116(约 77.7%)
    Accuracy:0.8511627906976744

 Confusion Matrix:[[ 56   0  11]
 [  0   8   7]
 [ 11   3 119]]

Classification Report:               precision    recall  f1-score   support

           0       0.84      0.84      0.84        67
           1       0.73      0.53      0.62        15
           2       0.87      0.89      0.88       133

    accuracy                           0.85       215
   macro avg       0.81      0.75      0.78       215
weighted avg       0.85      0.85      0.85       215
  1. 总体准确率(Accuracy):模型的总体准确率为 0.813953488372093(约 81.4%),这意味着模型在所有测试样本中有 81.4% 的预测是正确的。

  2. 混淆矩阵(Confusion Matrix)

    • 类 0(低性能)
      • 总样本数:67(52 + 2 + 13)
      • 被正确分类:52
      • 被错误分类:15
    • 类 1(中性能)
      • 总样本数:15(0 + 11 + 4)
      • 被正确分类:11
      • 被错误分类:4
    • 类 2(高性能)
      • 总样本数:133(13 + 8 + 112)
      • 被正确分类:112
      • 被错误分类:21
  3. 分类报告

    • 类0(低性能):
      • 精确率(Precision):0.8,表示所有被预测为类 0 的样本中有 80% 是正确的。
      • 召回率(Recall):0.78,表示所有实际为类 0 的样本中有 78% 被正确分类。
      • F1 分数(F1-score):0.79,精确率和召回率的调和平均数。
      • 类1(中性能):
      • 精确率(Precision):0.52,表示所有被预测为类 1 的样本中有 52% 是正确的。
      • 召回率(Recall):0.73,表示所有实际为类 1 的样本中有 73% 被正确分类。
      • F1 分数(F1-score):0.61,精确率和召回率的调和平均数。
      • 类2(高性能):
      • 精确率(Precision):0.87,表示所有被预测为类 2 的样本中有 87% 是正确的。
      • 召回率(Recall):0.84,表示所有实际为类 2 的样本中有 84% 被正确分类。
      • F1 分数(F1-score):0.85,精确率和召回率的调和平均数。
  4. 宏平均(Macro avg):对每个类别的指标进行简单平均,不考虑类别的不平衡。

    • 精确率:0.73
    • 召回率:0.78
    • F1 分数:0.75
  5. 加权平均(Weighted avg):对每个类别的指标进行加权平均,考虑类别的不平衡。

    • 精确率:0.82
    • 召回率:0.81
    • F1 分数:0.82
  6. 交叉验证(Cross VAL):使用交叉验证来评估模型的稳定性和泛化能力。

    • 单次折叠结果

      • 第1次折叠: 80.93%
      • 第2次折叠: 78.60%
      • 第3次折叠: 78.14%
      • 第4次折叠: 81.86%
      • 第5次折叠: 80.00%
    • 平均交叉验证精度

      • 平均精度:所有折叠的精度分数的平均值为0.7990697674418603,这代表模型的总体稳定性和泛化能力。
  7. 超参数调优(Grid Search):使用网格搜索来找到最优的决策树参数。

    • 最优参数:{‘max_depth’: 10, ‘min_samples_leaf’: 1, ‘min_samples_split’: 2}
    • 最好成绩:0.8151162790697676
  8. 特征重要性(Feature Importances):哪些特征对模型的决策影响最大。

    • 特征:dailyIrradiation,重要性:0.37004479988301014
    • 特征:dailyGeneratedElectrical,重要性:0.28362770762348
    • 特征:curtailmentLoss,重要性:0.22971553180245263
    • 特征:useHours,重要性:0.062223420529108814
    • 特征:averageTemperature,重要性:0.05438854016194829
  9. 数据增强(过采样SMOTE): 平衡数据集,解决类别不平衡问题。使用SMOTE(合成少数类过采样技术)来平衡数据集,重新训练模型。

    • 平衡后的精度:0.7674418604651163(约 76.7%)
    Accuracy:0.8511627906976744

 Confusion Matrix:[[ 56   0  11]
 [  0   8   7]
 [ 11   3 119]]

Classification Report:               precision    recall  f1-score   support

           0       0.84      0.84      0.84        67
           1       0.73      0.53      0.62        15
           2       0.87      0.89      0.88       133

    accuracy                           0.85       215
   macro avg       0.81      0.75      0.78       215
weighted avg       0.85      0.85      0.85       215
  1. 总体准确率(Accuracy):模型的总体准确率为 0.7906976744186046(约 79.1%),这意味着模型在所有测试样本中有 79.1% 的预测是正确的。

  2. 混淆矩阵(Confusion Matrix)

    • 类 0(低性能)
      • 总样本数:67(52 + 1 + 14)
      • 被正确分类:52
      • 被错误分类:15
    • 类 1(中性能)
      • 总样本数:15(0 + 8 + 7)
      • 被正确分类:8
      • 被错误分类:7
    • 类 2(高性能)
      • 总样本数:133(17 + 6 + 110)
      • 被正确分类:110
      • 被错误分类:23
  3. 分类报告

    • 类0(低性能):
      • 精确率(Precision):0.75,表示所有被预测为类 0 的样本中有 75% 是正确的。
      • 召回率(Recall):0.78,表示所有实际为类 0 的样本中有 78% 被正确分类。
      • F1 分数(F1-score):0.76,精确率和召回率的调和平均数。
      • 类1(中性能):
      • 精确率(Precision):0.53,表示所有被预测为类 1 的样本中有 53% 是正确的。
      • 召回率(Recall):0.53,表示所有实际为类 1 的样本中有 53% 被正确分类。
      • F1 分数(F1-score):0.53,精确率和召回率的调和平均数。
      • 类2(高性能):
      • 精确率(Precision):0.84,表示所有被预测为类 2 的样本中有 84% 是正确的。
      • 召回率(Recall):0.83,表示所有实际为类 2 的样本中有 83% 被正确分类。
      • F1 分数(F1-score):0.83,精确率和召回率的调和平均数。
  4. 宏平均(Macro avg):对每个类别的指标进行简单平均,不考虑类别的不平衡。

    • 精确率:0.71
    • 召回率:0.71
    • F1 分数:0.71
  5. 加权平均(Weighted avg):对每个类别的指标进行加权平均,考虑类别的不平衡。

    • 精确率:0.79
    • 召回率:0.79
    • F1 分数:0.79
  6. 交叉验证(Cross VAL):使用交叉验证来评估模型的稳定性和泛化能力。

    • 单次折叠结果

      • 第1次折叠: 72.56%
      • 第2次折叠: 78.60%
      • 第3次折叠: 80.93%
      • 第4次折叠: 80.93%
      • 第5次折叠: 80.47%
    • 平均交叉验证精度

      • 平均精度:所有折叠的精度分数的平均值为0.7869767441860465,这代表模型的总体稳定性和泛化能力。
  7. 超参数调优(Grid Search):使用网格搜索来找到最优的决策树参数。

    • 最优参数:{‘max_depth’: 10, ‘min_samples_leaf’: 1, ‘min_samples_split’: 2}
    • 最好成绩:0.8151162790697676
  8. 特征重要性(Feature Importances):哪些特征对模型的决策影响最大。

    • 特征:dailyIrradiation,重要性:0.37004479988301014
    • 特征:dailyGeneratedElectrical,重要性:0.28362770762348
    • 特征:curtailmentLoss,重要性:0.22971553180245263
    • 特征:useHours,重要性:0.062223420529108814
    • 特征:averageTemperature,重要性:0.05438854016194829
  9. 数据增强(过采样SMOTE): 平衡数据集,解决类别不平衡问题。使用SMOTE(合成少数类过采样技术)来平衡数据集,重新训练模型。

    • 平衡后的精度:0.7674418604651163(约 76.7%)
    Accuracy:0.8511627906976744

 Confusion Matrix:[[ 56   0  11]
 [  0   8   7]
 [ 11   3 119]]

Classification Report:               precision    recall  f1-score   support

           0       0.84      0.84      0.84        67
           1       0.73      0.53      0.62        15
           2       0.87      0.89      0.88       133

    accuracy                           0.85       215
   macro avg       0.81      0.75      0.78       215
weighted avg       0.85      0.85      0.85       215
  1. 总体准确率(Accuracy):模型的总体准确率为 0.8511627906976744(约 85.1%),这意味着模型在所有测试样本中有 85.1% 的预测是正确的。

  2. 混淆矩阵(Confusion Matrix)

    • 类 0(低性能)
      • 总样本数:67(56 + 0 + 11)
      • 被正确分类:56
      • 被错误分类:11
    • 类 1(中性能)
      • 总样本数:15(0 + 8 + 7)
      • 被正确分类:8
      • 被错误分类:7
    • 类 2(高性能)
      • 总样本数:133(11 + 3 + 119)
      • 被正确分类:119
      • 被错误分类:14
  3. 分类报告

    • 类0(低性能):
      • 精确率(Precision):0.84,表示所有被预测为类 0 的样本中有 84% 是正确的。
      • 召回率(Recall):0.84,表示所有实际为类 0 的样本中有 84% 被正确分类。
      • F1 分数(F1-score):0.84,精确率和召回率的调和平均数。
      • 类1(中性能):
      • 精确率(Precision):0.73,表示所有被预测为类 1 的样本中有 73% 是正确的。
      • 召回率(Recall):0.53,表示所有实际为类 1 的样本中有 53% 被正确分类。
      • F1 分数(F1-score):0.62,精确率和召回率的调和平均数。
      • 类2(高性能):
      • 精确率(Precision):0.87,表示所有被预测为类 2 的样本中有 87% 是正确的。
      • 召回率(Recall):0.89,表示所有实际为类 2 的样本中有 89% 被正确分类。
      • F1 分数(F1-score):0.88,精确率和召回率的调和平均数。
  4. 宏平均(Macro avg):对每个类别的指标进行简单平均,不考虑类别的不平衡。

    • 精确率:0.81
    • 召回率:0.75
    • F1 分数:0.78
  5. 加权平均(Weighted avg):对每个类别的指标进行加权平均,考虑类别的不平衡。

    • 精确率:0.85
    • 召回率:0.85
    • F1 分数:0.85
  6. 交叉验证(Cross VAL):使用交叉验证来评估模型的稳定性和泛化能力。

    • 单次折叠结果

      • 第1次折叠: 78.60%
      • 第2次折叠: 83.26%
      • 第3次折叠: 84.65%
      • 第4次折叠: 85.12%
      • 第5次折叠: 86.51%
    • 平均交叉验证精度

      • 平均精度:所有折叠的精度分数的平均值为0.8362790697674418,这代表模型的总体稳定性和泛化能力。
  7. 超参数调优(Grid Search):使用网格搜索来找到最优的决策树参数。

    • 最优参数:{‘max_depth’: 10, ‘min_samples_leaf’: 1, ‘min_samples_split’: 2}
    • 最好成绩:0.8151162790697676
  8. 特征重要性(Feature Importances):哪些特征对模型的决策影响最大。

    • 特征:dailyIrradiation,重要性:0.37004479988301014
    • 特征:dailyGeneratedElectrical,重要性:0.28362770762348
    • 特征:curtailmentLoss,重要性:0.22971553180245263
    • 特征:useHours,重要性:0.062223420529108814
    • 特征:averageTemperature,重要性:0.05438854016194829
  9. 数据增强(过采样SMOTE): 平衡数据集,解决类别不平衡问题。使用SMOTE(合成少数类过采样技术)来平衡数据集,重新训练模型。

    • 平衡后的精度:0.7674418604651163(约 76.7%)

5.4 PR值及计算公式

计算PR值的主要目的是评估光伏电站的性能和运行状况。通过对比实际发电量与理想条件下的发电量,可以了解到电站的运行是否达到预期效果,同时也可以帮助识别系统中存在的问题,比如设备故障、遮挡损失、维护不当等因素导致的发电量下降。此外,PR值还可以用于比较不同光伏电站的性能,帮助投资者、运营商做出更好的决策。

计算PR值的基本公式如下:

PR值=发电量/(装机容量 * (辐照数据/3.6))

5.5 概念与工具说明

  1. 统计指标
  1. 统计方法
  1. 数据可视化工具

5.6 技术术语和定义

这些措施通常是电力系统运行过程中为保证系统稳定、安全、经济运行而采取的不同方式。它们各自针对不同的问题,并且在实际应用中往往是相互配合使用的。

5.7 致谢