Towards a Platform for Benchmarking Large Language Models

Abstract

This dissertation presents the development of a comprehensive platform for evaluating large language models (LLMs) through benchmarking coding tasks with established datasets, including HumanEval-X, MBPP+ and CyberSecEval. The primary objective of this platform is to assess not only the effectiveness, energy efficiency and runtime of LLMs in generating code but also their security implications in software development scenarios. By focusing on these critical aspects, the research aims to provide insights into the practical applications of LLMs in various programming contexts.

The document thoroughly explores the project’s context, motivation and objectives, emphasizing the transformative influence of advanced LLMs, such as GPT-4 and Llama-2, on the software development landscape. It investigates the challenges associated with the energy consumption of LLMs, particularly when represented as quantized models - simplified (and smaller) models that are easier to run on hardware with limited resources - analysing their performance and resource requirements across different programming languages and prompt engineering techniques.

The findings showed that energy consumption and runtime varied among different LLMs based on the benchmark, programming language and prompting type (0-shot vs 3-shot). Overall, 3-shot prompting led to lower energy consumption and faster runtime than 0-shot prompting. Pass@10 outperformed pass@1, and SacreBLEU and GoogleBLEU scores improved with 3-shot prompting, while CodeBLEU scores decreased.

Additionally, the research highlights the findings from the CyberSecEval benchmark, which evaluates the security of generated code, revealing vulnerabilities inherent in the outputs of various LLMs. This underscores the critical need to consider security alongside energy efficiency and execution time when selecting an LLM for software development.

Through an extensive analysis of LLM performance metrics, including functional correctness and code quality, this dissertation contributes to the advancement of sustainable software engineering practices. By prioritizing sustainability and security in LLM deployment, it offers a complete approach to software development that follows the recent, but important, sustainable principles in software development.

Alternate abstract:

Esta dissertação apresenta o desenvolvimento de uma plataforma abrangente para a avaliação de large language models (LLMs) através de tarefas de benchmarking com datasets estabelecidos, incluindo HumanEval-X, MBPP+ e CyberSecEval. O principal objetivo desta plataforma é avaliar não apenas a eficácia, eficiência energética e tempo de execução dos LLMs na geração de código, mas também as suas implicações de segurança em cenários de desenvolvimento de software. Ao focar-se nestes aspetos críticos, a investigação pretende fornecer insights sobre as aplicações práticas dos LLMs em vários contextos de programação.

O documento analisa o contexto, a motivação e os objetivos do projeto, destacando a influência dos LLMs, como o GPT-4 e o Llama-2, no desenvolvimento de software. Discute os desafios do consumo de energia dos LLMs, especialmente quando são representados como modelos quantizados - modelos menores que funcionam melhor em hardware com recursos limitados - e examina o seu desempenho e requisitos em diferentes linguagens de programação e técnicas de prompt engineering.

Os resultados mostraram que o consumo de energia e o tempo de execução variaram entre diferentes LLMs, com base no benchmark, na linguagem de programação e no tipo de prompting (0-shot vs 3-shot). De um modo geral, o 3-shot prompting levou a um menor consumo de energia e a um tempo de execução menor em comparação com 0-shot. Além disso, pass@10 superou pass@1, e SacreBLEU e GoogleBLEU melhorou com o 3-shot prompting, enquanto que CodeBLEU diminuiu.

Além disso, a pesquisa destaca os resultados do benchmark CyberSecEval, que avalia a segurança do código gerado e revela vulnerabilidades em vários LLMs. Isso mostra a importância de considerar a segurança, além da eficiência energética e do tempo de execução, ao escolher um LLM para o desenvolvimento de software.

Esta dissertação analisa as métricas de desempenho dos LLMs, como correção funcional e qualidade do código, contribuindo para práticas de engenharia de software sustentável. Ao focar na sustentabilidade e na segurança ao implementar LLMs, oferece uma abordagem mais completa para o desenvolvimento de software, alinhada com os princípios modernos de sustentabilidade na engenharia de software.

Details

Business indexing term

Subject:

Artificial intelligence

Subject

Programming languages;
Python;
Exploitation;
Large language models;
Energy consumption;
Benchmarks;
Artificial intelligence;
Engineering

Classification

0800: Artificial intelligence
0537: Engineering

Title

Towards a Platform for Benchmarking Large Language Models

Author

Cunha, Simão Pedro Sá

Number of pages

171

Publication year

2025

Degree date

2025

School code

5895

Source

MAI 87/5(E), Masters Abstracts International

ISBN

9798265418838

Advisor

Saraiva, João Alexandre Baptista Vieira; Ribeiro, Francisco José Torres

University/institution

Universidade do Minho (Portugal)

University location

Portugal

Degree

M.Eng.

Source type

Dissertation or Thesis

Language

English

Document type

Dissertation/Thesis

Dissertation/thesis number

32297088

ProQuest document ID

3275477769

Document URL

https://www.proquest.com/dissertations-theses/towards-platform-benchmarking-large-language/docview/3275477769/se-2?accountid=208611

Database copyright ProQuest LLC; ProQuest does not claim copyright in the individual underlying works.

Database

ProQuest One Academic

Towards a Platform for Benchmarking Large Language Models

Content area

Abstract

Details