首页|A Note on Statistically Accurate Tabular Data Generation Using Large Language Models

A Note on Statistically Accurate Tabular Data Generation Using Large Language Models

来源：

英文摘要

Large language models (LLMs) have shown promise in synthetic tabular data generation, yet existing methods struggle to preserve complex feature dependencies, particularly among categorical variables. This work introduces a probability-driven prompting approach that leverages LLMs to estimate conditional distributions, enabling more accurate and scalable data synthesis. The results highlight the potential of prompting probability distributions to enhance the statistical fidelity of LLM-generated tabular data.

作者：Andrey Sidorenko

作者单位：

学科分类：计算技术、计算机技术

推荐引用：Andrey Sidorenko.A Note on Statistically Accurate Tabular Data Generation Using Large Language Models[EB/OL].(2025-05-05)[2025-05-25].https://arxiv.org/abs/2505.02659.点此复制

A Note on Statistically Accurate Tabular Data Generation Using Large Language Models

A Note on Statistically Accurate Tabular Data Generation Using Large Language Models

评论