Skip to content

implement generate_data in v3 #227

@battmanux

Description

@battmanux

generate_data war removed from 3.0 due to priority decisions.

The function shall be implemented based on the new core model of v3.0

Inria Comment:

La bibliothèque a du mal à générer des structures de données complexes. Par exemple,
l'exemple de génération de salaires dans la documentation ne produit qu'un seul salaire par
catégorie, ce qui est insuffisant pour entraîner des modèles de réseaux neuronaux comme
voulu.
• Les données générées contiennent parfois des erreurs, telles que des nombres négatifs dans
les identifiants de catégorie, ce qui ne devrait pas se produire dans des ensembles de données
correctement structurés.
• Introduire un mécanisme permettant d'ajuster la variabilité par colonne. Cela éviterait des cas
extrêmes comme la génération uniquement d’éléments uniques dans certaines catégories.
• Améliorer la capacité à capturer et maintenir les relations fondamentales entre variables,
comme la corrélation positive entre prix et quantité.
• Explorer une combinaison des méthodes statistiques (comme celles utilisées par SDV) et des
approches basées sur les LLM pour tirer parti des avantages de chaque méthode.

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions