Ë
    è¬œi˜K ã                   ó<  — d Z ddlZddlZddlZddlZddlZddlZddlZddlZddl	Z	ddl
Z
ddlZddlZddlZddlmZmZmZ ddlmZ ddlmZ ddlmZmZ ddlmZ ddlmZ ddlZddlZ ddl!Z!ddl"m#Z$ dd	l%m&Z&m'Z'm(Z(m)Z) dd
l*m+Z+ ddl!m,Z, ddl-m.Z.m/Z/m0Z0m1Z1m2Z2 ddl3m4Z4 ddl5m6Z6 ddl7m8Z8m9Z9m:Z: ddl;m<Z<m=Z= ddl>m?Z? ddl@mAZA ddlBmCZCmDZD ddlEmFZF ddlGmHZHmIZImJZJmKZKmLZL ddlMmNZNmOZO ddlPmQZQ ddlRmSZSmTZT ddlUmVZV ddlWmXZXmYZYmZZZ ddl[m\Z\ ddl]m^Z^m_Z_ ddl`maZambZb ddlcmdZd ddlemfZf dd lgmhZh dd!limjZjmkZkmlZlmmZmmnZnmoZompZpmqZq dd"lrmsZsmtZtmuZumvZv dd#lwmxZxmyZymzZzm{Z{m|Z|m}Z}m~Z~mZm€Z€mZm‚Z‚mƒZƒm„Z„m…Z…m†Z† dd$l‡mˆZˆm‰Z‰mŠZŠm‹Z‹mŒZŒmZmŽZŽmZmZm‘Z‘m’Z’m“Z“m”Z”m•Z•m–Z–m—Z—m˜Z˜m™Z™mšZšm›Z›mœZœmZmžZžmŸZŸm Z m¡Z¡m¢Z¢m£Z£m¤Z¤ dd%l¥m¦Z¦m§Z§m¨Z¨ dd&lm©Z©mªZªm«Z«m¬Z¬m­Z­m®Z®m¯Z¯m°Z°m±Z±m²Z²m³Z³m´Z´mµZµm¶Z¶m·Z·m¸Z¸m¹Z¹mºZºm»Z»m¼Z¼m½Z½m¾Z¾m¿Z¿mÀZÀmÁZÁmÂZÂmÃZÃ dd'lÄmÅZÅ dd(lÆmÇZÇ ekgZÈenZÉ e¹«       rdd)lÊmËZË eËZÉ e¸«       rddlÌZÌ eÂ«       rQddlÍmÎc mÏZÐ ddlÑmÒc mÓZÔ ddlÕmÖZ× ddlØm4ZÙ  e+j´                  eÙ«       e+j´                  e²«      k\  ZÛeÛrddlÜm#c mÝZÞ nd*ZÛ e¼«       rddlßmàc m!Zá dd+lwmâZâmãZãmäZä  eº«       rdd,låmæZæ  e·«       r7dd-lçmèZèméZé dd.lêmëZë dd/lìmíZímîZîmïZïmðZðmñZñmòZòmóZómôZômõZõ dd0löm÷Z÷  eK«       rdd1lìmøZø erddlùZù eÃjô                  eû«      Züd2Zýd3Zþd4Zÿd5Z d6Zd7Zd8Z eÅd9¬:«       G d;„ d<«      «       Zy)=uc   
The Trainer class, to easily train a ðŸ¤— Transformers from scratch or finetune it on a new task.
é    N)ÚCallableÚIteratorÚMapping©Úpartial)ÚPath)ÚTYPE_CHECKINGÚAnyé   )Ú#get_reporting_integration_callbacks)Ú
CommitInfoÚ	ModelCardÚcreate_repoÚupload_folder)Úversion)Únn)Ú
DataLoaderÚDatasetÚIterableDatasetÚRandomSamplerÚSequentialSampler)Ú__version__)ÚPreTrainedConfig)ÚDataCollatorÚDataCollatorWithPaddingÚdefault_data_collator)ÚDebugOptionÚDebugUnderflowOverflow)ÚSequenceFeatureExtractor)ÚFeatureExtractionMixin)Ú"ALL_HYPERPARAMETER_SEARCH_BACKENDSÚdefault_hp_search_backend)ÚBaseImageProcessor)Údeepspeed_initÚdeepspeed_load_checkpointÚdeepspeed_sp_compute_lossÚis_deepspeed_availableÚpropagate_args_to_deepspeed)Úget_fsdp_ckpt_kwargsÚupdate_fsdp_plugin_peft)Úapply_liger_kernel)Úactivate_neftuneÚdeactivate_neftune)ÚMIN_PEFT_VERSION)Úsave_tpu_checkpointÚtpu_spmd_dataloaderÚwrap_model_xla_fsdp)ÚTrainingSummary)ÚPreTrainedModelÚunwrap_model)Ú!MODEL_FOR_CAUSAL_LM_MAPPING_NAMESÚMODEL_MAPPING_NAMES)Úget_scheduler)ÚProcessorMixin)ÚPreTrainedTokenizerBase)ÚCallbackHandlerÚDefaultFlowCallbackÚExportableStateÚPrinterCallbackÚProgressCallbackÚTrainerCallbackÚTrainerControlÚTrainerState)Ú_OPTIMIZER_HANDLERSÚOptimizerContextÚ_parse_optim_argsÚis_optimizer_factory)ÚEvalLoopContainerÚIterableDatasetShardÚLabelSmootherÚLengthGroupedSamplerÚdistributed_broadcast_scalarsÚfind_batch_sizeÚget_model_param_countÚget_parameter_namesÚis_attention_mask_causalÚnested_detachÚnested_gatherÚreissue_pt_warningsÚremove_dummy_checkpointÚsafe_globalsÚset_rng_state_for_device)ÚPREFIX_CHECKPOINT_DIRÚBestRunÚEvalLoopOutputÚEvalPredictionÚHPSearchBackendÚHubStrategyÚPredictionOutputÚRemoveColumnsCollatorÚSaveStrategyÚTrainerMemoryTrackerÚTrainOutputÚ_is_peft_modelÚalign_special_tokensÚ#compare_trainer_and_checkpoint_argsÚdefault_compute_objectiveÚdenumpify_detensorizeÚenable_full_determinismÚfind_executable_batch_sizeÚget_last_checkpointÚ
has_lengthÚload_sharded_checkpointÚnumber_of_argumentsÚrotate_checkpointsÚseed_workerÚset_seedÚsort_checkpointsÚspeed_metricsÚunwrap_peft_modelÚ"validate_quantization_for_training)ÚOptimizerNamesÚParallelModeÚTrainingArguments)ÚADAPTER_CONFIG_NAMEÚADAPTER_SAFE_WEIGHTS_NAMEÚADAPTER_WEIGHTS_NAMEÚCONFIG_NAMEÚGENERATION_CONFIG_NAMEÚSAFE_WEIGHTS_INDEX_NAMEÚSAFE_WEIGHTS_NAMEÚWEIGHTS_INDEX_NAMEÚWEIGHTS_NAMEÚXLA_FSDPV2_MIN_VERSIONÚPushInProgressÚcan_return_lossÚcheck_torch_load_is_safeÚfind_labelsÚis_accelerate_availableÚis_datasets_availableÚis_in_notebookÚis_peft_availableÚis_sagemaker_dp_enabledÚis_sagemaker_mp_enabledÚis_torch_hpu_availableÚis_torch_mlu_availableÚis_torch_musa_availableÚis_torch_neuroncore_availableÚis_torch_npu_availableÚis_torch_xla_availableÚlogging)Úrequires)ÚQuantizationMethod)ÚNotebookProgressCallbackF)Úsmp_forward_backwardÚsmp_forward_onlyÚsmp_nested_concat)Ú	PeftModel)ÚAcceleratorÚskip_first_batches)ÚAcceleratorState)	ÚDataLoaderConfigurationÚDistributedDataParallelKwargsÚDistributedTypeÚGradientAccumulationPluginÚload_fsdp_modelÚload_fsdp_optimizerÚrelease_memoryÚsave_fsdp_modelÚsave_fsdp_optimizer)Úclear_device_cache)ÚDeepSpeedSchedulerWrapperztraining_args.binztrainer_state.jsonzoptimizer.ptz	scaler.ptzoptimizer.binzscheduler.ptÚpytorch_model_fsdp)ÚtorchÚ
accelerate)Úbackendsc                   ó6  — e Zd ZdZddlmZmZmZmZm	Z	m
Z
mZ 	 	 	 	 	 	 	 	 	 	 	 	 	 d¥deej                  z  dz  dedz  dedz  d	d
dddeez  ez  ez  dz  dedef   dz  dedz  deegef   dz  dee   dz  deej8                  j:                  dz  ej8                  j<                  j>                  dz  f   dee ej8                  j:                     ee!e"f   f   dz  deejF                  ejF                  gejF                  f   dz  fd„Z$d¦d„Z%dee!e"f   fd„Z&d¦d„Z'de(fd„Z)d§de!e*z  dz  de(fd„Z+de*de(fd„Z,de(de-fd „Z.	 	 	 d¨d!e*d"e!d#e-d$ee*gej^                  j`                  jb                  f   dz  d%e2d&e!dz  de(fd'„Z3d§d	e*dz  dej^                  j`                  jb                  dz  fd(„Z4de*dej^                  j`                  jb                  dz  fd)„Z5d¦d*„Z6	 d§d!d+d"e!dz  dd+fd,„Z7d§ded"e!dz  defd-„Z8d.e-ddfd/„Z9dej8                  j:                  fd0„Z:	 d§d.e-d1ej8                  j:                  dz  dej8                  j<                  jv                  fd2„Z<e=d§dededz  dee"e"f   fd3„«       Z>dej                  dee!   fd4„Z?de@fd5„ZA	 	 	 d©d6e!e2z  dz  d7d8d9ee!   dz  deBfd:„ZC	 	 	 	 	 dªd#e-dz  dedz  d6e!dz  d7d8d9ee!   dz  deBfd;„ZD	 d§dej                  d<ee!ejF                  e"z  f   d=ejF                  e-z  dz  dejF                  fd>„ZE	 	 d«dej                  d<ee!ejF                  e"z  f   d?e2d=ejF                  e-z  dz  dejF                  eejF                  e"f   z  f
d@„ZFdeGj                  fdA„ZId¬dBe2dz  deGj”                  fdC„ZK	 d§dDejF                  dEejF                  e@z  dz  dej                  d7d8dFe@d9ee!   dz  dGe@dHe@dz  ddfdI„ZLdJeMdKe-dLejœ                  deeejF                  e-z  dz  f   fdM„ZOdNedLejœ                  dejF                  e-z  dz  fdO„ZPdPejF                  e"z  dejF                  e"z  fdQ„ZQd<ee!ejF                  e"z  f   dee!ejF                  e"z  f   fdR„ZRdej                  d<ee!ejF                  e"z  f   deeee!ejF                  e"z  f   f   fdS„ZSdede(dTe-dee-e-e-e-e2e-dz  e-f   fdU„ZTdede-fdV„ZUde-fdW„ZVde-fdX„ZWde-fdY„ZXd­dej                  dZe2de(dz  dej                  fd[„ZY	 	 	 d®de*ee!e*f   z  dz  d\ee!   dz  d]e!dee!e@f   fd^„ZZ	 	 	 d®de(d"e!d_e2dz  d\ee!   dz  d]e!de[fd`„Z\	 d¯de*d\ee!   dz  d]e!de]fda„Z^	 d§dej                  d<ee!ejF                  e"z  f   d_e2d\ee!   dz  deejF                  dz  ejF                  dz  ejF                  dz  f   f
db„Z_	 d°d7d8d9ee!   dz  dce2dee!e@f   fdd„Z`d7d8de!fde„Zadej                  d7d8ddfdf„Zbdgee!e@f   d7d8de2fdh„Zcdie!ddfdj„Zddie!ddfdk„Zedie!ddfdl„Zfd§d6e!dej                  dz  ddfdm„Zgd¦dn„Zhdoe!dz  ddfdp„Zidoe!dz  ddfdq„Zjdoe!dz  ddfdr„Zkd¦ds„Zldte"ddfdu„Zmd±die!dz  dve2ddfdw„Znddie!dz  dxedz  ddfdy„Zod§dzee!e@f   dGe@dz  ddfd{„Zpd¦d|„Zqd<ee!ejF                  e"z  f   de-fd}„Zrd§d~e!dz  ddfd„Zs	 	 	 	 	 	 	 	 	 d²d€e!dz  de!dz  d‚e!ee!   z  dz  dƒe!dz  d„e!dz  d…e!ee!   z  dz  d†e!ee!   z  dz  d!e!ee!   z  dz  d‡e!ee!   z  dz  ddfdˆ„Zt	 	 	 	 d³d‰e!dz  dŠe2d~e!dz  d‹e!dz  deuf
dŒ„Zvde!ddfdŽ„Zwd¦d„Zx	 	 	 	 	 	 d´ded‘gee!e@f   f   dz  d’eee!e@f   ge@f   dz  d“e-d”e!ee!   z  d•e!eyz  dz  d–ed‘ge!f   dz  dezeez   z  fd—„Z{d§d7d8dej                  fd˜„Z|dµd™„Z}d7d8dše-dgee!e@f   ddfd›„Z~dœe!ddfd„Zdže e   ez  ddfdŸ„Z€dže e   ez  dedz  fd „Zdže e   ez  ddfd¡„Z‚de2fd¢„Zƒde2fd£„Z„dej                  dLejœ                  ddfd¤„Z…y)¶ÚTraineru  
    Trainer is a simple but feature-complete training and eval loop for PyTorch, optimized for ðŸ¤— Transformers.

    Args:
        model ([`PreTrainedModel`] or `torch.nn.Module`, *optional*):
            The model to train, evaluate or use for predictions. If not provided, a `model_init` must be passed.

            <Tip>

            [`Trainer`] is optimized to work with the [`PreTrainedModel`] provided by the library. You can still use
            your own models defined as `torch.nn.Module` as long as they work the same way as the ðŸ¤— Transformers
            models.

            </Tip>

        args ([`TrainingArguments`], *optional*):
            The arguments to tweak for training. Will default to a basic instance of [`TrainingArguments`] with the
            `output_dir` set to a directory named *tmp_trainer* in the current directory if not provided.
        data_collator (`DataCollator`, *optional*):
            The function to use to form a batch from a list of elements of `train_dataset` or `eval_dataset`. Will
            default to [`default_data_collator`] if no `processing_class` is provided, an instance of
            [`DataCollatorWithPadding`] otherwise if the processing_class is a feature extractor or tokenizer.
        train_dataset (`torch.utils.data.Dataset` | `torch.utils.data.IterableDataset` | `datasets.Dataset`, *optional*):
            The dataset to use for training. If it is a [`~datasets.Dataset`], columns not accepted by the
            `model.forward()` method are automatically removed.

            Note that if it's a `torch.utils.data.IterableDataset` with some randomization and you are training in a
            distributed fashion, your iterable dataset should either use a internal attribute `generator` that is a
            `torch.Generator` for the randomization that must be identical on all processes (and the Trainer will
            manually set the seed of this `generator` at each epoch) or have a `set_epoch()` method that internally
            sets the seed of the RNGs used.
        eval_dataset (`torch.utils.data.Dataset` | dict[str, `torch.utils.data.Dataset`] | `datasets.Dataset`, *optional*):
             The dataset to use for evaluation. If it is a [`~datasets.Dataset`], columns not accepted by the
             `model.forward()` method are automatically removed. If it is a dictionary, it will evaluate on each
             dataset prepending the dictionary key to the metric name.
        processing_class (`PreTrainedTokenizerBase` or `BaseImageProcessor` or `FeatureExtractionMixin` or `ProcessorMixin`, *optional*):
            Processing class used to process the data. If provided, will be used to automatically process the inputs
            for the model, and it will be saved along the model to make it easier to rerun an interrupted training or
            reuse the fine-tuned model.
        model_init (`Callable[[], PreTrainedModel]`, *optional*):
            A function that instantiates the model to be used. If provided, each call to [`~Trainer.train`] will start
            from a new instance of the model as given by this function.

            The function may have zero argument, or a single one containing the optuna/Ray Tune trial object, to
            be able to choose different architectures according to hyper parameters (such as layer count, sizes of
            inner layers, dropout probabilities etc).
        compute_loss_func (`Callable`, *optional*):
            A function that accepts the raw model outputs, labels, and the number of items in the entire accumulated
            batch (batch_size * gradient_accumulation_steps) and returns the loss. For example, see the default [loss function](https://github.com/huggingface/transformers/blob/052e652d6d53c2b26ffde87e039b723949a53493/src/transformers/trainer.py#L3618) used by [`Trainer`].
        compute_metrics (`Callable[[EvalPrediction], Dict]`, *optional*):
            The function that will be used to compute metrics at evaluation. Must take a [`EvalPrediction`] and return
            a dictionary string to metric values. *Note* When passing TrainingArgs with `batch_eval_metrics` set to
            `True`, your compute_metrics function must take a boolean `compute_result` argument. This will be triggered
            after the last eval batch to signal that the function needs to calculate and return the global summary
            statistics rather than accumulating the batch-level statistics
        callbacks (List of [`TrainerCallback`], *optional*):
            A list of callbacks to customize the training loop. Will add those to the list of default callbacks
            detailed in [here](callback).

            If you want to remove one of the default callbacks used, use the [`Trainer.remove_callback`] method.
        optimizers (`tuple[torch.optim.Optimizer, torch.optim.lr_scheduler.LambdaLR]`, *optional*, defaults to `(None, None)`):
            A tuple containing the optimizer and the scheduler to use. Will default to an instance of [`AdamW`] on your
            model and a scheduler given by [`get_linear_schedule_with_warmup`] controlled by `args`.
        optimizer_cls_and_kwargs (`tuple[Type[torch.optim.Optimizer], dict[str, Any]]`, *optional*):
            A tuple containing the optimizer class and keyword arguments to use.
            Overrides `optim` and `optim_args` in `args`. Incompatible with the `optimizers` argument.

            Unlike `optimizers`, this argument avoids the need to place model parameters on the correct devices before initializing the Trainer.
        preprocess_logits_for_metrics (`Callable[[torch.Tensor, torch.Tensor], torch.Tensor]`, *optional*):
            A function that preprocess the logits right before caching them at each evaluation step. Must take two
            tensors, the logits and the labels, and return the logits once processed as desired. The modifications made
            by this function will be reflected in the predictions received by `compute_metrics`.

            Note that the labels (second parameter) will be `None` if the dataset does not have them.

    Important attributes:

        - **model** -- Always points to the core model. If using a transformers model, it will be a [`PreTrainedModel`]
          subclass.
        - **model_wrapped** -- Always points to the most external model in case one or more other modules wrap the
          original model. This is the model that should be used for the forward pass. For example, under `DeepSpeed`,
          the inner model is wrapped in `DeepSpeed` and then again in `torch.nn.DistributedDataParallel`. If the inner
          model hasn't been wrapped, then `self.model_wrapped` is the same as `self.model`.
        - **is_model_parallel** -- Whether or not a model has been switched to a model parallel mode (different from
          data parallelism, this means some of the model layers are split on different GPUs).
        - **place_model_on_device** -- Whether or not to automatically place the model on the device. Defaults to
          `True` unless model parallel, DeepSpeed, FSDP, full fp16/bf16 eval, or SageMaker MP is active. Can be
          overridden by subclassing `TrainingArguments` and overriding the `place_model_on_device` property.
        - **is_in_train** -- Whether or not a model is currently running `train` (e.g. when `evaluate` is called while
          in `train`)

    r   )Úget_learning_ratesÚget_num_trainable_parametersÚget_optimizer_groupÚlog_metricsÚmetrics_formatÚsave_metricsÚ
save_stateN©NNÚmodelÚargsÚdata_collatorÚtrain_datasetz3Dataset | IterableDataset | datasets.Dataset | NoneÚeval_datasetz6Dataset | dict[str, Dataset] | datasets.Dataset | NoneÚprocessing_classÚ
model_init.Úcompute_loss_funcÚcompute_metricsÚ	callbacksÚ
optimizersÚoptimizer_cls_and_kwargsÚpreprocess_logits_for_metricsc                 ón  — |€'d}t         j                  d|› d«       t        |¬«      }|| _        | j                  j                  rt        | j                  j                  «      nt        | j                  j                  «       d | _        || _	        | j                  «        t        | j                  j                  «      | _        | j                  j                  «        |j                  «       }t!        j"                  |«       |j$                   |€%||| _        | j)                  «       }nt+        d«      ‚|t-        d«      ‚|| _        |j.                  j0                  t2        v r#t-        d|j.                  j0                  › d«      ‚| j                  j4                  r t7        || j                  j8                  «       t;        |«       d	| _        t?        |d
d «      tA        |jB                  jE                  «       «      D cg c]	  }|dvsŒ|‘Œ }}tG        |«      dkD  rd| _        nBtG        |«      dk(  r4| j                  jH                  tK        jH                  |d   «      k7  | _        |jL                  d   | _'        tG        |jP                  «      dkD  rN| jR                  rt-        d«      ‚|jL                  d   s(|jT                  tV        jX                  k7  rt-        d«      ‚|jZ                  |jZ                  | _-        na| j<                  sF| jR                  s:|j\                  s.|j^                  s"| jN                  s| j`                  s
tc        «       rd	| _-        nd| _-        | jZ                  r:t?        |dd «      td        jf                  k7  r| ji                  ||jH                  «       | j<                  rd| j                  _5        || _6        || _	        to        | jp                  js                  |«      «      }tu        |d«      r|jv                  | _<        nNt{        j|                  |j~                  «      j€                  }tƒ        d„ |jE                  «       D «       «      | _<        t?        | jp                  dd «      }|"|j„                  dk(  r|j†                  rd	| _<        to        | j                  «      }t‰        |j.                  «      }| j                  jŠ                  €|n| j                  jŠ                  | _E        t        |j.                  «      | _F        | j                  jŽ                  dk7  rlt?        | j                  j                  dd «      dk(  r"t“        j”                  dt–        «       d | _L        n-t›        | j                  jŽ                  ¬«      | _L        nd | _L        |!t        |tž        t         f«      rt£        |«      nt¤        }||n|| _S        || _T        || _U        || _V        |j®                  | _W        || _X        |	| _Y        || _Z        |\  | _[        | _\        || _]        | j½                  «        t¾        tÁ        | j                  jÂ                  «      z   }| j                  jÄ                  r$ddlcmd}  |«       }||gz   }|jË                  | «       |
€|n||
z   }
tÍ        |
| j                  | j¬                  | j¶                  | j¸                  «      | _g        | jÑ                  | j                  jÒ                  rtÔ        ntÖ        «       d | _l        | j                  jÚ                  r| jÝ                  «        | j                  jÞ                  r+tá        jâ                  | j                  jä                  d¬«       tç        «       | _t        të        | jí                  «       | jï                  «       | jÎ                  jð                  | jè                  gz   D cg c]  }t        |tò        «      sŒ|‘Œ c}¬«      | _z        d	| _{        d | _|        d | _}        d| _~        d	| _        d | _€        |j                  | _‚        d	| _ƒ        | jÎ                  j	                  | j                  | jô                  | jè                  «      | _t        t?        | j                  dd «      0| j                  j
                  | j                  j                  _…        |jL                  j                  dd	«      | _‡        | j                  rxt        st-        d «      ‚t        j                  «       }t        j                  t        j                  t        j                  t!        |«      «      |dfd!¬"«      «       | jN                  xr | j                   | _‘        | j                  j%                  «        y c c}w c c}w )#NÚtmp_trainerz1No `TrainingArguments` passed, using `output_dir=z`.)Ú
output_dirz<`Trainer` requires either a `model` or `model_init` argumentzK`Trainer` requires either a `model` or `model_init` argument, but not both.zThe model you have picked (a  ) cannot be used as is for training: it only computes hidden states and does not accept any labels. You should choose a model with a head suitable for your task like any of the `AutoModelForXxx` listed at https://huggingface.co/docs/transformers/model_doc/autoFÚhf_device_map)ÚcpuÚdiskr   Tr   ÚxlazZUsing --fsdp xxx together with --deepspeed is not possible, deactivate one of those flags.z.Using fsdp only works in distributed training.Úquantization_methodÚaccepts_loss_kwargsc              3   ój   K  — | ]+  }|j                   t        j                  j                  k(  –— Œ- y ­w©N)ÚkindÚinspectÚ	ParameterÚVAR_KEYWORD)Ú.0Úks     úP/mnt/e/genesis-system/.venv/lib/python3.12/site-packages/transformers/trainer.pyú	<genexpr>z#Trainer.__init__.<locals>.<genexpr>õ  s*   è ø€ ò 1Ø<=—‘œ'×+Ñ+×7Ñ7Õ7ñ1ùs   ‚13Úparallelism_configÚ	deepspeedÚproblem_typeÚmulti_label_classificationzsLabel smoothing is not compatible with multi-label classification. Disabling label smoothing for this training run.)Úepsilon)ÚJITCheckpointCallback©Úexist_ok)Úis_local_process_zeroÚis_world_process_zeroÚstateful_callbacksÚconfigÚxla_fsdp_v2z*FSDPv2 requires `torch_xla` 2.2 or higher.)ÚfsdpÚtensor)Ú
axis_names)“ÚloggerÚinfort   r´   Úfull_determinismre   Úseedrm   rÔ   r³   Ú"create_accelerator_and_postprocessr^   Úskip_memory_metricsÚ_memory_trackerÚstartÚget_process_log_levelr   Úset_verbosityÚ_setup_devicesr¹   Úcall_model_initÚRuntimeErrorÚ
ValueErrorÚ	__class__Ú__name__r6   Úuse_liger_kernelr+   Úliger_kernel_configrq   Úis_model_parallelÚgetattrÚsetrÃ   ÚvaluesÚlenÚdevicer¦   Úfsdp_configÚis_fsdp_xla_enabledrà   Úis_deepspeed_enabledÚparallel_moders   ÚDISTRIBUTEDÚplace_model_on_deviceÚfp16_full_evalÚbf16_full_evalÚis_fsdp_enabledrˆ   r‘   ÚBITS_AND_BYTESÚ_move_model_to_deviceÚ_n_gpuÚmodel_wrappedrp   Úacceleratorr4   ÚhasattrrÈ   Úmodel_accepts_loss_kwargsrÌ   Ú	signatureÚforwardÚ
parametersÚanyÚ
sp_backendÚ
sp_enabledr‚   Úlabel_namesr€   Úlabel_smoothing_factorrÞ   ÚwarningsÚwarnÚUserWarningÚlabel_smootherrH   Ú
isinstancer9   r   r   r   rµ   r¶   r·   r¸   Úneftune_noise_alpharº   r»   r¿   Ú	optimizerÚlr_schedulerr¾   Ú_validate_argsÚDEFAULT_CALLBACKSr   Ú	report_toÚenable_jit_checkpointÚtrainer_jit_checkpointrØ   Úset_trainerr:   Úcallback_handlerÚadd_callbackÚdisable_tqdmr=   ÚDEFAULT_PROGRESS_CALLBACKÚhub_model_idÚpush_to_hubÚinit_hf_repoÚshould_saveÚosÚmakedirsrÂ   r@   ÚcontrolrA   rÛ   rÜ   r¼   r<   ÚstateÚis_in_trainÚhp_nameÚhp_search_backendÚcurrent_flosÚ_loggers_initializedÚ_signature_columnsÚtrain_batch_sizeÚ_train_batch_sizeÚ_created_lr_schedulerÚon_init_endÚ	use_cacheÚgetÚis_fsdp_xla_v2_enabledÚIS_XLA_FSDPV2_POST_2_2ÚxrÚglobal_runtime_device_countÚxsÚset_global_meshÚMeshÚnpÚarrayÚrangeÚis_fsdp_xla_v1_enabledÚstop_and_update_metrics)Úselfr³   r´   rµ   r¶   r·   r¸   r¹   rº   r»   r¼   r½   r¾   r¿   rÂ   Ú	log_levelrú   ÚdevicesÚunwrapped_modelÚforward_paramsÚpcÚmodel_to_inspectÚdefault_label_namesÚdefault_collatorÚdefault_callbacksrØ   Újit_callbackÚcbÚnum_devicess                                rÑ   Ú__init__zTrainer.__init__k  s  € ðD ˆ<Ø&ˆJÜK‰KÐKÈJÈ<ÐWYÐZÔ[Ü$°
Ô;ˆDØˆŒ	à37·9±9×3MÒ3MÔ §	¡	§¡Ô/ÔS[Ð\`×\eÑ\e×\jÑ\jÓSkøð
 ˆŒØˆŒ
Ø×/Ñ/Ô1ä3°D·I±I×4QÑ4QÓRˆÔØ×Ñ×"Ñ"Ô$à×.Ñ.Ó0ˆ	Ü×Ñ˜iÔ(à×Òð ˆ=ØÐ%Ø",”Ø×,Ñ,Ó.‘ä"Ð#aÓbÐbàÐ%Ü Ð!nÓoÐoØ(ˆDŒOà?‰?×#Ñ#Ô':Ñ:ÜØ-¨e¯o©o×.FÑ.FÐ-Gð HJð Jóð ð 9‰9×%Ò%Ü˜u d§i¡i×&CÑ&CÔDä*¨5Ô1ð "'ˆÔÜ5˜/¨4Ó0Ð<Ü,/°×0CÑ0C×0JÑ0JÓ0LÓ,MÖo &ÐQWÐ_nÒQn’vÐoˆGÐoÜ7‹|˜aÒØ)-Õ&ÜW“ Ò"Ø)-¯©×)9Ñ)9¼U¿\¹\È'ÐRSÉ*Ó=UÑ)UÔ&à#'×#3Ñ#3°EÑ#:ˆÔ Üˆty‰y‹>˜AÒØ×(Ò(Ü Øpóð ð ×#Ñ# EÒ*¨t×/AÑ/AÄ\×E]ÑE]Ò/]Ü Ð!QÓRÐRð ×%Ñ%Ð1Ø)-×)CÑ)CˆDÕ&à×"Ò"Ø×(Ò(Ø×#Ò# t×':Ò':Ø×'Ò'Ø×#Ò#Ü&Ô(à).ˆDÕ&à)-ˆDÔ&ð
 ×&Ò&Ü˜Ð4°dÓ;Ô?Q×?`Ñ?`Ò`à×&Ñ& u¨d¯k©kÔ:ð ×!Ò!Ø ˆDI‰IÔð #ˆÔØˆŒ
ô ,¨D×,<Ñ,<×,IÑ,IÈ%Ó,PÓQˆä?Ð$9Ô:Ø-<×-PÑ-PˆDÕ*ä$×.Ñ.¨×/FÑ/FÓG×RÑRˆNÜ-0ñ 1ØAO×AVÑAVÓAXô1ó .ˆDÔ*ô
 T×%Ñ%Ð';¸TÓBˆØˆ>˜bŸm™m¨{Ò:¸r¿}º}Ø-2ˆDÔ*ä,¨T¯Z©ZÓ8ÐÜ)Ð*:×*DÑ*DÓEÐØ26·)±)×2GÑ2GÐ2OÑ.ÐUY×U^ÑU^×UjÑUjˆÔÜ.Ð/?×/IÑ/IÓJˆÔà9‰9×+Ñ+¨qÒ0Üt—z‘z×(Ñ(¨.¸$Ó?ÐC_Ò_Ü—‘ðGäôð
 '+Õ#ä&3¸D¿I¹I×<\Ñ<\Ô&]Õ#à"&ˆDÔð  Ð+ÜÐ+Ô.EÔG_Ð-`Ôaô $Ð$4Ô5ô 'ð	 	ð /<Ð.G™]ÐM]ˆÔØ*ˆÔØ(ˆÔØ 0ˆÔØ#'×#;Ñ#;ˆÔ ð "3ˆÔØ.ˆÔØ-JˆÔ*ð -7Ñ)ˆŒ˜Ô)Ø(@ˆÔ%à×ÑÔô .Ô0SÐTX×T]ÑT]×TgÑTgÓ0hÑhÐà9‰9×*Ò*ÝEá0Ó2ˆLØ 1°\°NÑ BÐØ×$Ñ$ TÔ*à)2Ð):Ñ%Ð@QÐT]Ñ@]ˆ	Ü /Øt—z‘z 4×#8Ñ#8¸$¿.¹.È$×J[ÑJ[ó!
ˆÔð 	×Ñ¨T¯Y©Y×-CÒ-C/ÔIbÔcð !ˆÔØ9‰9× Ò Ø×ÑÔØ9‰9× Ò ÜK‰K˜Ÿ	™	×,Ñ,°tÕ<ô &Ó'ˆŒÜ!Ø"&×"<Ñ"<Ó">Ø"&×"<Ñ"<Ó">à!×2Ñ2×<Ñ<ÀÇÁ¸~ÑMö ØÔQ[Ð\^Ô`oÕQp’ò ô
ˆŒ
ð !ˆÔØˆŒØ!%ˆÔàˆÔà$)ˆÔ!à"&ˆÔà!%×!6Ò!6ˆÔà%*ˆÔ"à×,Ñ,×8Ò8¸¿¹ÀDÇJÁJÐPT×P\ÑP\Ó]ˆŒô 4—:‘:˜x¨Ó.Ð:Ø*.¯)©)×*=Ò*=ˆDJ‰J×ÑÔ'à&*×&6Ñ&6×&:Ò&:¸=È%Ó&PˆÔ#Ø×&Ó&Þ)Ü Ð!MÓNÐNÝ×8Ò8Ó:ˆKÝ×ÒrŸwšw¥r§x¢xµ°kÓ0BÓ'CÀkÐSTÐEUÐbtÔuÔvØ&*×&>Ñ&>Ò&bÀt×GbÒGbÐCbˆÔ#à×Ñ×4Ò4Õ6ùòK pùòJ s   È	f-Èf-ßf2ß-f2Úreturnc                 óò  — | j                   }t        «       rÝ|j                  rt        d«      ‚|j                  t
        j                  j                  j                  k7  r•t        j                  dt
        j                  j                  j                  › d|j                  › dt
        j                  j                  j                  › «       t
        j                  j                  j                  |_        |j                  rB| j                  6dt        j                  | j                  «      j                  vrt        d«      ‚|j                  4|j                  dk7  r%| j                   €t        d	|j                  › d
«      ‚|j"                  t$        j&                  k(  s|j(                  r|j*                  €t        d«      ‚| j,                  | j.                  t1        d«      ‚| j2                  #| j.                  €| j4                  t1        d«      ‚t7        «       rˆ| j.                  || j8                  j                  «       D ]  }|j:                  } n | j.                  j<                  D ]'  }t?        |d   «      dkD  sŒ|d   d   j:                  } n k7  rt        d«      ‚| j@                  s| jB                  r#| j.                  €| j4                  t1        d«      ‚tE        | jF                  «      s+tE        tI        | jF                  dd«      «      rtK        d«      ‚|jL                  dkD  r$|jN                  dkD  rt        jQ                  d«       | jR                  /tU        | jR                  «      s|jL                  dk  rt        d«      ‚| jR                  ]tW        | jR                  tX        jZ                  j\                  j^                  «      r$t        jQ                  d|j`                  › d«       yyy)zJValidate constructor arguments and fail fast on incompatible combinations.zOSageMaker Model Parallelism does not support BF16 yet. Please use FP16 instead z(FP16 provided in SM_HP_MP_PARAMETERS is z+, but FP16 provided in trainer argument is z, setting to NÚcompute_resultzõWhen using `batch_eval_metrics`, your `compute_metrics` function must take a `compute_result` boolean argument which will be triggered after the last batch of the eval set to signal that the summary statistics should be returned by the function.Únoz%You have set `args.eval_strategy` to zx but you didn't pass an `eval_dataset` to `Trainer`. Either set `args.eval_strategy` to `no` or pass an `eval_dataset`. zƒ`args.metric_for_best_model` must be provided when using 'best' save_strategy or if `args.load_best_model_at_end` is set to `True`.zSPassing both `optimizers` and `optimizer_cls_and_kwargs` arguments is incompatible.z¨Passing a `model_init` is incompatible with providing the `optimizers` argument. You should subclass `Trainer` and override the `create_optimizer_and_scheduler` method.Úparamsr   a[  The model and the optimizer parameters are not on the same device, which probably means you created an optimizer around your model **before** putting on the device and passing it to the `Trainer`. Make sure the lines `import torch_xla.core.xla_model as xm` and `model.to(xm.xla_device())` is performed before the optimizer creation in your script.z—Passing `optimizers` is not allowed if PyTorch FSDP is enabled. You should subclass `Trainer` and override the `create_optimizer_and_scheduler` method.Úcollate_batchzRThe `data_collator` should be a simple callable (function, class with `__call__`).zHmax_steps is given, it will override any value given in num_train_epochszžThe train_dataset does not implement __len__, max_steps has to be specified. The number of steps needs to be known in advance for the learning rate scheduler.zThe `train_sampling_strategy='z‘'` option is ignored when using an `IterableDataset`. Samplers cannot be used with IterableDataset as they require indexed access to the dataset.)1r´   rˆ   Úbf16rð   Úfp16Úsmpr,  Úcfgrã   ÚwarningÚbatch_eval_metricsr»   rÌ   r  r  Úeval_strategyr·   Úsave_strategyr]   ÚBESTÚload_best_model_at_endÚmetric_for_best_modelr¾   r  rï   r¹   r  rŽ   r³   rú   Úparam_groupsrù   rü   r  Úcallablerµ   rö   Ú	TypeErrorÚ	max_stepsÚnum_train_epochsrä   r¶   rh   r  r¦   ÚutilsÚdatar   Útrain_sampling_strategy)rE  r´   ÚparamÚmodel_deviceÚparam_groupÚoptimizer_devices         rÑ   r  zTrainer._validate_argsg  s™  € ày‰yˆô #Ô$ØyŠyÜ Ð!rÓsÐsØy‰yœCŸI™IŸM™M×.Ñ.Ò.Ü—‘Ø>¼s¿y¹y¿}¹}×?QÑ?QÐ>Rð S@Ø@DÇ	Á	¸{ð K"Ü"%§)¡)§-¡-×"4Ñ"4Ð!5ð7ôô
  ŸI™IŸM™M×.Ñ.”	ð ×"Ò" t×';Ñ';Ð'GØ¤w×'8Ñ'8¸×9MÑ9MÓ'N×'YÑ'YÑYÜ ðNóð ð
 ×ÑÐ)¨d×.@Ñ.@ÀDÒ.HÈT×M^ÑM^ÐMfÜØ7¸×8JÑ8JÐ7Kð  LDð  Eóð ð ×Ñ¤×!2Ñ!2Ò2°d×6QÒ6QØ×)Ñ)Ð1Ü ð Zóð ð
 ×(Ñ(Ð4¸¿¹Ð9SÜÐtÓuÐuØ?‰?Ð&¨D¯N©NÐ,FÈ$×J[ÑJ[ÐJgÜðjóð ô "Ô#¨¯©Ð(BØŸ™×.Ñ.Ó0ò Ø$Ÿ|™|Ùðð  $Ÿ~™~×:Ñ:ò Ü{ 8Ñ,Ó-°Ó1Ø'2°8Ñ'<¸QÑ'?×'FÑ'FÐ$Ùðð Ð/Ò/Ü ðnóð ð ×$Ò$¨×(<Ò(<ØN‰NÐ&¨$×*;Ñ*;Ð*Gäðjóð ô ˜×*Ñ*Ô+´¼À×ASÑASÐUdÐfjÓ9kÔ0lÜÐpÓqÐqØ>‰>˜AÒ $×"7Ñ"7¸!Ò";ÜK‰KÐbÔcØ×ÑÐ)´*¸T×=OÑ=OÔ2PÐUY×UcÑUcÐghÒUhÜðdóð ð
 ×ÑÐ)¬j¸×9KÑ9KÌUÏ[É[×M]ÑM]×MmÑMmÔ.nÜK‰KØ0°×1MÑ1MÐ0Nð Onð nõð /oÐ)ó    c                 ó~  — | j                   j                  | j                   j                  dœ}|j                  |«       | j                   j                  5d}t        |«      st        d|› d«      ‚| j                   j                  |d<   d| _        t        | j                  dd«      Í| j                  j                  d	kD  r´d
| _        | j                   j                  €St        d«      r=| j                   j                  €vddlm}  || j                  j                  ¬«      |d<   nOt        d«      ‚|d   j                  | j                  j                  k7  r| j                  j                  |d   _
        t        d«      r=ddlm}  || j                   j                   | j                   j"                  ¬«      }||d<   |S )z>Helper method to build accelerator-specific keyword arguments.)Úmixed_precisionÚdeepspeed_pluginNz1.12.0z'ParallelismConfig requires accelerate>=z1). Please upgrade accelerate to use this feature.rÓ   FÚtp_sizer   Tr   )ÚParallelismConfig)rt  z5Requires accelerate>1.12.0 to use Tensor Parallelism.z1.2.0)ÚTorchDynamoPlugin)ÚbackendÚmodeÚdynamo_plugin)r´   rr  rs  ÚupdaterÓ   rƒ   ÚImportErrorÚis_tp_enabledrö   r³   rt  r§   ru  rð   Úaccelerate.utilsrv  Útorch_compile_backendÚtorch_compile_mode)rE  Úkwargsr´   Úmin_accelerate_versionru  rv  ry  s          rÑ   Ú_build_accelerator_argszTrainer._build_accelerator_args¹  s‰  € ð  $Ÿy™y×8Ñ8Ø $§	¡	× :Ñ :ñ
ˆð 	‰FÔð 9‰9×'Ñ'Ð3Ø%-Ð"Ü*Ð+AÔBÜ!Ø=Ð>TÐ=Uð  VGð  Hóð ð *.¯©×)EÑ)EˆDÐ%Ñ&à"ˆÔÜ4—:‘:˜y¨$Ó/Ð;ÀÇ
Á
×@RÑ@RÐUVÒ@VØ!%ˆDÔØy‰y×+Ñ+Ð3Ü*¨8Ô4Ø—y‘y×3Ñ3Ð;Ý@á5FÈtÏzÉz×OaÑOaÔ5b˜Ð1Ò2ä$Ð%\Ó]Ð]ØÐ*Ñ+×3Ñ3°t·z±z×7IÑ7IÒIØ59·Z±Z×5GÑ5GÐ)Ñ*Ô2ä" 7Ô+å:á-ØŸ	™	×7Ñ7¸d¿i¹i×>ZÑ>ZôˆMð %2ˆDÑ!àˆrp  c                 ó0	  — i }| j                   j                  j                   | j                   j                  j                  }d|v r9| j                   j                  dkD  rt	        d«      ‚|d   | j                   _        n| j                   j                  |d<   t        di |¤Ž}| j                   j                  j                  «       }g d¢}t        di |D ci c]  }||j                  |«      “Œ c}¤Ž}| j                   j                  |_	        |j                  d«      }|r+| j                   j                  st        j                  d«       ||_        |j                  d«       d}| j                   j                  "d	d
lm}	  |	di | j                   j                  ¤Ž}| j#                  |||¬«      }
t%        di |
¤Ž| _        | j&                  j(                  | _        dt-        j.                  | j*                  «      j0                  v r:t3        j4                  | j*                  | j                   j6                  ¬«      | _        t9        | j&                  j:                  dd«      du| _        t9        | j&                  j:                  dd«      du| _        | j>                  r| j&                  j:                  j@                  }dD ]=  }tC        ||| j                   jD                  jG                  |t9        ||«      «      «       Œ? |jH                  r!| j                   jJ                  rt	        d«      ‚| j<                  r7t9        | j                   dd«      € tM        | j&                  | j                   «       | j                   jN                  rL| j<                  s| j>                  r4| j                   jP                  r| j<                  rdnd}t	        |› d«      ‚| j<                  rN| j&                  j:                  jR                  jT                  dk(  r!| j                   jV                  rt	        d«      ‚| j                   jN                  rN| j>                  rAdtY        | j&                  j:                  j@                  jZ                  «      v rt	        d«      ‚yyyc c}w )zOCreate the accelerator and perform post-creation setup (FSDP, DeepSpeed, etc.).NÚ	num_stepsr   z÷The `AcceleratorConfig`'s `num_steps` is set but `gradient_accumulation_steps` is greater than 1 in the passed `TrainingArguments`If using the passed `AcceleratorConfig` is desired, do not set the `TrainingArguments` `gradient_accumulation_steps`.)Úsplit_batchesÚdispatch_batchesÚeven_batchesÚuse_seedable_samplerÚnon_blockingzx`non_blocking` is enabled but `dataloader_pin_memory` is not. For the best performance, it's recommended to enable both.Úgradient_accumulation_kwargsr   )ÚFullyShardedDataParallelPlugin)Údataloader_configÚfsdp_pluginÚgradient_accumulation_pluginÚuse_gather_object)r  rs  r  )Úlimit_all_gathersÚactivation_checkpointingzÁThe activation_checkpointing in FSDP config and the gradient_checkpointing in training arg can't be set to True simultaneously. Please use FSDP's activation_checkpointing logic when using FSDP.Úhf_deepspeed_configÚ	DeepSpeedÚFSDPzJ can't be used with `save_only_model` along with `load_best_model_at_end`.é   zo`auto_find_batch_size` isn't supported yet with DeepSpeed Zero-3. Please consider using Zero-2, Zero-1, or FSDPÚSHARDED_STATE_DICTzWsave_only_model option is not compatible with FSDP state dict type 'SHARDED_STATE_DICT'© ).r´   Úaccelerator_configrŠ  Úgradient_accumulation_stepsrð   r   Úto_dictrš   ÚpopÚ	data_seedÚdataloader_pin_memoryrã   r]  r‰  Úfsdp_plugin_argsr}  r‹  r‚  r—   r  Úgather_for_metricsÚgather_functionrÌ   r  r  Ú	functoolsr   Úeval_use_gather_objectrö   r,  rý   r  r  Úsetattrrû   r8  r‘  Úgradient_checkpointingr(   Úsave_only_modelrb  rs  Ú
zero_stageÚauto_find_batch_sizeÚstrÚstate_dict_type)rE  Úgrad_acc_kwargsrŽ  r˜  Údataloader_paramsrl  rŒ  r‰  r  r‹  r´   Úwrappers               rÑ   rç   z*Trainer.create_accelerator_and_postprocessã  s  € ð ˆØ9‰9×'Ñ'×DÑDÐPØ"Ÿi™i×:Ñ:×WÑWˆOð ˜/Ñ)Øy‰y×4Ñ4°qÒ8ä ðLóð ð
 9HÈÑ8T—	‘	Õ5à+/¯9©9×+PÑ+PˆO˜KÑ(ô
 (BÑ'TÀOÑ'TÐ$à!ŸY™Y×9Ñ9×AÑAÓCÐò jÐÜ3ñ 
ØARÖS¸ˆuÐ(×,Ñ,¨UÓ3Ñ3ÒSñ
Ðð '+§i¡i×&9Ñ&9ÐÔ#à)×-Ñ-¨nÓ=ˆá §	¡	× ?Ò ?ÜN‰Nð Kôð *6ÐÔ&à×ÑÐ=Ô>àˆØ9‰9×%Ñ%Ð1ÝGá8ÑV¸4¿9¹9×;UÑ;UÑVˆKà×+Ñ+Ø/Ø#Ø)Eð ,ó 
ˆô 'Ñ.¨Ñ.ˆÔà#×/Ñ/×BÑBˆÔà¤'×"3Ñ"3°D×4HÑ4HÓ"I×"TÑ"TÑTÜ#,×#4Ñ#4Ø×$Ñ$¸¿	¹	×8XÑ8Xô$ˆDÔ ô
 %,¨D×,<Ñ,<×,BÑ,BÐDVÐX\Ó$]ÐeiÐ$iˆÔ!Ü& t×'7Ñ'7×'=Ñ'=¸}ÈdÓSÐ[_Ð_ˆÔð ×ÒØ×*Ñ*×0Ñ0×<Ñ<ˆKØJò kÜ˜ U¨D¯I©I×,AÑ,A×,EÑ,EÀeÌWÐU`ÐbgÓMhÓ,iÕjðkà×3Ò3¸¿	¹	×8XÒ8XÜ ð'óð ð ×$Ò$¬°·±Ð<QÐSWÓ)XÐ)`Ü'¨×(8Ñ(8¸$¿)¹)ÔDð I‰I×%Ò%Ø×*Ò*¨d×.BÒ.BØ—	‘	×0Ò0à%)×%>Ò%>‘kÀFˆGÜ ˜yÐ(rÐsÓtÐtð ×%Ò%Ø× Ñ ×&Ñ&×7Ñ7×BÑBÀaÒGØ—	‘	×.Ò.äð Bóð ð I‰I×%Ò%Ø×$Ò$Ø$¬¨D×,<Ñ,<×,BÑ,B×,NÑ,N×,^Ñ,^Ó(_Ñ_äÐvÓwÐwð `ð %ð &ùòU Ts   ÃRc                 ó˜   — | j                   €t        d«      ‚| j                  | j                   d| j                  | j                  d¬«      S )a@  
        Returns the training [`~torch.utils.data.DataLoader`].

        Will use no sampler if `train_dataset` does not implement `__len__`, a random sampler (adapted to distributed
        training if necessary) otherwise.

        Subclass and override this method if you want to inject some custom behavior.
        z+Trainer: training requires a train_dataset.ÚTrainingT)ÚdatasetÚdescriptionÚ
batch_sizeÚ
sampler_fnÚis_training)r¶   rð   Ú_get_dataloaderr4  Ú_get_train_sampler©rE  s    rÑ   Úget_train_dataloaderzTrainer.get_train_dataloaderS  sU   € ð ×ÑÐ%ÜÐJÓKÐKà×#Ñ#Ø×&Ñ&Ø"Ø×-Ñ-Ø×.Ñ.Øð $ó 
ð 	
rp  c                 ó   — |€| j                   €t        d«      ‚t        |t        «      r|nd}t	        | d«      r3|| j
                  v r%| j                  j                  r| j
                  |   S t        |t        «      r| j                   |   n||n| j                   }| j                  |d| j                  j                  | j                  |¬«      S )a   
        Returns the evaluation [`~torch.utils.data.DataLoader`].

        Subclass and override this method if you want to inject some custom behavior.

        Args:
            eval_dataset (`str` or `torch.utils.data.Dataset`, *optional*):
                If a `str`, will use `self.eval_dataset[eval_dataset]` as the evaluation dataset. If a `Dataset`, will override `self.eval_dataset` and must implement `__len__`. If it is a [`~datasets.Dataset`], columns not accepted by the `model.forward()` method are automatically removed.
        z-Trainer: evaluation requires an eval_dataset.ÚevalÚ_eval_dataloadersÚ
Evaluation)r¯  r°  r±  r²  Údataloader_key)r·   rð   r  r¨  r	  rº  r´   Údataloader_persistent_workersr´  Úeval_batch_sizeÚ_get_eval_sampler)rE  r·   r¼  s      rÑ   Úget_eval_dataloaderzTrainer.get_eval_dataloaderg  sÚ   € ð Ð D×$5Ñ$5Ð$=ÜÐLÓMÐMô *4°LÄ#Ô)F™ÈFˆäDÐ-Ô.Ø $×"8Ñ"8Ñ8Ø—	‘	×7Ò7à×)Ñ)¨.Ñ9Ð9ô ˜,¬Ô,ð ×Ñ˜lÒ+ð Ð'ñ à×"Ñ"ð 	ð ×#Ñ#Ø Ø$Ø—y‘y×0Ñ0Ø×-Ñ-Ø)ð $ó 
ð 	
rp  Útest_datasetc                 óh   — | j                  |d| j                  j                  | j                  ¬«      S )aµ  
        Returns the test [`~torch.utils.data.DataLoader`].

        Subclass and override this method if you want to inject some custom behavior.

        Args:
            test_dataset (`torch.utils.data.Dataset`, *optional*):
                The test dataset to use. If it is a [`~datasets.Dataset`], columns not accepted by the
                `model.forward()` method are automatically removed. It must implement `__len__`.
        Útest)r¯  r°  r±  r²  )r´  r´   r¾  r¿  )rE  rÁ  s     rÑ   Úget_test_dataloaderzTrainer.get_test_dataloaderŽ  s8   € ð ×#Ñ#Ø ØØ—y‘y×0Ñ0Ø×-Ñ-ð	 $ó 
ð 	
rp  Ú
dataloaderc                 ó  — 	 |j                   }t        |t        «      rt        |j                   j                   «      S t        |j                   «      S # t        t
        t        f$ r% t        |«      | j                  j                  z  cY S w xY w)zË
        Helper to get number of samples in a [`~torch.utils.data.DataLoader`] by accessing its dataset. When
        dataloader.dataset does not exist or has no length, estimates as best it can
        )	r¯  r  rG   rù   Ú	NameErrorÚAttributeErrorrf  r´   Úper_device_train_batch_size)rE  rÅ  r¯  s      rÑ   Únum_exampleszTrainer.num_examples   sw   € ð
	KØ ×(Ñ(ˆGä˜'Ô#7Ô8Ü˜:×-Ñ-×5Ñ5Ó6Ð6Üz×)Ñ)Ó*Ð*øÜœ>¬9Ð5ò 	KÜz“? T§Y¡Y×%JÑ%JÑJÒJð	Kús   ‚:A ½A Á6BÂ
Br¯  r°  r±  r²  r³  r¼  c                 óþ  — | j                   }t        «       r.t        |t        j                  «      r| j                  ||¬«      }n| j                  | j                   |¬«      }t        j                  j                  j                  «       xr | j                  j                  dkD  }||| j                  j                  | j                  j                  | j                  j                  |rdnddœ}	t        |t        j                  j                   j"                  «      s~| ||«      |	d<   | j                  j$                  |	d<   | j                  j&                  |	d<   |r=t)        t*        | j                  j                  | j                  j,                  ¬	«      |	d
<   | j.                  j1                  t3        |fi |	¤Ž«      }
|<| j                  j                  r&t5        | d«      r|
| j6                  |<   |
S ||
i| _        |
S )zACreate a [`~torch.utils.data.DataLoader`] from the given dataset.)r°  r   ÚforkN)r±  Ú
collate_fnÚnum_workersÚ
pin_memoryÚpersistent_workersÚmultiprocessing_contextÚsamplerÚ	drop_lastÚprefetch_factor)rÎ  ÚrankÚworker_init_fnrº  )rµ   r„   r  Údatasetsr   Ú_remove_unused_columnsÚ"_get_collator_with_removed_columnsr¦   r¨   ÚmpsÚis_availabler´   Údataloader_num_workersr  r½  ri  rj  r   Údataloader_drop_lastÚdataloader_prefetch_factorr   rl   Úprocess_indexr  Úpreparer   r	  rº  )rE  r¯  r°  r±  r²  r³  r¼  rµ   Úshould_forkr«  rÅ  s              rÑ   r´  zTrainer._get_dataloader®  sÀ  € ð ×*Ñ*ˆÜ Ô"¤z°'¼8×;KÑ;KÔ'LØ×1Ñ1°'À{Ð1ÓS‰Gà ×CÑCÀD×DVÑDVÐdoÐCÓpˆMô —n‘n×(Ñ(×5Ñ5Ó7Ò`¸D¿I¹I×<\Ñ<\Ð_`Ñ<`ˆð %Ø'ØŸ9™9×;Ñ;ØŸ)™)×9Ñ9Ø"&§)¡)×"IÑ"IÙ1<¡vÀ$ñ
Ðô ˜'¤5§;¡;×#3Ñ#3×#CÑ#CÔDØÐ%Ù/9¸'Ó/BÐ! )Ñ,Ø-1¯Y©Y×-KÑ-KÐ˜kÑ*Ø37·9±9×3WÑ3WÐÐ/Ñ0ÙÜ6=Ü¨T¯Y©Y×-MÑ-MÐTX×T]ÑT]×TkÑTkô7Ð!Ð"2Ñ3ð ×%Ñ%×-Ñ-¬j¸Ñ.VÐDUÑ.VÓWˆ
ð Ð%¨$¯)©)×*QÒ*QÜtÐ0Ô1Ø9C×&Ñ& ~Ñ6ð Ðð +9¸*Ð)EÔ&àÐrp  c                 óT  — |€| j                   }|t        |«      sy| j                  j                  dk(  rÅt	        «       rXt        |t        j                  «      r>| j                  j                  |j                  v r|| j                  j                     nd}nd}| j                  | j                  j                  d   nd}t        | j                  j                  | j                  j                  z  |||¬«      S | j                  j                  dk(  rt        |«      S t!        |«      S )z?Return the training sampler based on `train_sampling_strategy`.NÚgroup_by_lengthr   ©r¯  ÚlengthsÚmodel_input_nameÚ
sequential)r¶   rh   r´   rk  r„   r  r×  r   Úlength_column_nameÚcolumn_namesr¸   Úmodel_input_namesrI   r3  r™  r   r   )rE  r¶   rå  ræ  s       rÑ   rµ  zTrainer._get_train_samplerà  s  € àÐ Ø ×.Ñ.ˆMØÐ ¬
°=Ô(AØð 9‰9×,Ñ,Ð0AÒAÜ$Ô&¬:°mÄX×EUÑEUÔ+Vð —y‘y×3Ñ3°}×7QÑ7QÑQð " $§)¡)×">Ñ">Ò?àñ ð à>B×>SÑ>SÐ>_×%Ñ%×7Ñ7¸Ò:Ðeið ô (Ø—	‘	×*Ñ*¨T¯Y©Y×-RÑ-RÑRØ%ØØ!1ô	ð ð Y‰Y×.Ñ.°,Ò>Ü$ ]Ó3Ð3ä  Ó/Ð/rp  c                 óö  — |t        |«      sy| j                  j                  dk(  r®t        «       rXt	        |t
        j                  «      r>| j                  j                  |j                  v r|| j                  j                     nd}nd}| j                  | j                  j                  d   nd}t        | j                  j                  |||¬«      S | j                  j                  dk  rt        |«      S y)zNReturn the evaluation sampler, using sequential ordering when not distributed.Nrã  r   rä  r   )rh   r´   rk  r„   r  r×  r   rè  ré  r¸   rê  rI   r¾  Ú
world_sizer   )rE  r·   rå  ræ  s       rÑ   r¿  zTrainer._get_eval_samplerÿ  så   € àÐ¤z°,Ô'?Øà9‰9×,Ñ,Ð0AÒAÜ$Ô&¬:°lÄH×DTÑDTÔ+Uð —y‘y×3Ñ3°|×7PÑ7PÑPð ! §¡×!=Ñ!=Ò>àñ ð à>B×>SÑ>SÐ>_×%Ñ%×7Ñ7¸Ò:Ðeið ô (Ø—	‘	×)Ñ)Ø$ØØ!1ô	ð ð 9‰9×Ñ 1Ò$Ü$ \Ó2Ð2àrp  c                 óü  — | j                   €ð| j                  }t        | j                  «      rQt        | j                  d«      r| j                  j	                  «       }n | j                  j
                  j                  }t        j                  |j                  «      }t        |j                  j                  «       «      | _         | xj                   t        t        ddg| j                  z   «      «      z  c_         yy)zTPopulate `_signature_columns` from the model's forward signature if not already set.NÚget_base_modelÚlabelÚ	label_ids)r2  r³   r`   r	  rî  Ú
base_modelrÌ   r  r  Úlistr  Úkeysr÷   r  )rE  rK  r  s      rÑ   Ú _set_signature_columns_if_neededz(Trainer._set_signature_columns_if_needed  sÁ   € à×"Ñ"Ð*à#Ÿz™zÐÜ˜dŸj™jÔ)Ü˜4Ÿ:™:Ð'7Ô8Ø'+§z¡z×'@Ñ'@Ó'BÑ$ð (,§z¡z×'<Ñ'<×'BÑ'BÐ$Ü×)Ñ)Ð*:×*BÑ*BÓCˆIÜ&*¨9×+?Ñ+?×+DÑ+DÓ+FÓ&GˆDÔ#à×#Ò#¤t¬C°¸+Ð0FÈ×IYÑIYÑ0YÓ,ZÓ'[Ñ[Ö#ð +rp  zdatasets.Datasetc                 ó¢  — | j                   j                  s|S | j                  «        | j                  }t	        t        |j                  «      t        |«      z
  «      }t        |«      dkD  r‰|€dnd|› d}t        j                  d|› d| j                  j                  j                  › ddj                  |«      › d	dj                  |«      › d
| j                  j                  j                  › d«       |D cg c]  }||j                  v sŒ|‘Œ }}t        |«      dk(  r0t        ddj                  |«      › ddj                  |«      › d«      ‚t        j                   t"        j$                  «      t        j                   d«      k  r0|j'                  |j(                  d   ||j(                  d   ¬«       |S |j+                  |«      S c c}w )zBRemove dataset columns not accepted by the model's forward method.r   Ú zin the z setzThe following columns z) don't have a corresponding argument in `z!.forward` and have been ignored: ú, z. If z are not expected by `z/.forward`,  you can safely ignore this message.zGNo columns in the dataset match the model's forward method signature: (z-). The following columns have been ignored: [zp]. Please check the dataset and model. You may need to set `remove_unused_columns=False` in `TrainingArguments`.z1.4.0ÚtypeÚformat_kwargs)rø  Úcolumnsrù  )r´   Úremove_unused_columnsrô  r2  rò  r÷   ré  rù   rã   rä   r³   rñ   rò   Újoinrð   r   Úparser×  r   Ú
set_formatÚformatÚremove_columns)rE  r¯  r°  Úsignature_columnsÚignored_columnsÚdset_descriptionrÐ   rú  s           rÑ   rØ  zTrainer._remove_unused_columns,  sÎ  € ð y‰y×.Ò.ØˆNØ×-Ñ-Ô/Ø ×3Ñ3Ðäœs 7×#7Ñ#7Ó8¼3Ð?PÓ;QÑQÓRˆÜˆÓ !Ò#Ø%0Ð%8™rÀÈÀ}ÐTXÐ>YÐÜK‰KØ(Ð)9Ð(:ð ;Ø—J‘J×(Ñ(×1Ñ1Ð2Ð2SÐTX×T]ÑT]Ð^mÓTnÐSoð pØ—y‘y Ó1Ð2Ð2HÈÏÉ×I]ÑI]×IfÑIfÐHgð h7ð7ôð 0ÖM˜°1¸×8LÑ8LÒ3L’1ÐMˆÐMÜˆw‹<˜1ÒÜØYÐZ^×ZcÑZcÐduÓZvÐYwð x=Ø=A¿Y¹YÀÓ=WÐ<Xð Y@ð@óð ô =‰=œ×-Ñ-Ó.´·±¸wÓ1GÒGØ×ÑØ—^‘^ FÑ+°WÈGÏNÉNÐ[jÑLkð ô ð ˆNà×)Ñ)¨/Ó:Ð:ùò Ns   Ã:GÄGc                 óÒ   — | j                   j                  s|S | j                  «        | j                  }t	        ||t
        || j                  j                  j                  ¬«      }|S )z=Wrap the data collator in a callable removing unused columns.)rµ   r  rã   r°  Ú
model_name)	r´   rû  rô  r2  r\   rã   r³   rñ   rò   )rE  rµ   r°  r  Úremove_columns_collators        rÑ   rÙ  z*Trainer._get_collator_with_removed_columnsO  s_   € ày‰y×.Ò.Ø Ð Ø×-Ñ-Ô/Ø ×3Ñ3Ðä"7Ø'Ø/ÜØ#Ø—z‘z×+Ñ+×4Ñ4ô#
Ðð 'Ð&rp  Únum_training_stepsc                 óH   — | j                  «        | j                  |¬«       y)aZ  
        Setup the optimizer and the learning rate scheduler.

        We provide a reasonable default that works well. If you want to use something else, you can pass a tuple in the
        Trainer's init through `optimizers`, or subclass and override this method (or `create_optimizer` and/or
        `create_scheduler`) in a subclass.
        ©r  N)Úcreate_optimizerÚcreate_scheduler)rE  r  s     rÑ   Úcreate_optimizer_and_schedulerz&Trainer.create_optimizer_and_schedulera  s"   € ð 	×ÑÔØ×ÑÐ1CÐÕDrp  c           
      óæ  — t        «       r| j                  n| j                  }| j                  €x| j	                  |«      }|j                  «       D cg c]  \  }}||v sŒ|j                  sŒ|‘Œ c}}| j                  j                  dœ|j                  «       D cg c]  \  }}||vsŒ|j                  sŒ|‘Œ c}}ddœg}| j                  | j                  \  }}n| j                  | j                  |«      \  }}t        |«      r  |«       |fi |¤Ž| _        nMd|v r|j                  d«      }d|v r|j                  d«      }d|v r|j                  d«      } ||fi |¤Ž| _        dt        |«      v r.|j                  dd«      d	k(  rd
dl}|j                   j"                  j%                  «       }	d
}
|j'                  «       D ]¿  }t)        |t*        j,                  «      sŒ|
t/        |j1                  «       D ci c]!  }|j3                  «       |j5                  «       “Œ# c}j7                  «       «      z  }
t8        j;                  d|› d|
dz  › d«       |	j=                  |dddi«       t8        j?                  d|› d«       ŒÁ t8        j;                  d|
dz  › d«       t        «       r$tA        jB                  | j                  «      | _        | j                  S c c}}w c c}}w c c}w )aO  
        Setup the optimizer.

        We provide a reasonable default that works well. If you want to use something else, you can pass a tuple in the
        Trainer's init through `optimizers`, or subclass and override this method in a subclass.

        Returns:
            `torch.optim.Optimizer`: The optimizer instance.
        N)rW  Úweight_decayç        rW  r³   Úoptimizer_dictÚbitsandbytesÚ
optim_bitsé   r   zskipped z: i   zM paramsÚweighté    zbitsandbytes: will optimize z in fp32z	skipped: )"rˆ   r  r³   r  Úget_decay_parameter_namesÚnamed_parametersÚrequires_gradr´   r  r¾   Úget_optimizer_cls_and_kwargsrE   r›  r¨  r8  r  ÚoptimÚGlobalOptimManagerÚget_instanceÚmodulesr  r   Ú	EmbeddingÚsumr  Údata_ptrÚnumelrø   rã   rä   Úregister_module_overrideÚdebugr[  ÚDistributedOptimizer)rE  Ú	opt_modelÚdecay_parametersÚnÚpÚoptimizer_grouped_parametersÚoptimizer_clsÚoptimizer_kwargsr  ÚmanagerÚskippedÚmodules               rÑ   r
  zTrainer.create_optimizerl  sÖ  € ô +BÔ*CD×&Ò&ÈÏÉˆ	à>‰>Ñ!Ø#×=Ñ=¸iÓHÐð '0×&@Ñ&@Ó&B÷Ù"˜a ÀqÐL\ÒG\Ðab×apÓapšóð %)§I¡I×$:Ñ$:ñ	ð '0×&@Ñ&@Ó&B÷Ù"˜a ÀqÐP`ÒG`Ðef×etÓetšóð %(ñ	ð,Ð(ð ×,Ñ,Ð8Ø26×2OÑ2OÑ/Ñ/à26×2SÑ2SÐTX×T]ÑT]Ð_hÓ2iÑ/Ð/ô $ MÔ2Ø!0¡£°Ñ!OÐ>NÑ!O•ð
 Ð/Ñ/Ø3C×3GÑ3GÈÓ3QÐ0ð Ð.Ñ.Ø3C×3GÑ3GÈÓ3PÐ0ð $Ð'7Ñ7Ø3C×3GÑ3GÐHXÓ3YÐ0á!.Ð/KÑ!`ÐO_Ñ!`”à¤ ]Ó!3Ò3Ð8H×8LÑ8LÈ\Ð[_Ó8`ÐdeÓ8eÛ#à&×,Ñ,×?Ñ?×LÑLÓNàØ'×/Ñ/Ó1ò VFÜ! &¬"¯,©,Õ7Ø¤3È×IZÑIZÓI\Ö']ÀA¨¯
©
«°a·g±g³iÑ(?Ò']×'dÑ'dÓ'fÓ#gÑg˜ÜŸ™ h¨v¨h°b¸À5¹Ð8IÈÐ$RÔSØ×8Ñ8¸ÀÈLÐZ\ÐK]Ô^ÜŸ™Ð'CÀFÀ8È8Ð%TÕUðVô —‘˜i¨°%©Ð'8¸ÐAÔBä"Ô$Ü ×5Ñ5°d·n±nÓEˆDŒNà~‰~ÐùóuùóùòV (^s*   ÁK"Á!K"Á.K"ÂK(Â,K(Â9K(È &K.r  c                 ó’  — | j                   €°|€Qt        «       r;t        j                  j                  j
                  r| j                  j                  }n| j                  }t        | j                  j                  || j                  j                  |«      || j                  j                  ¬«      | _         d| _        | j                   S )ad  
        Setup the scheduler. The optimizer of the trainer must have been set up either before this method is called or
        passed as an argument.

        Args:
            num_training_steps (int): The number of training steps to do.

        Returns:
            `torch.optim.lr_scheduler.LRScheduler`: The learning rate scheduler instance.
        )r  Únum_warmup_stepsr  Úscheduler_specific_kwargsT)r  rˆ   r[  r,  r\  rZ  r  r7   r´   Úlr_scheduler_typeÚget_warmup_stepsÚlr_scheduler_kwargsr5  )rE  r  r  s      rÑ   r  zTrainer.create_scheduler¸  sš   € ð ×ÑÐ$ØÐ Ü*Ô,´·±·±×1CÒ1Cà $§¡× 8Ñ 8‘Ià $§¡IÜ -Ø—	‘	×+Ñ+Ø#Ø!%§¡×!;Ñ!;Ð<NÓ!OØ#5Ø*.¯)©)×*GÑ*Gô!ˆDÔð *.ˆDÔ&Ø× Ñ Ð rp  c           	      ó(  — t        | |d| j                  i| j                  | j                  f| j                  dœt        | j                  «      ¬«      }t        j                  | j                  «      }|€t        d| j                  › «      ‚ ||«      S )a  
        Returns the optimizer class and optimizer parameters based on the training arguments.

        Args:
            args (`transformers.training_args.TrainingArguments`):
                The training arguments for the training session.
            model (`PreTrainedModel`, *optional*):
                The model being trained. Required for some optimizers (GaLore, Apollo, LOMO).

        Returns:
            A tuple containing the optimizer class and a dictionary of optimizer keyword arguments.
        Úlr)ÚbetasÚeps)r´   r³   r+  Úadam_kwargsÚ
optim_argsz2Trainer cannot instantiate unsupported optimizer: )rC   Úlearning_rateÚ
adam_beta1Ú
adam_beta2Úadam_epsilonrD   r:  rB   r8  r  rð   )r´   r³   ÚctxÚhandlers       rÑ   r  z$Trainer.get_optimizer_cls_and_kwargsÖ  sŽ   € ô ØØØ" D×$6Ñ$6Ð7àŸ/™/¨4¯?©?Ð;Ø×(Ñ(ñô )¨¯©Ó9ô	
ˆô &×)Ñ)¨$¯*©*Ó5ˆØˆ?ÜÐQÐRV×R\ÑR\ÐQ]Ð^Ó_Ð_ás‹|Ðrp  c                 óF   — g d¢}t        |t        j                  g|«      }|S )a-  
        Get all parameter names that weight decay will be applied to.

        This function filters out parameters in two ways:
        1. By layer type (instances of layers specified in ALL_LAYERNORM_LAYERS)
        2. By parameter name patterns (containing 'bias', or variation of 'norm')
        )ÚbiasÚ	layernormÚrmsnormz(?:^|\.)norm(?:$|\.)z_norm(?:$|\.))rM   r   Ú	LayerNorm)rE  r³   Úforbidden_name_patternsr&  s       rÑ   r  z!Trainer.get_decay_parameter_namesõ  s'   € ò #qÐÜ.¨u´r·|±|°nÐF]Ó^ÐØÐrp  c                 ó  — | j                   r	 | j                  j                  «       d   }nrt        | j                  t        j                  j                  j                  «      r| j                  j                  d   d   }n| j                  j                  «       d   }t        j                  |«      r|j                  «       }|S # t        $ r0}dt	        |«      v rt
        j                  d«       d}n‚ Y d}~Œ[d}~ww xY w)z¥
        Returns the current learning rate from the scheduler.

        Handles DeepSpeed's dynamic loss scaling warmup period where `get_last_lr` may fail.
        r   zneed to call stepzQtried to get lr value before scheduler/optimizer started stepping, returning lr=0Nr6  )rý   r  Úget_last_lrÚAssertionErrorr¨  rã   r]  r  r¦   r  ÚReduceLROnPlateaur  rd  Ú	is_tensorÚitem)rE  Úlast_lrÚes      rÑ   Ú_get_learning_ratezTrainer._get_learning_rate  sÓ   € ð ×$Ò$ðØ×+Ñ+×7Ñ7Ó9¸!Ñ<‘ô ˜$×+Ñ+¬U¯[©[×-EÑ-E×-WÑ-WÔXØŸ.™.×5Ñ5°aÑ8¸Ñ>‘à×+Ñ+×7Ñ7Ó9¸!Ñ<ä?‰?˜7Ô#Ø—l‘l“nˆGØˆøô "ò Ø&¬#¨a«&Ñ0Ü—N‘NÐ#vÔwØ‘Gàô ûðús   ŽC Ã	C>Ã&C9Ã9C>Úresume_from_checkpointÚtrialú$optuna.Trial | dict[str, Any] | NoneÚignore_keys_for_evalc                 óü  — |du rd}| j                   j                  «        | j                  }d| _        t	        | j
                  t        t        f«      r6t        | j                  d«      r t        | j                  | j
                  «       | j                  0t        | j                  | j                  | j                  «      | _        |j                  s|j                   r>| j"                  s2| j$                  €&| j'                  | j                  |j(                  «       | j+                  |«       | j                  j,                  | _        d}| j$                  {| j                  j0                  rt3        | j                  j4                  «      nt7        | j                  j4                  «       | j9                  |«      | _	        d}d\  | _        | _        t	        |t>        «      r2|r0tA        |jB                  «      }|€tE        d|jB                  › d«      ‚|“tG        «       s)| jH                  s| jJ                  s| jM                  |«       tO        jP                  tR        jT                  jW                  |tX        «      «      }|j,                  |jZ                  r|j,                  | _        |rC| j\                  r&| j'                  | j                  |j(                  «       | j                  | _/        ta        | jb                  | j.                  |jZ                  «      }|jd                  r5	 tg        jh                  «         |||||¬«      tg        jj                  «        S  |||||¬«      S # tg        jj                  «        w xY w)	aô  
        Main training entry point.

        Args:
            resume_from_checkpoint (`str` or `bool`, *optional*):
                If a `str`, local path to a saved checkpoint as saved by a previous instance of [`Trainer`]. If a
                `bool` and equals `True`, load the last checkpoint in *args.output_dir* as saved by a previous instance
                of [`Trainer`]. If present, training will resume from the model/optimizer/scheduler states loaded here.
            trial (`optuna.Trial` or `dict[str, Any]`, *optional*):
                The trial run or the hyperparameter dictionary for hyperparameter search.
            ignore_keys_for_eval (`list[str]`, *optional*)
                A list of keys in the output of your model (if it is a dictionary) that should be ignored when
                gathering predictions for evaluation during the training.

        Returns:
            [`~trainer_utils.TrainOutput`]: Object containing the global step count, training loss, and metrics.
        FNTrÞ   r²   z/No valid checkpoint found in output directory (ú))r´   rP  rQ  rS  )6ré   rê   r´   r-  r  r¸   r9   r8   r	  r³   ra   r  r,   r  Úneftune_hook_handler  r  rõ   r¹   r  rú   Ú_hp_search_setupr3  r4  rå   re   ræ   rm   rî   r  r  Úboolrg   rÂ   rð   rˆ   rý   r  Ú_load_from_checkpointrA   Úload_from_jsonr)  Úpathrü  ÚTRAINER_STATE_NAMEr§  r   r  rf   Ú_inner_training_loopr&  Úhf_hub_utilsÚdisable_progress_barsÚenable_progress_bars)rE  rP  rQ  rS  r´   Úmodel_reloadedr,  Úinner_training_loops           rÑ   ÚtrainzTrainer.train  sã  € ð. " UÑ*Ø%)Ð"ð 	×Ñ×"Ñ"Ô$ày‰yˆàˆÔô d×+Ñ+Ô.EÄ~Ð-VÔWÔ\cØJ‰J˜ô]
ô ! §¡¨T×-BÑ-BÔCð ×#Ñ#Ð/Ü'7¸¿
¹
ÀD×D\ÑD\Ð^b×^nÑ^nÓ'oˆDÔ$ð ×Ò 4×#6Ò#6À×@VÒ@VÐ[_×[jÑ[jÐ[rØ×&Ñ& t§z¡z°4·;±;Ô?ð 	×Ñ˜eÔ$Ø!%§¡×!;Ñ!;ˆÔð ˆØ?‰?Ð&à7;·y±y×7QÒ7QÔ# D§I¡I§N¡NÔ3ÔW_Ð`d×`iÑ`i×`nÑ`nÓWoøØ×-Ñ-¨eÓ4ˆDŒJØ!ˆNà0:Ñ-ˆDŒN˜DÔ-ô Ð,¬dÔ3Ñ8NÜ%8¸¿¹Ó%IÐ"Ø%Ð-Ü Ð#RÐSW×SbÑSbÐRcÐcdÐ!eÓfÐfà!Ð-Ü*Ô,°T×5NÒ5NÐW[×WkÒWkØ×*Ñ*Ð+AÔBä ×/Ñ/´·±·±Ð=SÔUgÓ0hÓiˆEð ×%Ñ%Ð1°d×6OÒ6OØ).×)?Ñ)?Ô&ñ Ø×)Ò)Ø×*Ñ*¨4¯:©:°t·{±{ÔCØ!%§¡ˆDÔä8Ø×%Ñ% t×'=Ñ'=¸t×?XÑ?Xó
Ðð ×Òð
4ä×2Ñ2Ô4Ù*ØØ+AØØ)=ô	ô ×1Ñ1Õ3á&ØØ'=ØØ%9ô	ð øô ×1Ñ1Õ3ús   Ì%M% Í%M;c                 ó^1  — | j                   j                  «        || _        | j                  j                  rõ| j
                  j                  | j                  k7  r·t        | j                  «       | j                  | _        | j                  r…| j                  j                  }| j                  t        d| j                  j                  «      z  | j                  _        t        | j                   | j                  d¬«       || j                  _        | j                  | j
                  _        t        j!                  d| j                  › «       | j#                  «       }| j$                  rt'        |«      }| j)                  |«      }| j+                  |||«      \  }	}
}}}}}t,        j.                  | j                  j                   v r9| j                  j                  dkD  rt1        d«      ‚t3        | j                  «       t5        «       xs | j6                  xs | j8                  }| j8                  xr. t;        | j                   j
                  j<                  dd«      dk(  }|rd}| j>                  rd	| _         d| _        | j                  rtC        | |¬
«      \  | _"        | _         |s| jG                  «        tI        | jJ                  jL                  | jN                  gz   D cg c]  }tQ        |tR        «      sŒ|‘Œ c}¬«      | _        |d	u| j
                  _*        | j                  | j
                  _        | j
                  jW                  ||«       |jX                  r&| j                  j[                  |j\                  ¬«       | j_                  | j                  «      }|| j                  u }|r(| j8                  rta        | j                  d¬«      | _	        |rŒ|rz| j8                  r+tc        |«      r te        | j                  | j                   «       | j                   jf                  dk7  r*| j                   ji                  | j                  «      | _	        | jG                  «        |rþ| j                  jk                  «        | j                  rŸddl6m7} tQ        | j@                  |«      rJ| j                   ji                  | j                  | jD                  | j@                  «      \  }| _"        | _         nœ| j                   ji                  | j                  | jD                  «      \  }| _"        nc| j                   ji                  | j                  | jD                  «      \  }| _"        n*| j                   ji                  | jD                  «      | _"        | jq                  |¬
«       t;        | j                   dd	«      }|7|jr                  dk(  r(|jt                  r| j                   jw                  ||«      }| j8                  rN|x| _	        | _        ty        | j                  d«      r*tz        j|                  j                  | j                  d«       || j                  ur|| _        | j                  r| j                  | _@        |k| j                  r-tƒ        | j                  |tc        | j                  «       ¬«       n2t5        «       s| j8                  r| j…                  || j                  «       | j‡                  |«       | j‰                  |«       t        j‹                  d«       t        j‹                  d|d›«       t        j‹                  d|	d›«       t        j‹                  d| j                  j                  d›«       | j                  j                  | j                  k7  r#t        j‹                  d| j                  d›«       t        j‹                  d|d›«       t        j‹                  d|jŒ                  › «       t        j‹                  d|d›«       t        j‹                  dt        |d¬«      d›«       d| j
                  _H        t“        j’                  «       }| j
                  j”                  | _K        d}d}|ˆt˜        jš                  j                  t˜        jš                  jŸ                  |t         «      «      rFtI        j¢                  t˜        jš                  jŸ                  |t         «      «      | _        t¥        | j                  | j
                  «       | j§                  «        t©        | j
                  jª                  |
z  «      }|j¬                  s)| j
                  jª                  |
z  }||jŒ                  z  }nd}t        j‹                  d «       t        j‹                  d!|› «       t        j‹                  d"| j
                  jª                  › «       |j¬                  st        j‹                  d#|› d$|› d%«       d&D ]#  }t¯        | jJ                  |t;        | |«      «       Œ% || jJ                  _X        | j
                  j³                  | ||	|«       tµ        j¶                  d'|j¸                  ¬(«      }d'| _]        | j
                  jª                  | _^        |j¿                  «        d	}d	}| jJ                  jÁ                  || j
                  | jN                  «      | _'        |jÂ                  r| jÅ                  ||d¬)«       tÇ        ||	«      D 
]¨  }|}|tÉ        |«      n|jÊ                  |jŒ                  z  } | jJ                  jÍ                  || j
                  | jN                  «      | _'        d*}!d}"||k(  r=|;|dkD  r |j¬                  stÏ        ||«      }|dz
  }!d}"n|dk(  r| jÑ                  |«       ty        |d+«      r|jÓ                  |«       tÕ        |«      }#| |jŒ                  z  }$|$dk(  r|jŒ                  }$d*}%| |jŒ                  z  t©        |$|jŒ                  k  «      z   }&tÇ        |&«      D ]]  }'|%dz  }%|%|&dz
  k7  r|jŒ                  n|$}(| j×                  |#|(|j¸                  «      \  })}*tÉ        |)«      | _l        tÛ        |)«      D ]¯  \  }+},|!dz  }!|!dz   |jŒ                  z  dk(  xs |!dz   | k(  }-| j                   jÜ                  jß                  |-«       | j                  jà                  d,k7  rt;        | j                  d-d.«      }.|.|,vrt        jã                  d/«       n^| j                  jà                  d0k(  r¤d1|,v r|,d1   jå                  «       }/nŸ| jæ                  Wty        | jæ                  d2«      rA| jæ                  jè                  +|,|.   | jæ                  jè                  k7  jå                  «       }/n<t        jã                  d3«       |,|.   jë                  «       }/n|,|.   jë                  «       }/tµ        j¶                  |/| j                  j¸                  t´        jì                  ¬4«      }/| j
                  xj”                  | j                   jï                  |/«      jå                  «       jñ                  «       z  c_J        |"r| jÑ                  |«       d}"|!|jŒ                  z  dk(  r6| jJ                  jó                  || j
                  | jN                  «      | _'        | j                   jÜ                  jô                  j÷                  d5d«      s8| j                   jø                  tú        jü                  k(  s|+tÉ        |)«      dz
  k(  rtþ        j                   }0n.t        j                  | j                   j                  |¬6«      }0 |0«       5  | j	                  ||,|*«      }1d	d	d	«       |j
                  rdt        «       sYtµ        j                  1«      stµ        j                  |1«      r-||d| j
                  jª                  z   | j¼                  z
  z  z   }nC|j¸                  1j¸                  k7  r%t1        d7|j¸                  › d8|1j¸                  › «      ‚||1z   }| xj                  t        | j                  |,«      «      z  c_‰        |-r| j                   jÜ                  jß                  d«       |j                  |j                  dkD  rt5        «       r5|j                  r(| jD                  j                  |j                  «      }2nmtþ        j                   }3| j                  rdd9lm‘}4 |4}3 |3«       5  | j                   j%                  |j'                  «       |j                  «      }2d	d	d	«       | j                   jø                  tú        jü                  k(  r.|j)                  «       }ty        |d:«      r|jñ                  «       }n2}| jJ                  j+                  || j
                  | jN                  «      | _'        tþ        j                   }5| j                  rdd9lm‘}4 |4}5 |5«       5  | jD                  j-                  «        d	d	d	«       | jJ                  j/                  || j
                  | jN                  «      | _'        | j1                  «       }| j                   j2                  sUtQ        | j@                  t´        j4                  j@                  j6                  «      s| j@                  j-                  «        |j¿                  «        | j
                  xjª                  dz  c_U        ||!dz   | z  z   | j
                  _H        | jJ                  j9                  || j
                  | jN                  «      | _'        | j;                  ||||||||¬;«       n7| jJ                  j=                  || j
                  | jN                  «      | _'        | jN                  j>                  s| jN                  j@                  sŒt        «       rtC        jD                  «         n | jN                  j>                  s| jN                  j@                  sŒ=t        «       rtC        jD                  «         n |!dk  rAt        jã                  d<| j
                  jª                  › d=|› d>«       d| jN                  _         | jJ                  jG                  || j
                  | jN                  «      | _'        | j;                  ||||||||¬;«       t,        jH                  | j                  j                   v rLt        «       r,tC        jJ                  tM        jN                  «       «       nt        jã                  d?«       | jN                  j@                  s
Œ© n t        j‹                  d@«       |jP                  r(| j
                  jR                  | jU                  «        | xjº                  |jñ                  «       z  c_]        t        | j
                  jª                  dA«      }6| jº                  |6z  }7tW        dB||| j
                  jÊ                  ¬C«      }8| jY                  «        | j
                  jZ                  |8dD<   |7|8dE<   d| _®        | j^                  ja                  |8«       | jc                  |8«       | je                  |«      }9tg        |9| j
                  jR                  ¬F«      }:| j                  jh                  r¡| j
                  jR                  Š| j                  jj                  dk(  rp|:D ]k  };t˜        jš                  jm                  |;| j
                  jR                  «      rŒ:t        j‹                  dG|;› dH«       to        jp                  |;d¬I«       Œm | jJ                  js                  || j
                  | jN                  «      | _'        | ju                  «        | jv                  -ty        | j                  | jz                  | j                   «       t}        | j
                  jª                  |7|8«      S c c}w # 1 sw Y   ŒÐxY w# 1 sw Y   ŒxY w# 1 sw Y   Œ4xY w)Jz\Run the actual training loop: forward, backward, optimizer step, logging, and checkpointing.r   T)r§  z)Currently training with a batch size of: z\Currently --debug underflow_overflow is not supported under DP. Please use DDP with torchrunÚfsdp_versioné   FNr	  )rÝ   )Úgradient_checkpointing_kwargs)Ú	recursiveÚfp8r   )ÚDummySchedulerrÓ   rÔ   Úgenerate©Úload_module_strictz***** Running training *****ú  Num examples = ú,z  Num Epochs = z(  Instantaneous batch size per device = zA  Training with DataParallel so batch size has been adjusted to: zE  Total train batch size (w. parallel, distributed & accumulation) = z   Gradient Accumulation steps = z  Total optimization steps = z#  Number of trainable parameters = )Útrainable_onlyzE  Continuing training from checkpoint, will skip to saved global_stepz!  Continuing training from epoch z'  Continuing training from global step z  Will skip the first z epochs then the first z batches in the first epoch.)r³   r  r  r  ©rú   )Úskip_scheduleréÿÿÿÿÚ	set_epochrV  Úmain_input_nameÚ	input_idszÏTried to track the number of tokens seen, however the current model is not configured properly to know what item is the input. To fix this, add a `main_input_name` attribute to the model class you are using.Únon_paddingÚattention_maskÚpad_token_idz\Could not determine method to count non-padding tokens, falling back to counting all tokens.)rú   ÚdtypeÚsync_each_batch)r³   z0Calculated loss must be on the original device: z but device in use is )Úimplicit_replicationrL  )r;  zXThere seems not to be a single sample in your epoch_iterator, stopping training at step zI! This is expected if you're using an IterableDataset and set num_steps (z.) higher than the number of available samples.zƒYou enabled PyTorch/XLA debug metrics but you don't have a TPU configured. Check your training configuration if this is unexpected.zU

Training completed. Do not forget to share your model on huggingface.co/models =)

gü©ñÒMbP?rc  ©Únum_samplesr„  Ú
total_flosÚ
train_loss)rÂ   Úbest_model_checkpointzDeleting older checkpoint [z] due to args.save_total_limit)Úignore_errors)¿r  Úfree_memoryr4  r´   r§  r,  r3  r    r  r³   rý   rÉ  ÚmaxÚn_gpur(   rã   r#  r·  r9  r0   Úget_total_train_batch_sizeÚset_initial_training_valuesr   ÚUNDERFLOW_OVERFLOWrð   r   rˆ   rü   r  rö   r  r5  r  r$   r  r
  rA   r!  r¼   r+  r  r<   Úis_hyper_param_searchÚcompute_stepsr¤  Úgradient_checkpointing_enablerg  Ú_wrap_modelr4   r`   r*   rr  rà  rc  r}  rj  r  r  r  Údeepspeed_ulysses_dl_adapterr	  Údistrà   Úregister_fsdp_forward_methodrÔ   r%   rY  Ú_load_optimizer_and_schedulerÚ_load_scalerrä   r™  rL   ÚepochÚtimeÚnum_input_tokens_seenÚ)initial_num_input_tokens_seen_for_sessionr)  r[  Úisfilerü  r\  rZ  rb   Ú_load_callback_stateÚintÚglobal_stepÚignore_data_skipr£  Útrain_dataloaderÚinit_training_referencesr¦   rá   rú   Ú_total_loss_scalarÚ_globalstep_last_loggedÚ	zero_gradÚon_train_beginÚeval_on_startÚ	_evaluaterB  rù   rg  Úon_epoch_beginr˜   Ú_load_rng_statert  ÚiterÚget_batch_samplesÚ#current_gradient_accumulation_stepsÚ	enumerateÚgradient_stateÚ_set_sync_gradientsÚinclude_num_input_tokens_seenr]  r  r¸   ry  r!  Úint64ÚgatherrL  Úon_step_beginÚplugin_kwargsr8  Údistributed_typerœ   Ú	DEEPSPEEDÚ
contextlibÚnullcontextr¡  r   Úno_syncÚtraining_stepÚlogging_nan_inf_filterrŽ   ÚisnanÚisinfr0  ÚfloatÚfloating_point_opsÚmax_grad_normrZ  Úclip_master_gradsr|  Ú&torch.distributed._tensor.experimentalr|  Úclip_grad_norm_r  Úget_global_grad_normÚon_pre_optimizer_stepÚstepÚon_optimizer_steprO  Úoptimizer_step_was_skippedr  rJ  Úon_step_endÚ_maybe_log_save_evaluateÚon_substep_endÚshould_epoch_stopÚshould_training_stopÚxmÚ	mark_stepÚon_epoch_endÚTPU_METRICS_DEBUGÚmaster_printÚmetÚmetrics_reportrb  r  Ú_load_best_modelro   Ú
store_flosr  r-  ré   rD  ÚlogÚ_get_output_dirrn   r(  Úsave_total_limitÚsamefileÚshutilÚrmtreeÚon_train_endÚ_finish_current_pushr  r-   rV  r_   )<rE  r±  r´   rP  rQ  rS  Úoriginal_bsr›  Útotal_train_batch_sizerh  Únum_update_steps_per_epochrÊ  Únum_train_samplesÚepoch_basedÚlen_dataloaderrg  Údelay_optimizer_creationÚis_fsdp2rP  r³   Úuse_accelerator_preparerj  rJ  Ú
start_timeÚepochs_trainedÚsteps_trained_in_current_epochÚattrÚtr_lossÚ	grad_normr;  r’  Úepoch_dataloaderÚsteps_in_epochrÁ  Úrng_to_syncÚepoch_iteratorÚ	remainderÚupdate_stepÚtotal_updatesÚ_Únum_batchesÚbatch_samplesÚnum_items_in_batchÚiÚinputsÚdo_sync_stepru  Úinput_tokensÚsync_contextÚtr_loss_stepÚ
_grad_normÚgrad_norm_contextr|  ÚcontextÚeffective_global_stepr€  ÚmetricsÚrun_dirÚcheckpoints_sortedÚ
checkpoints<                                                               rÑ   r]  zTrainer._inner_training_loop‹  s[  € ð 	×Ñ×$Ñ$Ô&Ø!+ˆÔØ9‰9×)Ò)Øz‰z×*Ñ*¨d×.DÑ.DÒDÜ˜t×1Ñ1Ô2Ø%)§Z¡ZÔ"ð ×,Ò,à"&§)¡)×"GÑ"GKØ<@×<RÑ<RÔVYÐZ[Ð]a×]fÑ]f×]lÑ]lÓVmÑ<mD—I‘IÔ9Ü/°×0@Ñ0@À$Ç)Á)ÐbfÕgØ<GD—I‘IÔ9Ø*.×*@Ñ*@ˆDJ‰JÔ'Ü‰Ð@À×AWÑAWÐ@XÐYÔZà×4Ñ4Ó6ÐØ×&Ò&Ü2Ð3CÓDÐð "&×!@Ñ!@ÀÓ!FÐð ×,Ñ,¨TÐ3CÐE[Ó\ñ	
ØØ&ØØØØØô ×)Ñ)¨T¯Y©Y¯_©_Ñ<Øy‰y‰ Ò"ô !Øróð ô ' t§z¡zÔ2ä#:Ó#<Ò#pÀ×@XÑ@XÒ#pÐ\`×\pÑ\pÐ ð ×'Ñ'Òq¬W°T×5EÑ5E×5KÑ5K×5WÑ5WÐYgÐijÓ-kÐopÑ-pˆÙØ',Ð$ð ×%Ò%Ø $ˆDÔØ).ˆDÔ&à×$Ò$Ü0>¸tÐXaÔ0bÑ-ˆDŒN˜DÔ-á'Ø×!Ñ!Ô#ä!à!×2Ñ2×<Ñ<ÀÇÁ¸~ÑMö ØÔQ[Ð\^Ô`oÕQp’ò ô
ˆŒ
ð
 ,1¸Ð+<ˆ
‰
Ô(Ø&*×&<Ñ&<ˆ
‰
Ô#ð 	
‰
× Ñ   yÔ1ð ×&Ò&ØJ‰J×4Ñ4ÐSW×SuÑSuÐ4Ôvà× Ñ  ×!3Ñ!3Ó4ˆð
 #(¨4¯:©:Ð"5Ðá" t×';Ò';ô & d§j¡j¸DÔAˆDŒJá#Ù&à×'Ò'¬N¸5Ô,AÜ+¨D¯J©J¸×8HÑ8HÔIØ×#Ñ#×3Ñ3°uÒ<Ø!%×!1Ñ!1×!9Ñ!9¸$¿*¹*Ó!ED”JØ×!Ñ!Ô#ñ #ØJ‰J×ÑÔØ×(Ò(Ý;ä˜d×/Ñ/°Ô@Ø?C×?OÑ?O×?WÑ?WØŸ
™
 D§N¡N°D×4EÑ4Eó@Ñ<E˜4œ>¨4Õ+<ð -1×,<Ñ,<×,DÑ,DÀTÇZÁZÐQU×Q_ÑQ_Ó,`Ñ)E˜4>à(,×(8Ñ(8×(@Ñ(@ÀÇÁÈTÏ^É^Ó(\Ñ%t•~à!×-Ñ-×5Ñ5°d·n±nÓEˆDŒNð 	×Ñ°ÐÔ;ô T×%Ñ%Ð';¸TÓBˆØˆ>˜bŸm™m¨{Ò:¸r¿}º}Ø#×/Ñ/×LÑLÐM]Ð_dÓeÐà×ÒØ.3Ð3ˆDŒJ˜Ô+ät—z‘z :Ô.Ü—	‘	×6Ñ6°t·z±zÀ:ÔNð ˜Ÿ
™
Ñ"Ø!&ˆDÔð ×$Ò$Ø!×/Ñ/ˆDŒNð "Ð-Ø×(Ò(Ü)Ø×&Ñ&Ð(>ÔWeÐfj×fpÑfpÓWqÐSqöô )Ô*¨d×.BÒ.BØ×*Ñ*Ð+AÀ4×CUÑCUÔVð 	×*Ñ*Ð+AÔBØ×ÑÐ0Ô1ô 	‰Ð2Ô3Ü‰Ð'¨°QÐ'7Ð8Ô9Ü‰oÐ&6°qÐ%9Ð:Ô;Ü‰Ð>¸t¿y¹y×?dÑ?dÐefÐ>gÐhÔiØ9‰9×0Ñ0°D×4JÑ4JÒJÜK‰KÐ[Ð\`×\rÑ\rÐstÐ[uÐvÔwÜ‰Ð[Ð\rÐstÐ[uÐvÔwÜ‰Ð6°t×7WÑ7WÐ6XÐYÔZÜ‰Ð3°I¸a°=ÐAÔBÜ‰Ð9Ô:OÐPUÐfjÔ:kÐlmÐ9nÐoÔpàˆ
‰
ÔÜ—Y‘Y“[ˆ
Ø9=¿¹×9YÑ9YˆÔ6ØˆØ)*Ð&ð "Ñ-´"·'±'·.±.ÜG‰GL‰LÐ/Ô1CÓDõ3
ô &×4Ñ4´R·W±W·\±\ÐBXÔZlÓ5mÓnˆDŒJÜ/°·	±	¸4¿:¹:ÔFØ×%Ñ%Ô'Ü  §¡×!7Ñ!7Ð;UÑ!UÓVˆNØ×(Ò(Ø15·±×1GÑ1GÐKeÑ1fÐ.Ø.°$×2RÑ2RÑRÑ.à12Ð.äK‰KÐ_Ô`ÜK‰KÐ;¸NÐ;KÐLÔMÜK‰KÐAÀ$Ç*Á*×BXÑBXÐAYÐZÔ[Ø×(Ò(Ü—‘Ø,¨^Ð,<ð =Ø6Ð7Ð7SðUôð ;ò 	FˆDÜD×)Ñ)¨4´¸¸tÓ1DÕEð	Fà1Aˆ×ÑÔ.à
‰
×+Ñ+¨D°)Ð=MÈuÔUô —,‘,˜s¨4¯;©;Ô7ˆà"%ˆÔØ'+§z¡z×'=Ñ'=ˆÔ$Ø‰ÔØ"&ˆ	ØˆØ×,Ñ,×;Ñ;¸DÀ$Ç*Á*ÈdÏlÉlÓ[ˆŒà×ÒØN‰N˜5Ð"6ÀtˆNÔLä˜>Ð+;Ó<ó V	ˆEØ/Ðð "Ð-ô Ð$Ô%à—^‘^ d×&FÑ&FÑFð ð
  ×0Ñ0×?Ñ?ÀÀdÇjÁjÐRV×R^ÑR^Ó_ˆDŒLàˆDØˆKð ˜Ò&Ð+AÐ+MØ1°AÒ5¸d×>SÒ>SÜ'9Ð:JÐLjÓ'kÐ$Ø9¸AÑ=DØ"&‘KØ3°qÒ8Ø×(Ñ(Ð)?Ô@äÐ'¨Ô5Ø ×*Ñ*¨5Ô1ä!Ð"2Ó3ˆNà&¨×)IÑ)IÑIˆIØ˜AŠ~Ø ×<Ñ<	ØˆKØ*¨d×.NÑ.NÑNÔQTØ˜D×<Ñ<Ñ<óRñ ˆMô ˜=Ó)ó \Ø˜qÑ ØBMÐR_ÐbcÑRcÒBd˜d×>Ò>ÐjsØ48×4JÑ4JÈ>Ð[fÐhl×hsÑhsÓ4tÑ1Ð1ô <?¸}Ó;MÔ8Ü!*¨=Ó!9ó P‘IAvØ˜A‘IDØ$(¨1¡H°×0PÑ0PÑ#PÐTUÑ#UÒ#uÐZ^ÐabÑZbÐguÑYuLà×$Ñ$×3Ñ3×GÑGÈÔUà—y‘y×>Ñ>À$ÓFÜ*1°$·*±*Ð>OÐQ\Ó*]˜Ø*°&Ñ8Ü"ŸN™Nð!böð  $Ÿy™y×FÑFÈ-ÒWØ#3°vÑ#=Ø39Ð:JÑ3K×3OÑ3OÓ3Q¡Là$(×$9Ñ$9Ð$EÜ(/°×0EÑ0EÀ~Ô(VØ(,×(=Ñ(=×(JÑ(JÐ(Vð )/¨Ñ(?À4×CXÑCX×CeÑCeÑ(eß&)¡c£eñ %1ô %+§N¡Nð )Gô%&ð 4:¸/Ñ3J×3PÑ3PÓ3R¡Là/5°oÑ/F×/LÑ/LÓ/N ä+0¯<©<¸ÈTÏYÉY×M]ÑM]Ôej×epÑepÔ+q˜LØ ŸJ™J×<Ò<À×@PÑ@P×@WÑ@WÐXdÓ@e×@iÑ@iÓ@k×@pÑ@pÓ@rÑrÕ<á"Ø×,Ñ,Ð-CÔDØ&+˜à˜d×>Ñ>Ñ>À!ÒCØ'+×'<Ñ'<×'JÑ'JÈ4ÐQU×Q[ÑQ[Ð]a×]iÑ]iÓ'j˜œð ×(Ñ(×7Ñ7×EÑE×IÑIÐJ[Ð]bÔcØ×+Ñ+×<Ñ<Ä×@YÑ@YÒYØ¤ MÓ 2°QÑ 6Ò6ä'1×'=Ò'=™å'0×'8Ò'8¸×9IÑ9I×9QÒ9QÐY^Ô'_˜Ù%›ñ ]Ø'+×'9Ò'9¸%ÀÐI[Ó'\˜÷]ð ×3Ó3Ý 6Ô 8Ü"Ÿ[š[¨Ô6¼%¿+º+ÀlÔ:Sð #*¨G°q¸4¿:¹:×;QÑ;QÑ7QÐTX×TpÑTpÑ7pÑ,qÑ"q™à"Ÿ>™>¨\×-@Ñ-@Ò@Ü",Ø"RÐSZ×SaÑSaÐRbÐbxð  zF÷  zMñ  zMð  yNð  !Oó#ð ð #*¨LÑ"8˜à×%Ó%­¨t×/FÒ/FÀvÓ/NÓ)OÑOÕ%â#à×(Ñ(×7Ñ7×KÑKÈDÔQð  ×-Ò-Ñ9¸d×>PÒ>PÐSTÓ>TÜ6Ô8¸T¿Y»YØ-1¯^©^×-MÒ-MÈd×N`ÒN`Ó-a¡
ä4>×4JÒ4JÐ 1Ø#'×#5Ó#5Ý$kà8LÐ$5Ù%6Ó%8ñ !&Ø15×1AÑ1A×1QÒ1QØ(-×(8Ò(8Ó(:Ø(,×(:Ò(:ó2& J÷!&ð  $×/Ñ/×@Ñ@ÄO×D]ÑD]Ò]Ø,1×,FÒ,FÓ,H 	ä#*¨9°fÔ#=Ø09·±Ó0@¡Ià,6 	à'+×'<Ñ'<×'RÒ'RÐSWÐY]×YcÑYcÐei×eqÑeqÓ'r˜œä",×"8Ò"8˜Ø×-Ó-Ýcà&:˜Gá$›Yñ 2Ø ŸN™N×/Ò/Ô1÷2ð (,×'<Ñ'<×'NÒ'NÈtÐUY×U_ÑU_Ðae×amÑamÓ'n˜œð )-×(?Ò(?Ó(A˜à#×/Ñ/×JÓJä#-¨d×.?Ñ.?ÄÇÂ×AYÑAY×AkÒAkÔ#lØ $× 1Ñ 1× 6Ò 6Ô 8àŸ™Ô)ØŸ
™
×.Ò.°!Ñ3Õ.Ø+0°D¸1±HÀÑ3NÑ+N˜Ÿ
™
Ô(Ø'+×'<Ñ'<×'HÒ'HÈÈtÏzÉzÐ[_×[gÑ[gÓ'h˜œØ×5Ò5Ø#Ø%Ø!Ø!Ø!Ø0Ø&Ø*7ð 6õ 	ð (,×'<Ñ'<×'KÒ'KÈDÐRV×R\ÑR\Ð^b×^jÑ^jÓ'k˜œð
 —|‘|×5Ó5¸¿¹×9ZÕ9ZÝ1Ô3ÝŸLšLœNÙðaPðd —<‘<×1Ó1°T·\±\×5VÕ5VÝ-Ô/ÝŸšœÙðy\ðz aŠxÜ—‘ðØŸ
™
×.Ñ.Ð/ð 0#Ø#, +Ð-[ð]ôð
 59—‘Ô1à×0Ñ0×=Ò=¸dÀDÇJÁJÐPT×P\ÑP\Ó]ˆDŒLØ×)Ò)Ø˜ E¨5°%Ð9MÈzÐivð *ô ô ×,Ò,°·	±	·±Ñ?Ý)Ô+å—O’O¥C×$6Ò$6Ó$8Õ9ä—N‘Nð_ôð |‰|×0Õ0ÙðmV	ôp 	‰ÐoÔpØ×&Ó&¨4¯:©:×+KÒ+KÐ+WØ×!Ò!Ô#ð 	×Ò 7§<¡<£>Ñ1ÕÜ # D§J¡J×$:Ñ$:¸EÓ BÐØ×,Ñ,Ð/DÑDˆ
åØØØ)Ø—j‘j×*Ñ*ô	
ˆð 	ŠÔØ $§
¡
× 5Ò 5ˆÑØ *ˆÑà ˆÔà×Ò×4Ò4°WÔ=àŠÔà×&Ò& uÓ-ˆÝ-Ø°d·j±j×6VÒ6Vô
Ðð
 9‰9× Ó  T§Z¡Z×%EÒ%EÐ%QÐVZ×V_ÑV_×VpÒVpÐtuÒVuØ0ò B
Ü—w‘w×'Ò'¨
°D·J±J×4TÒ4TÕUÜ—K‘KÐ"=¸j¸\ÐIgÐ hÔiÝ—M’M *¸DÖAðBð
 ×,Ñ,×9Ò9¸$ÀÇ
Á
ÈDÏLÉLÓYˆŒð 	×!Ò!Ô#ð ×#Ò#Ð/Ý˜tŸz™z¨4×+CÒ+CÀT×EUÑEUÔVå˜4Ÿ:™:×1Ñ1°:¸wÓGÐGùòA ÷n]ñ ]ú÷B!&ñ !&ú÷,2ñ 2ús=   Ë$AbË:Abþ%Ab	ÁE8Ab	ÁIAb"	ÁbAbÁbAbÁb"Ab,rõ  ró  c                 ó2  — | j                  ||«      \  }} |«       5  |j                  «        t        | j                  d«      r9t	        | j                  j                  «      r| j                  j                  «        | j                  |«      }t        «       rkt        ||| j                  j                  «      }|j                  «       j                  «       j                  | j                  j                  «      cddd«       S | j                  «       5  | j                  |||¬«      }ddd«       ~| j                  j                   :| j"                  j$                  | j                  j                   z  dk(  r
t'        «        i }| j                  j(                  t*        j,                  t*        j.                  fv r| j1                  «       |d<   | j                  j2                  dkD  rj5                  «       }| j6                  r|€| j8                  €| j:                  z  }| j<                  j>                  t@        jB                  k(  rd|d<    | j<                  jD                  fi |¤Ž |j                  «       cddd«       S # 1 sw Y   ŒZxY w# 1 sw Y   yxY w)	ak  
        Perform a training step on a batch of inputs.

        Subclass and override to inject custom behavior.

        Args:
            model (`nn.Module`):
                The model to train.
            inputs (`dict[str, torch.Tensor | Any]`):
                The inputs and targets of the model.

                The dictionary will be unpacked before being fed to the model. Most models expect the targets under the
                argument `labels`. Check your model's documentation for all accepted arguments.

        Return:
            `torch.Tensor`: The tensor with training loss on this batch.
        rc  N©ró  r   r;  r   FÚscale_wrt_gas)#Ú _prepare_context_parallel_inputsrc  r	  r  re  Ú_prepare_inputsrˆ   r“   r´   r™  Úreduce_meanÚdetachÚtorú   Úcompute_loss_context_managerÚcompute_lossÚtorch_empty_cache_stepsr,  r™  r£   r  rr   ÚLOMOÚADALOMOrO  r…  Úmeanr
  rº   r§  r  r°  rœ   r±  Úbackward)rE  r³   rõ  ró  Ú
cp_contextÚloss_mbÚlossr€  s           rÑ   rµ  zTrainer.training_stepx  s   € ð2 "×BÑBÀ5È&ÓQÑˆ
Fñ ‹\ñ )	!ØK‰KŒMÜt—~‘~ wÔ/´H¸T¿^¹^×=QÑ=QÔ4RØ—‘×$Ñ$Ô&à×)Ñ)¨&Ó1ˆFÜ&Ô(Ü.¨u°f¸d¿i¹i×>cÑ>cÓdØ×*Ñ*Ó,×3Ñ3Ó5×8Ñ8¸¿¹×9IÑ9IÓJ÷)	!ñ )	!ð ×2Ñ2Ó4ñ _Ø×(Ñ(¨°ÐK]Ð(Ó^÷_ð à—	‘	×1Ñ1Ð=Ø—J‘J×*Ñ*¨T¯Y©Y×-NÑ-NÑNÐRSÒSä"Ô$àˆFð y‰y‰¤>×#6Ñ#6¼×8NÑ8NÐ"OÑOØ*.×*AÑ*AÓ*CÑ'ày‰y‰ Ò"Ø—y‘y“{ð ×2Ò2Ð6HÐ6PÐVZ×VlÑVlÐVtà˜d×FÑFÑFð ×Ñ×0Ñ0´O×4MÑ4MÒMØ*/Ñ'à%ˆD×Ñ×%Ñ% dÑ5¨fÒ5à—;‘;“=÷S)	!ñ )	!÷_ñ _ú÷)	!ð )	!ús+   CJÄJÄJ Ä(EJÊ J
	ÊJÊJÚreturn_outputsc           	      ó  — t        | j                  dd«      }|J|j                  dk(  r;|j                  r/| j                  j
                  rt        | j                  ||||«      S | j                  €| j                  d|v r|j                  d«      }nd}| j                  ri }|||d<   i |¥|¥} |di |¤Ž}| j                  -|€t        j                  d«       | j                  |||¬«      }	n|˜| j                  j                  |«      }
t        |
«      r$|
j                  j                  j!                  «       n|
j!                  «       }|t#        j$                  «       v r| j                  ||d¬	«      }	n| j                  ||«      }	nzt'        |t(        «      rPd
|vrLt+        ddj-                  |j/                  «       «      › ddj-                  |j/                  «       «      › d«      ‚t'        |t(        «      r|d
   n|d   }	| j0                  j2                  rb| j                  s| j                  rJ|H|	| j0                  j4                  dk  r| j                  j6                  n| j0                  j4                  z  }	|r|	|fS |	S )aù  
        How the loss is computed by Trainer. By default, all models return the loss in the first element.

        Args:
            model (`nn.Module`):
                The model to compute the loss for.
            inputs (`dict[str, torch.Tensor | Any]`):
                The input data for the model.
            return_outputs (`bool`, *optional*, defaults to `False`):
                Whether to return the model outputs along with the loss.
            num_items_in_batch (Optional[torch.Tensor], *optional*):
                The number of items in the batch. If num_items_in_batch is not passed,

        Returns:
            The loss of the model along with its output if return_outputs was set to True

        Subclass and override for custom behavior. If you are not using `num_items_in_batch` when computing your loss,
        make sure to overwrite `self.model_accepts_loss_kwargs` to `False`. Otherwise, the loss calculating might be slightly inaccurate when performing gradient accumulation.
        rÓ   NrÔ   Úlabelsró  z|Trainer: `compute_loss_func` is defined but `labels=None`. Your custom loss function will still be called with labels=None. r  T)Úshift_labelsr  zJThe model did not return a loss from the inputs, only the following keys: ro  z,. For reference, the inputs it received are ú.r   r   r—  )rö   r  r  r  r³   Útrainingr&   r  rº   r›  r
  rã   r]  r4   r`   rñ  Ú	_get_namer5   rø   r  Údictrð   rü  ró  r´   Úaverage_tokens_across_devicesr…  Únum_processes)rE  r³   rõ  r  ró  rJ  r  r€  Úoutputsr  rH  r  s               rÑ   r  zTrainer.compute_loss¿  s{  € ô4 T×%Ñ%Ð';¸TÓBˆØˆ>˜bŸm™m¨{Ò:¸r¿}º}ÐQU×Q[ÑQ[×QdÒQdÜ,¨T×-=Ñ-=¸uÀfÈnÐ^`ÓaÐaà×ÑÐ+¨t×/EÑ/EÐ/QÐW_ÐciÑWiØ—Z‘Z Ó)‰FàˆFØ×)Ò)ØˆFØ!Ð-Ø/AÐ+Ñ,Ø)˜Ð) &Ð)ˆFÙ‘/˜&‘/ˆð ×!Ñ!Ð-Øˆ~Ü—‘ðXôð ×)Ñ)ØØØ#5ð *ó ŠDð ÐØ"×.Ñ.×;Ñ;¸EÓBˆOô " /Ô2ð  ×*Ñ*×0Ñ0×:Ñ:Ô<à$×.Ñ.Ó0ð ð
 Ô>×EÑEÓGÑGØ×*Ñ*¨7°FÈÐ*ÓN‘à×*Ñ*¨7°FÓ;‘ä˜'¤4Ô(¨V¸7Ñ-BÜ Ø`Ø—x‘x §¡£Ó/Ð0Ð0\Ð]`×]eÑ]eÐfl×fqÑfqÓfsÓ]tÐ\uÐuvðxóð ô
 '1°¼$Ô&?7˜6’?ÀWÈQÁZˆDð I‰I×3Ò3Ø×/Ò/°4×3IÒ3IØ"Ð.à°d·i±i·o±oÈÒ6JD×$Ñ$×2Ò2ÐPT×PYÑPY×P_ÑP_Ñ_ˆDá"0gˆÐ:°dÐ:rp  c                 ó¤   — t        j                  «       }| j                  «       }t        |t         j                  «      s|j                  |«       |S )zF
        A helper wrapper to group together context managers.
        )r²  Ú	ExitStackÚautocast_smart_context_managerr  r³  Úenter_context)rE  Ú	ctx_stackÚautocast_ctxs      rÑ   r
  z$Trainer.compute_loss_context_manager  sD   € ô ×(Ñ(Ó*ˆ	à×:Ñ:Ó<ˆÜ˜,¬
×(>Ñ(>Ô?Ø×#Ñ# LÔ1àÐrp  Úcache_enabledc                 ó*   — t        j                  «       S )zç
        A helper wrapper that creates an appropriate context manager for `autocast` while feeding it the desired
        arguments, depending on the situation. We rely on accelerate for autocast, hence we do nothing here.
        )r²  r³  )rE  r%  s     rÑ   r!  z&Trainer.autocast_smart_context_manager  s   € ô
 ×%Ñ%Ó'Ð'rp  rç  rè  r’  rã  r;  c	                 ó†  — | j                   j                  rL| j                  j                  | j                  kD  r(t        «       rt        j                  «        i }	t        || j                  j                  «      j                  «       j                  «       }
||z  }|
| j                  j                  | j                  z
  z  |	d<   |/t        |t        j                  «      r|j                  «       n||	d<   |||	d<   n| j!                  «       |	d<   | xj"                  |
z  c_        | j                  j                  | _        | j%                  «        | j'                  |	|«       d}| j                   j(                  r]| j+                  ||«      }| j-                  ||¬«      }| j                  j.                  t0        j2                  k(  r|| j                   _        | j                   j4                  rS| j7                  ||«       | j8                  j;                  | j                  | j                  | j                   «      | _         yy)z\Log metrics, run evaluation, and save checkpoints if the current training state requires it.r  Nrè  r;  )rþ  rQ  )r+  Ú
should_logr,  r™  rž  rŽ   rÉ  rÊ  rP   r´   rþ   r  rL  r  r¦   ÚTensorrO  r  rÑ  rÒ  Úshould_evaluater¢  Ú_determine_best_metricr`  r]   ra  r(  Ú_save_checkpointr!  Úon_save)rE  rç  rè  r³   rQ  r’  rS  rã  r;  ÚlogsÚtr_loss_scalarrþ  Úis_new_best_metrics                rÑ   rÅ  z Trainer._maybe_log_save_evaluate%  sÅ  € ð <‰<×"Ó" t§z¡z×'=Ñ'=À×@\Ñ@\Ó'\Ü%Ô'Ü—‘”à%'ˆDô +¨7°D·I±I×4KÑ4KÓL×QÑQÓS×XÑXÓZˆNð wÑˆGà)¨T¯Z©Z×-CÑ-CÀd×FbÑFbÑ-bÑcˆD‰LØÐ$Ü8BÀ9ÌeÏlÉlÔ8[ I§N¡NÔ$4Ðaj[Ñ!ØÐ(Ø(5_Ò%à(,×(?Ñ(?Ó(A_Ñ%à×#Ò# ~Ñ5Õ#Ø+/¯:©:×+AÑ+AˆDÔ(ØO‰OÔàH‰HT˜:Ô&àˆØ<‰<×'Ò'Ø—n‘n UÐ,@ÓAˆGØ!%×!<Ñ!<ÀWÐTYÐ!<Ó!ZÐày‰y×&Ñ&¬,×*;Ñ*;Ò;Ø+=—‘Ô(à<‰<×#Ò#Ø×!Ñ! %¨Ô/Ø×0Ñ0×8Ñ8¸¿¹ÀDÇJÁJÐPT×P\ÑP\Ó]ˆDLð $rp  rì  rñ  rú   c                 ó¨   — g }t        |«      D ]  }	 |j                  t        |«      «       Œ | j	                  ||«      }||fS # t        $ r Y  Œ"w xY w)z¥
        Collects a specified number of batches from the epoch iterator and optionally counts the number of items in the batches to properly scale the loss.
        )rB  ÚappendÚnextÚStopIterationÚ_get_num_items_in_batch)rE  rì  rñ  rú   rò  rð  ró  s          rÑ   r¦  zTrainer.get_batch_samplesX  sj   € ð ˆä{Ó#ò 	ˆAðØ×$Ñ$¤T¨.Ó%9Õ:ð	ð "×9Ñ9¸-ÈÓPÐØÐ0Ð0Ð0øô	 !ò Úðús   ’AÁ	AÁArò  c                 ób  — d}t        |«      dkD  xr% d|d   v xr | j                  xs | j                  du}|r	 t        d„ |D «       «      }|I| j                  j                  rR| j                  j                  dkD  rk| j                  j                  |j                  |«      «      j                  «       }n2| j                  j                  dkD  r|| j                  j                  z  }t        j                  |«      rš|j                  |«      }| j                  j                  dkD  rH|j                  «       dk(  r5|j!                  d«      j#                  | j                  j                  d«      }t%        | j                  dd«      x}r||j&                  z  }|S # t        t
        f$ r Y Œ`w xY w)a†  
        Counts the number of items in the batches to properly scale the loss.
        Args:
            batch_samples (`list`): List of batches
            device (`torch.device`): The device on which the number of items in the batch should be.
        Returns:
            None if the number of items in the batch doesn't need to be computed else the number of items in the batch
        Nr   r  c              3   ó`   K  — | ]&  }|d    j                  d«      j                  «       –— Œ( y­w)r  éœÿÿÿN)Úner  )rÏ   Úbatchs     rÑ   rÒ   z2Trainer._get_num_items_in_batch.<locals>.<genexpr>„  s(   è ø€ Ò(eÈe¨%°©/×*<Ñ*<¸TÓ*B×)GÑ)G×)IÑ(eùs   ‚,.r   rs  rÓ   )rù   r
  rº   r  rf  rÈ  r´   r  rì  r  r­  r	  r…  r¦   rK  ÚdimÚ	unsqueezeÚexpandrö   Únon_data_parallel_size)rE  rò  rú   ró  Úcount_num_items_in_batchrJ  s         rÑ   r5  zTrainer._get_num_items_in_batchi  sž  € ð "ÐäÓ Ñ"ò Ø˜M¨!Ñ,Ð,òð
 ×.Ñ.ò 6ð ×)Ñ)°Ð5ð 	!ñ $ðÜ%(Ñ(eÐWdÔ(eÓ%eÐ"ð Ñ)Øy‰y×6Ò6Ø—9‘9×'Ñ'¨!Ò+Ø)-×)9Ñ)9×)@Ñ)@ÐAS×AVÑAVÐW]ÓA^Ó)_×)cÑ)cÓ)eÑ&Ø—‘—‘ 1Ò$ð &8¸4¿9¹9¿?¹?Ñ%JÐ"ä‰Ð1Ô2Ø%7×%:Ñ%:¸6Ó%BÐ"à—9‘9—?‘? QÒ&Ð+=×+AÑ+AÓ+CÀqÒ+Hà);×)EÑ)EÀaÓ)H×)OÑ)OÐPT×PYÑPY×P_ÑP_ÐacÓ)dÐ&ä  ×!1Ñ!1Ð3GÈÓNÐN2ÐNØ);¸r×?XÑ?XÑ)XÐ&à!Ð!øô- œ~Ð.ò Úðús   »F ÆF.Æ-F.rj  c           
      óž  ‡ — t        |t        «      rB t        |«      |j                  «       D ci c]  \  }}|‰ j	                  |«      “Œ c}}«      S t        |t
        t        f«      r t        |«      ˆ fd„|D «       «      S t        |t        j                  «      r©d‰ j                  j                  i}‰ j                  rst        j                  |«      st        j                  |«      rI|j                  d‰ j                  j                   j"                  j$                  j'                  «       i«        |j(                  di |¤ŽS |S c c}}w )z|
        Prepares one `data` before feeding it to the model, be it a tensor or a nested list/dictionary of tensors.
        c              3   ó@   •K  — | ]  }‰j                  |«      –— Œ y ­wrÊ   )Ú_prepare_input)rÏ   ÚvrE  s     €rÑ   rÒ   z)Trainer._prepare_input.<locals>.<genexpr>¤  s   øè ø€ ÒC¸˜d×1Ñ1°!×4ÑCùó   ƒrú   rz  r—  )r  r   rø  ÚitemsrB  Útuplerò  r¦   r)  r´   rú   rý   Úis_floating_pointÚ
is_complexrz  r  r,  rs  Úhf_ds_configrz  r	  )rE  rj  rÐ   rC  r€  s   `    rÑ   rB  zTrainer._prepare_input  s  ø€ ô dœGÔ$Ø”4˜“:ÀTÇZÁZÃ\×R¹T¸QÀ˜q $×"5Ñ"5°aÓ"8Ñ8ÓRÓSÐSÜ˜œu¤d˜mÔ,Ø”4˜“:ÓC¸dÔCÓCÐCÜ˜œeŸl™lÔ+Ø §	¡	× 0Ñ 0Ð1ˆFØ×(Ò(¬e×.EÑ.EÀdÔ.KÌu×O_ÑO_Ð`dÔOeð —‘˜w¨×(8Ñ(8×(>Ñ(>×(OÑ(O×(\Ñ(\×(bÑ(bÓ(dÐeÔfØ4—7‘7Ñ$˜VÑ$Ð$Øˆùó Ss   °E	
c                 ó”   — | j                  |«      }t        |«      dk(  r(t        ddj                  | j                  «      › d«      ‚|S )z
        Prepare `inputs` before feeding them to the model, converting them to tensors if they are not already and
        handling potential state.
        r   z”The batch received was empty, your model won't be able to train on it. Double-check that your training dataset contains keys expected by the model: ro  r  )rB  rù   rð   rü  r2  )rE  rõ  s     rÑ   r  zTrainer._prepare_inputs¯  sY   € ð
 ×$Ñ$ VÓ,ˆÜˆv‹;˜!ÒÜðIØILÏÉÐRV×RiÑRiÓIjÐHkÐklðnóð ð
 ˆrp  c                 óÂ  — t        | j                  dd«      ¶| j                  j                  j                  r•| j                  j                  j                  dk(  r¨t        |d«      r<|j                  j                  dk7  r#t        d|j                  j                  › d«      ‚d|vr\t        j                  d	«       d
|v rCd}t        j                  j                  |d
   d|¬«      }|dd…dd…f   j                  «       |d<   d|vrpt        j                  d«       t        j                   |d   j#                  d«      |d   j$                  ¬«      j'                  |d   j#                  d«      d«      |d<   g }g }d|v r%|j)                  |d   «       |j)                  d«       d
|v r%|j)                  |d
   «       |j)                  d«       d|v r%|j)                  |d   «       |j)                  d«       d|v rwt        | dd«      s"|d   }t+        |«      st        d«      ‚d| _        | j,                  r<|d   }|j/                  «       dk(  r#|j)                  |«       |j)                  d«       n	 d|v r*|d   %|j)                  |d   «       |j)                  d«       t1        | j                  j2                  ||t5        |«      ¬«      |fS t6        j8                  |fS )as  
        Prepare inputs for context parallelism by setting up buffers and validation.

        Args:
            model: The model being trained
            inputs: Input tensors to prepare

        Returns:
            tuple: (context_manager, prepared_inputs) where context_manager is either
                   the context parallelism wrapper or a no-op context
        rÓ   Nr¦   rÞ   ÚsdpazIContext parallelism is supported only with SDPA attention, you are using r  r  z7Shift labels not found in the inputs, shifting manuallyr  r8  )r   r   )Úvaluer   Úposition_idsz9Position IDs not found in the inputs, generating manuallyrv  rq  r   rs  rx  Ú_attn_mask_causal_checkedFzëContext parallelism only supports causal attention masks. The provided attention_mask is not causal. Please ensure your data uses causal masking (lower triangular) or remove the attention_mask to use the model's default causal masking.Trf  )ÚbuffersÚbuffer_seq_dimsÚno_restore_buffers)rö   r  rÓ   Ú
cp_enabledÚ
cp_backendr	  rÞ   Ú_attn_implementationrð   rã   Úwarning_oncer   Ú
functionalÚpadÚ
contiguousr¦   ÚarangeÚsizerú   r=  r2  rN   rO  r;  r   Úmaybe_context_parallelr÷   r²  r³  )rE  r³   rõ  Ú_ignore_indexr  rP  rQ  rx  s           rÑ   r  z(Trainer._prepare_context_parallel_inputs½  sò  € ô D×$Ñ$Ð&:¸DÓAÑMØ× Ñ ×3Ñ3×>Ó>à×Ñ×2Ñ2×=Ñ=ÀÒHÜ˜5 (Ô+Ø—|‘|×8Ñ8¸FÒBÜ(ØgÐhm×htÑht÷  iJñ  iJð  hKð  KLð  Móð ð "¨Ñ/Ü×'Ñ'Ð(aÔbØ 6Ñ)Ø(,˜Ü!#§¡×!2Ñ!2°6¸(Ñ3CÀVÐS`Ð!2Ó!a˜Ø17º¸1¹2¸±×1IÑ1IÓ1K˜˜~Ñ.ð  VÑ+Ü×#Ñ#Ð$_Ô`Ü).¯©Ø˜;Ñ'×,Ñ,¨QÓ/¸¸{Ñ8K×8RÑ8Rô*ç‘&˜ Ñ,×1Ñ1°!Ó4°bÓ9ð ~Ñ&ð ˆGØ ˆOà˜fÑ$Ø—‘˜v kÑ2Ô3Ø×&Ñ& qÔ)Ø˜6Ñ!Ø—‘˜v hÑ/Ô0Ø×&Ñ& qÔ)Ø Ñ'Ø—‘˜v nÑ5Ô6Ø×&Ñ& qÔ)à 6Ñ)ä˜tÐ%@À%ÔHð &,Ð,<Ñ%=NÜ3°NÔCÜ(ðfóð ð 6:DÔ2Ø×1Ò1à%+Ð,<Ñ%=NØ%×)Ñ)Ó+¨qÒ0ØŸ™ ~Ô6Ø'×.Ñ.¨qÕ1ð à Ñ'¨F°>Ñ,BÐ,NØ—‘˜v nÑ5Ô6Ø×&Ñ& qÔ)äØ× Ñ ×7Ñ7ØØ /Ü#& w£<ô	ð
 ðð ô ×%Ñ% vÐ-Ð-rp  rÛ  c                 óþ  — |j                   }|dk  }t        |«      rt        |«      nd}| j                  «       }|dkD  r|||z  }|Yt	        ||j
                  z  t        ||j
                  z  dkD  «      z   d«      }|r"t        j                  |j                  |z  «      }|r{| j                  |«      }	|j                   dkD  r|z  t        ||z  dkD  «      z   }
||z  }n–t        j                  |j                  «      }
| j                  |«      |j                  z  }nX|j                   dkD  r1t        j                  }
|}||j                   z  }	|j                   |z  }nt        d|j                   › «      ‚|
|	||||fS )a  
        Calculates and returns the following values:
        - `num_train_epochs`
        - `num_update_steps_per_epoch`
        - `num_examples`
        - `num_train_samples`
        - `epoch_based`
        - `len_dataloader`
        - `max_steps`
        r   Nr   zYargs.max_steps must be set to a positive value if dataloader does not have a length, was )rg  rh   rù   Úget_sp_sizer„  r™  r˜  ÚmathÚceilrh  rÊ  ÚsysÚmaxsizerð   )rE  r´   rÅ  rÛ  rg  rÞ  rß  Úsp_sizerÜ  rÊ  rh  rÝ  s               rÑ   r‡  z#Trainer.set_initial_training_values	  s²  € ð —N‘Nˆ	à !‘mˆÜ,6°zÔ,Bœ˜ZœÈˆð ×"Ñ"Ó$ˆØQŠ;˜>Ð5Ø+¨gÑ5ˆNð Ð%Ü),Ø $×"BÑ"BÑBÜn t×'GÑ'GÑGÈ!ÑKÓLñMàó*Ð&ñ Ü ŸI™I d×&;Ñ&;Ð>XÑ&XÓY	ñ Ø×,Ñ,¨ZÓ8ˆLØ~‰~ Ò!Ø#,Ð0JÑ#JÌSØÐ :Ñ:¸QÑ>óNñ $Ð ð
 %.Ð0FÑ$FÑ!ä#'§9¡9¨T×-BÑ-BÓ#CÐ Ø$(×$5Ñ$5°jÓ$AÀD×DYÑDYÑ$YÑ!Ø^‰^˜aÒä"Ÿ{™{ÐØ)2Ð&Ø1°D·N±NÑBˆLØ $§¡Ð1GÑ GÑäðØ—N‘NÐ#ð%óð ð
 Ø&ØØØØØð
ð 	
rp  c                 ó¸   — |j                   | j                  «       z  | j                  «       z  | j                  «       z  }| j                  |j
                  z  |z  S )aC  Calculates total batch size (micro_batch * grad_accum * dp_world_size).

        Accounts for all parallelism dimensions: TP, CP, and SP.

        Formula: dp_world_size = world_size // (tp_size * cp_size * sp_size)

        Where:
        - TP (Tensor Parallelism): Model layers split across GPUs
        - CP (Context Parallelism): Sequences split using Ring Attention (FSDP2)
        - SP (Sequence Parallelism): Sequences split using ALST/Ulysses (DeepSpeed)

        All dimensions are separate and multiplicative: world_size = dp_size * tp_size * cp_size * sp_size
        )rì  Úget_tp_sizeÚget_cp_sizer_  r4  r™  )rE  r´   Údp_world_sizes      rÑ   r†  z"Trainer.get_total_train_batch_size`	  sT   € ð Ÿ™¨4×+;Ñ+;Ó+=Ñ=À×AQÑAQÓASÑSÐW[×WgÑWgÓWiÑiˆØ×%Ñ%¨×(HÑ(HÑHÈ=ÑXÐXrp  c                 óv   — t        | j                  dd«      €y| j                  j                  }|j                  S )zGet the sequence parallel sizerÓ   Nr   )rö   r  rÓ   rd  ©rE  rJ  s     rÑ   r_  zTrainer.get_sp_sizer	  ó6   € ä4×#Ñ#Ð%9¸4Ó@ÐHØà×!Ñ!×4Ñ4ˆBØ—:‘:Ðrp  c                 óv   — t        | j                  dd«      €y| j                  j                  }|j                  S )zGet the context parallel sizerÓ   Nr   )rö   r  rÓ   Úcp_sizerj  s     rÑ   rg  zTrainer.get_cp_sizez	  rk  rp  c                 óÜ   — t        | j                  dd«      x}|S | j                  rEt        | j                  dd«      x}r,|j                  j                  di «      j                  dd«      S y)zGGet the tensor parallel size from either the model or DeepSpeed config.Ú_tp_sizeNr’  Útensor_parallelÚautotp_sizer   )rö   r³   rý   r´   rÞ   r8  )rE  Úmodel_tpÚdeepspeed_configs      rÑ   rf  zTrainer.get_tp_size‚	  ss   € ô   §
¡
¨J¸Ó=Ð=ˆHÐJØˆOð ×$Ò$¼gÀdÇiÁiÐQfÐhlÓ>mÐ*mÐ*:Ð*mØ#×*Ñ*×.Ñ.Ð/@À"ÓE×IÑIÈ-ÐYZÓ[Ð[ð rp  r  c                 óª  — t        «       ret        | j                  t        j                  j
                  «      r| j                  S t        j
                  || j                  j                  ¬«      S | j                  j                  |d¬«      |ur|S | j                  j                  dkD  r"t        |dd«      st        j                  |«      }|s|S | j                  r*t        || j                  | j                   «      x| _        }|S t#        «       r@t        j$                  j'                  |t)        t+        j,                  d«      «      g¬«      }|S | j                  j.                  t0        j2                  k(  rÜt5        «       r|S i }| j                  j6                  | j                  j6                  |d<   n&t        |t8        «      r|j:                   |d<   nd	|d<   | j                  j<                  | j                  j<                  |d
<   | j                  j>                  | j                  j>                  |d<   tA        di |¤Ž| j                  _!        |S )zMWrap `model` for distributed training if needed (DDP, FSDP, SageMaker, etc.).)Úbackward_passes_per_stepF©Úkeep_torch_compiler   Úis_loaded_in_8bitÚSMDATAPARALLEL_LOCAL_RANK)Ú
device_idsÚfind_unused_parametersTÚbucket_cap_mbÚbroadcast_buffersr—  )"rˆ   r  r  r[  r³   ÚDistributedModelr´   r™  r  r4   r…  rö   r   ÚDataParallelrü   r1   r9  r‡   ÚparallelÚDistributedDataParallelr˜  r)  Úgetenvrþ   rs   rÿ   rŒ   Úddp_find_unused_parametersr3   Úis_gradient_checkpointingÚddp_bucket_cap_mbÚddp_broadcast_buffersr›   Úddp_handler)rE  r³   r  rÅ  r€  s        rÑ   rŒ  zTrainer._wrap_model	  sõ  € ä"Ô$ä˜$×,Ñ,¬c¯i©i×.HÑ.HÔIØ×)Ñ)Ð)Ü×'Ñ'¨ÈÏ	É	×HmÑHmÔnÐnð ×Ñ×(Ñ(¨À5Ð(ÓIÐQVÑVØˆLð 9‰9?‰?˜QÒ¤w¨uÐ6IÈ5Ô'QÜ—O‘O EÓ*ˆEñ ØˆLð ×#Ò#Ü!4°U¸D¿I¹IÀt×GbÑGbÓ!cÐcˆDŒJ˜ð4 ˆô3 %Ô&Ü—K‘K×7Ñ7Ø¤3¤r§y¡yÐ1LÓ'MÓ#NÐ"Oð 8ó ˆEð0 ˆð+ Y‰Y×$Ñ$¬×(@Ñ(@Ò@Ü,Ô.ØØˆFØy‰y×3Ñ3Ð?Ø37·9±9×3WÑ3WÐ/Ò0Ü˜E¤?Ô3ð 8=×7VÑ7VÐ3VÐ/Ò0à37Ð/Ñ0ày‰y×*Ñ*Ð6Ø*.¯)©)×*EÑ*EÑ'ày‰y×.Ñ.Ð:Ø.2¯i©i×.MÑ.MÐ*Ñ+ä+HÑ+RÈ6Ñ+RˆD×ÑÔ(àˆrp  Úignore_keysÚmetric_key_prefixc                 óä  — |du}|r|n| j                   }t        |t        «      rJi }|j                  «       D ]3  \  }}| j	                  |r|n|||› d|› ¬«      }|j                  |«       Œ5 |S | j                  j                  «        | j                  |«      }	| j                  rt        |	«      }	t        j                  «       }
| j                  |	d| j                  €dnd||¬«      }| j                  j                  | j                  j                   z  }|› d|j"                  v r|
|j"                  |› d   z  }
|j"                  j                  t%        ||
|j&                  t)        j*                  |j&                  |z  «      ¬«      «       | j-                  |j"                  «       t.        j0                  | j                  j2                  v r't5        j6                  t9        j:                  «       «       | j<                  j?                  | j                  | j@                  | jB                  |j"                  «      | _!        | j                  jE                  |j"                  «       |j"                  S )	aÕ  
        Run evaluation and returns metrics.

        The calling script will be responsible for providing a method to compute metrics, as they are task-dependent
        (pass it to the init `compute_metrics` argument).

        You can also subclass and override this method to inject custom behavior.

        Args:
            eval_dataset (`Dataset` | dict[str, `Dataset`], *optional*):
                Pass a dataset if you wish to override `self.eval_dataset`. If it is a [`~datasets.Dataset`], columns
                not accepted by the `model.forward()` method are automatically removed. If it is a dictionary, it will
                evaluate on each dataset, prepending the dictionary key to the metric name. Datasets must implement the
                `__len__` method.

                <Tip>

                If you pass a dictionary with names of datasets as keys and datasets as values, evaluate will run
                separate evaluations on each dataset. This can be useful to monitor how training affects other
                datasets or simply to get a more fine-grained evaluation.
                When used with `load_best_model_at_end`, make sure `metric_for_best_model` references exactly one
                of the datasets. If you, for example, pass in `{"data1": data1, "data2": data2}` for two datasets
                `data1` and `data2`, you could specify `metric_for_best_model="eval_data1_loss"` for using the
                loss on `data1` and `metric_for_best_model="eval_data2_loss"` for the loss on `data2`.

                </Tip>

            ignore_keys (`list[str]`, *optional*):
                A list of keys in the output of your model (if it is a dictionary) that should be ignored when
                gathering predictions.
            metric_key_prefix (`str`, *optional*, defaults to `"eval"`):
                An optional prefix to be used as the metrics key prefix. For example the metrics "bleu" will be named
                "eval_bleu" if the prefix is "eval" (default)

        Returns:
            A dictionary containing the evaluation loss and the potential metrics computed from the predictions. The
            dictionary also contains the epoch number which comes from the training state.
        Nrð  )r·   rˆ  r‰  r»  T)r°  Úprediction_loss_onlyrˆ  r‰  Ú_model_preparation_timer}  )#r·   r  r  rE  Úevaluaterz  ré   rê   rÀ  r9  r0   r“  Úevaluation_loopr»   r´   r¾  rì  rþ  ro   r~  r`  ra  rÒ  r   rÌ  r#  rÉ  rÍ  rÎ  rÏ  r!  Úon_evaluater,  r+  rD  )rE  r·   rˆ  r‰  Úoverriderþ  Úeval_dataset_nameÚ_eval_datasetÚdataset_metricsÚeval_dataloaderrã  ÚoutputÚtotal_batch_sizes                rÑ   r  zTrainer.evaluateÅ	  s+  € ðZ   tÐ+ˆÙ'/‘|°T×5FÑ5FˆÜl¤DÔ)ØˆGØ4@×4FÑ4FÓ4Hò 0Ñ0Ð! =Ø"&§-¡-Ù2:¡Ð@QØ +Ø):Ð(;¸1Ð=NÐ<OÐ&Pð #0ó #ð
 —‘˜Õ/ð0ð ˆNð 	×Ñ×"Ñ"Ô$à×2Ñ2°<Ó@ˆØ×&Ò&Ü1°/ÓBˆOä—Y‘Y“[ˆ
à×%Ñ%ØØ$ð *.×)=Ñ)=Ð)E¡È4Ø#Ø/ð &ó 
ˆð  Ÿ9™9×4Ñ4°t·y±y×7KÑ7KÑKÐØÐ Ð 7Ð8¸F¿N¹NÑJØ˜&Ÿ.™.Ð,=Ð+>Ð>UÐ)VÑWÑWˆJØ‰×ÑÜØ!ØØ"×.Ñ.ÜŸ)™) F×$6Ñ$6Ð9IÑ$IÓJô	ô	
ð 	‰—‘Ô ä×(Ñ(¨D¯I©I¯O©OÑ;äO‰OœC×.Ñ.Ó0Ô1à×,Ñ,×8Ñ8¸¿¹ÀDÇJÁJÐPT×P\ÑP\Ð^d×^lÑ^lÓmˆŒà×Ñ×4Ñ4°V·^±^ÔDà~‰~Ðrp  r‹  c           	      ó  — | j                   }||n|j                  }| j                  r| j                  €t	        | dd¬«      \  }}| j                  | j                  d|¬«      }t        | j                  j                  «      dk(  r|| j                  u rþt        j                  «       }	| j                  s;| j                  rJ| j                  j                  dk7  r1| j                   j                  s| j                  j                  |«      n| j                  j                  |d¬«      }t!        t        j                  «       |	z
  d	«      | _        | j                  r|| _        || j                  ur|| _        | j                  r| j$                  | _        | j&                  so|j(                  r,|j+                  t,        j.                  |j0                  ¬
«      }n7|j2                  r+|j+                  t,        j4                  |j0                  ¬
«      }| j                   j6                  }
t8        j;                  d|› d«       t=        |«      r(t8        j;                  d| j?                  |«      › «       nt8        j;                  d«       t8        j;                  d|
› «       tA        |d«      r%tC        |jD                  «      r|jE                  «        tA        | jF                  d«      r9tC        | jF                  jD                  «      r| jF                  jE                  «        || jH                  _%        tM        |dd«      }tO        | j                   jP                  d¬«      }tO        | j                   jP                  d¬«      }tO        | j                   jP                  d¬«      }tO        | j                   jP                  d¬«      }d}i }d}tS        |«      D ]j  \  }}tU        |«      }|	||z  }|
€|}
| jW                  ||||¬«      \  }}}tM        | j                  dd«      }d|jX                  v r| j[                  ||   «      nd}t]        «       rt_        j`                  «        |1| jc                  |je                  |
«      «      }|jg                  |«       |[| j                  ji                  |dd¬«      }| jc                  |«      }| j                   jj                  r|dk(  r|jg                  |«       || j                  ji                  |dd¬«      }|y| j                  ji                  |dd¬«      }| jl                  | jm                  ||«      }| jc                  |«      }| j                   jj                  r|dk(  r|jg                  |«       |=| jc                  |«      }| j                   jj                  r|dk(  r|jg                  |«       | jH                  jo                  || jp                  | jr                  «      | _9        | j                   jj                  rŸ| jt                  o|m|k| j                  jv                  jx                  }i }d|jX                  v r|nd|d<   d|jX                  v r|nd|d<   | ju                  t{        d%||dœ|¤Ž|¬«      }~~~~t,        j|                  j                  «        Œä|j€                  €Œò|dz   |j€                  z  dk(  sŒ	|jƒ                  «        |jƒ                  «        |jƒ                  «        |jƒ                  «        ~~~~t,        j|                  j                  «        Œm | j                  j„                  | _1        |j‡                  «       }|j‡                  «       }|j‡                  «       }|j‡                  «       }t=        |«      rt        |«      }nLt‰        |tŠ        «      rtM        |dd«      dkD  r|j>                  }nt=        |«      r| j?                  |«      }n|}|dk(  r|dkD  r|}| jt                  b|`|^| j                   jj                  sHd|jX                  v r|nd|d<   d|jX                  v r|nd|d<   | ju                  t{        d%||dœ|¤Ž«      }n|€i }t        |«      }t‰        |tŽ        «      r:|r8t‘        j’                  |«      j•                  «       j—                  «       ||› d <   n>t‰        |t        j˜                  «      r$|j•                  «       j—                  «       ||› d <   tA        | d!«      r| j"                  ||› d"<   t        |j›                  «       «      D ]0  }|j                  |› d#«      rŒ|jŸ                  |«      ||› d#|› <   Œ2 t¡        ||||¬$«      S )&z‘
        Prediction/evaluation loop, shared by `Trainer.evaluate()` and `Trainer.predict()`.

        Works both with or without labels.
        Nr   T)r  Ú	inferenceF)r  rÅ  ri  )Úevaluation_modeé   )rz  rú   z
***** Running z *****rn  z  Num examples: Unknownz  Batch size = r¹  r¯  r8  )Úpadding_index©rˆ  ru  rv  rõ  r   )r;  Ú	pad_indexÚ
Predictionr  Úlosses)Úpredictionsrð  )rU  rÊ  Ú_lossÚmodel_preparation_timerŒ  rð  )r   rð  rþ  r~  r—  )Qr´   r‹  rý   rÔ   r$   rŒ  r³   rù   r  Ú_modelsr“  r  rr  Útorch_compilerà  Úprepare_modelÚroundr¢  r  r-  r  r	  r¦   Úfloat16rú   r  Úbfloat16r¾  rã   rä   rh   rÊ  r	  re  r¹  r  r!  r”  rö   rF   Úeval_do_concat_batchesr¨  rK   Úprediction_stepÚinclude_for_metricsrB  rŽ   rÉ  rÊ  r   ÚrepeatÚaddÚpad_across_processesr^  r¿   Úon_prediction_stepr,  r+  r»   r©  Úend_of_dataloaderrX   ÚcudaÚempty_cacheÚeval_accumulation_stepsÚto_cpu_and_numpyrŸ  Ú
get_arraysr  rG   rd   rò  r@  Úconcatenater  rL  Úndarrayró  Ú
startswithr›  rW   )rE  rÅ  r°  r‹  rˆ  r‰  r´   rð  r³   rã  r±  r·   Ú
all_lossesÚ	all_predsÚ
all_labelsÚ
all_inputsrþ  Úeval_set_kwargsÚobserved_num_examplesrÁ  rõ  Úobserved_batch_sizerŸ  Úlogitsr  ru  Úinputs_decodeÚis_last_stepÚbatch_kwargsr~  Úkeys                                  rÑ   rŽ  zTrainer.evaluation_loop*
  s  € ð y‰yˆà7KÐ7WÑ3Ð]a×]vÑ]vÐð ×$Ò$¨¯©Ð)?Ü! $¸1ÈÔM‰DˆAˆqà× Ñ  §¡°eÈ
Ð ÓSˆäˆt×Ñ×'Ñ'Ó(¨AÓ-°%¸4¿:¹:Ñ2EÜŸ™›ˆJð ×,Ò,Ø×(Ò(¨T×-=Ñ-=×-MÑ-MÐQVÒ-VÐ_c×_hÑ_h×_vÒ_vð × Ñ ×(Ñ(¨Ô/ð ×%Ñ%×3Ñ3°EÈ4Ð3ÓPð	 ô +0´·	±	³¸jÑ0HÈ!Ó*LˆDÔ'à×#Ò#Ø"”
ð ˜DŸJ™JÑ&Ø%*Ô"ð ×(Ò(Ø!%×!3Ñ!3”ð ×ÒØ×"Ò"ØŸ™¤u§}¡}¸T¿[¹[˜ÓI‘Ø×$Ò$ØŸ™¤u§~¡~¸d¿k¹k˜ÓJà—Y‘Y×.Ñ.ˆ
ä‰Ð& { m°6Ð:Ô;ÜjÔ!ÜK‰KÐ+¨D×,=Ñ,=¸jÓ,IÐ+JÐKÕLäK‰KÐ1Ô2Ü‰o j \Ð2Ô3ä5˜&Ô!¤h¨u¯z©zÔ&:ØJ‰JŒLÜ4—>‘> 6Ô*¬x¸¿¹×8KÑ8KÔ/LØN‰N×ÑÔ!à0:ˆ×ÑÔ-ä˜z¨9°dÓ;ˆô ' t§y¡y×'GÑ'GÐW[Ô\ˆ
Ü% d§i¡i×&FÑ&FÐVZÔ[ˆ	Ü& t§y¡y×'GÑ'GÐW[Ô\ˆ
Ü& t§y¡y×'GÑ'GÐW[Ô\ˆ
àˆØˆð !"Ðô & jÓ1ó C	)‰LˆD&ä"1°&Ó"9ÐØ"Ð.Ø%Ð)<Ñ<Ð%àÐ%Ø!4Jð &*×%9Ñ%9¸%ÀÐI]ÐkvÐ%9Ó%wÑ"ˆFF˜FÜ% d§j¡jÐ2CÀ[ÓQˆOà@HÈD×LdÑLdÑ@d×#Ñ# F¨?Ñ$;Ô<Ðjnð ô &Ô'Ü—‘”ð Ð!Ø×-Ñ-¨f¯m©m¸JÓ.GÓHØ—‘˜vÔ&ØÐ(Ø $× 0Ñ 0× EÑ EÀmÐYZÐfjÐ EÓ kØ $× 4Ñ 4°]Ó CØ—y‘y×3Ò3°{ÀlÒ7RØ—N‘N =Ô1ØÐ!à×)Ñ)×>Ñ>¸vÈ1ÐX\Ð>Ó]ØÐ!Ø×)Ñ)×>Ñ>¸vÈ1ÐX\Ð>Ó]Ø×5Ñ5ÐAØ!×?Ñ?ÀÈÓOFØ×-Ñ-¨fÓ5Ø—y‘y×3Ò3°{ÀlÒ7RØ—M‘M &Ô)ØÐ!Ø×-Ñ-¨fÓ5Ø—y‘y×3Ò3°{ÀlÒ7RØ—N‘N 6Ô*à×0Ñ0×CÑCÀDÈ$Ï*É*ÐVZ×VbÑVbÓcˆDŒLày‰y×+Ò+Ø×'Ñ'Ð3¸Ð8JÈvÐOaØ#'×#3Ñ#3×#BÑ#B×#TÑ#TLØ#%LØ7=À×AYÑAYÑ7Y©VÐ_cL Ñ*Ø7?À4×C[ÑC[Ñ7[©VÐaeL Ñ*Ø"×2Ñ2Ü&Ð\°6ÀVÑ\È|Ñ\Ø'3ð 3ó Gð
 ˜F F¨FÜ—
‘
×&Ñ&Ö(ð ×-Ñ-Ò9¸tÀa¹xÈ4×KgÑKgÑ>gÐklÔ>lØ×+Ñ+Ô-Ø×*Ñ*Ô,Ø×+Ñ+Ô-Ø×+Ñ+Ô-à˜F F¨FÜ—
‘
×&Ñ&Ö(ðGC	)ðL  $×/Ñ/×BÑBˆÔð  ×*Ñ*Ó,ˆ
Ø×(Ñ(Ó*ˆ	Ø×*Ñ*Ó,ˆ
Ø×*Ñ*Ó,ˆ
ô lÔ#Ü˜lÓ+‰Kô ˜Ô&:Ô;ÄÈÐVdÐfgÓ@hÐklÒ@lØ&×3Ñ3‰Kä˜*Ô%Ø"×/Ñ/°
Ó;‘à3Ø˜!ÒÐ 5¸Ò 9Ø/ˆKð × Ñ Ð,ØÐ%ØÐ&Ø—I‘I×0Ò0à6<À×@XÑ@XÑ6X©
Ð^bˆO˜HÑ%Ø6>À$×BZÑBZÑ6Z©
Ð`dˆO˜HÑ%Ø×*Ñ*ÜÐ^¨9À
Ñ^ÈoÑ^ó‰Gð ˆ_ØˆGô (¨Ó0ˆäj¤$Ô'©JÜ35·>±>À*Ó3M×3RÑ3RÓ3T×3YÑ3YÓ3[ˆGÐ(Ð)¨Ð/Ò0Ü˜
¤B§J¡JÔ/Ø3=·?±?Ó3D×3IÑ3IÓ3KˆGÐ(Ð)¨Ð/Ñ0Ü4Ð1Ô2ØEI×E`ÑE`ˆGÐ(Ð)Ð)@ÐAÑBô ˜Ÿ™›Ó'ò 	IˆCØ—>‘>Ð%6Ð$7°qÐ"9Õ:Ø8?¿¹ÀCÓ8HÐ,Ð-¨Q¨s¨eÐ4Ò5ð	Iô ¨)¸zÐSZÐhsÔtÐtrp  c                 ó,  — | j                   j                  «        | j                  |«      }t        j                  «       }| j	                  |d||¬«      }| j
                  j                  | j
                  j                  z  }|› d|j                  v r||j                  |› d   z  }|j                  j                  t        |||j                  t        j                  |j                  |z  «      ¬«      «       | j                  j                  | j
                  | j                   | j"                  |j                  «      | _        | j                   j%                  |j                  «       t'        |j(                  |j*                  |j                  ¬«      S )aŒ  
        Run prediction and returns predictions and potential metrics.

        Depending on the dataset and your use case, your test dataset may contain labels. In that case, this method
        will also return metrics, like in `evaluate()`.

        Args:
            test_dataset (`Dataset`):
                Dataset to run the predictions on. If it is an `datasets.Dataset`, columns not accepted by the
                `model.forward()` method are automatically removed. Has to implement the method `__len__`
            ignore_keys (`list[str]`, *optional*):
                A list of keys in the output of your model (if it is a dictionary) that should be ignored when
                gathering predictions.
            metric_key_prefix (`str`, *optional*, defaults to `"test"`):
                An optional prefix to be used as the metrics key prefix. For example the metrics "bleu" will be named
                "test_bleu" if the prefix is "test" (default)

        <Tip>

        If your predictions or labels have different sequence length (for instance because you're doing dynamic padding
        in a token classification task) the predictions will be padded (on the right) to allow for concatenation into
        one array. The padding index is -100.

        </Tip>

        Returns: *NamedTuple* A namedtuple with the following keys:

            - predictions (`np.ndarray`): The predictions on `test_dataset`.
            - label_ids (`np.ndarray`, *optional*): The labels (if the dataset contained some).
            - metrics (`dict[str, float]`, *optional*): The potential dictionary of metrics (if the dataset contained
              labels).
        rž  )r°  rˆ  r‰  rŒ  r}  )r   rð  rþ  )ré   rê   rÄ  r“  rŽ  r´   r¾  rì  rþ  rz  ro   r~  r`  ra  r!  Ú
on_predictr,  r+  rD  r[   r   rð  )rE  rÁ  rˆ  r‰  Útest_dataloaderrã  r•  r–  s           rÑ   ÚpredictzTrainer.predictú
  sR  € ðH 	×Ñ×"Ñ"Ô$à×2Ñ2°<Ó@ˆÜ—Y‘Y“[ˆ
à×%Ñ%Ø¨À;Ðbsð &ó 
ˆð  Ÿ9™9×4Ñ4°t·y±y×7KÑ7KÑKÐØÐ Ð 7Ð8¸F¿N¹NÑJØ˜&Ÿ.™.Ð,=Ð+>Ð>UÐ)VÑWÑWˆJØ‰×ÑÜØ!ØØ"×.Ñ.ÜŸ)™) F×$6Ñ$6Ð9IÑ$IÓJô	ô	
ð ×,Ñ,×7Ñ7¸¿	¹	À4Ç:Á:ÈtÏ|É|Ð]c×]kÑ]kÓlˆŒØ×Ñ×4Ñ4°V·^±^ÔDä¨F×,>Ñ,>È&×JZÑJZÐdj×drÑdrÔsÐsrp  c                 ó¨  ‡‡— t        | j                  «      dk(  rdnt        ˆfd„| j                  D «       «      }‰j                  d«      }|€| j                  }t        | j                  «      dk(  xr |}| j                  ‰«      Š‰€;t        | j                  d«      r#t        | j                  j                  ddg«      Šng Š|s|r;t        t        ˆfd	„| j                  D «       «      «      }t        |«      d
k(  r|d   }nd}t        j                  «       5  t        «       rÏt        |‰«      }	|s|r{t!        |	t"        «      r(|	d   }
t        ˆfd„|	j%                  «       D «       «      }n
|	d   }
|	d
d }|
j'                  «       j)                  «       j+                  «       }t-        |«      }nOd}t!        |	t"        «      r#t        ˆfd„|	j%                  «       D «       «      }n|	}t-        |«      }n|s|r¯| j/                  «       5  | j1                  ‰g| j2                  j4                  «      }| j7                  |‰d|¬«      \  }}ddd«       j)                  «       j9                  «       }t!        t"        «      r#t        ˆfd„|j%                  «       D «       «      }n^|d
d }nXd}| j/                  «       5   |di ‰¤Ž}ddd«       t!        t"        «      r#t        ˆfd„|j%                  «       D «       «      }n|}ddd«       |rddfS t        «      }t        |«      d
k(  r|d   }||fS # 1 sw Y   ŒêxY w# 1 sw Y   Œ|xY w# 1 sw Y   ŒKxY w)a   
        Perform an evaluation step on `model` using `inputs`.

        Subclass and override to inject custom behavior.

        Args:
            model (`nn.Module`):
                The model to evaluate.
            inputs (`dict[str, torch.Tensor | Any]`):
                The inputs and targets of the model.

                The dictionary will be unpacked before being fed to the model. Most models expect the targets under the
                argument `labels`. Check your model's documentation for all accepted arguments.
            prediction_loss_only (`bool`):
                Whether or not to return the loss only.
            ignore_keys (`list[str]`, *optional*):
                A list of keys in the output of your model (if it is a dictionary) that should be ignored when
                gathering predictions.

        Return:
            tuple[Optional[torch.Tensor], Optional[torch.Tensor], Optional[torch.Tensor]]: A tuple with the loss,
            logits and labels (each being optional).
        r   Fc              3   óD   •K  — | ]  }‰j                  |«      d u–— Œ y ­wrÊ   ©r8  )rÏ   rÐ   rõ  s     €rÑ   rÒ   z*Trainer.prediction_step.<locals>.<genexpr>U  s    øè ø€ ÒAvÐ`aÀ&Ç*Á*ÈQÃ-ÐW[ÔB[ÑAvùs   ƒ Úreturn_lossNrÞ   Úkeys_to_ignore_at_inferenceÚpast_key_valuesc              3   ó@   •K  — | ]  }‰j                  |«      –— Œ y ­wrÊ   rË  )rÏ   Únamerõ  s     €rÑ   rÒ   z*Trainer.prediction_step.<locals>.<genexpr>g  s   øè ø€ Ò(W¸d¨¯©°D×)9Ñ(WùrD  r   r  c              3   ó:   •K  — | ]  \  }}|‰d gz   vsŒ|–— Œ y­w©r  Nr—  ©rÏ   rÐ   rC  rˆ  s      €rÑ   rÒ   z*Trainer.prediction_step.<locals>.<genexpr>s  s&   øè ø€ Ò)o±°°1ÈqÐXcÐgmÐfnÑXnÒOn¬!Ñ)oùó   ƒ”c              3   ó2   •K  — | ]  \  }}|‰vsŒ|–— Œ y ­wrÊ   r—  rÓ  s      €rÑ   rÒ   z*Trainer.prediction_step.<locals>.<genexpr>}  s   øè ø€ Ò)d±°°1ÈqÐXcÒOc¬!Ñ)dùó   ƒT)r  ró  c              3   ó:   •K  — | ]  \  }}|‰d gz   vsŒ|–— Œ y­wrÒ  r—  rÓ  s      €rÑ   rÒ   z*Trainer.prediction_step.<locals>.<genexpr>‹  s&   øè ø€ Ò&h©T¨Q°ÈÐQ\Ð`fÐ_gÑQgÒHg¤qÑ&hùrÔ  c              3   ó2   •K  — | ]  \  }}|‰vsŒ|–— Œ y ­wrÊ   r—  rÓ  s      €rÑ   rÒ   z*Trainer.prediction_step.<locals>.<genexpr>“  s   øè ø€ Ò&]©T¨Q°ÈÐQ\ÒH\¤qÑ&]ùrÖ  r—  )rù   r  Úallr8  r€   r  r	  r³   rö   rÞ   rO   rF  r¦   Úno_gradrˆ   r”   r  r  rE  r  r  rÄ   r•   r
  r5  r´   rú   r  r  )rE  r³   rõ  r‹  rˆ  Ú
has_labelsrÌ  Úloss_without_labelsr  Úraw_outputsr  Ú	logits_mbr  rÀ  ró  r  s     ` `           rÑ   rª  zTrainer.prediction_step7  s  ù€ ô< " $×"2Ñ"2Ó3°qÒ8‘U¼cÓAvÐei×euÑeuÔAvÓ>vˆ
ð —j‘j Ó/ˆØÐØ×.Ñ.ˆKÜ! $×"2Ñ"2Ó3°qÑ8ÒH¸[Ðà×%Ñ% fÓ-ˆØÐÜt—z‘z 8Ô,Ü% d§j¡j×&7Ñ&7Ð9VÐYjÐXkÓl‘à ñ Ñ,Ü"¤5Ó(WÀd×FVÑFVÔ(WÓ#WÓXˆFÜ6‹{˜aÒØ ™‘àˆFä]‰]‹_ñ (	)Ü&Ô(Ü.¨u°fÓ=ÙÑ!4Ü! +¬tÔ4Ø"-¨fÑ"5˜Ü$)Ó)o¸×8IÑ8IÓ8KÔ)oÓ$o™	à"-¨a¡.˜Ø$/°° O˜	à"×.Ñ.Ó0×7Ñ7Ó9×=Ñ=Ó?DÜ.¨yÓ9’FàDÜ! +¬tÔ4Ü$)Ó)d¸×8IÑ8IÓ8KÔ)dÓ$d™	à$/˜	Ü.¨yÓ9’FáÑ!4Ø×:Ñ:Ó<ñ Ø-1×-IÑ-IÈ6È(ÐTX×T]ÑT]×TdÑTdÓ-eÐ*Ø(,×(9Ñ(9Ø! 6¸$ÐSeð ):ó )™˜˜g÷ð
  Ÿ;™;›=×-Ñ-Ó/Dä! '¬4Ô0Ü!&Ó&h°W·]±]³_Ô&hÓ!h™à!(¨¨ ™àDØ×:Ñ:Ó<ñ 2Ù"'¡/¨&¡/˜÷2ä! '¬4Ô0Ü!&Ó&]°W·]±]³_Ô&]Ó!]™à!(˜÷Q(	)ñT  Ø˜$ Ð%Ð%ä˜vÓ&ˆÜˆv‹;˜!ÒØ˜A‘YˆFàf˜fÐ%Ð%÷7ð ú÷2ð 2ú÷G(	)ð (	)ús?   ÄC.MÈA L0ÉA1MÊ8	L<Ë=MÌ0L9	Ì5MÌ<M	ÍMÍMrr  c           
      ó  — | j                  |¬«      }| j                  || j                  j                  |«       t	        | j
                  t        j                  j
                  j                  «      rO|sM| j                  j                  }|j                  d«      sd|› }	 | j
                  j                  ||   «       |S |S # t        $ r2}t        d|› dt        |j                  «       «      › d|› d«      |‚d}~ww xY w)zJRun evaluation, report to HP search, and step ReduceLROnPlateau if needed.rœ  Úeval_ú9The `metric_for_best_model` training argument is set to 'úW', which is not found in the evaluation metrics. The available evaluation metrics are: zX. Please ensure that the `compute_metrics` function returns a dictionary that includes 'zM' or consider changing the `metric_for_best_model` via the TrainingArguments.N)r  Ú_report_to_hp_searchr,  r™  r  r  r¦   r  rJ  r´   rc  r¸  rÁ  ÚKeyErrorrò  ró  )rE  rQ  rS  rr  rþ  Úmetric_to_checkÚexcs          rÑ   r¢  zTrainer._evaluate   s  € ð —-‘-Ð,@-ÓAˆØ×!Ñ! %¨¯©×)?Ñ)?ÀÔIô d×'Ñ'¬¯©×)AÑ)A×)SÑ)SÔTÑ]kØ"Ÿi™i×=Ñ=ˆOØ"×-Ñ-¨gÔ6Ø$)¨/Ð):Ð";ð	Ø×!Ñ!×&Ñ& w¨Ñ'?Ô@ð ˆˆwˆøô ò ÜØOÐP_ÐO`ð a=ä=AÀ'Ç,Á,Ã.Ó=QÐ<Rð SmØm|Ðl}ð ~_ð`óð ðûðús   Â!C Ã	C>Ã-C9Ã9C>c                 óX  — | j                   || j                   t        j                  k(  r|j                  }n| j                   t        j                  k(  r-ddl}|j                  j                  «       j                  «       }n7| j                   t        j                  k(  rddl
}|j                  j                  }| j                  | j                  |«      nd› }t        j                  j!                  | j"                  j$                  |«      }|S | j"                  j$                  }|S )zIReturn the output directory, accounting for hyperparameter search trials.Nr   zrun-)r/  rY   ÚOPTUNAÚnumberÚRAYÚray.tuneÚtuneÚget_contextÚget_trial_idÚWANDBÚwandbÚrunÚidr.  r)  r[  rü  r´   rÂ   )rE  rQ  Úrun_idÚrayrð  Úrun_namerÿ  s          rÑ   rÓ  zTrainer._get_output_dir½  sâ   € à×!Ñ!Ñ-°%Ñ2CØ×%Ñ%¬×)?Ñ)?Ò?ØŸ™‘Ø×'Ñ'¬?×+>Ñ+>Ò>ÛàŸ™×-Ñ-Ó/×<Ñ<Ó>‘Ø×'Ñ'¬?×+@Ñ+@Ò@ÛàŸ™Ÿ™Ø.2¯l©lÐ.Ft—|‘| EÔ*ÈdÐSYÐRZÈOˆHÜ—g‘g—l‘l 4§9¡9×#7Ñ#7¸ÓBˆGð ˆð —i‘i×*Ñ*ˆGØˆrp  c                 óN  — t         › d| j                  j                  › }| j                  €|€| j	                  «        | j                  |¬«      }t        j                  j                  ||«      }| j                  |d¬«       | j                  j                  t        j                  t        j                  fv rÿ| j                  j                  rét!        «       rt#        j$                  d«       nZ| j                  j&                  t(        j*                  k(  rt-        j.                  «        nt1        «       rt3        j.                  «        t         › d| j                  j                  › }t        j                  j                  ||«      }t        j                  j5                  |«      r|| j                  _        | j                  j8                  s3| j;                  |«       | j=                  |«       | j?                  |«       | j                  j@                  r| jB                  jD                  | jF                  gz   D cg c]  }tI        |tJ        «      sŒ|‘Œ c}D ]‘  }|jL                  jN                  }	|j                  «       }
tI        | j                  jP                  |	   tR        «      r)| j                  jP                  |	   jU                  |
«       Œy|
| j                  jP                  |	<   Œ“ | j                  jW                  t        j                  j                  |tX        «      «       | j                  jZ                  r| j]                  |«       | j                  j@                  r8t_        || j                  j`                  | j                  j6                  d¬«       yyc c}w )zSSave model checkpoint, optimizer, scheduler, scaler, RNG states, and trainer state.ú-N)rQ  T©Ú_internal_callrb  )rÂ   rÔ  r  Ú	use_mtime)1rU   r,  r™  r/  rÑ  rÓ  r)  r[  rü  Ú
save_modelr´   r`  r]   ÚSTEPSÚEPOCHÚbest_global_steprŽ   rÉ  Ú
rendezvousrþ   rs   rÿ   rŽ  Úbarrierrˆ   r[  Úexistsr  r¥  Ú_save_optimizer_and_schedulerÚ_save_scalerÚ_save_rng_stater(  r!  r¼   r+  r  r<   rñ   rò   rÝ   rò  r2  Úsave_to_jsonr\  r&  Ú_push_from_checkpointrk   rÔ  )rE  r³   rQ  Úcheckpoint_folderrÿ  rÂ   Úbest_checkpoint_folderÚbest_checkpoint_dirrP  Úcb_nameÚcb_states              rÑ   r,  zTrainer._save_checkpointÐ  s¬  € ô  5Ð5°Q°t·z±z×7MÑ7MÐ6NÐOÐà×!Ñ!Ð)¨e¨mØO‰OÔà×&Ñ&¨UÐ&Ó3ˆÜ—W‘W—\‘\ 'Ð+<Ó=ˆ
Ø‰˜
°4ˆÔ8à9‰9×"Ñ"¤|×'9Ñ'9¼<×;MÑ;MÐ&NÑNÐSW×S]ÑS]×SnÒSnô &Ô'Ü—‘Ð6Õ7Ø—‘×(Ñ(¬L×,DÑ,DÒDÜ—‘•Ü(Ô*Ü—‘”ä(=Ð'>¸aÀÇ
Á
×@[Ñ@[Ð?\Ð%]Ð"Ü"$§'¡'§,¡,¨wÐ8NÓ"OÐäw‰w~‰~Ð1Ô2Ø3F—
‘
Ô0ày‰y×(Ò(à×.Ñ.¨zÔ:Ø×Ñ˜jÔ)à× Ñ  Ô,ð 9‰9× Ó ð "×2Ñ2×<Ñ<ÀÇÁ¸~ÑMöØÔQ[Ð\^Ô`oÕQp’òò Fð Ÿ,™,×/Ñ/ØŸ8™8›:Ü˜dŸj™j×;Ñ;¸GÑDÄdÔKØ—J‘J×1Ñ1°'Ñ:×AÑAÀ(ÕKà=ED—J‘J×1Ñ1°'Ò:ðFð J‰J×#Ñ#¤B§G¡G§L¡L°Ô=OÓ$PÔQà9‰9× Ò Ø×&Ñ& zÔ2ð 9‰9× Ò äØ"Ø!%§¡×!;Ñ!;Ø&*§j¡j×&FÑ&FØö	ð !ùòs   È>N"ÉN"rþ  c           
      ó6  — d}| j                   j                  D| j                   j                  }|j                  d«      sd|› }	 ||   }| j                   j                  rt        j                  nt        j                  }| j                  j                  €;| j                   j                  rt        d«      n
t        d«      | j                  _         ||| j                  j                  «      rn|| j                  _        | j                   j                  t        j                  t        j                   fv r%| j                  j"                  | j                  _        d	}|S # t        $ r/}t        d|› dt	        |j                  «       «      › d«      |‚d}~ww xY w)
z­
        Determine if the model should be saved based on the evaluation metrics.

        Returns:
            bool: True if a new best metric was found, else False
        FNrà  rá  râ  zJ. Consider changing the `metric_for_best_model` via the TrainingArguments.z-infÚinfT)r´   rc  r¸  rä  rò  ró  Úgreater_is_betterr@  ÚgreaterÚlessr,  Úbest_metricr¹  r`  r]   rü  rý  r™  rþ  )rE  rþ  rQ  r0  rå  Úmetric_valueræ  Úoperators           rÑ   r+  zTrainer._determine_best_metric  s[  € ð #Ðà9‰9×*Ñ*Ñ6Ø"Ÿi™i×=Ñ=ˆOà"×-Ñ-¨gÔ6Ø$)¨/Ð):Ð";ðØ& Ñ7ð &*§Y¡Y×%@Ò%@”r—z’zÄbÇgÁgˆHàz‰z×%Ñ%Ð-Ø:>¿)¹)×:UÒ:U¬¨v¬Ô[`ÐafÓ[g—
‘
Ô&á˜ d§j¡j×&<Ñ&<Ô=Ø)5—
‘
Ô&à—9‘9×*Ñ*¬|×/AÑ/AÄ<×CUÑCUÐ.VÑVØ26·*±*×2HÑ2HD—J‘JÔ/à%)Ð"à!Ð!øô' ò ÜØOÐP_ÐO`ð a=Ü=AÀ'Ç,Á,Ã.Ó=QÐ<Rð  S]ð^óð ðûðús   ÁE  Å 	FÅ)*FÆFrÂ   c           	      ó˜  — t        j                  «       t        j                   j                  «       t        j                   j                  «       dœ}t        j                  j                  «       r~| j                  j                  t        j                  k(  r,t        j                  j                   j                  «       |d<   n+t        j                  j                   j                  «       |d<   t        «       rt        j
                  «       |d<   t        «       r~| j                  j                  t        j                  k(  r,t        j                   j                   j                  «       |d<   n+t        j                   j                   j                  «       |d<   t#        «       r~| j                  j                  t        j                  k(  r,t        j$                  j                   j                  «       |d<   n+t        j$                  j                   j                  «       |d<   t'        «       r~| j                  j                  t        j                  k(  r,t        j(                  j                   j                  «       |d<   n+t        j(                  j                   j                  «       |d<   t+        «       rj| j                  j                  t        j                  k(  r"t        j,                  j                  «       |d<   n!t        j,                  j                  «       |d<   t/        j0                  |d¬	«       | j                  j2                  d
k  r5t	        j4                  |t.        j6                  j9                  |d«      «       yt	        j4                  |t.        j6                  j9                  |d| j                  j:                  › d«      «       y)z@Save random number generator states for reproducible resumption.)ÚpythonÚnumpyrÄ   r±  rÆ   ÚnpuÚhpuÚmluÚmusaTrÙ   r   úrng_state.pthÚ
rng_state_ú.pthN)ÚrandomÚgetstater@  Ú	get_stater¦   Úget_rng_stater±  rÛ  r´   rþ   rs   rÿ   Úget_rng_state_allrŽ   rÉ  r   r  r‰   r  rŠ   r  r‹   r  r)  r*  rì  Úsaver[  rü  rß  )rE  rÂ   Ú
rng_statess      rÑ   r  zTrainer._save_rng_state8  sw  € ô —o‘oÓ'Ü—Y‘Y×(Ñ(Ó*Ü—<‘<×-Ñ-Ó/ñ
ˆ
ô
 :‰:×"Ñ"Ô$Øy‰y×&Ñ&¬,×*BÑ*BÒBä%*§Z¡Z×%6Ñ%6×%HÑ%HÓ%J
˜6Ò"ä%*§Z¡Z×%6Ñ%6×%DÑ%DÓ%F
˜6Ñ"ä!Ô#Ü "× 0Ñ 0Ó 2ˆJuÑä!Ô#Øy‰y×&Ñ&¬,×*BÑ*BÒBÜ$)§I¡I×$4Ñ$4×$FÑ$FÓ$H
˜5Ò!ä$)§I¡I×$4Ñ$4×$BÑ$BÓ$D
˜5Ñ!ä!Ô#Øy‰y×&Ñ&¬,×*BÑ*BÒBÜ$)§I¡I×$4Ñ$4×$FÑ$FÓ$H
˜5Ò!ä$)§I¡I×$4Ñ$4×$BÑ$BÓ$D
˜5Ñ!ä!Ô#Øy‰y×&Ñ&¬,×*BÑ*BÒBÜ$)§I¡I×$4Ñ$4×$FÑ$FÓ$H
˜5Ò!ä$)§I¡I×$4Ñ$4×$BÑ$BÓ$D
˜5Ñ!ä"Ô$Øy‰y×&Ñ&¬,×*BÑ*BÒBÜ%*§Z¡Z×%AÑ%AÓ%C
˜6Ò"ä%*§Z¡Z×%=Ñ%=Ó%?
˜6Ñ"ô 	‰J¨Õ.à9‰9×Ñ 1Ò$ÜJ‰Jz¤2§7¡7§<¡<°
¸OÓ#LÕMäJ‰Jz¤2§7¡7§<¡<°
¸jÈÏÉ×I`ÑI`ÐHaÐaeÐ<fÓ#gÕhrp  c                 ó
  — t        «       rŽt        j                  d«       | j                  r¡| j                  j                  «       | j                  j                  «       dœ}t        j                  |t        j                  j                  |d| j                  j                  › d| j                  j                  › dt        › «      d¬«       nPt        j                  | j                  j                  «       t        j                  j                  |t        «      «       t!        j"                  d¬	«      5 }t        j                  | j$                  j                  «       t        j                  j                  |t&        «      «       t)        |«       d
d
d
«       n‡t+        «       rË| j                  j-                  d¬«      }t/        j0                  «        t/        j2                  «       dk(  s%t.        j4                  j6                  j8                  rt/        j                  |t        j                  j                  |t        «      dt.        j4                  j6                  j8                  ¬«       n²| j:                  rŸdt=        t?        j@                  | jB                  jD                  «      jF                  jI                  «       «      v }|r4tK        | j                  «      r| jB                  jE                  |d¬«       n$| jB                  jE                  |«       n| jL                  r•tO        | jP                  j4                  jR                  | jP                  | j                  |fi tU        «       ¤Ž tW        | jP                  j4                  jR                  | jP                  | j                  | j                  |«       nf| j                  jX                  rPt[        j                  | j                  j                  «       t        j                  j                  |t        «      «       | j:                  xr t]        | j$                  t^        «       }| j                  jX                  r•| j:                  r|r†t        «       s{t!        j"                  d¬	«      5 }t[        j                  | j$                  j                  «       t        j                  j                  |t&        «      «       d
d
d
«       t)        «       y
y
y
y
# 1 sw Y   ŒÞxY w# 1 sw Y   Œ$xY w)zBSave optimizer and learning rate scheduler states to `output_dir`.Úsaving_optimizer_states)r  Úshard_metadatarÕ  ú-of-r÷  F)Úmaster_onlyT©ÚrecordN)Úgather_if_shardr   )r   Úv3Úexclude_frozen_parameters©r.  )0rŽ   rÉ  rÿ  rC  r  Ú
state_dictr³   Úget_shard_metadatar#  r)  r[  rü  r´   rß  rì  ÚOPTIMIZER_NAMEr  Úcatch_warningsr  ÚSCHEDULER_NAMErQ   rˆ   Úlocal_state_dictr[  r   Úrdp_rankr,  r\  Úshard_optimizer_staterý   r÷   rÌ   r  r  Úsave_checkpointr  ró  r`   r  r¡   r  r  r)   r¢   r(  r¦   r  r¤   )rE  rÂ   ÚoptmÚcaught_warningsÚopt_state_dictÚ accept_exclude_frozen_parametersÚis_deepspeed_custom_schedulers          rÑ   r  z%Trainer._save_optimizer_and_schedulerk  sœ  € ä!Õ#ÜM‰MÐ3Ô4Ø×*Ò*à!%§¡×!:Ñ!:Ó!<Ø&*§j¡j×&CÑ&CÓ&Eñô —‘ØÜ—G‘G—L‘LØ" d¨4¯9©9×+BÑ+BÐ*CÀ4ÈÏ	É	×H\ÑH\ÐG]Ð]^Ô_mÐ^nÐ$oóð !&öô —‘˜Ÿ™×1Ñ1Ó3´R·W±W·\±\À*ÌnÓ5]Ô^Ü×(Ñ(°Ô5ð 5¸Ü—‘˜×)Ñ)×4Ñ4Ó6¼¿¹¿¹ÀZÔQ_Ó8`ÔaÜ# OÔ4÷5ñ 5ô %Ô&Ø!Ÿ^™^×<Ñ<ÈUÐ<ÓSˆNÜK‰KŒMÜ|‰|‹~ Ò"¤c§i¡i§m¡m×&IÓ&IÜ—‘Ø"Ü—G‘G—L‘L ¬^Ó<Ø Ü—y‘y—}‘}×:Ñ:÷	ð ×&Ò&ð 0KÌcÜ×!Ñ! $×"4Ñ"4×"DÑ"DÓE×PÑP×UÑUÓWóOð 0Ð,ñ 0´NÀ4Ç:Á:Ô4NØ×"Ñ"×2Ñ2°:ÐY]Ð2Ö^à×"Ñ"×2Ñ2°:Ö>Ø×!Ò!äØ× Ñ ×&Ñ&×2Ñ2°D×4DÑ4DÀdÇjÁjÐR\ñÜ`tÓ`vòô  Ø× Ñ ×&Ñ&×2Ñ2°D×4DÑ4DÀdÇnÁnÐVZ×V`ÑV`Ðblõð Y‰Y×"Ò"äJ‰Jt—~‘~×0Ñ0Ó2´B·G±G·L±LÀÌ^Ó4\Ô]ð )-×(AÑ(Aò )
Ì*Ø×ÑÔ8óK
ð G
Ð%ð I‰I×!Ò!Ø×.Ò.Ñ2OÜ*Ô,ä×(Ñ(°Ô5ð e¸Ü—
‘
˜4×,Ñ,×7Ñ7Ó9¼2¿7¹7¿<¹<È
ÔTbÓ;cÔd÷eä Õ0ð	 -ð 3Pð "÷Q5ð 5ú÷Xeð eús   Ä4AS6ÒATÓ6S?ÔTc                 ó  — 	 | j                   j                  }|€yt        «       r™t	        j
                  d«       t        j                  d¬«      5 }t	        j                  | j                   j                  j                  «       t        j                  j                  |t        «      «       t        |«       ddd«       | j                  j                   rt        «       s…t        j                  d¬«      5 }t#        j                  | j                   j                  j                  «       t        j                  j                  |t        «      «       ddd«       t        «       yyy# t        $ r Y yw xY w# 1 sw Y   Œ¿xY w# 1 sw Y   Œ2xY w)z-Save the gradient scaler state if one exists.NÚsaving_scaler_stateTr*  )r  ÚscalerrÈ  rŽ   rÉ  rÿ  r  r3  r#  r0  r)  r[  rü  ÚSCALER_NAMErQ   r´   r(  r¦   )rE  rÂ   r@  r:  s       rÑ   r  zTrainer._save_scaler­  s+  € ð	Ø×%Ñ%×,Ñ,ˆFð ˆ>ØÜ!Ô#ÜM‰MÐ/Ô0Ü×(Ñ(°Ô5ð 5¸Ü—‘˜×(Ñ(×/Ñ/×:Ñ:Ó<¼b¿g¹g¿l¹lÈ:ÔWbÓ>cÔdÜ# OÔ4÷5ð
 9‰9× Ò Ô)?Ô)AÜ×(Ñ(°Ô5ð h¸Ü—
‘
˜4×+Ñ+×2Ñ2×=Ñ=Ó?ÄÇÁÇÁÈjÔZeÓAfÔg÷hä Õ0ð *BÐ øô ò 	Ùð	ú÷5ð 5ú÷hð hús+   ‚E% ÁA&E4Ã4AF Å%	E1Å0E1Å4E=Æ F	c           
      óð  ‡— |€| j                   }t        j                  j                  ‰t        «      }t        j                  j                  ‰t
        «      }t        j                  j                  ‰t        «      }t        j                  j                  ‰t        «      }t        j                  j                  ‰t        «      }t        j                  j                  ‰t        «      }t        j                  j                  ‰t        «      }	t        j                  j                  ‰«      xrm t        ˆfd„t        j                  ‰«      D «       «      xsD t        j                  j                  t        j                  j                  ‰t        › d«      «      }
t        j                  j                  ‰«      rät        j                  ‰«      D cg c]Å  }t        j                  j                  t        j                  j                  ‰|«      «      r†t        j                  j                  t        j                  j                  ‰|t
        «      «      sBt        j                  j                  t        j                  j                  ‰|t        «      «      r|‘ŒÇ c}ng }|
r| j                   st#        d‰› d«      ‚t        d„ ||||	||fD «       «      s|
s|st#        d‰› «      ‚t$        j'                  d‰› d	«       t        j                  j                  |«      rLt)        j*                  |«      }|j,                  }|)|t.        k7  r t$        j1                  d
|› dt.        › d«       t        j                  j                  |«      s!t        j                  j                  |«      s|
rüt3        «       rt5        j6                  ‰t        dd¬«       y| j                   r@t9        | j:                  j<                  j>                  | j:                  |‰fi tA        «       ¤Ž yt        j                  j                  |«      r"tB        jD                  jG                  |d¬«      }n"tI        «        tE        jJ                  |dd¬«      }|jM                  |d«      }~| jO                  |«       ytQ        |«      rtS        |d«      rätS        |d«      rØt        j                  jU                  ‰«      r›|jV                  }tY        |«      dkD  rt$        j1                  d«       |d   }|rP|D ]9  }t        j                  j                  ‰|«      }|j[                  ||||k(  ¬«       Œ; |j]                  |«       y|j[                  ‰|d¬«       yt$        j1                  dt
        › d«       yt$        j1                  dt^        › d«       yta        |‰t3        «       ¬«      }t3        «       s| jO                  |«       yyc c}w )z/Load model weights from a checkpoint directory.Nc              3   ó¨   •K  — | ]I  }t         j                  j                  t         j                  j                  ‰|«      «      r
t        |v –— ŒK y ­wrÊ   )r)  r[  Úisdirrü  ÚFSDP_MODEL_NAME)rÏ   Úfolder_namerP  s     €rÑ   rÒ   z0Trainer._load_from_checkpoint.<locals>.<genexpr>Ò  s>   øè ø€ ò àÜ—7‘7—=‘=¤§¡§¡Ð.DÀkÓ!RÔSô   ;Ô.ñùs   ƒAAz.binzCheckpoint found at z* is only supported when using PyTorch FSDPc              3   óZ   K  — | ]#  }t         j                  j                  |«      –— Œ% y ­wrÊ   )r)  r[  r–  )rÏ   Úfs     rÑ   rÒ   z0Trainer._load_from_checkpoint.<locals>.<genexpr>í  s%   è ø€ ò 
àô —‘—‘˜q×!ñ
ùs   ‚)+z!Can't find a valid checkpoint at zLoading model from r  z9You are resuming training from a checkpoint trained with z- of Transformers but your current version is zJ. This is not recommended and could yield to errors or unwanted behaviors.F©r[  Útagr   Úload_optimizerrÄ   rq  T©Úmap_locationÚweights_onlyÚactive_adaptersÚload_adapterr   zFMultiple active adapters detected will only consider the first adapterr   )Úis_trainableújThe intermediate checkpoints of PEFT may not be saved correctly, consider using a custom callback to save úi in corresponding saving folders. Check some examples here: https://github.com/huggingface/peft/issues/96ú8Could not load adapter model, make sure to have PEFT >= ú
 installed©Ústrict)1r³   r)  r[  rü  rx   rw   rv   r}   r|   r{   rz   rD  r  Úlistdirr–  rE  r  rð   rã   rä   r   Úfrom_json_fileÚtransformers_versionr   r]  rˆ   r[  rP  rž   r  r,  r  r)   Úsafetensorsr¦   Ú	load_filer   ÚloadÚload_state_dictÚ_issue_warnings_after_loadr`   r	  r  rO  rù   rP  Úset_adapterr.   ri   )rE  rP  r³   Úconfig_fileÚadapter_weights_fileÚadapter_safe_weights_fileÚweights_fileÚweights_index_fileÚsafe_weights_fileÚsafe_weights_index_fileÚis_fsdp_ckptrF  Úadapter_subdirsrÞ   Úcheckpoint_versionr0  Úload_resultrO  Úactive_adapterÚsubdir_nameÚpeft_ids    `                   rÑ   rY  zTrainer._load_from_checkpointÄ  sÞ  ø€ àˆ=Ø—J‘JˆEä—g‘g—l‘lÐ#9¼;ÓGˆÜ!Ÿw™wŸ|™|Ð,BÔDXÓYÐÜ$&§G¡G§L¡LÐ1GÔIbÓ$cÐ!Ü—w‘w—|‘|Ð$:¼LÓIˆÜŸW™WŸ\™\Ð*@ÔBTÓUÐÜŸG™GŸL™LÐ)?ÔARÓSÐÜ"$§'¡'§,¡,Ð/EÔG^Ó"_ÐÜ—w‘w—}‘}Ð%;Ó<ò 	
äó ä#%§:¡:Ð.DÓ#Eôó ò ^ô w‰w~‰~œbŸg™gŸl™lÐ+AÄoÐEVÐVZÐC[Ó\Ó]ð 	ô* w‰w}‰}Ð3Ô4ô $&§:¡:Ð.DÓ#EöàÜ—7‘7—=‘=¤§¡§¡Ð.DÀkÓ!RÔSä—G‘G—N‘N¤2§7¡7§<¡<Ð0FÈÔUiÓ#jÔkÜ—w‘w—~‘~¤b§g¡g§l¡lÐ3IÈ;ÔXqÓ&rÔsò óð ð 	ñ  × 4Ò 4ÜÐ3Ð4JÐ3KÐKuÐvÓwÐwô ñ 
ð !Ø%Ø&Ø+Ø(Ø-ðô
ô 
ñ ÙäÐ@ÐAWÐ@XÐYÓZÐZä‰Ð)Ð*@Ð)AÀÐCÔDä7‰7>‰>˜+Ô&Ü%×4Ñ4°[ÓAˆFØ!'×!<Ñ!<ÐØ!Ð-Ð2DÌÒ2SÜ—‘ØOÐPbÐOcð d@Ü@K¸}ð M=ð=ôô 7‰7>‰>˜,Ô'¬2¯7©7¯>©>Ð:KÔ+LÑP\ä&Ô(Ü×*Ñ*Ø/´\È5Ðaföð ×%Ò%ÜØ×$Ñ$×*Ñ*×6Ñ6Ø×$Ñ$ØØ*ñ	ô
 +Ó,óô —7‘7—>‘>Ð"3Ô4Ü!,×!2Ñ!2×!<Ñ!<Ð=NÐW\Ð!<Ó!]‘Jä,Ô.Ü!&§¡¨LÀuÐ[_Ô!`Jð $×3Ñ3°JÀÓFàØ×/Ñ/°Õ<ô ˜EÕ"äuÐ/Ô0´W¸UÀNÔ5SÜ—7‘7—>‘>Ð"8Ô9Ø&+×&;Ñ&;OÜ˜?Ó+¨aÒ/ÜŸ™Ð'oÔpØ%4°QÑ%7Ná&Ø+:ò s˜KÜ&(§g¡g§l¡lÐ3IÈ;Ó&W˜GØ!×.Ñ.¨w¸ÐS^ÐbpÑSpÐ.Õrðsð ×)Ñ)¨.Õ9à×*Ñ*Ð+AÀ>Ð`dÐ*Õeä—N‘NðDÜDXÐCYð Zbðbõô —‘Ð!YÔZjÐYkÐkuÐvÕwô 2°%Ð9OÔXoÓXqÔrˆKÜ*Ô,Ø×/Ñ/°Õ<ð -ùòMs   ÇC
W3c                 ó„  — t         j                  d| j                  j                  › d| j                  j                  › d«       t
        j                  j                  | j                  j                  t        «      }t
        j                  j                  | j                  j                  t        «      }t
        j                  j                  | j                  j                  t        «      }t
        j                  j                  | j                  j                  t        «      }t        «       r| j                  n| j                  }| j                  rAt!        | j                  | j                  j                  t#        | j                  «       ¬«       y| j$                  rTt'        | j(                  j                  j*                  | j(                  || j                  j                  fi t-        «       ¤Ž}yt
        j                  j/                  |«      s^t
        j                  j/                  |«      s?t
        j                  j/                  |«      s t
        j                  j/                  |«      rèd}t        «       r2t1        j2                  | j                  j                  t        dd¬«       yt#        |«      r	t5        |d«      rÝt5        |d	«      rÑ|j6                  d
   }t9        |j6                  «      dkD  rt         j;                  d«       t
        j                  j/                  |«      st
        j                  j/                  |«      r7	 |j=                  | j                  j                  |«       d
dl$m%}  |g g «      }nµt         j;                  dt        › d«       d}n•t         j;                  dtL        › d«       d}nut
        j                  jO                  |«      r"tP        jR                  jU                  |d¬«      }n"tW        «        tS        jX                  |dd¬«      }|j[                  |d«      }t        «       s|r| j]                  «       yyyt
        j                  j/                  t
        j                  j                  | j                  j                  t^        «      «      sUt
        j                  j/                  t
        j                  j                  | j                  j                  t`        «      «      rGtc        || j                  j                  t        «       ¬«      }t        «       s| j]                  |«       yyt         j;                  d|› d«       y# t>        $ rR}	|j@                  |   jB                  r3d|j@                  |   jD                  jF                  › d}
t?        |
«      |	‚‚ d}	~	ww xY w)zFLoad the best model found during training based on the tracked metric.zLoading best model from z	 (score: z).rl  TFrI  rO  rP  r   r   zCDetected multiple active adapters, will only consider the first onez0When using prompt learning PEFT methods such as zî, setting load_best_model_at_end=True can lead to errors, it is recommended to set this to False and to load the model manually from the checkpoint directory using PeftModel.from_pretrained(base_model, <path>) after training has finished.N)Ú_IncompatibleKeysrR  rS  rT  rU  rÄ   rq  rL  rV  z#Could not locate the best model at zi, if you are running a distributed training on multiple nodes, you should activate `--save_on_each_node`.)2rã   rä   r,  r  r  r)  r[  rü  r}   r{   rw   rv   rˆ   r  r³   rý   r%   r`   r  rž   r  r  r)   r  r[  rP  r	  rO  rù   r]  rP  rï   Úpeft_configÚis_prompt_learningÚ	peft_typerM  Útorch.nn.modules.modulerp  r.   r–  r[  r¦   r\  r   r]  r^  r_  rz   r|   ri   )rE  Úbest_model_pathÚbest_safe_model_pathÚbest_adapter_model_pathÚbest_safe_adapter_model_pathr³   rk  Úhas_been_loadedrl  ræ  Úmsgrp  r0  s                rÑ   rÐ  zTrainer._load_best_modelE  sY  € ä‰Ð.¨t¯z©z×/OÑ/OÐ.PÐPYÐZ^×ZdÑZd×ZpÑZpÐYqÐqsÐtÔuÜŸ'™'Ÿ,™, t§z¡z×'GÑ'GÌÓVˆÜ!Ÿw™wŸ|™|¨D¯J©J×,LÑ,LÔN_Ó`ÐÜ"$§'¡'§,¡,¨t¯z©z×/OÑ/OÔQeÓ"fÐÜ')§w¡w§|¡|°D·J±J×4TÑ4TÔVoÓ'pÐ$ä&=Ô&?×"Ò"ÀTÇZÁZˆØ×$Ò$Ü%Ø×"Ñ"Ø—
‘
×0Ñ0Ü'5°d·j±jÓ'AÐ#Aöð
 ×!Ò!Ü)Ø× Ñ ×&Ñ&×2Ñ2Ø× Ñ ØØ—
‘
×0Ñ0ñ	ô
 'Ó(ñ‰Kô G‰GN‰N˜?Ô+Üw‰w~‰~Ð2Ô3Üw‰w~‰~Ð5Ô6Üw‰w~‰~Ð:Õ;à"ˆOÜ&Ô(Ü×*Ñ*ØŸ™×9Ñ9Ü$Ø!Ø#(ö	ô " %Õ(ä˜uÐ&7Ô8¼WÀUÈNÔ=[Ø).×)>Ñ)>¸qÑ)A˜Ü˜u×4Ñ4Ó5¸Ò9Ü"ŸN™NÐ+pÔqäŸ7™7Ÿ>™>Ð*AÔBÄbÇgÁgÇnÁnÐUqÔFrð*Ø %× 2Ñ 2°4·:±:×3SÑ3SÐUcÔ dõ  Rá*;¸BÀÓ*C™Kä"ŸN™Nð!LÜL`ÐKað bjð!jôð
 /4™OäŸ™ØVÔWgÐVhÐhrÐsôð +0™ô —w‘w—~‘~Ð&:Ô;Ü%0×%6Ñ%6×%@Ñ%@ÐAUÐ^cÐ%@Ó%d™
ä0Ô2Ü%*§Z¡Z°ÈeÐbfÔ%g˜
ð
 #(×"7Ñ"7¸
ÀEÓ"JKÜ.Ô0±_Ø×3Ñ3°KÕ@ð 6EÐ0äW‰W^‰^œBŸG™GŸL™L¨¯©×)IÑ)IÔKbÓcÔdÔhj×hoÑho×hvÑhvÜG‰GL‰L˜Ÿ™×9Ñ9Ô;MÓNôi
ô 2Øt—z‘z×7Ñ7Ô@WÓ@YôˆKô +Ô,Ø×/Ñ/°Õ<ð -ô N‰NØ5°oÐ5Fð GPð Põøôk $0ò *Ø#(×#4Ñ#4°^Ñ#D×#WÒ#Wð )[Ø+0×+<Ñ+<¸^Ñ+L×+VÑ+V×+\Ñ+\Ð*]ð ^8ð)8ð %(ô +7°sÓ*;ÀÐ$Dà$)ûð*ús   Í&U$ Õ$	V?Õ-AV:Ö:V?r  c                 ó>  — |€y| j                   j                  dkD  rs| j                   j                  }t        j                  j                  |d|› d«      }t        j                  j                  |«      sot        j                  d|› d«       yt        j                  j                  |d«      }t        j                  j                  |«      st        j                  d«       yt        «       5  t        «        t        j                  |d	¬
«      }ddd«       t        j                  d   «       t        j                  j!                  |d   «       t        j                  j#                  |d   «       t%        «       rt'        j"                  |d   «       | j                   j(                  t*        j,                  k(  }t        j.                  j1                  «       rt3        dt        j.                  ||«       t5        «       rt3        dt        j6                  ||«       t9        «       rt3        dt        j:                  ||«       t=        «       rt3        dt        j>                  ||«       tA        «       rt3        dt        jB                  ||«       yy# 1 sw Y   ŒƒxY w)z9Restore random number generator states from a checkpoint.Nr   r  r  z$Didn't find an RNG file for process zr, if you are resuming a training that wasn't launched in a distributed fashion, reproducibility is not guaranteed.r  z†Didn't find an RNG file, if you are resuming a training that was launched in a distributed fashion, reproducibility is not guaranteed.T©rN  r  r  rÄ   rÆ   ÚCUDAÚNPUÚHPUÚMLUÚMUSA)"r´   rì  rß  r)  r[  rü  r–  rã   rä   rS   r   r¦   r]  r  Úsetstater@  Ú	set_stateÚset_rng_staterŽ   rÉ  rþ   rs   rÿ   r±  rÛ  rT   r   r  r‰   r  rŠ   r  r‹   r  )rE  r  rß  Úrng_fileÚcheckpoint_rng_stateÚis_distributeds         rÑ   r¤  zTrainer._load_rng_state¯  sô  € ð ÐØà9‰9×Ñ !Ò#Ø ŸI™I×3Ñ3ˆMÜ—w‘w—|‘| J°*¸]¸OÈ4Ð0PÓQˆHÜ—7‘7—>‘> (Ô+Ü—‘Ø:¸=¸/ð Jcð côð ä—w‘w—|‘| J°Ó@ˆHÜ—7‘7—>‘> (Ô+Ü—‘ðBôð ä‹^ñ 	KÜ$Ô&Ü#(§:¡:¨hÀTÔ#JÐ ÷	Kô 	‰Ð,¨XÑ6Ô7Ü
	‰	×ÑÐ0°Ñ9Ô:Ü‰×"Ñ"Ð#7¸Ñ#>Ô?Ü!Ô#Ü×ÑÐ1°%Ñ8Ô9àŸ™×0Ñ0´L×4LÑ4LÑLˆÜ:‰:×"Ñ"Ô$Ü$ V¬U¯Z©ZÐ9MÈ~Ô^Ü!Ô#Ü$ U¬E¯I©IÐ7KÈ^Ô\Ü!Ô#Ü$ U¬E¯I©IÐ7KÈ^Ô\Ü!Ô#Ü$ U¬E¯I©IÐ7KÈ^Ô\Ü"Ô$Ü$ V¬U¯Z©ZÐ9MÈ~Õ^ð %÷%	Kñ 	Kús   Ã/"JÊJc                 ó   ‡— ‰€y| j                   r¡t        | j                  t        «      s†t	        j
                  d¬«      5 }t        «        | j                  j                  t        j                  t        j                  j                  ‰t        «      d¬«      «       ddd«       t        «       yt        «       r:t!        j                   t        j                  j                  ‰t"        «      dz   «      nÍt        j                  j%                  t        j                  j                  ‰t"        «      «      xs‹ t        j                  j%                  t        j                  j                  ‰t&        «      «      xsH t        j                  j)                  ‰«      xr' t+        ˆfd„t        j,                  ‰«      D «       «      }| j.                  rQt!        j                   t        j                  j                  ‰d| j0                  j2                  › dt"        › «      «      n|}|r³t        j                  j%                  t        j                  j                  ‰t        «      «      rpt5        «       rÄ| j.                  r{t        «        t        j                  t        j                  j                  ‰d	| j0                  j6                  › d
| j0                  j2                  › dt"        › «      dd¬«      }|d   }nDt        «        t        j                  t        j                  j                  ‰t"        «      dd¬«      }t	        j
                  d¬«      5 }t        «        t        j                  t        j                  j                  ‰t        «      dd¬«      }ddd«       t        «       t9        j:                  || j0                  j<                  «       t9        j:                  | j0                  j<                  «       | j>                  j                  |«       | j                  j                  |«       yt        «       r!ˆfd„}| j@                  jC                  |«       nï| j0                  j2                  dkD  r| j0                  j<                  nd}| jD                  rUtG        | jH                  jJ                  jL                  | jH                  | j>                  | jN                  ‰fi tQ        «       ¤Ž n]t        «        | j>                  j                  t        j                  t        j                  j                  ‰t"        «      |d¬«      «       t	        j
                  d¬«      5 }t        «        | j                  j                  t        j                  t        j                  j                  ‰t        «      d¬«      «       ddd«       t        «       yyy# 1 sw Y   Œ>xY w# 1 sw Y   ŒPxY w# 1 sw Y   Œ1xY w)z3If optimizer and scheduler states exist, load them.NTr*  r|  ú_*c              3   óÌ   •K  — | ][  }t         j                  j                  t         j                  j                  ‰|«      «      rt        j                  d «      d   |v –— Œ] y­w)r  r   N)r)  r[  rD  rü  ÚOPTIMIZER_NAME_BINÚsplit)rÏ   rF  r  s     €rÑ   rÒ   z8Trainer._load_optimizer_and_scheduler.<locals>.<genexpr>ô  sM   øè ø€ ò à'ÜŸ7™7Ÿ=™=¬¯©¯©°jÀ+Ó)NÔOô +×0Ñ0°Ó5°aÑ8¸KÔGñùs   ƒA!A$z	rank*-of-r÷  rÕ  r(  rÄ   rL  r  c                 ó–   •— |j                  t        j                  t        j                  j                  ‰t        «      d¬«      «       y )NTr   )r^  r[  r]  r)  r[  rü  r2  )ÚmodÚoptr  s     €rÑ   Úopt_load_hookz<Trainer._load_optimizer_and_scheduler.<locals>.opt_load_hook$  s,   ø€ Ø×+Ñ+¬C¯H©H´R·W±W·\±\À*ÌnÓ5]ÐgkÔ,lÕmrp  r   ))rý   r  r  r¤   r  r3  r   r^  r¦   r]  r)  r[  rü  r4  rQ   rˆ   Úglobr2  r–  r‹  rD  r  rX  rC  r´   rì  rŽ   rß  rÉ  Úsend_cpu_data_to_devicerú   r  r  Úregister_post_step_hookr  rŸ   r  r,  r  r³   r)   )rE  r  r:  Úcheckpoint_file_existsÚoptimizer_stateÚlr_scheduler_stater  rM  s    `      rÑ   r  z%Trainer._load_optimizer_and_schedulerÜ  sP  ø€ àÐØà×$Ò$ä˜d×/Ñ/Ô1JÔKÜ×,Ñ,°DÔ9ð ¸_Ü,Ô.Ø×%Ñ%×5Ñ5ÜŸ
™
¤2§7¡7§<¡<°
¼NÓ#KÐZ^Ô_ô÷ô
 $ OÔ4Øô 'Ô(ô I‰I”b—g‘g—l‘l :¬~Ó>ÀÑEÔFô —‘—‘œrŸw™wŸ|™|¨J¼ÓGÓHò 	Ü—7‘7—>‘>¤"§'¡'§,¡,¨zÔ;MÓ"NÓOò	ô —G‘G—M‘M *Ó-ò Üó ä+-¯:©:°jÓ+Aôó ð 	ð$ ×*Ò*ô I‰I”b—g‘g—l‘l :°¸4¿9¹9×;OÑ;OÐ:PÐPQÔR`ÐQaÐ/bÓcÔdà'ð 	ò
 "¤b§g¡g§n¡n´R·W±W·\±\À*ÌnÓ5]Õ&^ä%Õ'à×.Ò.Ü,Ô.Ü&+§j¡jÜŸ™Ÿ™Ø&¨$¨t¯y©y×/FÑ/FÐ.GÀtÈDÏIÉI×L`ÑL`ÐKaÐabÔcqÐbrÐ(sóð &+Ø%)ô'Oð '6°kÑ&B‘Oä,Ô.Ü&+§j¡jÜŸ™Ÿ™ Z´Ó@ÈuÐcgô'Oô ×,Ñ,°DÔ9ð ¸_Ü,Ô.Ü).¯©ÜŸ™Ÿ™ Z´Ó@ÈuÐcgô*Ð&÷ô
 $ OÔ4ä×*Ñ*¨?¸D¿I¹I×<LÑ<LÔMÜ×*Ñ*Ð+=¸t¿y¹y×?OÑ?OÔPà—‘×.Ñ.¨Ô?Ø×!Ñ!×1Ñ1Ð2DÕEä*Ô,ônð ×&Ñ&×>Ñ>¸}ÕMð
 8<·y±y×7KÑ7KÈaÒ7O 4§9¡9×#3Ò#3ÐUZLØ×+Ò+Ü+Ø ×,Ñ,×2Ñ2×>Ñ>Ø ×,Ñ,Ø ŸN™NØ ŸJ™JØ&ñô 3Ó4óô 1Ô2ØŸ™×6Ñ6Ü!ŸJ™JÜ "§¡§¡¨Z¼Ó HÐWcÐrvôôô
 ×,Ñ,°DÔ9ð ¸_Ü,Ô.Ø×%Ñ%×5Ñ5ÜŸ
™
¤2§7¡7§<¡<°
¼NÓ#KÐZ^Ô_ô÷ô
 $ OÕ4ðC '_Ð!÷;ñ ú÷bñ ú÷Pð ús'   ÁAWÍAW'Õ'AW4×W$×'W1×4W=c           	      ót  — |€yt         j                  j                  t         j                  j                  |t        «      «      }|rYt        «       r¾t        j                  d¬«      5 }t        «        t        j                  t         j                  j                  |t        «      dd¬«      }ddd«       t        «       t        j                  | j                  j                  «       | j                   j"                  j%                  |«       yt        j                  d¬«      5 }t        «        | j                   j"                  j%                  t        j                  t         j                  j                  |t        «      d¬«      «       ddd«       t        «       yy# 1 sw Y   ŒöxY w# 1 sw Y   Œ"xY w)z If scaler state exists, load it.NTr*  rÄ   rL  r|  )r)  r[  r–  rü  rA  rŽ   r  r3  r   r¦   r]  rQ   rÉ  r’  r´   rú   r  r@  r^  )rE  r  r”  r:  Úscaler_states        rÑ   r‘  zTrainer._load_scalerD  s8  € àÐØä!#§¡§¡´·±·±¸ZÌÓ0UÓ!VÐâ!ô &Ô'Ü×,Ñ,°DÔ9ð ¸_Ü,Ô.Ü#(§:¡:ÜŸ™Ÿ™ Z´Ó=ÈEÐ`dô$L÷ô
 $ OÔ4Ü×*Ñ*¨<¸¿¹×9IÑ9IÔJØ× Ñ ×'Ñ'×7Ñ7¸ÕEä×,Ñ,°DÔ9ð ¸_Ü,Ô.Ø×$Ñ$×+Ñ+×;Ñ;ÜŸ
™
¤2§7¡7§<¡<°
¼KÓ#HÐW[Ô\ô÷ô
 $ OÕ4ð% "÷ð ú÷ð ús   Á(AF"Ä&A'F.Æ"F+Æ.F7c                 ó   ‡— | j                   j                  syg }g }| j                  j                  | j                  gz   }| j
                  j                  j                  «       D ]9  \  Š}t        |t        «      s|g}t        ˆfd„|D «       «      rû|D cg c]  }|j                  j                  ‰k(  sŒ|‘Œ  }}t        ||«      D ]¬  \  }}|j                  di «      }|j                  di «      }	 t        |«      d
i |¤Ž}
|	j                  «       D ]  \  }}t!        |
||«       Œ t        |t"        «      r|
| _        n|j%                  |
«       | j                  j'                  t        |
«      «       Œ® t(        j+                  d«       Œ)|j%                  ‰«       Œ< t-        |«      dkD  r(t(        j/                  ddj1                  |«      › d	«       |D ]  }| j                  j3                  |«       Œ yc c}w )zLIf callback states exist and were passed in, restore their states if enabledNc              3   óP   •K  — | ]  }|j                   j                  ‰k(  –— Œ y ­wrÊ   )rñ   rò   )rÏ   ÚcallbackÚstored_callbacks     €rÑ   rÒ   z/Trainer._load_callback_state.<locals>.<genexpr>j  s"   øè ø€ ÒeÀh8×%Ñ%×.Ñ.°/ÕAÑeùs   ƒ#&r´   Ú
attributeszPContinuing training from checkpoint, restoring any callbacks that were passed inr   zPCheckpoint included callbacks not included in current configuration. Ignoring. (r÷  rU  r—  )r´   Ú'restore_callback_states_from_checkpointr!  r¼   r+  r,  rÝ   rE  r  rò  r  rñ   rò   Úzipr8  rø  r£  r@   r2  Úremove_callbackrã   rä   rù   r]  rü  r"  )rE  Ú	not_foundÚnew_callbacksÚoriginal_callbacksrj  r›  Ú
duplicatesÚcallback_datar´   r  Únew_callbackÚ	attributerM  rœ  s                @rÑ   r—  zTrainer._load_callback_state_  sç  ø€ ày‰y×@Ò@Øàˆ	ØˆØ!×2Ñ2×<Ñ<ÀÇÁ¸~ÑMÐØ%)§Z¡Z×%BÑ%B×%HÑ%HÓ%Jó 	2Ñ!ˆO˜TÜ˜d¤DÔ)ØvÜÓeÐRdÔeÔeð .@öØ!)À8×CUÑCU×C^ÑC^ÐbqÓCq’Hð
ð ô 03°:¸tÓ/Dò NÑ+H˜mØ(×,Ñ,¨V°RÓ8DØ!.×!2Ñ!2°<ÀÓ!DJØ#1¤4¨£>Ñ#9°DÑ#9LØ,6×,<Ñ,<Ó,>ò @Ñ(˜	 5Ü ¨i¸Õ?ð@ä! (¬NÔ;à'3˜à%×,Ñ,¨\Ô:à×)Ñ)×9Ñ9¼$¸|Ó:LÕMðNô —‘ÐnÖoà× Ñ  Ö1ð/	2ô0 ˆy‹>˜AÒÜN‰NØbÐcg×clÑclÐmvÓcwÐbxÐxyÐzôð &ò 	9ˆHØ×!Ñ!×.Ñ.¨xÕ8ñ	9ùò/s   ÂG;Â6G;rk  c                 ó¾  — t        |j                  «      dk7  r‰| j                  j                  Pt	        |j                  «      t	        | j                  j                  «      k(  r| j                  j                  «        n#t        j                  d|j                  › d«       t        |j                  «      dk7  r$t        j                  d|j                  › d«       yy)zGLog warnings for missing or unexpected keys after loading a checkpoint.r   Nz8There were missing keys in the checkpoint model loaded: r  z;There were unexpected keys in the checkpoint model loaded: )	rù   Úmissing_keysr³   Ú_keys_to_ignore_on_saver÷   Útie_weightsrã   r]  Úunexpected_keys)rE  rk  s     rÑ   r_  z"Trainer._issue_warnings_after_load†  s·   € äˆ{×'Ñ'Ó(¨AÒ-Øz‰z×1Ñ1Ð=Ä#Àk×F^ÑF^ÓB_ÔcfØ—
‘
×2Ñ2ódò Cð —
‘
×&Ñ&Õ(ä—‘Ð!YÐZe×ZrÑZrÐYsÐstÐuÔvÜˆ{×*Ñ*Ó+¨qÒ0ÜN‰NØMÈk×NiÑNiÐMjÐjkÐlõð 1rp  rù  c                 óV  — |€| j                   j                  }t        «       rDt        | j                  | j                   | j
                  | j                  | j                  |«       not        «       r“t        j                  |d¬«       | j                  j                  «       }| j                   j                  r| j                  ||¬«       t        t        j                   j#                  |d«      «      j%                  «        nÒ| j&                  r‡dt)        | j
                  j*                  j,                  j.                  «      v r| j
                  j1                  | j                  «      }| j                   j                  rT| j                  ||¬«       n?| j2                  r	 dt5        t7        j8                  | j                  j:                  «      j<                  j?                  «       «      v }| j@                  jB                  jE                  di «      jE                  d	d«      d
k(  }|r4tG        | j                  «      r|r| j@                  jI                  d¬«      }n%| j
                  j1                  | j@                  «      }| j                   j                  r| j                  ||¬«       n'| j                   j                  r| j                  |«       | j                   jV                  r+|s(| jW                  d| j                   jX                  ¬«       yyy# tJ        $ r‡ tL        jO                  d«       | j                   j                  r| j                  |i ¬«       tQ        | j                   j                  |tR        tT        g«       | j                  j;                  |«       Y ŒÑw xY w)z…
        Will save the model, so you can reload it using `from_pretrained()`.

        Will only save from the main process.
        NTrÙ   ©r0  zuser_content.ptÚFULL_STATE_DICTr.  Úzero_optimizationÚstager•  r/  z| stage3_gather_16bit_weights_on_model_save=false. Saving the full checkpoint instead, use zero_to_fp32.py to recover weightsz
Model save)Úcommit_messageÚrevision)-r´   rÂ   rŽ   r/   r³   r  r¸   rC  rˆ   r)  r*  r  r0  r(  Ú_saver   r[  rü  Útouchr  r¨  r,  r  r©  Úget_state_dictrý   r÷   rÌ   r  r8  r  ró  rÔ   rÞ   r8  r`   Ú$_zero3_consolidated_16bit_state_dictrð   rã   r]  rR   r}   r{   r&  Úhub_revision)rE  rÂ   rù  r0  r<  Úzero3_shardings         rÑ   rû  zTrainer.save_model–  sÂ  € ð ÐØŸ™×-Ñ-ˆJä!Ô#ÜØ—
‘
˜DŸI™I t×'7Ñ'7¸×9NÑ9NÐPT×PkÑPkÐmwöô %Ô&äK‰K˜
¨TÕ2Ø×+Ñ+×6Ñ6Ó8ˆJØy‰y×$Ò$Ø—
‘
˜:°*
Ô=Ü”—‘—‘˜jÐ*;Ó<Ó=×CÑCÖEØ×!Ò!Ø ¤C¨×(8Ñ(8×(>Ñ(>×(JÑ(J×(ZÑ(ZÓ$[Ò[Ø!×-Ñ-×<Ñ<¸T¿Z¹ZÓH
Ø—9‘9×(Ó(Ø—J‘J˜z°jJÖAØ×&Ó&ð?Ø3NÔRUÜ×%Ñ% d×&8Ñ&8×&HÑ&HÓI×TÑT×YÑYÓ[óSð 4Ð0ð "&§¡×!6Ñ!6×!:Ñ!:Ð;NÐPRÓ!S×!WÑ!WÐX_ÐaeÓ!fÐjkÑ!kÙ3¼ÀtÇzÁzÔ8RÑWeð "&§¡×!TÑ!TÐosÐ!TÓ!t‘Jà!%×!1Ñ!1×!@Ñ!@ÀÇÁÓ!PJØ—9‘9×(Ò(Ø—J‘J˜z°jJÔAøð Y‰Y×"Ò"ØJ‰JzÔ"ð 9‰9× Ò ©Ø×Ñ¨LÀ4Ç9Á9×CYÑCYÐÕZð *8Ð øô ò 	?Ü—‘ð:ôð —9‘9×(Ò(Ø—J‘J˜z°bJÔ9ä'¨¯	©	×(=Ñ(=¸zÌLÔZkÐKlÔmØ×"Ñ"×2Ñ2°:Ö>ð	?ús   Æ%D	L ÌBN(Î'N(r0  c                 ó²  — ||n| j                   j                  }t        j                  |d¬«       t        j                  d|› «       t        «       st        fnt        t        f}t        | j                  |«      sâ|€| j                  j                  «       }t        | j                  j                  | j                  d¬«      |«      r9| j                  j                  | j                  d¬«      j                  ||¬«       nyt        j                  d«       t        j                   j#                  |t        j$                  j'                  |t(        «      d	d
i¬«       n| j                  j                  ||¬«       | j*                  | j*                  j                  |«       nr| j,                  ft/        | j,                  d«      rP| j,                  j0                  :t        j                  d«       | j,                  j0                  j                  |«       t!        j2                  | j                   t        j$                  j'                  |t4        «      «       y)zHSave model weights, configuration, and processing class to `output_dir`.NTrÙ   zSaving model checkpoint to Frv  r®  zETrainer.model is not a `PreTrainedModel`, only saving its state dict.rÿ  Úpt)ÚmetadataÚ	tokenizerzWSaving Trainer.data_collator.tokenizer by default as Trainer.processing_class is `None`)r´   rÂ   r)  r*  rã   rä   r†   r3   r–   r  r³   r0  r  r4   Úsave_pretrainedr[  r¦   Ú	save_filer[  rü  r{   r¸   rµ   r	  r½  r#  ÚTRAINING_ARGS_NAME)rE  rÂ   r0  Úsupported_classess       rÑ   r´  zTrainer._saveÐ  sÍ  € ð $.Ð#9‘Z¸t¿y¹y×?SÑ?Sˆ
Ü
‰J¨Õ.Ü‰Ð1°*°Ð>Ô?ä6GÔ6Iœ_Ñ.ÔP_ÔajÐOkÐô ˜$Ÿ*™*Ð&7Ô8ØÐ!Ø!ŸZ™Z×2Ñ2Ó4
ä˜$×*Ñ*×7Ñ7¸¿
¹
ÐW\Ð7Ó]Ð_pÔqØ× Ñ ×-Ñ-¨d¯j©jÈUÐ-ÓS×cÑcØ¨:ð dõ ô —‘ÐcÔdÜ×!Ñ!×+Ñ+Ø¤§¡§¡¨ZÔ9JÓ KÐW_ÐaeÐVfð ,õ ð J‰J×&Ñ& z¸jÐ&ÔIà× Ñ Ð,Ø×!Ñ!×1Ñ1°*Õ=à×ÑÐ*Ü˜×*Ñ*¨KÔ8Ø×"Ñ"×,Ñ,Ð8äK‰KÐqÔrØ×Ñ×(Ñ(×8Ñ8¸ÔDô 	
‰
4—9‘9œbŸg™gŸl™l¨:Ô7IÓJÕKrp  r.  c                 óN  — | j                   j                  | j                   j                  |d<   | j                  j                  dk7  r[| j                   j                  |d<   |@| j                   j                  | j
                  z
  }|j                  t        d||¬«      «       i |¥d| j                   j                  i¥}| j                   j                  j                  |«       | j                  j                  | j                  | j                   | j                  |«      | _        y)a8  
        Log `logs` on the various objects watching training.

        Subclass and override this method to inject custom behavior.

        Args:
            logs (`dict[str, float]`):
                The values to log.
            start_time (`Optional[float]`):
                The start of training.
        Nr’  rV  r”  rc  )Ú
num_tokensrÁ  )r,  r’  r´   r«  r”  r•  rz  ro   r™  Úlog_historyr2  r!  Úon_logr+  )rE  r.  rã  Úcurrent_session_num_tokensr•  s        rÑ   rÒ  zTrainer.logù  sç   € ð :‰:×ÑÐ'Ø ŸJ™J×,Ñ,ˆD‰MØ9‰9×2Ñ2°dÒ:Ø,0¯J©J×,LÑ,LˆDÐ(Ñ)ØÐ%à—J‘J×4Ñ4°t×7eÑ7eÑeð +ð —‘œM¨'°:ÐJdÔeÔfà9DÐ9˜& $§*¡*×"8Ñ"8Ñ9ˆØ
‰
×Ñ×%Ñ% fÔ-Ø×,Ñ,×3Ñ3°D·I±I¸t¿z¹zÈ4Ï<É<ÐY]Ó^ˆrp  c                 óŒ  — | j                   j                  t        j                  k(  rm| j                  xj
                  t        | j                  g| j                   j                  ¬«      j                  «       j                  «       z  c_        d| _        y| j                  xj
                  | j                  z  c_        d| _        y)zGStore the number of floating-point operations that went into the model.rq  r   N)r´   rþ   rs   rÿ   r,  r  rJ   r0  rú   r  rL  r¶  s    rÑ   rÑ  zTrainer.store_flos  s‹   € à9‰9×"Ñ"¤l×&>Ñ&>Ò>ØJ‰J×!Ò!Ü-¨t×/@Ñ/@Ð.AÈ$Ï)É)×JZÑJZÔ[×_Ñ_Óa×fÑfÓhñÕ!ð !"ˆDÕàJ‰J×!Ò! T×%6Ñ%6Ñ6Õ!Ø !ˆDÕrp  c                 óÌ   — t        | j                  dd«      x}|v rIt        | j                  d«      r3d||   j                  «       z  | j                  j	                  d¬«      z  S y)aì  
        For models that inherit from [`PreTrainedModel`], uses that method to compute the number of floating point
        operations for every backward + forward pass. If using another model, either implement such a method in the
        model or subclass and override this method.

        Args:
            inputs (`dict[str, torch.Tensor | Any]`):
                The inputs and targets of the model.

        Returns:
            `int`: The number of floating-point operations.
        ru  rv  Únum_parametersé   T)Úexclude_embeddingsr   )rö   r³   r	  r!  rÉ  )rE  rõ  Ú
main_inputs      rÑ   rº  zTrainer.floating_point_ops  si   € ô " $§*¡*Ð.?ÀÓMÐMˆJÐRXÑXÔ]dØJ‰JÐ(ô^
ð v˜jÑ)×/Ñ/Ó1Ñ1°D·J±J×4MÑ4MÐaeÐ4MÓ4fÑfÐfØrp  Útokenc                 ó˜  — | j                  «       sy| j                  j                  €8t        | j                  j                  «      j                  «       j                  }n| j                  j                  }||n| j                  j                  }t        ||| j                  j                  d¬«      }|j                  | _        d| _        y)zE
        Initializes a git repo in `self.args.hub_model_id`.
        NT)rÍ  ÚprivaterÚ   )rÜ   r´   r%  r   rÂ   ÚabsoluterÐ  Ú	hub_tokenr   Úhub_private_repoÚrepo_idÚpush_in_progress)rE  rÍ  Ú	repo_nameÚrepo_urls       rÑ   r'  zTrainer.init_hf_repo3  sœ   € ð
 ×)Ñ)Ô+Øà9‰9×!Ñ!Ð)Ü˜TŸY™Y×1Ñ1Ó2×;Ñ;Ó=×BÑB‰IàŸ	™	×.Ñ.ˆIàÐ*‘°·	±	×0CÑ0CˆÜ˜y°¸t¿y¹y×?YÑ?YÐdhÔiˆØ$×,Ñ,ˆÔØ $ˆÕrp  ÚlanguageÚlicenseÚtagsr  Úfinetuned_fromÚtasksÚdataset_tagsÚdataset_argsc
                 óH  — | j                  «       syt        j                  j                  | j                  j
                  d«      }
d}t        j                  j                  |
«      rt        j                  |
«      j                  j                  d«      }|dk(  }t        j                  |
«      j                  j                  }|2|0t        |t        «      r|g}|D ]  }||vsŒ|j                  |«       Œ t        j                   | |||||||||	¬«
      }|j#                  «       }t%        |
d«      5 }|j'                  |«       ddd«       |rI| j(                  j+                  | j,                  «      j/                  | j                  j
                  «       yy# 1 sw Y   ŒUxY w)a  
        Creates a draft of a model card using the information available to the `Trainer`.

        Args:
            language (`str`, *optional*):
                The language of the model (if applicable)
            license (`str`, *optional*):
                The license of the model. Will default to the license of the pretrained model used, if the original
                model given to the `Trainer` comes from a repo on the Hub.
            tags (`str` or `list[str]`, *optional*):
                Some tags to be included in the metadata of the model card.
            model_name (`str`, *optional*):
                The name of the model.
            finetuned_from (`str`, *optional*):
                The name of the model used to fine-tune this one (if applicable). Will default to the name of the repo
                of the original model given to the `Trainer` (if it comes from the Hub).
            tasks (`str` or `list[str]`, *optional*):
                One or several task identifiers, to be included in the metadata of the model card.
            dataset_tags (`str` or `list[str]`, *optional*):
                One or several dataset tags, to be included in the metadata of the model card.
            dataset (`str` or `list[str]`, *optional*):
                One or several dataset identifiers, to be included in the metadata of the model card.
            dataset_args (`str` or `list[str]`, *optional*):
               One or several dataset arguments, to be included in the metadata of the model card.
        Nz	README.mdFÚlibrary_nameÚpeft)	r×  rØ  rÙ  r  rÚ  rÛ  rÜ  r¯  rÝ  Úw)rÜ   r)  r[  rü  r´   rÂ   r  r   r]  rj  r8  rÙ  r  r¨  r2  r2   Úfrom_trainerÚto_model_cardÚopenÚwriter  r4   r³   Úcreate_or_update_model_card)rE  r×  rØ  rÙ  r  rÚ  rÛ  rÜ  r¯  rÝ  Úmodel_card_filepathÚis_peft_libraryrß  Úexisting_tagsrJ  Útraining_summaryÚ
model_cardrH  s                     rÑ   Úcreate_model_cardzTrainer.create_model_cardE  sw  € ðJ ×)Ñ)Ô+Øä Ÿg™gŸl™l¨4¯9©9×+?Ñ+?ÀÓMÐØˆÜ7‰7>‰>Ð-Ô.Ü$Ÿ>™>Ð*=Ó>×CÑC×GÑGÈÓWˆLØ*¨fÑ4ˆOô &ŸN™NÐ+>Ó?×DÑD×IÑIˆMØÐ MÐ$=Ü˜d¤CÔ(Ø ˜6DØ(ò )CØ $’ØŸ™ CÕ(ð)ô +×7Ñ7ØØØØØ!Ø)ØØ%ØØ%ô
Ðð &×3Ñ3Ó5ˆ
ÜÐ% sÓ+ð 	 ¨qØG‰GJÔ÷	 ñ Ø×Ñ×)Ñ)¨$¯*©*Ó5×QÑQÐRV×R[ÑR[×RfÑRfÕgð ÷	 ð 	 ús   Ä2FÆF!r²  Úblockingr³  c           
      ó$  — | j                   j                  | j                  | j                  | j                  «       |j                  dd«      }|€~| j                  j                  rh| j                  j                  €*t        | j                  j                  «      j                  }n(| j                  j                  j                  d«      d   }||n| j                  j                  }| j                  €| j                  |¬«       | j                  d¬«       | j                  «       syt!        | j"                  dd«      \d	|vrg |d	<   t%        |d	   t&        «      r	|d	   g|d	<   | j"                  j(                  D ]  }||d	   vsŒ|d	   j+                  |«       Œ   | j,                  dd|i|¤Ž |€| j                  j.                  }| j1                  «        t3        | j                  | j                  j                  ||| d
t4        › dg|¬«      S )u  
        Upload `self.model` and `self.processing_class` to the ðŸ¤— model hub on the repo `self.args.hub_model_id`.

        Parameters:
            commit_message (`str`, *optional*, defaults to `"End of training"`):
                Message to commit while pushing.
            blocking (`bool`, *optional*, defaults to `True`):
                Whether the function should return only when the `git push` has finished.
            token (`str`, *optional*, defaults to `None`):
                Token with write permission to overwrite Trainer's original args.
            revision (`str`, *optional*):
                The git revision to commit from. Defaults to the head of the "main" branch.
            kwargs (`dict[str, Any]`, *optional*):
                Additional keyword arguments passed along to [`~Trainer.create_model_card`].

        Returns:
            The URL of the repository where the model was pushed if `blocking=False`, or a `Future` object tracking the
            progress of the commit if `blocking=True`.
        r  Nú/rs  )rÍ  Trø  Ú
model_tagsrÙ  r‰  ú-*©rÓ  Úfolder_pathr²  rÍ  Úrun_as_futureÚignore_patternsr³  r—  )r!  Úon_push_beginr´   r,  r+  r›  r(  r%  r   rÂ   rÐ  rŒ  rÑ  r'  rû  rÜ   rö   r³   r  r¨  rð  r2  rì  r¸  rÙ  r   rU   )rE  r²  rí  rÍ  r³  r€  r  Ú	model_tags           rÑ   r&  zTrainer.push_to_hub  så  € ð6 	×Ñ×+Ñ+¨D¯I©I°t·z±zÀ4Ç<Á<ÔPà—Z‘Z ¨dÓ3ˆ
ØÐ $§)¡)×"7Ò"7Øy‰y×%Ñ%Ð-Ü! $§)¡)×"6Ñ"6Ó7×<Ñ<‘
à!ŸY™Y×3Ñ3×9Ñ9¸#Ó>¸rÑB
ØÐ*‘°·	±	×0CÑ0Cˆð ×ÑÐ$Ø×Ñ EÐÔ*ð 	‰ tˆÔ,ð ×)Ñ)Ô+Øô
 4—:‘:˜|¨TÓ2Ð>Ø˜VÑ#Ø!#v‘ô ˜& ™.¬#Ô.Ø"(¨¡.Ð!1v‘à!ŸZ™Z×2Ñ2ò 5	Ø F¨6¡NÒ2Ø˜6‘N×)Ñ)¨)Õ4ð5ð 	ˆ×ÑÑ?¨*Ð?¸Ò?àÐØ—y‘y×-Ñ-ˆHð 	×!Ñ!Ô#äØ×%Ñ%ØŸ	™	×,Ñ,Ø)ØØ&˜,Ø!Ô&;Ð%<¸BÐ#?Ð@Øô
ð 	
rp  r  c           
      ó~	  — | j                  «       r'| j                  j                  t        j                  k(  ry| j                  j
                  s'| j                  | j                  j                  «       sy| j                  j                  | j                  | j                  | j                  «       | j                  j                  }t        t        t        t         g}t"        t$        fD ]À  }t&        j(                  j+                  ||«      }t&        j(                  j-                  |«      sŒC|j/                  |«       t1        |«      5 }t3        j4                  |j7                  «       «      }ddd«       t9        t;        d   j=                  «       «      «      }|j?                  |«       ŒÂ tA        «       r |j?                  tB        tD        tF        g«       |D ]’  }	t&        j(                  j-                  t&        j(                  j+                  ||	«      «      sŒAtI        jJ                  t&        j(                  j+                  ||	«      t&        j(                  j+                  ||	«      «       Œ” | jL                  | jL                  jO                  |«       tQ        jR                  | j                  t&        j(                  j+                  |tT        «      «       | j                  jV                  tX        jZ                  k(  rd| j                  j\                  › }
n"dt_        | j                  j`                  «      › }
tc        | jd                  ||
| j                  jf                  ddth        › dg| j                  jj                  ¬«      }|g}| j                  j                  t        jl                  t        jn                  fv r–| j                  j                  t        jl                  k(  rd	ntq        |«      jr                  }tc        | jd                  |||
d
z   | j                  jf                  d| j                  jj                  ¬«      }|j/                  |«       | j                  | j                  j                  «       rtu        |«      | _        y| j                  jv                  j?                  |«       y# 1 sw Y   ŒHxY w)zDPush model and checkpoint files to the Hub from a checkpoint folder.NÚ
weight_mapzTraining in progress, step zTraining in progress, epoch Tr‰  rñ  rò  zlast-checkpointz, checkpoint)rÓ  ró  Úpath_in_repor²  rÍ  rô  r³  )<rÜ   r´   Úhub_strategyrZ   ÚENDÚhub_always_pushrÔ  Úis_doner!  rö  r,  r+  rÂ   rx   ry   r}   r{   r|   rz   r)  r[  rü  r–  r2  rä  ÚjsonÚloadsÚreadrò  r÷   rø   Úextendr†   ru   rw   rv   rÖ  Úcopyr¸   r¾  r¦   r#  rÀ  r`  r]   rü  r™  r˜  r’  r   r%  rÑ  rU   r¸  Ú
CHECKPOINTÚALL_CHECKPOINTSr   rÐ  r   Újobs)rE  r  rÂ   Úmodeling_filesÚ
index_fileÚ
index_pathrH  ÚindexÚshard_filesÚmodeling_filer²  Úmodel_push_jobÚ	push_jobsrú  Úcheckpoint_pushs                  rÑ   r  zTrainer._push_from_checkpointá  sƒ  € à×)Ñ)Ô+¨t¯y©y×/EÑ/EÌÏÉÒ/XØày‰y×(Ò(¨T×-BÑ-BÐ-NÐW[×WlÑWl×WtÑWtÔWvØà×Ñ×+Ñ+¨D¯I©I°t·z±zÀ4Ç<Á<ÔPØ—Y‘Y×)Ñ)ˆ
ä%Ô'=¼|ÔM^Ð_ˆä-Ô/FÐGò 	3ˆJÜŸ™Ÿ™Ð&7¸ÓDˆJÜw‰w~‰~˜jÕ)Ø×%Ñ% jÔ1Ü˜*Ó%ð 1¨Ü ŸJ™J q§v¡v£xÓ0E÷1ä"¤3 u¨\Ñ':×'AÑ'AÓ'CÓ#DÓEØ×%Ñ% kÕ2ð	3ô ÔØ×!Ñ!Ô#6Ô8LÔNgÐ"hÔiØ+ò 	uˆMÜw‰w~‰~œbŸg™gŸl™lÐ+<¸mÓLÕMÜ—‘œBŸG™GŸL™LÐ):¸MÓJÌBÏGÉGÏLÉLÐYcÐerÓLsÕtð	uð × Ñ Ð,Ø×!Ñ!×1Ñ1°*Ô=ä
‰
4—9‘9œbŸg™gŸl™l¨:Ô7IÓJÔKà9‰9×"Ñ"¤l×&8Ñ&8Ò8Ø:¸4¿:¹:×;QÑ;QÐ:RÐS‰Nà;¼CÀÇ
Á
×@PÑ@PÓ<QÐ;RÐSˆNä&Ø×%Ñ%Ø"Ø)Ø—)‘)×%Ñ%ØØ!Ô&;Ð%<¸BÐ#?Ð@Ø—Y‘Y×+Ñ+ô
ˆð $Ð$ˆ	à9‰9×!Ñ!¤k×&<Ñ&<¼k×>YÑ>YÐ%ZÑZà%)§Y¡Y×%;Ñ%;¼{×?UÑ?UÒ%UÑ!Ô[_Ð`qÓ[r×[wÑ[wð ô ,Ø×)Ñ)Ø-Ø)Ø-°Ñ>Ø—i‘i×)Ñ)Ø"ØŸ™×/Ñ/ôˆOð ×Ñ˜_Ô-à× Ñ Ð(¨D×,AÑ,A×,IÑ,IÔ,KÜ$2°9Ó$=ˆDÕ!à×!Ñ!×&Ñ&×-Ñ-¨iÕ8÷e1ñ 1ús   Å$R2Ò2R<	c                 óÌ   — t        | d«      sy| j                  K| j                  j                  «       s0t        j	                  d«       | j                  j                  «        yyy)z5Wait for any in-progress push to the Hub to complete.rÔ  Nz\Waiting for the current checkpoint push to be finished, this might take a couple of minutes.)r	  rÔ  rþ  rã   rä   Úwait_until_doner¶  s    rÑ   rÙ  zTrainer._finish_current_push&  sU   € ätÐ/Ô0ØØ× Ñ Ð,°T×5JÑ5J×5RÑ5RÔ5TÜK‰KÐvÔwØ×!Ñ!×1Ñ1Õ3ð 6UÐ,rp  Úhp_spacezoptuna.TrialÚcompute_objectiveÚn_trialsÚ	directionrw  r.  c                 ó8  — |€
t        «       }t        |«      }t        |   «       }|j                  «        || _        | j
                  €t        d«      ‚|€|j                  n|| _        || _	        |€t        n|| _         |j                  | ||fi |¤Ž}	d| _        |	S )aƒ  
        Launch an hyperparameter search using `optuna` or `Ray Tune`. The optimized quantity is determined
        by `compute_objective`, which defaults to a function returning the evaluation loss when no metric is provided,
        the sum of all metrics otherwise.

        <Tip warning={true}>

        To use this method, you need to have provided a `model_init` when initializing your [`Trainer`]: we need to
        reinitialize the model at each new run. This is incompatible with the `optimizers` argument, so you need to
        subclass [`Trainer`] and override the method [`~Trainer.create_optimizer_and_scheduler`] for custom
        optimizer/scheduler.

        </Tip>

        Args:
            hp_space (`Callable[["optuna.Trial"], dict[str, float]]`, *optional*):
                A function that defines the hyperparameter search space. Will default to
                [`~trainer_utils.default_hp_space_optuna`] or [`~trainer_utils.default_hp_space_ray`]
                depending on your backend.
            compute_objective (`Callable[[dict[str, float]], float]`, *optional*):
                A function computing the objective to minimize or maximize from the metrics returned by the `evaluate`
                method. Will default to [`~trainer_utils.default_compute_objective`].
            n_trials (`int`, *optional*, defaults to 100):
                The number of trial runs to test.
            direction (`str` or `list[str]`, *optional*, defaults to `"minimize"`):
                If it's single objective optimization, direction is `str`, can be `"minimize"` or `"maximize"`, you
                should pick `"minimize"` when optimizing the validation loss, `"maximize"` when optimizing one or
                several metrics. If it's multi objectives optimization, direction is `list[str]`, can be List of
                `"minimize"` and `"maximize"`, you should pick `"minimize"` when optimizing the validation loss,
                `"maximize"` when optimizing one or several metrics.
            backend (`str` or [`~training_utils.HPSearchBackend`], *optional*):
                The backend to use for hyperparameter search. Will default to optuna or Ray Tune, depending
                on which one is installed. If all are installed, will default to optuna.
            hp_name (`Callable[["optuna.Trial"], str]]`, *optional*):
                A function that defines the trial/run name. Will default to None.
            kwargs (`dict[str, Any]`, *optional*):
                Additional keyword arguments for each backend:

                - `optuna`: parameters from
                  [optuna.study.create_study](https://optuna.readthedocs.io/en/stable/reference/generated/optuna.study.create_study.html)
                  and also the parameters `timeout`, `n_jobs` and `gc_after_trial` from
                  [optuna.study.Study.optimize](https://optuna.readthedocs.io/en/stable/reference/generated/optuna.study.Study.html#optuna.study.Study.optimize)
                - `ray`: parameters from [tune.run](https://docs.ray.io/en/latest/tune/api_docs/execution.html#tune-run).
                  If `resources_per_trial` is not set in the `kwargs`, it defaults to 1 CPU core and 1 GPU (if available).
                  If `progress_reporter` is not set in the `kwargs`,
                  [ray.tune.CLIReporter](https://docs.ray.io/en/latest/tune/api/doc/ray.tune.CLIReporter.html) is used.
        Returns:
            [`trainer_utils.BestRun` or `list[trainer_utils.BestRun]`]: All the information about the best run or best
            runs for multi-objective optimization. Experiment summary can be found in `run_summary` attribute for Ray
            backend.
        NzXTo use hyperparameter search, you need to pass your model through a model_init function.)r"   rY   r!   Úensure_availabler/  r¹   rï   Údefault_hp_spacer  r.  rc   r  rñ  )
rE  r  r  r  r  rw  r.  r€  Úbackend_objÚbest_runs
             rÑ   Úhyperparameter_searchzTrainer.hyperparameter_search0  s¬   € ðz ˆ?Ü/Ó1ˆGÜ! 'Ó*ˆÜ8¸ÑAÓCˆØ×$Ñ$Ô&Ø!(ˆÔØ?‰?Ð"ÜØjóð ð 9AÐ8H˜×4Ò4ÈhˆŒØˆŒØ>OÐ>WÕ!:Ð]nˆÔà";—?‘? 4¨°9ÑGÀÑGˆà!%ˆÔØˆrp  c                 óº   — t        | j                  «      }|dk(  r| j                  «       }n"|dk(  r| j                  |«      }nt        d«      ‚|€t        d«      ‚|S )zdInvoke `model_init` to get a fresh model instance, optionally conditioned on a hyperparameter trial.r   r   z'model_init should have 0 or 1 argument.z"model_init should not return None.)rj   r¹   rï   )rE  rQ  Úmodel_init_argcountr³   s       rÑ   rî   zTrainer.call_model_init  s]   € ä1°$·/±/ÓBÐØ !Ò#Ø—O‘OÓ%‰EØ  AÒ%Ø—O‘O EÓ*‰EäÐHÓIÐIàˆ=ÜÐCÓDÐDàˆrp  c                 ó,  — || _         | j                  |€y| j                  t        j                  k(  r| j	                  |«      }nQ| j                  t        j
                  k(  r|}|j                  dd«       n| j                  t        j                  k(  r|}j                  «       D ]v  \  }}t        | j                  |«      st        j                  d|› d«       Œ6t        | j                  |d«      }| t        |«      |«      }t        | j                  ||«       Œx | j                  t        j                  k(  r"t        j!                  d|j"                  › «       | j                  t        j                  k(  rt        j!                  d|› «       | j$                  rå| j                  j&                  €t)        d«      ‚| j*                  j-                  «        dd	lm} dd
lm}  || j                  j&                  «      | j                  _        | j                  j6                  j9                  | j                  «        || j                  j6                  ¬«      | j                  _        t=        «       j?                  «        | jA                  «        y)zRSet up training arguments and accelerator state for a hyperparameter search trial.Nrð  zTrying to set zY in the hyperparameter search but there is no corresponding field in `TrainingArguments`.zTrial: zW&B Sweep parameters: z7For sweeps with deepspeed, `args.deepspeed` must be setr   )ÚDeepSpeedPlugin)ÚHfTrainerDeepSpeedConfig)rI  )!Ú_trialr/  rY   rè  r  rê  r›  rï  rE  r	  r´   rã   r]  rö   rø  r£  rä   rW  rý   rÔ   rð   r  rƒ  r}  r  Ú#transformers.integrations.deepspeedr   r’  Útrainer_config_processrs  r™   Ú_reset_staterç   )rE  rQ  rW  rÄ  rM  Úold_attrr  r   s           rÑ   rW  zTrainer._hp_search_setup  s  € àˆŒà×!Ñ!Ð)¨U¨]ØØ×!Ñ!¤_×%;Ñ%;Ò;Ø—]‘] 5Ó)‰FØ×#Ñ#¤×':Ñ':Ò:ØˆFØJ‰Jw Õ%Ø×#Ñ#¤×'<Ñ'<Ò<ØˆFà Ÿ,™,›.ò 	+‰JˆCÜ˜4Ÿ9™9 cÔ*Ü—‘Ø$ S Eð *,ð ,ôð Ü˜tŸy™y¨#¨tÓ4ˆHàÐ#Ø&œ˜X› uÓ-äD—I‘I˜s EÕ*ð	+ð ×!Ñ!¤_×%;Ñ%;Ò;ÜK‰K˜' %§,¡, Ð0Ô1Ø×!Ñ!¤_×%:Ñ%:Ò:ÜK‰KÐ0°°Ð8Ô9Ø×$Ò$Øy‰y×"Ñ"Ð*Ü Ð!ZÓ[Ð[à×Ñ×(Ñ(Ô*õ 9åTá,DÀTÇYÁY×EXÑEXÓ,YˆDI‰IÔ)ØI‰I×)Ñ)×@Ñ@ÀÇÁÔKÙ)8ÀdÇiÁi×FcÑFcÔ)dˆDI‰IÔ&ô Ó×+Ñ+Ô-à×/Ñ/Õ1rp  rÁ  c                 ó~  — | j                   |€y|j                  «       }| j                  |«      | _        | j                   t        j
                  k(  r¥ddl}t        |d«      r”|j                  j                  «       sy|j                  | j                  |«       |j                  «       rL| j                  j                  | j                  | j                  | j                   «        |j"                  «       ‚yyy| j                   t        j$                  k(  rddl}t)        j*                  «       5 }d}| j                   j,                  r7| j/                  |¬«       |j0                  j2                  j5                  |«      }| j                  |d<   |j0                  j                  ||¬«       ddd«       yy# 1 sw Y   yxY w)zHReport intermediate metrics to the active hyperparameter search backend.Nr   Ústudy)Úcheckpoint_dirÚ	objective)r  )r/  r  r  r)  rY   rè  Úoptunar	  r'  Ú_is_multi_objectiveÚreportÚshould_pruner!  rØ  r´   r,  r+  ÚTrialPrunedrê  rë  ÚtempfileÚTemporaryDirectoryr(  Ú_tune_save_checkpointrì  Ú
CheckpointÚfrom_directory)rE  rQ  rÁ  rþ  r*  rô  Útemp_checkpoint_dirr  s           rÑ   rã  zTrainer._report_to_hp_searchÄ  sr  € ð ×!Ñ!Ð)¨U¨]ØØ—,‘,“.ˆØ×/Ñ/°Ó8ˆŒØ×!Ñ!¤_×%;Ñ%;Ò;Ûäu˜gÔ&¨u¯{©{×/NÑ/NÔ/PØ—‘˜TŸ^™^¨TÔ2Ø×%Ñ%Ô'Ø×)Ñ)×6Ñ6°t·y±yÀ$Ç*Á*ÈdÏlÉlÔ[Ø,˜&×,Ñ,Ó.Ð.ð (ð 0QÐ&ð
 ×#Ñ#¤×':Ñ':Ò:Ûä×,Ñ,Ó.ð @Ð2EØ!
Ø—<‘<×+Ò+Ø×.Ñ.Ð>QÐ.ÔRØ!$§¡×!4Ñ!4×!CÑ!CÐDWÓ!XJØ'+§~¡~˜Ñ$Ø—‘—‘ °JÔ?÷@ð @ð ;÷@ð @ús   Ä-A<F3Æ3F<r(  c                 óð  — t         j                  j                  |t        › d| j                  j
                  › «      }| j                  |d¬«       | j                  j                  r| j                  j	                  «       | j                  j                  d<   | j                  j                  t         j                  j                  |t        «      «       t        j                  | j                  j!                  «       t         j                  j                  |t"        «      «       t        j                  | j$                  j!                  «       t         j                  j                  |t&        «      «       yy)z@Save a checkpoint during a Ray Tune hyperparameter search trial.r÷  Trø  r@   N)r)  r[  rü  rU   r,  r™  rû  r´   r(  r+  rÝ   r  r\  r¦   r#  r  r0  r2  r  r4  )rE  r(  rÂ   s      rÑ   r1  zTrainer._tune_save_checkpointß  së   € ä—W‘W—\‘\ .Ô5JÐ4KÈ1ÈTÏZÉZ×McÑMcÐLdÐ2eÓfˆ
Ø‰˜
°4ˆÔ8Ø9‰9× Ó à>B¿l¹l×>PÑ>PÓ>RˆDJ‰J×)Ñ)Ð*:Ñ;ØJ‰J×#Ñ#¤B§G¡G§L¡L°Ô=OÓ$PÔQÜJ‰Jt—~‘~×0Ñ0Ó2´B·G±G·L±LÀÌ^Ó4\Ô]ÜJ‰Jt×(Ñ(×3Ñ3Ó5´r·w±w·|±|ÀJÔP^Ó7_Õ`ð !rp  r›  c                 ó:   — | j                   j                  |«       y)ag  
        Add a callback to the current list of [`~transformers.TrainerCallback`].

        Args:
           callback (`type` or [`~transformers.TrainerCallback]`):
               A [`~transformers.TrainerCallback`] class or an instance of a [`~transformers.TrainerCallback`]. In the
               first case, will instantiate a member of that class.
        N)r!  r"  ©rE  r›  s     rÑ   r"  zTrainer.add_callbackì  s   € ð 	×Ñ×*Ñ*¨8Õ4rp  c                 ó8   — | j                   j                  |«      S )aK  
        Remove a callback from the current list of [`~transformers.TrainerCallback`] and returns it.

        If the callback is not found, returns `None` (and no error is raised).

        Args:
           callback (`type` or [`~transformers.TrainerCallback]`):
               A [`~transformers.TrainerCallback`] class or an instance of a [`~transformers.TrainerCallback`]. In the
               first case, will pop the first member of that class found in the list of callbacks.

        Returns:
            [`~transformers.TrainerCallback`]: The callback removed, if found.
        )r!  Úpop_callbackr7  s     rÑ   r9  zTrainer.pop_callback÷  s   € ð ×$Ñ$×1Ñ1°(Ó;Ð;rp  c                 ó:   — | j                   j                  |«       y)aŽ  
        Remove a callback from the current list of [`~transformers.TrainerCallback`].

        Args:
           callback (`type` or [`~transformers.TrainerCallback]`):
               A [`~transformers.TrainerCallback`] class or an instance of a [`~transformers.TrainerCallback`]. In the
               first case, will remove the first member of that class found in the list of callbacks.
        N)r!  r   r7  s     rÑ   r   zTrainer.remove_callback  s   € ð 	×Ñ×-Ñ-¨hÕ7rp  c                 ó4   — | j                   j                  dk(  S )z 
        Whether or not this process is the local (e.g., on one machine if training in a distributed fashion on several
        machines) main process.
        r   )r´   Úlocal_process_indexr¶  s    rÑ   rÛ   zTrainer.is_local_process_zero  s   € ð
 y‰y×,Ñ,°Ñ1Ð1rp  c                 óv   — t        «       rt        j                  «       dk(  S | j                  j                  dk(  S )z¿
        Whether or not this process is the global main process (when training in a distributed fashion on several
        machines, this is only going to be `True` for one process).
        r   )rˆ   r[  rÕ  r´   rß  r¶  s    rÑ   rÜ   zTrainer.is_world_process_zero  s/   € ô #Ô$Ü—8‘8“: ‘?Ð"Øy‰y×&Ñ&¨!Ñ+Ð+rp  c                 óö   — t        |dd«      t        j                  d«       y|j                  |«      }| j                  j
                  t        j                  k(  rt        |d«      r|j                  «        yyy)zJMove the model to the specified device, re-tying weights on XLA if needed.rÃ   NzZThe model is already on multiple devices. Skipping the move to device specified in `args`.r«  )
rö   rã   r]  r	  r´   rþ   rs   ÚTPUr	  r«  )rE  r³   rú   s      rÑ   r  zTrainer._move_model_to_device&  si   € ä5˜/¨4Ó0Ð<ÜN‰NØlôð Ø—‘˜Ó ˆà9‰9×"Ñ"¤l×&6Ñ&6Ò6¼7À5È-Ô;XØ×ÑÕð <YÐ6rp  )NNNNNNNNNNr²   NN)rS  NrÊ   )NFN)NNN)NNNNN)FN)T)TN)NNr¹  )NrÃ  )F)NF)	NNNNNNNNN)zEnd of trainingTNN)NNé   ÚminimizeNN)rQ  rR  rS  N)†rò   Ú
__module__Ú__qualname__Ú__doc__Útrainer_pt_utilsr«   r¬   r­   r®   r¯   r°   r±   r3   r   ÚModulert   r   r9   r#   r    r8   r   rX   r  rò  r?   rF  r¦   r  Ú	Optimizerr  ÚLambdaLRrø  r¨  r
   r)  rR  r  r‚  rç   r   r·  r   rÀ  rÄ  r˜  rÊ  ri  rj  ÚSamplerrX  r´  rµ  r¿  rô  rØ  rÙ  r  r
  ÚLRSchedulerr  Ústaticmethodr  r  r¹  rO  r_   rc  r]  rµ  r  r²  r   r
  ÚAbstractContextManagerr!  rÅ  r   rú   r¦  r5  rB  r  r  r‡  r†  r_  rg  rf  rŒ  r  rW   rŽ  r[   rÈ  rª  r¢  rÓ  r,  r+  r  r  r  rY  rÐ  r¤  r  r‘  r—  r_  rû  r´  rÒ  rÑ  rº  r'  rì  r   r&  r  rÙ  rY   rV   r  rî   rW  rã  r1  r"  r9  r   rÛ   rÜ   r  r—  rp  rÑ   rª   rª   ú   sX  „ ñ[÷|÷ ñ ð 59Ø)-Ø-1ØOSØQUð
 Ø<@Ø-1ØCGØ26ØdpØ^bØeiñ%z7à §¡Ñ*¨TÑ1ðz7ð   $Ñ&ðz7ð $ dÑ*ð	z7ð
 Mðz7ð Oðz7ð 2Ø
ñà
 ñ!ð ñð ñ	ðz7ð ˜S /Ð1Ñ2°TÑ9ðz7ð $ d™?ðz7ð " >Ð"2°DÐ"8Ñ9¸DÑ@ðz7ð ˜Ñ(¨4Ñ/ðz7ð  ˜%Ÿ+™+×/Ñ/°$Ñ6¸¿¹×8PÑ8P×8YÑ8YÐ\`Ñ8`Ð`Ñað!z7ð" #(¨¨U¯[©[×-BÑ-BÑ(CÀTÈ#ÈsÈ(Á^Ð(SÑ"TÐW[Ñ"[ð#z7ð$ (0°·±¸u¿|¹|Ð0LÈeÏlÉlÐ0ZÑ'[Ð^bÑ'bó%z7óxPðd(°4¸¸S¸±>ó (óTlxð`
 jó 
ñ(%
°°g±ÀÑ0Dð %
ÐPZó %
ðN
°ð 
¸Jó 
ð$K zð K°có Kð& LPØ!Ø%)ñ0àð0ð ð0ð ð	0ð
 ˜g˜Y¨¯©×(8Ñ(8×(@Ñ(@Ð@ÑAÀDÑHð0ð ð0ð ˜d™
ð0ð 
ó0ñd0°¸$±ð 0È%Ï+É+×JZÑJZ×JbÑJbÐeiÑJió 0ð>¨gð ¸%¿+¹+×:JÑ:J×:RÑ:RÐUYÑ:Yó ó:\ð" FJñ!;Ø)ð!;Ø8;¸d¹
ð!;à	ó!;ñF'Àð 'ÐWZÐ]aÑWað 'Ðmuó 'ð$	EÀð 	EÈó 	EðJ %§+¡+×"7Ñ"7ó JðZ RVñ!Ø"%ð!Ø27·+±+×2GÑ2GÈ$Ñ2Nð!à	‰×	!Ñ	!×	-Ñ	-ó!ð< ñÐ+<ð À_ÐW[ÑE[ð ÐglÐmpÐruÐmuÑgvò ó ðð<
 ¨r¯y©yð 
 ¸TÀ#¹Yó 
 ð Eó ð@ 59Ø8<Ø15ñ	jà # d¡
¨TÑ 1ðjð 6ðjð # 3™i¨$Ñ.ð	jð
 
ójð\ "&Ø)-Ø-1Ø8<Ø15ñkHà˜$‘JðkHð   $Ñ&ðkHð !$ d¡
ð	kHð
 6ðkHð # 3™i¨$Ñ.ðkHð 
ókHðb 9=ñ	E!ày‰yðE!ð S˜%Ÿ,™,¨Ñ,Ð,Ñ-ðE!ð "ŸL™L¨3Ñ.°Ñ5ð	E!ð
 
‰óE!ðV  %Ø8<ñQ;ày‰yðQ;ð S˜%Ÿ,™,¨Ñ,Ð,Ñ-ðQ;ð ð	Q;ð
 "ŸL™L¨3Ñ.°Ñ5ðQ;ð 
‰˜˜eŸl™l¨CÐ/Ñ0Ñ	0óQ;ðf
¨j×.BÑ.Bó 
ñ(¸DÀ4¹Kð (ÐS]×StÑStó (ð  '+ñ0^à—‘ð0^ð —<‘< %Ñ'¨$Ñ.ð0^ð y‰yð	0^ð
 6ð0^ð ð0^ð # 3™i¨$Ñ.ð0^ð ð0^ð ˜t‘|ð0^ð 
ó0^ðf1Ø&ð1Ø58ð1ØBGÇ,Á,ð1à	ˆtU—\‘\ CÑ'¨$Ñ.Ð.Ñ	/ó1ð"2"°Tð 2"À5Ç<Á<ð 2"ÐTY×T`ÑT`ÐcfÑTfÐimÑTmó 2"ðh 5§<¡<°#Ñ#5ð ¸%¿,¹,ÈÑ:Ló ð$ d¨3°·±¸sÑ0BÐ+BÑ&Cð ÈÈSÐRW×R^ÑR^ÐadÑRdÐMdÑHeó ð\.Ø—Y‘Yð\.Ø(,¨S°%·,±,ÀÑ2DÐ-DÑ(Eð\.à	ˆx˜˜c 5§<¡<°#Ñ#5Ð5Ñ6Ð6Ñ	7ó\.ð|C
Ø%ðC
Ø3=ðC
ØWZðC
à	ˆsC˜˜c 4¨¨t©°SÐ8Ñ	9óC
ðJYÐ/@ð YÀSó Yð$˜Só ð˜Só ð˜Só ñ1 §¡ð 1°dð 1ÈzÐ\`ÑO`ð 1Ðln×luÑluó 1ðn =AØ(,Ø!'ñ	cà  S¨' \Ñ 2Ñ2°TÑ9ðcð ˜#‘Y Ñ%ðcð ð	cð
 
ˆc5ˆjÑ	ócðR -1Ø(,Ø!'ñNuàðNuð ðNuð # T™kð	Nuð
 ˜#‘Y Ñ%ðNuð ðNuð 
óNuðb ekñ;tØ#ð;tØ26°s±)¸dÑ2Bð;tØ^að;tà	ó;tðD )-ñg&ày‰yðg&ð S˜%Ÿ,™,¨Ñ,Ð,Ñ-ðg&ð #ð	g&ð
 ˜#‘Y Ñ%ðg&ð 
ˆu|‰|˜dÑ" E§L¡L°4Ñ$7¸¿¹ÈÑ9LÐLÑ	Móg&ðZ  %ñ	à5ðð # 3™i¨$Ñ.ðð ð	ð
 
ˆc5ˆjÑ	óð:Ð%Kð ÐPSó ð&@ b§i¡ið @Ð8^ð @Ðcgó @ðD$"¨d°3¸°:Ñ.>ð $"ÐGmð $"Ðrvó $"ðL1i¨#ð 1i°$ó 1iðf@1¸ð @1Àó @1ðD1 sð 1¨tó 1ñ.=¸Cð =ÈÏ	É	ÐTXÑHXð =Ðdhó =óBhðT+_¨#°©*ð +_¸ó +_ðZf5¸¸d¹
ð f5Àtó f5ðP5 s¨T¡zð 5°dó 5ó6%9ðN°cð ¸dó ñ 8[ S¨4¡Zð 8[Èð 8[ÐY]ó 8[ñt%L  d¡
ð %L¸tÀd¹{ð %LÐVZó %LñR_˜˜S %˜ZÑ(ð _°e¸d±lð _Èdó _ó4	"ð¨¨c°5·<±<À#Ñ3EÐ.EÑ)Fð È3ó ñ*% #¨¡*ð %¸ó %ð(  $Ø"Ø'+Ø!%Ø%)Ø(,Ø/3Ø*.Ø/3ñHhà˜‘*ðHhð t‘ðHhð D˜‘I‰o Ñ$ð	Hhð
 ˜$‘JðHhð ˜d™
ðHhð T˜#‘Y‰ Ñ%ðHhð ˜D ™I‘o¨Ñ,ðHhð t˜C‘y‘ 4Ñ'ðHhð ˜D ™I‘o¨Ñ,ðHhð 
óHhðX &7ØØ Ø#ñP
à˜d™
ðP
ð ðP
ð T‰zð	P
ð
 ˜‘*ðP
ð 
óP
ðdC9°sð C9¸tó C9óJ4ð IMØHLØØ%/Ø04Ø:>ñOà˜NÐ+¨T°#°u°*Ñ-=Ð=Ñ>ÀÑEðOð $ T¨#¨u¨*Ñ%5Ð$6¸Ð$=Ñ>ÀÑEðOð ð	Oð
 ˜˜c™‘?ðOð Ñ&¨Ñ-ðOð ˜>Ð*¨CÐ/Ñ0°4Ñ7ðOð 
4˜‘=Ñ	 óOñbÐ%Kð ÐWY×W`ÑW`ó ó22ðh@Ø;ð@ØCFð@ØQUÐVYÐ[`ÐV`ÑQað@à	ó@ð6	a°Cð 	a¸Dó 	að	5 T¨/Ñ%:¸_Ñ%Lð 	5ÐQUó 	5ð< T¨/Ñ%:¸_Ñ%Lð <ÐQ`ÐcgÑQgó <ð 	8¨¨_Ñ(=ÀÑ(Oð 	8ÐTXó 	8ð2 tó 2ð	, tó 	,ð
 ¨2¯9©9ð 
 ¸e¿l¹lð 
 Ètô 
 rp  rª   (  rD  r²  r¡  r‘  rÌ   rÿ  r`  r)  r  rÖ  rb  r/  r“  r  Úcollections.abcr   r   r   r   Úpathlibr   Útypingr	   r
   Úintegrationsr   Úhuggingface_hub.utilsri  r^  r  r@  Úsafetensors.torchr[  r¦   Útorch.distributedÚdistributedrŽ  Úhuggingface_hubr   r   r   r   Ú	packagingr   r   Útorch.utils.datar   r   r   r   r   rö  r   Úconfiguration_utilsr   Údata.data_collatorr   r   r   Údebug_utilsr   r   Ú!feature_extraction_sequence_utilsr   Úfeature_extraction_utilsr    r  r!   r"   Úimage_processing_utilsr#   Úintegrations.deepspeedr$   r%   r&   r'   r(   Úintegrations.fsdpr)   r*   Úintegrations.ligerr+   Úintegrations.neftuner,   r-   Úintegrations.peftr.   Úintegrations.tpur/   r0   r1   Ú	modelcardr2   Úmodeling_utilsr3   r4   Úmodels.auto.modeling_autor5   r6   Úoptimizationr7   Úprocessing_utilsr8   Útokenization_utils_baser9   Útrainer_callbackr:   r;   r<   r=   r>   r?   r@   rA   Útrainer_optimizerrB   rC   rD   rE   rE  rF   rG   rH   rI   rJ   rK   rL   rM   rN   rO   rP   rQ   rR   rS   rT   Útrainer_utilsrU   rV   rW   rX   rY   rZ   r[   r\   r]   r^   r_   r`   ra   rb   rc   rd   re   rf   rg   rh   ri   rj   rk   rl   rm   rn   ro   rp   rq   Útraining_argsrr   rs   rt   ru   rv   rw   rx   ry   rz   r{   r|   r}   r~   r   r€   r   r‚   rƒ   r„   r…   r†   r‡   rˆ   r‰   rŠ   r‹   rŒ   r   rŽ   r   Úutils.import_utilsr   Úutils.quantization_configr‘   r  r$  Úutils.notebookr’   r×  Útorch_xla.core.xla_modelÚcoreÚ	xla_modelrÉ  Útorch_xla.debug.metricsr#  rþ  rÎ  Útorch_xla.runtimeÚruntimer;  Ú	torch_xlaÚXLA_VERSIONrý  r:  Útorch_xla.distributed.spmdÚspmdr=  Ú!smdistributed.modelparallel.torchÚmodelparallelr[  r“   r”   r•   rà  r–   r§   r—   r˜   Úaccelerate.stater™   r}  rš   r›   rœ   r   rž   rŸ   r    r¡   r¢   Úaccelerate.utils.memoryr£   r¤   r*  Ú
get_loggerrò   rã   rÀ  r\  r2  rA  r‹  r4  rE  rª   r—  rp  rÑ   ú<module>r€     sp  ðñó Û Û Û Û Û Û 	Û Û Û 
Û Û Û ß 7Ñ 7Ý Ý ß %õ
õ -Û Û Û Ý  ß MÓ MÝ Ý ß cÕ cå Ý 1ß \Ñ \ß <Ý GÝ <ß `Ý 6÷õ ÷ MÝ 2ß FÝ /ß [Ñ [Ý &ß 9÷õ (Ý ,Ý <÷	÷ 	ó 	÷ó ÷÷ ÷ ÷ ñ ÷"÷ ÷ ÷ ÷ ÷ ÷ õ ÷> KÑ J÷÷ ÷ ÷ ÷ ÷ ÷ ñ õ: )Ý 9ð )Ð)Ð Ø,Ð áÔÝ8à 8ÐáÔÛáÔß)Ð)ß)Ð)Ý"Ý4à*˜WŸ]š]¨;Ó7¸=¸7¿=º=ÐI_Ó;`Ñ`ÐÙß/Ñ/à"Ðñ Ôß3Ð3ç[Ñ[áÔÝáÔß:Ý1÷
÷ 
õ 
õ ;áÔÝ>ñ Ûà	ˆ×	Ò	˜HÓ	%€ð )Ð Ø)Ð Ø€ØØ$Ñ ØØ&ñ 
ðô÷p@ ð p@ óòp@ rp  