Ë
    ´ci F  ã                   ó   — d Z ddlZddlmZmZmZ ddlmZ ddlm	Z	 ddlm
Z
 ddlmZ ddlmZ ddlmZ dd	lmZ dd
lmZ ddlmZ ddlmZ ddlmZ ddlmZ ddlmZ ddlmZ  e	j<                  e«      Z ejB                  jD                   ejF                  «       ejB                  jH                   ejJ                  «       ejB                  jL                   ejN                  «       ejB                  jP                   ejN                  d¬«      ejB                  jR                   ejN                  d¬«      ejB                  jT                   ejN                  d¬«      ejB                  jV                   ejN                  d¬«      ejB                  jX                   ejZ                  «       ejB                  j\                   ej^                  «       ejB                  j`                   ejb                  «       ejB                  jd                   ejf                  «       ejB                  jh                   ejj                  «       ejB                  jl                   ejn                  «       ejB                  jp                   ejr                  «       ejB                  jt                   ejv                  «       iZ<dee=ej|                  f   dee=ef   dej~                  dej€                  fd„ZAdee=ef   dee=ef   fd„ZBdee=ef   dee=ef   fd„ZCdee=ef   dee=ef   fd„ZDdee=ef   dee=ef   fd„ZEdee=ejŒ                  f   dee=ee=ef   f   fd „ZGd!ej                  d"ej€                  d#ej’                  d$eJdejŒ                  f
d%„ZKy)&z?Library for metrics computation with Gen AI Evaluation Service.é    N)ÚAnyÚDictÚUnion)Úapi_core)Úbase)Úinitializer)Úevaluation_service)Ú_base)Ú	constants)Úprompt_template)Úutils)Ú_rouge)Úpairwise_metric)Úpointwise_metric)Újson_formatÚrouge1)Ú
rouge_typeÚrouge2ÚrougeLÚ	rougeLsumÚmetricÚrow_dictÚevaluation_run_configÚreturnc                 ó*  — t         j                  j                  }t         j                  j                  }|r|st	        d«      ‚t
        j                  j                  ||«      }t        | t        j                  «      rt        j                  j                  }n@t        | t        j                  «      rt        j                  j                   }nt#        | «      }	 t$        |   }i }	|j(                  }
t        | t*        j,                  «      rd| j.                  |_        t1        j2                  | j.                  «      j4                  D ]&  }|j7                  |
j7                  |«      d«      |	|<   Œ( n›t        | t8        j:                  «      r4| j<                  |_        | j>                  |_        | j@                  |_         nMt        | t*        jB                  «      r3| jD                  |_"        | jF                  |_#        | jH                  |_$        |j7                  |
j7                  t        jJ                  jL                  «      d«      }|j7                  |
j7                  t        jJ                  jN                  «      d«      }|j7                  |
j7                  t        jJ                  jP                  «      d«      }|t        j                  jR                  k(  rDtU        jV                  |tU        jX                  ||¬«      g¬«      }tU        jZ                  ||¬«      S |t        j                  j\                  k(  rDtU        j^                  |tU        j`                  ||¬«      g¬«      }tU        jZ                  ||¬	«      S |t        j                  jb                  t        j                  jd                  t        j                  jf                  t        j                  jh                  t        j                  jj                  fv rDtU        jl                  |tU        jn                  ||¬«      g¬«      }tU        jZ                  ||¬
«      S |t        j                  jp                  k(  rDtU        jr                  |tU        jt                  ||¬«      g¬«      }tU        jZ                  ||¬«      S |t        j                  jv                  k(  rDtU        jx                  |tU        jz                  ||¬«      g¬«      }tU        jZ                  ||¬«      S |t        j                  j|                  k(  rDtU        j~                  |tU        j€                  ||¬«      g¬«      }tU        jZ                  ||¬«      S |t        j                  j‚                  k(  rDtU        j„                  |tU        j†                  ||¬«      g¬«      }tU        jZ                  ||¬«      S |t        j                  j                  k(  rUtU        jˆ                  |tU        jŠ                  t        jŽ                  |	«      ¬«      ¬«      }tU        jZ                  ||¬«      S |t        j                  j                   k(  rUtU        j                  |tU        j’                  t        jŽ                  |	«      ¬«      ¬«      }tU        jZ                  ||¬«      S |t        j                  j”                  k(  rDtU        j–                  |tU        j˜                  |||¬«      ¬«      }tU        jZ                  ||¬«      S |t        j                  jš                  k(  rDtU        jœ                  |tU        jž                  |||¬«      ¬«      }tU        jZ                  ||¬«      S t	        d|› «      ‚# t&        $ r}t	        d|› d«      |‚d}~ww xY w)a\  Builds an EvaluateInstancesRequest for Vertex Gen AI Evaluation Service.

    Args:
        metric: The metric to be evaluated.
        row_dict: An evaluation dataset instance as a dictionary.
        evaluation_run_config: Evaluation run configurations.

    Returns:
        An EvaluateInstancesRequest for Vertex Gen AI Evaluation Service.
    z[No project or location specified. Please run `vertexai.init()` to provide these parameters.zMetric name: z is not supported.NÚ )Ú
predictionÚ	reference)Úmetric_specÚ	instances)ÚlocationÚexact_match_input)r!   Ú
bleu_input)r!   Úrouge_input)r!   Útool_call_valid_input)r!   Útool_name_match_input)r!   Útool_parameter_key_match_input)r!   Útool_parameter_kv_match_input)Újson_instance)r   Úinstance)r!   Úpointwise_metric_input)r!   Úpairwise_metric_input)r   r   Úsource)r!   Úcomet_input)r!   Úmetricx_inputúUnknown metric type: )Pr   Úglobal_configÚprojectr!   Ú
ValueErrorÚgapic_evaluation_servicesÚEvaluationServiceClientÚcommon_location_pathÚ
isinstancer   ÚPointwiseMetricr   ÚMetricÚPOINTWISE_METRICr   ÚPairwiseMetricÚPAIRWISE_METRICÚstrÚ_METRIC_NAME_TO_METRIC_SPECÚKeyErrorÚmetric_column_mappingÚmetrics_baseÚ_ModelBasedMetricÚmetric_prompt_templateÚprompt_template_baseÚPromptTemplateÚ	variablesÚgetr   ÚRouger   Úuse_stemmerÚsplit_summariesÚ_TranslationMetricÚversionÚsource_languageÚtarget_languageÚDatasetÚMODEL_RESPONSE_COLUMNÚREFERENCE_COLUMNÚSOURCE_COLUMNÚEXACT_MATCHÚgapic_eval_service_typesÚExactMatchInputÚExactMatchInstanceÚEvaluateInstancesRequestÚBLEUÚ	BleuInputÚBleuInstanceÚROUGEÚROUGE_1ÚROUGE_2ÚROUGE_LÚROUGE_L_SUMÚ
RougeInputÚRougeInstanceÚTOOL_CALL_VALIDÚToolCallValidInputÚToolCallValidInstanceÚTOOL_NAME_MATCHÚToolNameMatchInputÚToolNameMatchInstanceÚTOOL_PARAMETER_KEY_MATCHÚToolParameterKeyMatchInputÚToolParameterKeyMatchInstanceÚTOOL_PARAMETER_KV_MATCHÚToolParameterKVMatchInputÚToolParameterKVMatchInstanceÚPointwiseMetricInputÚPointwiseMetricInstanceÚjsonÚdumpsÚPairwiseMetricInputÚPairwiseMetricInstanceÚCOMETÚ
CometInputÚCometInstanceÚMETRICXÚMetricxInputÚMetricxInstance)r   r   r   r2   r!   Úlocation_pathÚmetric_namer   ÚeÚ!model_based_metric_instance_inputr@   ÚvariableÚresponser   r-   r*   s                   úW/tmp/pip-target-z3e9_cxr/lib/python/vertexai/evaluation/metrics/_instance_evaluation.pyÚbuild_requestr   L   sÀ  € ô ×'Ñ'×/Ñ/€GÜ×(Ñ(×1Ñ1€HÙ™(Üð)ó
ð 	
ô
 	"×9Ñ9×NÑNØXó	
ð ô &Ô*×:Ñ:Ô;Ü×&Ñ&×7Ñ7‰Ü	FœO×:Ñ:Ô	;Ü×&Ñ&×6Ñ6‰ä˜&“kˆðQÜ1°+Ñ>ˆð )+Ð%Ø1×GÑGÐÜØ”×.Ñ.ôð .4×-JÑ-JˆÔ*Ü,×;Ñ;Ø×)Ñ)ó
ç
‰)ò	ˆHð ;C¿,¹,Ø%×)Ñ)¨(Ó3Øó;Ð-¨hÒ7ñ	ô 
FœFŸL™LÔ	)Ø!'×!2Ñ!2ˆÔØ"(×"4Ñ"4ˆÔØ&,×&<Ñ&<ˆÕ#Ü	Ø”×/Ñ/ô
ð %Ÿn™nˆÔØ&,×&<Ñ&<ˆÔ#Ø&,×&<Ñ&<ˆÔ#à|‰|Ø×!Ñ!¤)×"3Ñ"3×"IÑ"IÓJÈBó€Hð —‘Ø×!Ñ!¤)×"3Ñ"3×"DÑ"DÓEÀró€Ið \‰\Ø×!Ñ!¤)×"3Ñ"3×"AÑ"AÓBÀBó€Fð ”i×&Ñ&×2Ñ2Ò2Ü+×;Ñ;Ø#ä(×;Ñ;Ø'Ø'ôðô
ˆô (×@Ñ@Ø"Ø&ô
ð 	
ð 
œ	×(Ñ(×-Ñ-Ò	-Ü+×5Ñ5Ø#ä(×5Ñ5Ø'Ø'ôðô
ˆô (×@Ñ@Ø"Øô
ð 	
ð 
Ü×Ñ×ÑÜ×Ñ× Ñ Ü×Ñ× Ñ Ü×Ñ× Ñ Ü×Ñ×$Ñ$ðñ 
ô ,×6Ñ6Ø#ä(×6Ñ6Ø'Ø'ôðô
ˆô (×@Ñ@Ø"Ø ô
ð 	
ð 
œ	×(Ñ(×8Ñ8Ò	8Ü+×>Ñ>Ø#ä(×>Ñ>Ø'Ø'ôðô
ˆô (×@Ñ@Ø"Ø"*ô
ð 	
ð 
œ	×(Ñ(×8Ñ8Ò	8Ü+×>Ñ>Ø#ä(×>Ñ>Ø'Ø'ôðô
ˆô (×@Ñ@Ø"Ø"*ô
ð 	
ð 
œ	×(Ñ(×AÑAÒ	AÜ+×FÑFØ#ä(×FÑFØ'Ø'ôðô
ˆô (×@Ñ@Ø"Ø+3ô
ð 	
ð 
œ	×(Ñ(×@Ñ@Ò	@Ü+×EÑEØ#ä(×EÑEØ'Ø'ôðô
ˆô (×@Ñ@Ø"Ø*2ô
ð 	
ð 
œ	×(Ñ(×9Ñ9Ò	9Ü+×@Ñ@Ø#Ü-×EÑEÜ"Ÿj™jÐ)JÓKôô
ˆô (×@Ñ@Ø"Ø#+ô
ð 	
ð 
œ	×(Ñ(×8Ñ8Ò	8Ü+×?Ñ?Ø#Ü-×DÑDÜ"Ÿj™jÐ)JÓKôô
ˆô (×@Ñ@Ø"¸(ô
ð 	
ð 
œ	×(Ñ(×.Ñ.Ò	.Ü+×6Ñ6Ø#Ü-×;Ñ;Ø#Ø#Øôô
ˆô (×@Ñ@Ø"Ø ô
ð 	
ð 
œ	×(Ñ(×0Ñ0Ò	0Ü+×8Ñ8Ø#Ü-×=Ñ=Ø#Ø#Øôô
ˆô (×@Ñ@Ø"Ø"ô
ð 	
ô
 Ð0°°Ð>Ó?Ð?øôy ò QÜ˜=¨¨Ð5GÐHÓIÈqÐPûðQús   Ã	]4 Ý4	^Ý=^Þ^Úmetric_result_dictc                 ó¼   — | j                  «       D ]I  }t        j                  j                  |d   j	                  t        j                  j                  «      ic S  y)zÕParses the automatic metric results from the evaluation results.

    Args:
        metric_result_dict: The metric results dictionary.

    Returns:
        A dictionary containing metric score of the metric.
    r   N)Úvaluesr   ÚMetricResultÚ	SCORE_KEYrG   )r‚   Úvalues     r€   Ú_parse_autometric_resultsrˆ   0  sS   € ð $×*Ñ*Ó,ò 
ˆä×"Ñ"×,Ñ,¨e°A©h¯l©lÜ×&Ñ&×0Ñ0ó/ð
ò 	
ñ
ó    c                 ó
  — t         j                  j                  | j                  t         j                  j                  «      t         j                  j                  | j                  t         j                  j                  «      iS )zéParses the model-based pointwise metric result.

    Args:
        metric_result_dict: The metric result dictionary.

    Returns:
        A dictionary containing metric score, explanation of the pointwise
        metric result.
    )r   r…   r†   rG   ÚEXPLANATION_KEY©r‚   s    r€   Ú_parse_pointwise_resultsr   C  sh   € ô 	×Ñ×(Ñ(Ð*<×*@Ñ*@Ü×"Ñ"×,Ñ,ó+
ô 	×Ñ×.Ñ.Ð0B×0FÑ0FÜ×"Ñ"×2Ñ2ó1
ð	ð r‰   c                 óˆ   — t         j                  j                  | j                  t         j                  j                  «      iS )zÁParses the model-based pointwise translation metric result.

    Args:
        metric_result_dict: The metric result dictionary.

    Returns:
        A dictionary containing metric score.
    )r   r…   r†   rG   rŒ   s    r€   Ú&_parse_model_based_translation_resultsr   Y  s:   € ô 	×Ñ×(Ñ(Ð*<×*@Ñ*@Ü×"Ñ"×,Ñ,ó+
ðð r‰   c                 ó
  — t         j                  j                  | j                  t         j                  j                  «      t         j                  j                  | j                  t         j                  j                  «      iS )zÛParses the pairwise metric result.

    Args:
        metric_result_dict: The metric result dictionary.

    Returns:
        A dictionary containing metric score, explanation of the pairwise metric
        result.
    )r   r…   ÚPAIRWISE_CHOICE_KEYrG   r‹   rŒ   s    r€   Ú_parse_pairwise_resultsr’   k  sh   € ô 	×Ñ×2Ñ2Ð4F×4JÑ4JÜ×"Ñ"×6Ñ6ó5
ô 	×Ñ×.Ñ.Ð0B×0FÑ0FÜ×"Ñ"×2Ñ2ó1
ð	ð r‰   r   c                 óü  — t        | t        «      r| S | j                  j                  d«      }|t        j
                  j                  k(  r| j                  }n¶|t        j
                  j                  k(  r| j                  }n‹|t        j
                  j                  k(  r| j                  }n`|t        j
                  j                  k(  r| j                  }n5|t        j
                  j                  k(  r| j                  }n
|t        j
                  j                   k(  r| j"                  }nà|t        j
                  j$                  k(  r| j&                  }n¶|t        j
                  j(                  k(  r| j*                  }nŒ|t        j
                  j,                  k(  r| j.                  }nb|t        j
                  j0                  k(  r| j2                  }n8|t        j
                  j4                  k(  r| j6                  }nt9        d|› «      ‚t;        j<                  |j                  d¬«      }|t        j
                  j>                  v rtA        |«      }|S |t        j
                  j(                  k(  rtC        |«      }|S |t        j
                  j,                  k(  rtE        |«      }|S |t        j
                  j0                  t        j
                  j4                  fv rtG        |«      }|S t9        d|› «      ‚)zÒHandles the response from the evaluation service.

    Args:
        response: The response from the evaluation service.

    Returns:
        A parsed metric result dictionary, or an error message string.
    Úevaluation_resultsr0   T)Úpreserving_proto_field_name)$r7   r=   Ú_pbÚ
WhichOneofr   r…   ÚEXACT_MATCH_RESULTSÚexact_match_resultsÚBLEU_RESULTSÚbleu_resultsÚROUGE_RESULTSÚrouge_resultsÚTOOL_CALL_VALID_RESULTSÚtool_call_valid_resultsÚTOOL_NAME_MATCH_RESULTSÚtool_name_match_resultsÚ TOOL_PARAMETER_KEY_MATCH_RESULTSÚ tool_parameter_key_match_resultsÚTOOL_PARAMETER_KV_MATCH_RESULTSÚtool_parameter_kv_match_resultsÚPOINTWISE_METRIC_RESULTÚpointwise_metric_resultÚPAIRWISE_METRIC_RESULTÚpairwise_metric_resultÚCOMET_RESULTÚcomet_resultÚMETRICX_RESULTÚmetricx_resultr3   r   ÚMessageToDictÚAUTOMATIC_METRIC_RESULTS_LISTrˆ   r   r’   r   )r   Úmetric_typeÚmetric_resultr‚   Úresults        r€   Úhandle_responser³     sz  € ô (œCÔ Øˆà—,‘,×)Ñ)Ð*>Ó?€Kà”i×,Ñ,×@Ñ@Ò@Ø ×4Ñ4ŠØ	œ	×.Ñ.×;Ñ;Ò	;Ø ×-Ñ-ŠØ	œ	×.Ñ.×<Ñ<Ò	<Ø ×.Ñ.ŠØ	œ	×.Ñ.×FÑFÒ	FØ ×8Ñ8ŠØ	œ	×.Ñ.×FÑFÒ	FØ ×8Ñ8ŠØ	œ	×.Ñ.×OÑOÒ	OØ ×AÑA‰Ø	œ	×.Ñ.×NÑNÒ	NØ ×@Ñ@‰Ø	œ	×.Ñ.×FÑFÒ	FØ ×8Ñ8‰Ø	œ	×.Ñ.×EÑEÒ	EØ ×7Ñ7‰Ø	œ	×.Ñ.×;Ñ;Ò	;Ø ×-Ñ-‰Ø	œ	×.Ñ.×=Ñ=Ò	=Ø ×/Ñ/‰äÐ0°°Ð>Ó?Ð?ä$×2Ñ2Ø×Ñ°tôÐð ”i×,Ñ,×JÑJÑJÜ*Ð+=Ó>ˆð €Mð 
œ	×.Ñ.×FÑFÒ	FÜ)Ð*<Ó=ˆð €Mð 
œ	×.Ñ.×EÑEÒ	EÜ(Ð);Ó<ˆð €Mð 
Ü×Ñ×+Ñ+Ü×Ñ×-Ñ-ðñ 
ô 8Ð8JÓKˆð €Mô Ð0°°Ð>Ó?Ð?r‰   ÚclientÚrequestÚrate_limiterÚretry_timeoutc                 ó¾  — |j                  «        | j                  |t        j                  j	                  ddd|t        j                  j                  t        j                  j                  t        j                  j                  t        j                  j                  t        j                  j                  t        j                  j                  «      ¬«      ¬«      S )a¿  Evaluates an instance using Vertex Gen AI Evaluation Service.

    Args:
        client: The Vertex Gen AI evaluation service client for evaluation.
        request: An EvaluateInstancesRequest.
        rate_limiter: The rate limiter for evaluation service requests.
        retry_timeout: How long to keep retrying the evaluation requests, in seconds.

    Returns:
        An EvaluateInstancesResponse from Vertex Gen AI Evaluation Service.
    g      Ð?g     €V@g333333÷?)ÚinitialÚmaximumÚ
multiplierÚtimeoutÚ	predicate)rµ   Úretry)Úsleep_and_advanceÚevaluate_instancesr   r¾   ÚRetryÚif_exception_typeÚ
exceptionsÚAbortedÚDeadlineExceededÚResourceExhaustedÚServiceUnavailableÚ	Cancelled)r´   rµ   r¶   r·   s       r€   rÀ   rÀ   ½  s«   € ð" ×"Ñ"Ô$Ø×$Ñ$ØÜn‰n×"Ñ"ØØØØ!Ü—n‘n×6Ñ6Ü×#Ñ#×+Ñ+Ü×#Ñ#×4Ñ4Ü×#Ñ#×5Ñ5Ü×#Ñ#×6Ñ6Ü×#Ñ#×-Ñ-óð #ó 
ð %ó ð r‰   )LÚ__doc__rp   Útypingr   r   r   Úgoogler   Úgoogle.cloud.aiplatformr   r   Ú#google.cloud.aiplatform_v1.servicesr	   r4   Ú google.cloud.aiplatform_v1.typesrT   Úvertexai.evaluationr
   Ú	eval_baser   r   rD   r   Úvertexai.evaluation.metricsrA   r   r   r   Úgoogle.protobufr   ÚLoggerÚ__name__Ú_LOGGERr9   rS   ÚExactMatchSpecrX   ÚBleuSpecr[   Ú	RougeSpecr\   r]   r^   r_   rb   ÚToolCallValidSpecre   ÚToolNameMatchSpecrk   ÚToolParameterKVMatchSpecrh   ÚToolParameterKeyMatchSpecr:   ÚPointwiseMetricSpecr<   ÚPairwiseMetricSpecrt   Ú	CometSpecrw   ÚMetricxSpecr>   r=   Ú_MetricÚEvaluationRunConfigrW   r   rˆ   r   r   r’   ÚEvaluateInstancesResponser³   r5   ÚRateLimiterÚfloatrÀ   © r‰   r€   ú<module>rç      s©  ðñ" Fã ß #Ñ #å Ý (Ý /õõõ 3Ý )õõ &õõ /Ý 7Ý 8Ý 'ð ˆ$+‰+hÓ
€ð ×Ñ× Ñ Ð#JÐ#;×#JÑ#JÓ#LØ×Ñ×ÑÐ<Ð3×<Ñ<Ó>Ø×Ñ×ÑÐ>Ð4×>Ñ>Ó@Ø×Ñ×ÑÐ@Ð6×@Ñ@ÈHÔUØ×Ñ×ÑÐ@Ð6×@Ñ@ÈHÔUØ×Ñ×ÑÐ@Ð6×@Ñ@ÈHÔUØ×Ñ× Ñ Ð"DÐ":×"DÑ"DØô#ð ×Ñ×$Ñ$Ð'QÐ'?×'QÑ'QÓ'SØ×Ñ×$Ñ$Ð'QÐ'?×'QÑ'QÓ'SØ×Ñ×,Ñ,Ø9Ð ×9Ñ9Ó;à×Ñ×-Ñ-Ø:Ð ×:Ñ:Ó<ð ×Ñ×%Ñ%Ð(TÐ(@×(TÑ(TÓ(Và×Ñ×$Ñ$Ð'RÐ'?×'RÑ'RÓ'Tà×Ñ×ÑÐ>Ð4×>Ñ>Ó@Ø×Ñ×ÑÐBÐ6×BÑBÓDð3Ð ð:a@Ø#|×+Ñ+Ð+Ñ,ða@à3˜8‰nða@ð %×8Ñ8ða@ð ×6Ñ6ó	a@ðH
Ø˜S #˜X™ð
à	ˆ#ˆsˆ(^ó
ð&Ø˜S #˜X™ðà	ˆ#ˆsˆ(^óð,Ø˜S #˜X™ðà	ˆ#ˆsˆ(^óð$Ø˜S #˜X™ðà	ˆ#ˆsˆ(^óð,9ØCÐ1×KÑKÐKÑLð9à
ˆ3S˜#X‘ÐÑó9ðx!Ø%×=Ñ=ð!à%×>Ñ>ð!ð ×#Ñ#ð!ð ð	!ð
 ×7Ñ7ô!r‰   