U
    ËÇ-e0  ã                   @   s,  U d dl Z d dlmZmZmZ d dlZd dlmZ d dlm  m	Z
 eedœdd„ZdedƒfZeeef ed< G d	d
„ d
ejƒZG dd„ dejƒZG dd„ dejƒZG dd„ dejƒZG dd„ dejƒZG dd„ dejƒZeeeejjdœdd„Zdeeeeeeeeee edœ
dd„Zedœdd„ZdS )é    N)ÚListÚOptionalÚTuple©ÚxÚreturnc                 C   s   dddt  d|  d ¡   S )aŒ  The metric defined by ITU-T P.862 is often called 'PESQ score', which is defined
    for narrow-band signals and has a value range of [-0.5, 4.5] exactly. Here, we use the metric
    defined by ITU-T P.862.2, commonly known as 'wide-band PESQ' and will be referred to as "PESQ score".

    Args:
        x (float): Narrow-band PESQ score.

    Returns:
        (float): Wide-band PESQ score.
    g+‡ÙÎ÷ï?gÿÿÿÿÿÿ@é   g;pÎˆÒÞõ¿gÜ×sF”@)ÚmathÚexp)r   © r   úb/var/www/html/Darija-Ai-Train/env/lib/python3.8/site-packages/torchaudio/models/squim/objective.pyÚtransform_wb_pesq_range	   s    r   ç      ð?g      @Ú	PESQRangec                       sB   e Zd Zd	eeef ddœ‡ fdd„Zejejdœdd„Z‡  Z	S )
ÚRangeSigmoid©ç        r   N)Ú	val_ranger   c                    s<   t t| ƒ ¡  t|tƒr$t|ƒdks(t‚|| _t 	¡ | _
d S )Né   )Úsuperr   Ú__init__Ú
isinstanceÚtupleÚlenÚAssertionErrorr   ÚnnZSigmoidÚsigmoid)Úselfr   ©Ú	__class__r   r   r       s    zRangeSigmoid.__init__r   c                 C   s,   |   |¡| jd | jd   | jd  }|S )Nr   r   )r   r   ©r   r   Úoutr   r   r   Úforward&   s    (zRangeSigmoid.forward)r   )
Ú__name__Ú
__module__Ú__qualname__r   Úfloatr   ÚtorchÚTensorr"   Ú__classcell__r   r   r   r   r      s   r   c                       s@   e Zd ZdZdeeddœ‡ fdd„Zejejdœd	d
„Z‡  Z	S )ÚEncoderzýEncoder module that transform 1D waveform to 2D representations.

    Args:
        feat_dim (int, optional): The feature dimension after Encoder module. (Default: 512)
        win_len (int, optional): kernel size in the Conv1D layer. (Default: 32)
    é   é    N)Úfeat_dimÚwin_lenr   c                    s,   t t| ƒ ¡  tjd|||d dd| _d S )Nr   r   F)ZstrideZbias)r   r*   r   r   ZConv1dÚconv1d)r   r-   r.   r   r   r   r   3   s    zEncoder.__init__r   c                 C   s    |j dd}t |  |¡¡}|S )a  Apply waveforms to convolutional layer and ReLU layer.

        Args:
            x (torch.Tensor): Input waveforms. Tensor with dimensions `(batch, time)`.

        Returns:
            (torch,Tensor): Feature Tensor with dimensions `(batch, channel, frame)`.
        r   ©Údim)Z	unsqueezeÚFZrelur/   r    r   r   r   r"   8   s    	zEncoder.forward)r+   r,   )
r#   r$   r%   Ú__doc__Úintr   r'   r(   r"   r)   r   r   r   r   r*   +   s   r*   c                       s@   e Zd Zd	eeeeddœ‡ fdd„Zejejdœdd„Z	‡  Z
S )
Ú	SingleRNNr   N)Úrnn_typeÚ
input_sizeÚhidden_sizeÚdropoutr   c                    sR   t t| ƒ ¡  || _|| _|| _tt|ƒ||d|ddd| _t 	|d |¡| _
d S )Nr   T)r9   Úbatch_firstÚbidirectionalr   )r   r5   r   r6   r7   r8   Úgetattrr   ÚrnnÚLinearÚproj)r   r6   r7   r8   r9   r   r   r   r   G   s    ú	zSingleRNN.__init__r   c                 C   s   |   |¡\}}|  |¡}|S ©N)r=   r?   )r   r   r!   Ú_r   r   r   r"   Y   s    
zSingleRNN.forward)r   )r#   r$   r%   Ústrr4   r&   r   r'   r(   r"   r)   r   r   r   r   r5   F   s   r5   c                
       s˜   e Zd ZdZdeeeeeeed	d
œ‡ fdd„Zeje	ejef dœdd„Z
eje	ejef dœdd„Zejeejdœdd„Zejejdœdd„Z‡  ZS )ÚDPRNNaÏ  *Dual-path recurrent neural networks (DPRNN)* :cite:`luo2020dual`.

    Args:
        feat_dim (int, optional): The feature dimension after Encoder module. (Default: 64)
        hidden_dim (int, optional): Hidden dimension in the RNN layer of DPRNN. (Default: 128)
        num_blocks (int, optional): Number of DPRNN layers. (Default: 6)
        rnn_type (str, optional): Type of RNN in DPRNN. Valid options are ["RNN", "LSTM", "GRU"]. (Default: "LSTM")
        d_model (int, optional): The number of expected features in the input. (Default: 256)
        chunk_size (int, optional): Chunk size of input for DPRNN. (Default: 100)
        chunk_stride (int, optional): Stride of chunk input for DPRNN. (Default: 50)
    é@   é€   é   ÚLSTMé   éd   é2   N)r-   Ú
hidden_dimÚ
num_blocksr6   Úd_modelÚ
chunk_sizeÚchunk_strider   c           	         sÖ   t t| ƒ ¡  || _t g ¡| _t g ¡| _t g ¡| _t g ¡| _	t
|ƒD ]\}| j t|||ƒ¡ | j t|||ƒ¡ | j tjd|dd¡ | j	 tjd|dd¡ qLt t ||d¡t ¡ ¡| _|| _|| _d S )Nr   g:Œ0âŽyE>)Zeps)r   rC   r   rL   r   Ú
ModuleListÚrow_rnnÚcol_rnnÚrow_normÚcol_normÚrangeÚappendr5   Z	GroupNormÚ
SequentialZConv2dÚPReLUÚconvrN   rO   )	r   r-   rK   rL   r6   rM   rN   rO   rA   r   r   r   r   m   s"    
þzDPRNN.__init__r   c                 C   sF   |j d }| j| j|| j  | j  }t || j|| j g¡}||fS )Néÿÿÿÿ)ÚshaperN   rO   r2   Úpad)r   r   Úseq_lenÚrestr!   r   r   r   Ú	pad_chunk‹   s    
zDPRNN.pad_chunkc           	      C   s°   |   |¡\}}|j\}}}|d d …d d …d | j …f  ¡  ||d| j¡}|d d …d d …| jd …f  ¡  ||d| j¡}tj||gdd}| ||d| j¡ dd¡ ¡ }||fS )NrZ   é   r0   r   )	r_   r[   rO   Ú
contiguousÚviewrN   r'   ÚcatÚ	transpose)	r   r   r!   r^   Ú
batch_sizer-   r]   Z	segments1Z	segments2r   r   r   Úchunking”   s    0.zDPRNN.chunking)r   r^   r   c           	      C   sú   |j \}}}}| dd¡ ¡  ||d| jd ¡}|d d …d d …d d …d | j…f  ¡  ||d¡d d …d d …| jd …f }|d d …d d …d d …| jd …f  ¡  ||d¡d d …d d …d | j …f }|| }|dkrî|d d …d d …d | …f }| ¡ }|S )Nr   r`   rZ   r   )r[   rd   ra   rb   rN   rO   )	r   r   r^   re   r1   rA   r!   Zout1Zout2r   r   r   ÚmergingŸ   s    "HJzDPRNN.mergingc                 C   s*  |   |¡\}}|j\}}}}|}t| j| j| j| jƒD ]È\}}	}
}| dddd¡ ¡  	|| |d¡ ¡ }||ƒ}| 	|||d¡ dddd¡ ¡ }|	|ƒ}|| }| dddd¡ ¡  	|| |d¡ ¡ }|
|ƒ}| 	|||d¡ dddd¡ ¡ }||ƒ}|| }q6|  
|¡}|  ||¡}| dd¡ ¡ }|S )Nr   r`   r   r   rZ   )rf   r[   ÚziprQ   rS   rR   rT   Zpermutera   rb   rY   rg   rd   )r   r   r^   re   rA   Zdim1Zdim2r!   rQ   rS   rR   rT   Zrow_inZrow_outZcol_inZcol_outr   r   r   r"   ª   s$    "& & 

zDPRNN.forward)rD   rE   rF   rG   rH   rI   rJ   )r#   r$   r%   r3   r4   rB   r   r'   r(   r   r_   rf   rg   r"   r)   r   r   r   r   rC   `   s,          ø÷	rC   c                       s:   e Zd Zd	eddœ‡ fdd„Zejejdœdd„Z‡  ZS )
ÚAutoPoolr   N)Úpool_dimr   c                    s>   t t| ƒ ¡  || _tj|d| _|  dt t	 
d¡¡¡ d S )Nr0   Úalphar   )r   ri   r   rj   r   ZSoftmaxÚsoftmaxZregister_parameterÚ	Parameterr'   Zones)r   rj   r   r   r   r   Á   s    zAutoPool.__init__r   c                 C   s0   |   t || j¡¡}tjt ||¡| jd}|S )Nr0   )rl   r'   Úmulrk   Úsumrj   )r   r   Úweightr!   r   r   r   r"   Ç   s    zAutoPool.forward)r   )	r#   r$   r%   r4   r   r'   r(   r"   r)   r   r   r   r   ri   À   s   ri   c                       sH   e Zd ZdZejejejdœ‡ fdd„Zej	e
ej	 dœdd„Z‡  ZS )ÚSquimObjectiveaÙ  Speech Quality and Intelligibility Measures (SQUIM) model that predicts **objective** metric scores
    for speech enhancement (e.g., STOI, PESQ, and SI-SDR).

    Args:
        encoder (torch.nn.Module): Encoder module to transform 1D waveform to 2D feature representation.
        dprnn (torch.nn.Module): DPRNN module to model sequential feature.
        branches (torch.nn.ModuleList): Transformer branches in which each branch estimate one objective metirc score.
    )ÚencoderÚdprnnÚbranchesc                    s$   t t| ƒ ¡  || _|| _|| _d S r@   )r   rq   r   rr   rs   rt   )r   rr   rs   rt   r   r   r   r   ×   s    zSquimObjective.__init__r   c                 C   sz   |j dkrtd|j › dƒ‚|tj|d dddd d  }|  |¡}|  |¡}g }| jD ]}| ||ƒjdd	¡ qZ|S )
zá
        Args:
            x (torch.Tensor): Input waveforms. Tensor with dimensions `(batch, time)`.

        Returns:
            List(torch.Tensor): List of score Tenosrs. Each Tensor is with dimension `(batch,)`.
        r   z/The input must be a 2D Tensor. Found dimension Ú.r   T)r1   Zkeepdimg      à?é   r0   )	ÚndimÚ
ValueErrorr'   Zmeanrr   rs   rt   rV   Zsqueeze)r   r   r!   ZscoresÚbranchr   r   r   r"   â   s    
 


zSquimObjective.forward)r#   r$   r%   r3   r   ÚModulerP   r   r'   r(   r   r"   r)   r   r   r   r   rq   Í   s   ürq   )rM   ÚnheadÚmetricr   c                 C   s²   t j| || d ddd}tƒ }|dkrNt  t  | | ¡t  ¡ t  | d¡tƒ ¡}nV|dkr‚t  t  | | ¡t  ¡ t  | d¡ttd¡}n"t  t  | | ¡t  ¡ t  | d¡¡}t  |||¡S )	al  Create branch module after DPRNN model for predicting metric score.

    Args:
        d_model (int): The number of expected features in the input.
        nhead (int): Number of heads in the multi-head attention model.
        metric (str): The metric name to predict.

    Returns:
        (nn.Module): Returned module to predict corresponding metric score.
    é   r   T)r9   r:   Ústoir   Úpesq)r   )r   ZTransformerEncoderLayerri   rW   r>   rX   r   r   )rM   r{   r|   Zlayer1Zlayer2Zlayer3r   r   r   Ú_create_branchõ   s$    

ü

ü"r€   )
r-   r.   rM   r{   rK   rL   r6   rN   rO   r   c	                 C   sb   |dkr|d }t | |ƒ}	t| ||||||ƒ}
t t||dƒt||dƒt||dƒg¡}t|	|
|ƒS )aÇ  Build a custome :class:`torchaudio.prototype.models.SquimObjective` model.

    Args:
        feat_dim (int, optional): The feature dimension after Encoder module.
        win_len (int): Kernel size in the Encoder module.
        d_model (int): The number of expected features in the input.
        nhead (int): Number of heads in the multi-head attention model.
        hidden_dim (int): Hidden dimension in the RNN layer of DPRNN.
        num_blocks (int): Number of DPRNN layers.
        rnn_type (str): Type of RNN in DPRNN. Valid options are ["RNN", "LSTM", "GRU"].
        chunk_size (int): Chunk size of input for DPRNN.
        chunk_stride (int or None, optional): Stride of chunk input for DPRNN.
    Nr   r~   r   Zsisdr)r*   rC   r   rP   r€   rq   )r-   r.   rM   r{   rK   rL   r6   rN   rO   rr   rs   rt   r   r   r   Úsquim_objective_model  s    



ýÿr   )r   c                
   C   s   t dddddddddS )zWBuild :class:`torchaudio.prototype.models.SquimObjective` model with default arguments.rH   rD   r}   r   rG   éG   )r-   r.   rM   r{   rK   rL   r6   rN   )r   r   r   r   r   Úsquim_objective_base;  s    ørƒ   )N)r	   Útypingr   r   r   r'   Ztorch.nnr   Ztorch.nn.functionalZ
functionalr2   r&   r   r   Ú__annotations__rz   r   r*   r5   rC   ri   rq   r4   rB   Úmodulesr€   r   rƒ   r   r   r   r   Ú<module>   s<    ü`() ÷ö&