Đến nội dung

DOTOANNANG

DOTOANNANG

Đăng ký: 04-04-2017
Offline Đăng nhập: Hôm qua, 09:41
****-

Tìm bộ dữ liệu NLP tiếng Việt liên quan đến đề tài mạng xã hội

17-12-2023 - 20:15

Dạ, mục đích em muốn tìm bộ dữ liệu NLP tiếng Việt liên quan đến đề tài mạng xã hội (diễn đàn cũng có thể là ví dụ), cho điều kiện này:

The topic involves identifying the constraints of large language models, particularly when applied within 'social/political science scenarios.'

 

Ps: Phải chi nếu nó là tấm gương của sự thành công thì em đã tha hồ kể dọc ngang BioBERT, DNABERTFunSearch: Making new discoveries in mathematical sciences using Large Language Models :closedeyes:


Tìm $p$ sao cho $\operatorname{Jaccard}_{p}...

09-12-2023 - 17:42

Khoảng cách $\operatorname{Jaccard}_{1}\left ( A, B \right )$ được sử dụng để đo lường mức trùng lắp giữa hai tập hợp (độ tương đồng trong dữ liệu), bất kể là văn bản, tập hợp các biến dị di truyền, hoặc các nhóm dữ liệu khác. Quan trọng nhất, nó không quan tâm đến thứ tự hay sự xuất hiện lặp lại của các phần tử trong tập hợp, chỉ quan tâm đến việc phần tử có hay không có trong các tập hợp này.
(Lebesgue-style). Tìm $p$ sao cho $\operatorname{Jaccard}_{p}\left ( A, B \right )$,
$$\operatorname{Jaccard}_{p}\left ( A, B \right )= \left ( 2\cdot\frac{\phantom{\left | A \right |^{p}+ \left | B \right |^{p}\,}\phantom{+\,}\left | B\setminus A \right |^{p}+ \left | A\setminus B \right |^{p}}{\left | A \right |^{p}+ \left | B \right |^{p}+ \left | B\setminus A \right |^{p}+ \left | A\setminus B \right |^{p}} \right )^{1/p}$$
là một metric (giữa $\operatorname{Jaccard}_{1}\left ( A, B \right )$ và $\operatorname{Jaccard}_{\infty}\left ( A, B \right )$, hiển nhiên là vậy).
Việc nội suy $p$ không dễ, chẳng hạn $\operatorname{Jaccard}_{3}\left ( A, B \right )$ không là một metric.

File gửi kèm  Capture.PNG   36.3K   8 Số lần tải


Gradient của Log loss

17-10-2023 - 21:33

Bổ đề

$L$-definition denoted by Frobenius inner product

$$L= \left \langle y, \log\hat{y} \right \rangle_{{\rm F}}+ \left \langle 1- y, \log\left ( 1- \hat{y} \right ) \right \rangle_{{\rm F}}$$

Từ định nghĩa trên của Log loss, ta sẽ tính đạo hàm và gradient, dùng toán tử Hadamard đã sử dụng với tích $\odot$ và thương $\oslash$

$\begin{matrix}{\rm d}L= \left \langle y, {\rm d}\log\left ( \hat{y} \right ) \right \rangle_{{\rm F}}+ \left \langle 1- y, {\rm d}\log\left ( 1- \hat{y} \right ) \right \rangle_{{\rm F}}= &  \\ =\!\left \langle y\oslash\hat{y}, {\rm d}\hat{y} \right \rangle_{{\rm F}}+ \left \langle \left ( 1- y \right )\oslash\left ( 1- \hat{y} \right ), {\rm d}\left ( 1- \hat{y} \right ) \right \rangle_{{\rm F}}\; & =\!\left \langle y\oslash\hat{y}- \left ( 1- y \right )\oslash\left ( 1- \hat{y} \right ), {\rm d}\hat{y} \right \rangle_{{\rm F}}\;\end{matrix}$

Có được gradient $\frac{\partial L}{\partial x}= \left ( y- \hat{y} \right )\oslash\left ( \hat{y}- \hat{y}\odot\hat{y} \right )$.


TF-IDF @VNexpress: Truy xuất tin tức

15-10-2023 - 16:10

Định nghĩa
Corpus_

  1. M1 (14 words): Thách thức với ứng viên Cộng hòa tranh ghế Chủ tịch Hạ viện Mỹ
  2. M2 (12 words): Mỹ điều thêm tàu sân bay đến Israel làm tăng xung đột
  3. M3 (9 words): Lạm phát Nga tăng tốc khi đồng ruble yếu
  4. M4 (11 words): Bộ trưởng Quốc phòng Israel tuyên bố sẽ xóa sổ Hamas
  5. M5 (9 words): Nguy cơ thiếu điện trong dài hạn ở Israel

Bổ đề
Question_

  • Xung xung đột Israel và Hamas

(Đặng Hải Đăng). 20520426_

$$\operatorname{IDF}\left ( {\rm 'xung'}_{1} \right )= \operatorname{IDF}\left ( {\rm 'dot'}_{2} \right )= \operatorname{IDF}\left ( {\rm 'Hamas'}_{5} \right )= \log 5/2, \quad\operatorname{IDF}\left ( {\rm 'Israel'}_{3} \right )= \log 5/4$$

Có được $\frac{\log 5/2}{\log 5/4}= 2$, nên chuẩn hóa $\log 5/2\propto 2, \quad\log 5/4\propto 1$. Dùng Hadamard product với

$$\operatorname{Count_{T}erm}\left ( {\it square\,matrix} \right )\odot\left ( \operatorname{IDF}\left ( {\it vectors\,of\,corpus} \right ){\tt1}^T \right )= \begin{bmatrix} 0 & 0 & 0 & 0 & 0\\ 1 & 1 & 1 & 0 & 0\\ 0 & 0 & 0 & 0 & 0\\ 0 & 0 & 1 & 0 & 1\\ 0 & 0 & 1 & 0 & 0 \end{bmatrix}\odot\left ( \begin{bmatrix} 2\\ 2\\ 1\\ 0\\ 2 \end{bmatrix}{\tt1}^T \right )= \begin{bmatrix} 0 & 0 & 0 & 0 & 0\\ 2 & 2 & 1 & 0 & 0\\ 0 & 0 & 0 & 0 & 0\\ 0 & 0 & 1 & 0 & 2\\ 0 & 0 & 1 & 0 & 0 \end{bmatrix}$$

$$\therefore\operatorname{TF}\wedge\operatorname{IDF}\left ( \overrightarrow{{\it M2}} \right )= \frac{1}{12}\left ( 2, 2, 1, 0, 0 \right ), \quad\operatorname{TF}\wedge\operatorname{IDF}\left ( \overrightarrow{{\it M4}} \right )= \frac{1}{11}\left ( 0, 0, 1, 0, 2 \right ), \quad\operatorname{TF}\wedge\operatorname{IDF}\left ( \overrightarrow{{\it M5}} \right )= \frac{1}{9}\left ( 0, 0, 1, 0, 0 \right )$$


Bộ ba bổ đề Sheffer stroke của Đại số Boole

24-07-2023 - 13:33

Sheffer stroke=NAND — $\quad\mid$
Bổ đề
Bất cứ mỗi "tiên đề Sheffer stroke ngắn gọn" phải ở dạng $\tau= x$, $x$ là đơn biến.

Nhờ bổ đề này mà ta chứng minh Sheffer stroke có tính không kết hợp, viết lại instruction-64 $\left ( x\mid y \right )\mid\left ( y\mid y \right )$, vế phải cùng lúc là đơn biến $y$ và $x\mid x$ (vô lý).
Bổ đề
Nếu $\tau= x$ là $1$-tiên đề (basis lúc này là duy nhất) của Đại số Boole viết dưới dạng Sheffer stroke, $\tau$ không có biến ngoài cùng bên trái lẫn phải là $x$.

Nên chọn được instruction-22 với -64 vì có thành phần $x$ đang duy nhất và nằm ngoài cùng bên trái.
Bổ đề
Không công thức nào dạng $\left ( y\mid\tau \right )= x$ hoặc $\left ( \tau\mid y \right )= x$ có thể là đẳng thức Đại số Boole.

Sẽ không thể có $x\mid x= y$ mặc cho $\left ( x\mid y \right )\mid\left ( y\mid y \right )= y, \quad x\mid\left ( y\mid\left ( y\mid y \right ) \right )= x\mid x\quad\wedge\quad\cdots assoc$.