Spaces:
Running
Running
Update app.py
Browse files
app.py
CHANGED
|
@@ -184,12 +184,18 @@ def get_varied_color(token: str) -> dict:
|
|
| 184 |
'text': f'hsl({hue}, {saturation}%, {text_lightness}%)'
|
| 185 |
}
|
| 186 |
|
| 187 |
-
def fix_token(token: str) -> str:
|
| 188 |
-
"""
|
| 189 |
-
|
| 190 |
-
|
| 191 |
-
|
| 192 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 193 |
|
| 194 |
def get_token_stats(tokens: list, original_text: str) -> dict:
|
| 195 |
"""Calculate enhanced statistics about the tokens."""
|
|
@@ -286,14 +292,23 @@ def process_text(text: str, model_id_or_name: str, is_full_file: bool = False, f
|
|
| 286 |
token_data = []
|
| 287 |
for idx, token in enumerate(display_tokens):
|
| 288 |
colors = get_varied_color(token)
|
| 289 |
-
|
|
|
|
|
|
|
| 290 |
# Compute the numerical token ID from the tokenizer
|
| 291 |
token_id = tokenizer.convert_tokens_to_ids(token)
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 292 |
token_data.append({
|
| 293 |
-
'original': token,
|
| 294 |
-
'display':
|
| 295 |
'colors': colors,
|
| 296 |
-
'newline':
|
| 297 |
'token_id': token_id,
|
| 298 |
'token_index': idx
|
| 299 |
})
|
|
@@ -1549,12 +1564,6 @@ HTML_TEMPLATE = """
|
|
| 1549 |
|
| 1550 |
fileDropZone[0].addEventListener('drop', handleDrop, false);
|
| 1551 |
|
| 1552 |
-
function handleDrop(e) {
|
| 1553 |
-
const dt = e.dataTransfer;
|
| 1554 |
-
const files = dt.files;
|
| 1555 |
-
handleFiles(files);
|
| 1556 |
-
}
|
| 1557 |
-
|
| 1558 |
fileUploadIcon.on('click', function() {
|
| 1559 |
const input = document.createElement('input');
|
| 1560 |
input.type = 'file';
|
|
|
|
| 184 |
'text': f'hsl({hue}, {saturation}%, {text_lightness}%)'
|
| 185 |
}
|
| 186 |
|
| 187 |
+
def fix_token(token: str, tokenizer) -> str:
|
| 188 |
+
"""
|
| 189 |
+
실제로 UI에 표시하기 전에, tokenizer.decode()를 통해
|
| 190 |
+
사람이 읽을 수 있는 형태로 디코딩한다.
|
| 191 |
+
"""
|
| 192 |
+
if not token.strip():
|
| 193 |
+
return token
|
| 194 |
+
|
| 195 |
+
# 해당 토큰(서브워드)에 대한 ID를 구한 뒤, 다시 decode
|
| 196 |
+
token_id = tokenizer.convert_tokens_to_ids(token)
|
| 197 |
+
decoded = tokenizer.decode([token_id], clean_up_tokenization_spaces=False)
|
| 198 |
+
return decoded
|
| 199 |
|
| 200 |
def get_token_stats(tokens: list, original_text: str) -> dict:
|
| 201 |
"""Calculate enhanced statistics about the tokens."""
|
|
|
|
| 292 |
token_data = []
|
| 293 |
for idx, token in enumerate(display_tokens):
|
| 294 |
colors = get_varied_color(token)
|
| 295 |
+
# 디코딩된 토큰으로 교체
|
| 296 |
+
decoded_token = fix_token(token, tokenizer)
|
| 297 |
+
|
| 298 |
# Compute the numerical token ID from the tokenizer
|
| 299 |
token_id = tokenizer.convert_tokens_to_ids(token)
|
| 300 |
+
|
| 301 |
+
# 개행 여부를 단순히 decoded_token의 끝이 newline인지만 확인 (원하는대로 조정 가능)
|
| 302 |
+
newline_flag = decoded_token.endswith('\n')
|
| 303 |
+
|
| 304 |
+
# UI에 넣을 display(맨 끝 \n 제거 등)
|
| 305 |
+
display_str = decoded_token[:-1] if newline_flag else decoded_token
|
| 306 |
+
|
| 307 |
token_data.append({
|
| 308 |
+
'original': token, # raw token
|
| 309 |
+
'display': display_str, # 사람이 읽을 수 있는 디코딩된 토큰
|
| 310 |
'colors': colors,
|
| 311 |
+
'newline': newline_flag,
|
| 312 |
'token_id': token_id,
|
| 313 |
'token_index': idx
|
| 314 |
})
|
|
|
|
| 1564 |
|
| 1565 |
fileDropZone[0].addEventListener('drop', handleDrop, false);
|
| 1566 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1567 |
fileUploadIcon.on('click', function() {
|
| 1568 |
const input = document.createElement('input');
|
| 1569 |
input.type = 'file';
|