--- library_name: transformers language: - ja base_model: - LiquidAI/LFM2-350M license: other license_name: lfm1.0 license_link: LICENSE ---
| Input text | Output JSON |
|---|---|
| 田中 太郎 様 平素より格別のご高配を賜り、誠にありがとうございます。 このたび、山田 花子 が ABCコーポレーション赤坂オフィス へ 田中 太郎 様をご招待いたしました。 ご来訪当日は、本メールに記載の「受付番号」または「受付QRコード」を使用してチェックインを行っていただきます。以下のいずれかの方法でご準備をお願いいたします。 ・本メールを印刷してご持参いただく ・スマートフォンで本メールを表示いただく ■ご来訪情報 受付番号: 594813 日付: 2025-10-03 時間: 11:00 担当者: 山田 花子 場所: 東京都港区赤坂1-2-3 赤坂ビジネスタワー5階 |
{"address": ["東京都港区赤坂1-2-3 赤坂ビジネスタワー5階"], "company_name": ["ABCコーポレーション赤坂オフィス"], "email_address": [], "human_name": ["田中 太郎", "山田 花子"], "phone_number": []} |
| 山口さん CCに佐藤さんも追加させていただきました 打ち合わせ可能なお時間をご連絡いただきありがとうございます。 佐藤さんたちは御社との初回の打ち合わせのため、御社についての基本的なところからご紹介いただく場としていただき、 お忙しいところ恐縮ですが、我々の打ち合わせについては別枠として、10月8日(水)17:00~の佐藤さんたちとの打ち合わせの後に開催はいかがでしょうか。 終了時間が18時を過ぎてしまう可能性が高いため、ご都合が悪ければ別日で調整させてください。 お手数をおかけしますが、ご確認のほどどうぞよろしくお願いいたします。 中村 正信 Email: nakamura@japan.co.jp |
{"address": [], "company_name": [], "email_address": ["nakamura@japan.co.jp"], "human_name": ["山口", "佐藤", "中村 正信"], "phone_number": []} |
| 差出人: モンスタカード株式会社(自動配信) 件名: 【モスカードフリー】ご利用内容のお知らせ ⸻ 夢野 みな 様 いつもモスカードフリーをご利用いただきありがとうございます。 お客様のカードご利用内容をお知らせいたします。 ⸻ ご利用内容 • 利用日:2025年10月6日 18:38:15 • 利用先:ライトペイ • ご利用金額:1000円 • 承認番号:294816 |
{"address": [], "company_name": ["モンスタカード株式会社", "ライトペイ"], "email_address": [], "human_name": ["夢野 みな"], "phone_number": []} |
| 株式会社ネットワークソリューションズ 請求書 発行日:2024年10月27日 請求番号:NS-20241027-001 田中電気工業 東京都渋谷区神南1-23-10 電話番号:+81373453302 -------------------------------------------------------------------------------- **請求先** 伊藤潔文 様 ryuma@izumiya.cloud -------------------------------------------------------------------------------- |
{"address": ["東京都渋谷区神南1-23-10"], "company_name": ["株式会社ネットワークソリューションズ", "田中電気工業"], "email_address": ["ryuma@izumiya.cloud"], "human_name": ["伊藤潔文"], "phone_number": ["+81373453302"]} |
| 機材等借用書(一般化・架空化済) 作成日:2025年4月18日 貸主:ネオテック株式会社 住所:東京都中央区銀星町三丁目 担当者:山田 廉(yamada@neotech.example.jp) 借主:グローバルデバイスホールディングス株式会社 住所:東京都新都区青海一丁目 担当者:佐藤 翔(sato@globaldevices.example.com) ⸻ 借用物品のリスト - スマートフォン 型番:Nova X10 Pro 数量:1台 状態:良好 - モデル(Conversa 1B LFM, Conversa 3B LFM, Focus 1B LFM, Focus 1B VLM) ⸻ 借用条件 - 借用期間:2025年4月18日から2025年6月30日まで - 借用目的:オンデバイスモデルの動作検証 - 使用責任:物品は善良な管理者の注意をもって使用し、破損した場合は貸主に即時報告すること。 - 紛失・盗難時の対応:同等の物品を貸主に弁償すること。 ⸻ 貸主署名:中島 誠一 借主署名:高橋 健吾 |
{"address": ["東京都中央区銀星町三丁目", "東京都新都区青海一丁目"], "company_name": ["ネオテック株式会社", "グローバルデバイスホールディングス株式会社"], "email_address": ["yamada@neotech.example.jp"], "human_name": ["中島 誠一", "山田 廉", "佐藤 翔"], "phone_number": []} |
|
| SFT (TRL) | Supervised Fine-Tuning (SFT) notebook with a LoRA adapter using TRL. |
|
| DPO (TRL) | Preference alignment with Direct Preference Optimization (DPO) using TRL. |
|
| SFT (Axolotl) | Supervised Fine-Tuning (SFT) notebook with a LoRA adapter using Axolotl. |
|
| SFT (Unsloth) | Supervised Fine-Tuning (SFT) notebook with a LoRA adapter using Unsloth. |
|
## 📬 Contact
If you are interested in custom solutions with edge deployment, please contact [our sales team](https://www.liquid.ai/contact).
# LFM2-350M-PII-Extract-JP (日本語)
[**LFM2-350M**](https://huggingface.co/LiquidAI/LFM2-350M) をベースにしたこのチェックポイントは、**日本語文書から個人を特定できる情報(PII)を抽出し、JSON 形式で出力します**。
契約書、電子メール、個人の医療報告書、並びに保険請求書などの機密情報を、デバイス上で直接マスキングできます。
特に以下の情報を抽出するように訓練されています。
* 住所/所在地(JSON key: `address`)
* 企業/研究機関/組織名(JSON key: `company_name`)
* メールアドレス(JSON key: `email_address`)
* 人名(JSON key: `human_name`)
* 電話番号(JSON key: `phone_number`)
これらの情報を日本語の文書から抽出します。
---
### デモ
---
## 性能
[**finepdf**](https://huggingface.co/datasets/HuggingFaceFW/finepdfs) から無作為に抽出した 1,000 サンプルを用いて、GPT5 や 32B パラメータの Qwen3 モデル(思考モードあり)など、複数のモデルとの比較評価を行いました。
**LFM2-350M-PII-Extract-JP** は、わずか **350M パラメータ** という軽量モデルながら GPT5 と同等レベルの性能を発揮し、クラウドレベルの品質をあなたのデバイス上で実現します!

> [!NOTE]
> 📝 LFM2-350M-PII-Extract-JP は、上記カテゴリに対して優れた PII 抽出性能を有しますが、私たちの主な目的は、**コミュニティによって継続的に改良される柔軟な基盤モデルを提供すること**です。
> このモデルで、誰でもプライバシー重視の高品質なマスキングシステムを容易に構築できます。
>
> ただし、ベースモデルとして今後さらなる改善の余地があります。特に以下のような専門的な利用用途が想定されます。
> - 組織固有の識別番号の抽出対応
> - 生年月日、パスポート番号などの追加カテゴリへの拡張
> - 特定カテゴリにおける抽出性能のさらなる改善
>
> これらの課題は、**Liquid AI** および開発者コミュニティによるファインチューニングによって解決できると考えています。
> LFM2-350M-PII-Extract-JP は完成形ではなく、**実運用ニーズに応じた多様な PII 抽出モデル群を生み出す出発点**であると位置づけています。
---
## モデル詳細
**生成パラメータ**: `temperature=0` の貪欲デコード(greedy decoding)の使用を強く推奨します。
**システムプロンプト**: このチェックポイントでは以下のシステムプロンプトが**必須**です:
```
Extract ,
|
| SFT (TRL) | TRLを使用したLoRAアダプターによる教師あり学習(SFT)を行います。 |
|
| DPO (TRL) | TRLを使用したDPOによる選好アライメントを行います。 |
|
| SFT (Axolotl) | Axolotlを使用したLoRAアダプターによる教師あり学習(SFT)を行います。 |
|
| SFT (Unsloth) | Unslothを使用したLoRAアダプターによる教師あり学習(SFT)を行います。 |
|
---
## 📬 お問い合わせ
エッジ環境への導入を含むカスタムソリューションにご興味がある方は、[営業チーム](https://www.liquid.ai/ja/contact)までお問い合わせください。