Spaces:

Rohanharsh163
/

WikiExplorer

Sleeping

App Files Files Community

Rohanharsh163 commited on Jul 2

Commit

2fae4b8

verified ·

1 Parent(s): 91b376c

Update src/streamlit_app.py

Browse files

Files changed (1) hide show

src/streamlit_app.py +42 -31

src/streamlit_app.py CHANGED Viewed

@@ -1,8 +1,10 @@
 import streamlit as st
 from PIL import Image
 import requests
-import easyocr
 from io import BytesIO
 st.set_page_config(page_title="WikiExplorer AR", layout="centered")
 st.title("📷 WikiExplorer AR (Streamlit Edition)")
@@ -21,37 +23,47 @@ lang = st.selectbox(
 lang_code = lang[1]
-# --- Load OCR Model ---
 @st.cache_resource
-def load_ocr_model():
-    return easyocr.Reader(['en'])  # You can add 'hi', 'te', 'ta' for multilingual OCR
-ocr_reader = load_ocr_model()
-# --- Place name input (optional if image is provided) ---
-st.markdown("**📝 Enter a place or person name to learn more (or capture it):**")
-place_name = st.text_input("🏛️ For example: Charminar, Taj Mahal, Shah Jahan")
-# --- Camera input ---
-img_file_buffer = st.camera_input("📸 Take a picture (optional)")
-# --- OCR from camera image ---
 if img_file_buffer is not None:
     st.markdown("### 📷 Captured Image")
     st.image(img_file_buffer, caption="Uploaded via camera", use_column_width=True)
-    image_bytes = BytesIO(img_file_buffer.getvalue())
-    result = ocr_reader.readtext(image_bytes)
-    if result:
-        detected_texts = [item[1] for item in result if item[1].strip()]
-        if detected_texts:
-            place_name = detected_texts[0]  # Top detected phrase
-            st.success(f"🧠 OCR detected: **{place_name}**")
-        else:
-            st.warning("OCR ran but could not extract any meaningful text.")
-    else:
-        st.warning("Could not detect text in the image.")
 # --- Translation helpers ---
 def translate_text(text, target_lang):
@@ -147,10 +159,9 @@ if place_name.strip():
 # --- Footer ---
 st.markdown("""
 ---
-- 📌 Supports text search and camera input.
-- 🧠 OCR auto-detects place name from image.
 - 🌐 Wikipedia multilingual summary with fallback + sentence-level translation.
 - 🖼️ Commons image gallery integration.
-- ✅ Ready for Hugging Face deployment.
-- 🛠️ Streamlit only — no backend needed.
 """)

 import streamlit as st
 from PIL import Image
 import requests
+from transformers import TrOCRProcessor, VisionEncoderDecoderModel
 from io import BytesIO
+import torch
+import torchvision.transforms as T
 st.set_page_config(page_title="WikiExplorer AR", layout="centered")
 st.title("📷 WikiExplorer AR (Streamlit Edition)")
 lang_code = lang[1]
+# --- Load Hugging Face OCR model ---
 @st.cache_resource
+def load_trocr():
+    processor = TrOCRProcessor.from_pretrained("microsoft/trocr-base-handwritten")
+    model = VisionEncoderDecoderModel.from_pretrained("microsoft/trocr-base-handwritten")
+    return processor, model
+processor, model = load_trocr()
+# --- Camera input (main source of place name) ---
+st.markdown("**📸 Capture a place name from signage, poster, or board:**")
+img_file_buffer = st.camera_input("Take a picture")
+# --- Optional text input if OCR fails ---
+place_name = st.text_input("📝 Or manually enter the place name (optional)")
+# --- OCR from captured image ---
+def run_trocr_ocr(image_data):
+    image = Image.open(image_data).convert("RGB")
+    transform = T.Compose([
+        T.Resize((384, 384)),
+        T.ToTensor()
+    ])
+    pixel_values = transform(image).unsqueeze(0)
+    generated_ids = model.generate(pixel_values)
+    text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
+    return text.strip()
 if img_file_buffer is not None:
     st.markdown("### 📷 Captured Image")
     st.image(img_file_buffer, caption="Uploaded via camera", use_column_width=True)
+    try:
+        with st.spinner("🧠 Running OCR..."):
+            ocr_text = run_trocr_ocr(BytesIO(img_file_buffer.getvalue()))
+            if ocr_text:
+                place_name = ocr_text
+                st.success(f"🧠 OCR detected: **{place_name}**")
+            else:
+                st.warning("OCR ran but could not extract any meaningful text.")
+    except Exception as e:
+        st.error(f"OCR failed: {e}")
 # --- Translation helpers ---
 def translate_text(text, target_lang):
 # --- Footer ---
 st.markdown("""
 ---
+- 📸 Take a picture to auto-detect monument/place using Hugging Face OCR.
+- ✍️ Optional manual input if OCR fails.
 - 🌐 Wikipedia multilingual summary with fallback + sentence-level translation.
 - 🖼️ Commons image gallery integration.
+- ✅ Works in Hugging Face Spaces with Streamlit + Transformers.
 """)