Spaces:

Hansimov
/

web-search-api

Paused

Hansimov commited on Jan 6, 2024

Commit

f150f6b

1 Parent(s): ef3de03

:gem: [Feature] SearchResultsExtractor: related questions

Files changed (1) hide show

documents/search_results_extractor.py CHANGED Viewed

@@ -27,17 +27,21 @@ class SearchResultsExtractor:
             print(
                 f"{title}\n" f"  - {site}\n" f"  - {link}\n" f"  - {abstract}\n" f"\n"
             )
     def extract_related_questions(self):
-        related_questions = self.soup.find_all("div", class_="related-question-pair")
-        for question in related_questions:
             print(question)
-            # print(question.find("a")["href"])
-            # print(question.find("a").text)
     def extract(self, html_path):
         self.load_html(html_path)
         self.extract_search_results()
 if __name__ == "__main__":

             print(
                 f"{title}\n" f"  - {site}\n" f"  - {link}\n" f"  - {abstract}\n" f"\n"
             )
+        print(len(search_result_elements))
     def extract_related_questions(self):
+        related_question_elements = self.soup.find_all(
+            "div", class_="related-question-pair"
+        )
+        for question_element in related_question_elements:
+            question = question_element.find("span").text.strip()
             print(question)
+        print(len(related_question_elements))
     def extract(self, html_path):
         self.load_html(html_path)
         self.extract_search_results()
+        self.extract_related_questions()
 if __name__ == "__main__":