feat: Added Extension

2025-09-09 13:54:40 +00:00 · 2025-03-26 20:41:47 -07:00 · 2025-03-26 20:41:47 -07:00 · 77833f21f3
commit 77833f21f3
parent 8cd1264d3f
3 changed files with 126 additions and 2 deletions
--- a/surfsense_backend/app/tasks/stream_connector_search_results.py
+++ b/surfsense_backend/app/tasks/stream_connector_search_results.py
@ -59,6 +59,33 @@ async def stream_connector_search_results(

    # Process each selected connector
    for connector in selected_connectors:
+        # Extension Docs
+        if connector == "EXTENSION":
+            # Send terminal message about starting search
+            yield streaming_service.add_terminal_message("Starting to search for extension...")
+            
+            # Search for crawled URLs using reformulated query
+            result_object, extension_chunks = await connector_service.search_extension(
+                user_query=reformulated_query,
+                user_id=user_id,
+                search_space_id=search_space_id,
+                top_k=TOP_K
+            )
+            
+            # Send terminal message about search results
+            yield streaming_service.add_terminal_message(
+                f"Found {len(result_object['sources'])} relevant extension documents",
+                "success"
+            )
+            
+            # Update sources
+            all_sources.append(result_object)
+            yield streaming_service.update_sources(all_sources)
+            
+            # Add documents to collection
+            all_raw_documents.extend(extension_chunks)
+            
+            
        # Crawled URLs
        if connector == "CRAWLED_URL":
            # Send terminal message about starting search
--- a/surfsense_backend/app/utils/connector_service.py
+++ b/surfsense_backend/app/utils/connector_service.py
@ -383,3 +383,100 @@ class ConnectorService:
        }
        
        return result_object, notion_chunks
+    
+    async def search_extension(self, user_query: str, user_id: int, search_space_id: int, top_k: int = 20) -> tuple:
+        """
+        Search for extension data and return both the source information and langchain documents
+        
+        Args:
+            user_query: The user's query
+            user_id: The user's ID
+            search_space_id: The search space ID to search in
+            top_k: Maximum number of results to return
+            
+        Returns:
+            tuple: (sources_info, langchain_documents)
+        """
+        extension_chunks = await self.retriever.hybrid_search(
+            query_text=user_query,
+            top_k=top_k,
+            user_id=user_id,
+            search_space_id=search_space_id,
+            document_type="EXTENSION"
+        )
+
+        # Map extension_chunks to the required format
+        mapped_sources = {}
+        for i, chunk in enumerate(extension_chunks):
+            # Fix for UI
+            extension_chunks[i]['document']['id'] = self.source_id_counter
+            
+            # Extract document metadata
+            document = chunk.get('document', {})
+            metadata = document.get('metadata', {})
+
+            # Extract extension-specific metadata
+            webpage_title = metadata.get('VisitedWebPageTitle', 'Untitled Page')
+            webpage_url = metadata.get('VisitedWebPageURL', '')
+            visit_date = metadata.get('VisitedWebPageDateWithTimeInISOString', '')
+            visit_duration = metadata.get('VisitedWebPageVisitDurationInMilliseconds', '')
+            browsing_session_id = metadata.get('BrowsingSessionId', '')
+            
+            # Create a more descriptive title for extension data
+            title = webpage_title
+            if visit_date:
+                # Format the date for display (simplified)
+                try:
+                    # Just extract the date part for display
+                    formatted_date = visit_date.split('T')[0] if 'T' in visit_date else visit_date
+                    title += f" (visited: {formatted_date})"
+                except:
+                    # Fallback if date parsing fails
+                    title += f" (visited: {visit_date})"
+                
+            # Create a more descriptive description for extension data
+            description = chunk.get('content', '')[:100]
+            if len(description) == 100:
+                description += "..."
+                
+            # Add visit duration if available
+            if visit_duration:
+                try:
+                    duration_seconds = int(visit_duration) / 1000
+                    if duration_seconds < 60:
+                        duration_text = f"{duration_seconds:.1f} seconds"
+                    else:
+                        duration_text = f"{duration_seconds/60:.1f} minutes"
+                    
+                    if description:
+                        description += f" | Duration: {duration_text}"
+                except:
+                    # Fallback if duration parsing fails
+                    pass
+
+            source = {
+                "id": self.source_id_counter,
+                "title": title,
+                "description": description,
+                "url": webpage_url
+            }
+
+            self.source_id_counter += 1
+
+            # Use URL and timestamp as a unique identifier for tracking unique sources
+            source_key = f"{webpage_url}_{visit_date}"
+            if source_key and source_key not in mapped_sources:
+                mapped_sources[source_key] = source
+        
+        # Convert to list of sources
+        sources_list = list(mapped_sources.values())
+        
+        # Create result object
+        result_object = {
+            "id": 6,
+            "name": "Extension",
+            "type": "EXTENSION",
+            "sources": sources_list,
+        }
+        
+        return result_object, extension_chunks
--- a/2
+++ b/2
@ -1 +1 @@
-Subproject commit 269cef48438adfba31f5405898a8ef1b1231020a
+Subproject commit 1de75613320f6d077ca04c6ec7a7441e07536613