Automated-AI-Web-Researcher.../strategic_analysis_parser.py

from typing import List, Dict, Optional, Union
import re
import logging
from dataclasses import dataclass
from datetime import datetime

@dataclass
class ResearchFocus:
    """Represents a specific area of research focus"""
    area: str
    priority: int
    source_query: str = ""
    timestamp: str = ""
    search_queries: List[str] = None

    def __post_init__(self):
        if not self.timestamp:
            self.timestamp = datetime.now().strftime("%Y-%m-%d %H:%M:%S")
        if self.search_queries is None:
            self.search_queries = []

@dataclass
class AnalysisResult:
    """Contains the complete analysis result"""
    original_question: str
    focus_areas: List[ResearchFocus]
    raw_response: str
    timestamp: str = ""
    confidence_score: float = 0.0

    def __post_init__(self):
        if not self.timestamp:
            self.timestamp = datetime.now().strftime("%Y-%m-%d %H:%M:%S")

# Set up logging
logger = logging.getLogger(__name__)

class StrategicAnalysisParser:
    """Enhanced parser with improved pattern matching and validation"""
    def __init__(self):
        self.patterns = {
            'original_question': [
                r"(?i)original question analysis:\s*(.*?)(?=research gap|$)",
                r"(?i)original query:\s*(.*?)(?=research gap|$)",
                r"(?i)research question:\s*(.*?)(?=research gap|$)",
                r"(?i)topic analysis:\s*(.*?)(?=research gap|$)"
            ],
            'research_gaps': [
                r"(?i)research gaps?:\s*",
                r"(?i)gaps identified:\s*",
                r"(?i)areas for research:\s*",
                r"(?i)investigation areas:\s*"
            ],
            'priority': [
                r"(?i)priority:\s*(\d+)",
                r"(?i)priority level:\s*(\d+)",
                r"(?i)\(priority:\s*(\d+)\)",
                r"(?i)importance:\s*(\d+)"
            ]
        }
        self.logger = logging.getLogger(__name__)

    def parse_analysis(self, llm_response: str) -> Optional[AnalysisResult]:
        """Main parsing method with improved validation"""
        try:
            # Clean and normalize the response
            cleaned_response = self._clean_text(llm_response)

            # Extract original question with validation
            original_question = self._extract_original_question(cleaned_response)
            if not original_question:
                self.logger.warning("Failed to extract original question")
                original_question = "Original question extraction failed"

            # Extract and validate research areas
            focus_areas = self._extract_research_areas(cleaned_response)
            focus_areas = self._normalize_focus_areas(focus_areas)

            # Calculate confidence score
            confidence_score = self._calculate_confidence_score(original_question, focus_areas)

            return AnalysisResult(
                original_question=original_question,
                focus_areas=focus_areas,
                raw_response=llm_response,
                confidence_score=confidence_score
            )

        except Exception as e:
            self.logger.error(f"Error in parse_analysis: {str(e)}")
            return None

    def _clean_text(self, text: str) -> str:
        """Clean and normalize text for parsing"""
        text = re.sub(r'\n{3,}', '\n\n', text)
        text = re.sub(r'\s{2,}', ' ', text)
        text = re.sub(r'(\d+\))', r'\1.', text)
        return text.strip()

    def _extract_original_question(self, text: str) -> str:
        """Extract original question with improved matching"""
        for pattern in self.patterns['original_question']:
            match = re.search(pattern, text, re.DOTALL)
            if match:
                return self._clean_text(match.group(1))
        return ""

    def _extract_research_areas(self, text: str) -> List[ResearchFocus]:
        """Extract research areas with enhanced validation"""
        areas = []
        for pattern in self.patterns['research_gaps']:
            gap_match = re.search(pattern, text)
            if gap_match:
                sections = re.split(r'\n\s*\d+[\.)]\s+', text[gap_match.end():])
                sections = [s for s in sections if s.strip()]

                for section in sections:
                    focus = self._parse_research_focus(section)
                    if focus and self._is_valid_focus(focus):
                        areas.append(focus)
                break
        return areas

    def _parse_research_focus(self, text: str) -> Optional[ResearchFocus]:
        """Parse research focus with improved validation without reasoning."""
        try:
            # Extract area
            area = text.split('\n')[0].strip()

            # Extract and validate priority
            priority = self._extract_priority(text)

            # Return ResearchFocus without reasoning
            return ResearchFocus(
                area=area,
                priority=priority
            )

        except Exception as e:
            self.logger.error(f"Error parsing research focus: {str(e)}")
            return None

    def _extract_priority(self, text: str) -> int:
        """Extract priority with validation"""
        for pattern in self.patterns['priority']:
            priority_match = re.search(pattern, text)
            if priority_match:
                try:
                    priority = int(priority_match.group(1))
                    return max(1, min(5, priority))
                except ValueError:
                    continue
        return 3  # Default priority

    def _is_valid_focus(self, focus: ResearchFocus) -> bool:
        """Validate research focus completeness and quality"""
        if not focus.area:  # Only check if area exists and isn't empty
            return False
        if focus.priority < 1 or focus.priority > 5:
            return False
        return True

    def _normalize_focus_areas(self, areas: List[ResearchFocus]) -> List[ResearchFocus]:
        """Normalize and validate focus areas"""
        normalized = []
        for area in areas:
            if not area.area.strip():
                continue

            area.priority = max(1, min(5, area.priority))

            if self._is_valid_focus(area):
                normalized.append(area)

        # Sort by priority (highest first) but don't add any filler areas
        normalized.sort(key=lambda x: x.priority, reverse=True)

        return normalized

    def _calculate_confidence_score(self, question: str, areas: List[ResearchFocus]) -> float:
        """Calculate confidence score for analysis quality"""
        score = 0.0

        # Question quality (0.3)
        if question and len(question.split()) >= 3:
            score += 0.3

        # Areas quality (0.7)
        if areas:
            # Valid areas ratio (0.35) - now based on proportion that are valid vs total
            num_areas = len(areas)
            if num_areas > 0:  # Avoid division by zero
                valid_areas = sum(1 for a in areas if self._is_valid_focus(a))
                score += 0.35 * (valid_areas / num_areas)

            # Priority distribution (0.35) - now based on having different priorities
            if num_areas > 0:  # Avoid division by zero
                unique_priorities = len(set(a.priority for a in areas))
                score += 0.35 * (unique_priorities / num_areas)

        return round(score, 2)

    def format_analysis_result(self, result: AnalysisResult) -> str:
        """Format analysis result for display without reasoning."""
        formatted = [
            "Strategic Analysis Result",
            "=" * 80,
            f"\nOriginal Question Analysis:\n{result.original_question}\n",
            f"Analysis Confidence Score: {result.confidence_score}",
            "\nResearch Focus Areas:"
        ]

        for i, focus in enumerate(result.focus_areas, 1):
            formatted.extend([
                f"\n{i}. {focus.area}",
                f"   Priority: {focus.priority}"
            ])

        return "\n".join(formatted)
Add files via upload 2024-11-26 02:25:04 +00:00			`from typing import List, Dict, Optional, Union`
			`import re`
			`import logging`
			`from dataclasses import dataclass`
			`from datetime import datetime`

			`@dataclass`
			`class ResearchFocus:`
			`"""Represents a specific area of research focus"""`
			`area: str`
			`priority: int`
			`source_query: str = ""`
			`timestamp: str = ""`
			`search_queries: List[str] = None`

			`def __post_init__(self):`
			`if not self.timestamp:`
			`self.timestamp = datetime.now().strftime("%Y-%m-%d %H:%M:%S")`
			`if self.search_queries is None:`
			`self.search_queries = []`

			`@dataclass`
			`class AnalysisResult:`
			`"""Contains the complete analysis result"""`
			`original_question: str`
			`focus_areas: List[ResearchFocus]`
			`raw_response: str`
			`timestamp: str = ""`
			`confidence_score: float = 0.0`

			`def __post_init__(self):`
			`if not self.timestamp:`
			`self.timestamp = datetime.now().strftime("%Y-%m-%d %H:%M:%S")`

			`# Set up logging`
			`logger = logging.getLogger(__name__)`

			`class StrategicAnalysisParser:`
			`"""Enhanced parser with improved pattern matching and validation"""`
			`def __init__(self):`
			`self.patterns = {`
			`'original_question': [`
			`r"(?i)original question analysis:\s(.?)(?=research gap\|$)",`
			`r"(?i)original query:\s(.?)(?=research gap\|$)",`
			`r"(?i)research question:\s(.?)(?=research gap\|$)",`
			`r"(?i)topic analysis:\s(.?)(?=research gap\|$)"`
			`],`
			`'research_gaps': [`
			`r"(?i)research gaps?:\s*",`
			`r"(?i)gaps identified:\s*",`
			`r"(?i)areas for research:\s*",`
			`r"(?i)investigation areas:\s*"`
			`],`
			`'priority': [`
			`r"(?i)priority:\s*(\d+)",`
			`r"(?i)priority level:\s*(\d+)",`
			`r"(?i)\(priority:\s*(\d+)\)",`
			`r"(?i)importance:\s*(\d+)"`
			`]`
			`}`
			`self.logger = logging.getLogger(__name__)`

			`def parse_analysis(self, llm_response: str) -> Optional[AnalysisResult]:`
			`"""Main parsing method with improved validation"""`
			`try:`
			`# Clean and normalize the response`
			`cleaned_response = self._clean_text(llm_response)`

			`# Extract original question with validation`
			`original_question = self._extract_original_question(cleaned_response)`
			`if not original_question:`
			`self.logger.warning("Failed to extract original question")`
			`original_question = "Original question extraction failed"`

			`# Extract and validate research areas`
			`focus_areas = self._extract_research_areas(cleaned_response)`
			`focus_areas = self._normalize_focus_areas(focus_areas)`

			`# Calculate confidence score`
			`confidence_score = self._calculate_confidence_score(original_question, focus_areas)`

			`return AnalysisResult(`
			`original_question=original_question,`
			`focus_areas=focus_areas,`
			`raw_response=llm_response,`
			`confidence_score=confidence_score`
			`)`

			`except Exception as e:`
			`self.logger.error(f"Error in parse_analysis: {str(e)}")`
			`return None`

			`def _clean_text(self, text: str) -> str:`
			`"""Clean and normalize text for parsing"""`
			`text = re.sub(r'\n{3,}', '\n\n', text)`
			`text = re.sub(r'\s{2,}', ' ', text)`
			`text = re.sub(r'(\d+\))', r'\1.', text)`
			`return text.strip()`

			`def _extract_original_question(self, text: str) -> str:`
			`"""Extract original question with improved matching"""`
			`for pattern in self.patterns['original_question']:`
			`match = re.search(pattern, text, re.DOTALL)`
			`if match:`
			`return self._clean_text(match.group(1))`
			`return ""`

			`def _extract_research_areas(self, text: str) -> List[ResearchFocus]:`
			`"""Extract research areas with enhanced validation"""`
			`areas = []`
			`for pattern in self.patterns['research_gaps']:`
			`gap_match = re.search(pattern, text)`
			`if gap_match:`
			`sections = re.split(r'\n\s*\d+[\.)]\s+', text[gap_match.end():])`
			`sections = [s for s in sections if s.strip()]`

			`for section in sections:`
			`focus = self._parse_research_focus(section)`
			`if focus and self._is_valid_focus(focus):`
			`areas.append(focus)`
			`break`
			`return areas`

			`def _parse_research_focus(self, text: str) -> Optional[ResearchFocus]:`
			`"""Parse research focus with improved validation without reasoning."""`
			`try:`
			`# Extract area`
			`area = text.split('\n')[0].strip()`

			`# Extract and validate priority`
			`priority = self._extract_priority(text)`

			`# Return ResearchFocus without reasoning`
			`return ResearchFocus(`
			`area=area,`
			`priority=priority`
			`)`

			`except Exception as e:`
			`self.logger.error(f"Error parsing research focus: {str(e)}")`
			`return None`

			`def _extract_priority(self, text: str) -> int:`
			`"""Extract priority with validation"""`
			`for pattern in self.patterns['priority']:`
			`priority_match = re.search(pattern, text)`
			`if priority_match:`
			`try:`
			`priority = int(priority_match.group(1))`
			`return max(1, min(5, priority))`
			`except ValueError:`
			`continue`
			`return 3 # Default priority`

			`def _is_valid_focus(self, focus: ResearchFocus) -> bool:`
			`"""Validate research focus completeness and quality"""`
			`if not focus.area: # Only check if area exists and isn't empty`
			`return False`
			`if focus.priority < 1 or focus.priority > 5:`
			`return False`
			`return True`

			`def _normalize_focus_areas(self, areas: List[ResearchFocus]) -> List[ResearchFocus]:`
			`"""Normalize and validate focus areas"""`
			`normalized = []`
			`for area in areas:`
			`if not area.area.strip():`
			`continue`

			`area.priority = max(1, min(5, area.priority))`

			`if self._is_valid_focus(area):`
			`normalized.append(area)`

			`# Sort by priority (highest first) but don't add any filler areas`
			`normalized.sort(key=lambda x: x.priority, reverse=True)`

			`return normalized`

			`def _calculate_confidence_score(self, question: str, areas: List[ResearchFocus]) -> float:`
			`"""Calculate confidence score for analysis quality"""`
			`score = 0.0`

			`# Question quality (0.3)`
			`if question and len(question.split()) >= 3:`
			`score += 0.3`

			`# Areas quality (0.7)`
			`if areas:`
			`# Valid areas ratio (0.35) - now based on proportion that are valid vs total`
			`num_areas = len(areas)`
			`if num_areas > 0: # Avoid division by zero`
			`valid_areas = sum(1 for a in areas if self._is_valid_focus(a))`
			`score += 0.35 * (valid_areas / num_areas)`

			`# Priority distribution (0.35) - now based on having different priorities`
			`if num_areas > 0: # Avoid division by zero`
			`unique_priorities = len(set(a.priority for a in areas))`
			`score += 0.35 * (unique_priorities / num_areas)`

			`return round(score, 2)`

			`def format_analysis_result(self, result: AnalysisResult) -> str:`
			`"""Format analysis result for display without reasoning."""`
			`formatted = [`
			`"Strategic Analysis Result",`
			`"=" * 80,`
			`f"\nOriginal Question Analysis:\n{result.original_question}\n",`
			`f"Analysis Confidence Score: {result.confidence_score}",`
			`"\nResearch Focus Areas:"`
			`]`

			`for i, focus in enumerate(result.focus_areas, 1):`
			`formatted.extend([`
			`f"\n{i}. {focus.area}",`
			`f" Priority: {focus.priority}"`
			`])`

			`return "\n".join(formatted)`