Emne :Dataanalyse
Emne :Følelsesanalyse af produktanmeldelser
Mål :Målet med denne opgave er at udføre stemningsanalyse på produktanmeldelser for at bestemme anmelderens stemning over for produktet.
Instruktioner :
1. Dataforberedelse :
- Saml et datasæt med produktanmeldelser fra en passende kilde (f.eks. Amazon, Yelp).
- Rens dataene ved at fjerne dobbelte anmeldelser, håndtere manglende værdier og konvertere teksten til små bogstaver.
2. Udforskende dataanalyse :
- Udforsk dataene for at forstå deres karakteristika og distribution.
- Udfør grundlæggende statistik, såsom frekvenstællinger og ordskyer, for at identificere almindelige ord og sætninger, der bruges i anmeldelserne.
3. Følelsesanalyse :
- Brug et passende stemningsanalysebibliotek eller -værktøj (f.eks. TextBlob, VADER eller spaCy) til at tildele stemningsscore til hver anmeldelse.
- Gruppér anmeldelserne i positive, negative eller neutrale kategorier baseret på deres holdningsscore.
4. Funktionsteknik :
- Uddrag relevante funktioner fra anmeldelserne, der kan bidrage til stemningen. Disse kan omfatte ordfrekvenser, tegnsætningstegn eller andre NLP-relaterede funktioner.
5. Machine Learning Model :
- Udvikle en overvåget maskinlæringsmodel for at klassificere anmeldelserne som positive eller negative.
- Træn modellen på de mærkede data og evaluer dens ydeevne ved hjælp af passende målinger (f.eks. nøjagtighed, præcision, genkaldelse og F1-score).
6. Modelfortolkning :
- Visualiser modellens forudsigelser ved hjælp af forvirringsmatricer eller andre relevante visualiseringer.
- Analyser de fejlklassificerede anmeldelser for at identificere områder til forbedring.
7. Rapportering :
- Skriv en rapport, der opsummerer resultaterne af sentimentanalysen.
- Inkluder detaljer om dataforberedelse, undersøgende dataanalyse, funktionsteknik, modeltræning og evalueringsresultater.
Indsendelse :
- Indsend følgende:
- En Jupyter Notebook eller Python script, der indeholder din kode og analyse.
- En PDF-rapport, der opsummerer resultaterne.
Deadline :
- Opgaven afleveres den [dato].
- Forsinkede indsendelser vil medføre en bøde på 10 % pr. dag.