3.1. Media annotation and indexing
Text indexing and annotation is performed by services that provide: ) language classification, based on n-grams
and Naïve Bayes classifiers that despite the simplicity have shown to work effectively also on short fragments39; )
topic detection based on LDA; ) named entity extraction based on gazetteers and a rule-based system, to handle
entities that have not been added yet to lists. Topic detection and named entity identification can be used also with
the outcomes of speech transcription services.
Speech and audio indexing and analysis tools provide services for: ) audio segmentation25 that separates audio
streams into six separate components: four for classification (speech/non-speech, gender, background and speaker identification), one for speaker clustering and one for acoustic change detection. These components are mostly
model-based, making extensive used of feed-forward fully connected Multi-Layer Perceptrons trained with backpropagation;) audio language identification, based on Abad, that identifies the most spoken languages across
the European Union, using SVMs for the phonotactic system and an I-vector based acoustic sub-system; ) an
audio event module that recognizes sound concepts, using a combination of MFCC, ZCR and MPEG features to
feed SVM classifiers;) audio transcriptions, an engine that uses an hybrid approach combining the temporal
modelling capabilities of Hidden Markov Models with the pattern discriminative classification capabilities of MultiLayer
Perceptrons, and works with English, Spanish, Portuguese and German.
Visual annotation and indexing deal with images and videos at syntactic and semantic levels. Similarity-based
retrieval deals with images and video keyframes, using a combination of MPEG global features (in particular have
been used Scalable Color, Color Layout and Edge Histogram descriptors to capture different visual aspects with
compact and low computational cost descriptors) and SIFT descriptors, indexed using approximate similarity
searching based on inverted files for scalability. Semantic annotation is obtained using a BoW-based approach,
following the success of this approach for scene and object recognition, with a model selection step to select
the best combination of interest point detectors/descriptors (e.g. SIFT, SURF and MSER) for each concept classifier,
and using the Pyramid Match Kernel kernel that is robust to clutter and outliers, and is efficient thanks to its linear
time complexity in matching. Classifiers can be trained with a specific service, that exploits social media as training
source
Each type of media has a specific component that can handle visualization, media search and manual annotation.
A web-based authoring system allows to combine all the services to design specific applications for each use
scenario, from the automatic ingestion of media to their processing, search and presentation.
3.1 . . คำอธิบายประกอบสื่อและการทำดัชนีการทำดัชนีข้อความและข้อความอธิบาย 2
4 จะดำเนินการโดยบริการที่ให้ : ) การจัดประเภทภาษาโดยอิงตามแบบ n 2
4 และไร้เดียงสา Bayes กรัมเครื่องแยกที่แม้จะมีความเรียบง่ายในการใช้งานที่มีการแสดงไว้ในการทำงานในการแยกออกเป็นส่วนๆสั้นยัง rocem 39 ; )
หัวข้อการตรวจจับตามที่ระบุชื่อ ) ; LDA การแยกตาม gazetteers เอนทิตีและระบบที่ทำงานตามกฎที่จะจัดการกับ
เอนทิตีที่ยังไม่ได้รับการเพิ่มลงในรายการที่ยังไม่ได้ การตรวจหาหัวข้อที่มีชื่อและการระบุตัวตนของเอนทิตีที่สามารถใช้ได้กับทั้ง 2
4 ผลลัพธ์ของการบริการการถอดสคริปต์สิ่งที่บันทึกเสียงพูด
การใช้งานที่ต้องการคุณภาพเสียงพูดและเสียงการทำดัชนีและเครื่องมือการวิเคราะห์ที่จะให้บริการสำหรับการแบ่งส่วนเสียง : ) 25 ที่แยกการสตรีมเสียงเข้าใส่ 6 (2
0) คอมโพเนนต์ที่แยกต่างหากสำหรับการจำแนกประเภท : สี่ ( เสียงพูด / ที่ไม่ใช่คำพูด , เพศ ,พื้นหลังและการระบุตัวตน ) ลำโพงลำโพงตัวหนึ่งสำหรับการจัดกลุ่มและอีกตัวหนึ่งสำหรับการตรวจจับการเปลี่ยนแปลงสัญญาณย้อนกลับ คอมโพเนนต์เหล่านี้ส่วนใหญ่จะใช้ตัวแบบ 2
4 ซึ่งทำให้การใช้งานที่หลากหลายของการจัดให้บริการอย่างครบครันการเชื่อมต่อแบบฟีดส่งต่อที่ได้รับการฝึกอบรมกับ Backpropagation Perceptrons มัลติ ; ) ภาษาของระบบเสียง , การระบุตามที่ระบุให้ Abad ภาษาที่พูดมากที่สุดทั่วทั้ง 2
4 สหภาพยุโรปโดยใช้สำหรับระบบ Phonotactic SVMs และตัว I vector โดยยึดตามการย้อนกลับของระบบย่อย ) ที่มีเสียง 2
4 ; โมดูลที่จะจดจำเหตุการณ์แนวความคิดในการให้เสียงด้วยการใช้การผสมผสานของ MFCCS , คุณสมบัติที่ต้องการและ MPEG ZCR 2
4 SVM เครื่องแยก ; ) ฟีดเสียงถอดสคริปต์สิ่งที่ที่ที่ใช้วิธีการแบบไฮบริดที่เป็นการผสมผสาน temporal key integrity protocol (TKIP)
ความสามารถในการสร้างโมเดลที่ซ่อนอยู่ของมาร์กอฟลายรุ่นที่มีความสามารถในการแบ่งประเภทของรูปแบบการ 2
4 Perceptrons แบบมัลติเลเยอร์และทำงานได้กับอังกฤษ , สเปน , โปรตุเกสและภาษาเยอรมัน
Visual annotation และการทำดัชนีการจัดการกับภาพและวิดีโอที่ทางไวยากรณ์และระดับของการสื่อความหมาย การเรียกดูข้อมูลผ่านความคล้ายคลึงกัน 2
4 ข้อตกลงกับภาพและวิดีโอให้คีย์เฟรมด้วยการใช้การผสมผสานของคุณลักษณะร่วม ( ในรูปแบบ MPEG จะมีเฉพาะสีที่สามารถปรับขนาดได้ถูกนำมาใช้ 2
4 สีเค้าโครงและขอบที่แตกต่างกันในการถ่ายภาพตัวอธิบายฮิสโตแกรมด้านการแสดงผลที่มีขนาดกะทัดรัดและการประมวลผลต่ำ 2
4 ปเตอร์ ) และร่อนต้นทุนที่ถูกทำดัชนีโดยใช้ประมาณการอธิบายความคล้ายกันตามการค้นหา 2
4 กลับด้านความสามารถในการเพิ่มขยายได้สำหรับไฟล์ Semantic annotation จะได้มาโดยใช้วิธีการที่ใช้คันธนู ,
จากความสำเร็จของวิธีนี้สำหรับฉากและการจดจำวัตถุให้กับรุ่นขั้นตอนการคัดเลือกเพื่อเลือก 2
4 การผสมผสานที่ลงตัวที่สุดของอุปกรณ์ตรวจจับจุดที่น่าสนใจ / descriptor ( เช่น ร่อนเล่นกระดานโต้คลื่นและ MSER ) สำหรับแต่ละส่วนเพิ่มเติมเกี่ยวกับแนวความคิดของการวนลูปและการใช้
ตรงกับเคอร์เนลที่พีระมิดมีเครื่องมือที่มีประสิทธิภาพในการทำงานที่ราบรื่นและค่าผิดปกติและมีประสิทธิภาพด้วยการทำงานเป็นแบบเส้นตรงที่มีความซับซ้อนในการจับคู่เวลา 2
4 ได้เครื่องแยกสามารถได้รับการฝึกอบรมที่พร้อมด้วยบริการที่ระบุที่ใช้ประโยชน์จากสื่อสังคมเป็นการฝึกอบรม 2
4 2
4 แหล่งสื่อแต่ละชนิดจะมีเฉพาะบางคอมโพเนนต์ที่สามารถจัดการระบบการสร้างภาพและการค้นหามีเดียคำอธิบายประกอบด้วยตนเอง
บนเว็บที่จะทำให้คุณสามารถรวมระบบการจัดทำบริการทั้งหมดในการออกแบบแอปพลิเคชันเฉพาะสำหรับแต่ละสถานการณ์ 2
4 ใช้ลูปจากการกลืนกินของมีเดียไปโดยอัตโนมัติการประมวลผลของพวกเขาได้การค้นหาและการนำเสนอ
การแปล กรุณารอสักครู่..
