|
|
||||||||||||||||||||||||||||||||
|
Volume 1, No. 3 Diciembre 2000El corpus del lenguaje hablado en el Departamento de Lingüística, Göteborg UniversityJens Allwood, Maria Björnberg, Leif Grönqvist, Elisabeth Ahlsen & Cajsa Ottesjö (Suecia)Resumen: Este artículo contiene una descripción del Corpus del Lenguaje Hablado del Sueco en la Universidad de Göteborg y un resumen de los diversos tipos de análisis que se han realizado con este corpus. El corpus es un corpus en creciente incremento del lenguaje hablado de 1,2 millones de palabras de alrededor de 25 diferentes actividades sociales. Está basado en el hecho que el lenguaje hablado varía considerablemente en diferentes actividades sociales con relación a la pronunciación, vocabulario, gramática y funciones comunicativas. La meta del corpus es incluir el lenguaje hablado de tantas actividades sociales como sea posible para obtener una comprensión más completa del rol del lenguaje y la comunicación en la vida social humana. El corpus está basado en registros de audio o vídeo/audio (50%) de interacciones que ocurren de manera natural. Los registros se transcribieron de acuerdo con la transcripción standard Ortografía Standard Modificada OSM, que es un standard para transcripción más fiel al lenguaje hablado que la ortografía Sueca standard, pero menos detallada de lo que sería una transcripción fonética o fonemática. En OSM, la ortografía standard es la utilizada, a menos que hayan varias pronunciaciones en el lenguaje hablado de una palabra. Cuando hay diversas variantes, estas se mantienen separadas gráficamente. Aunque la meta es mantener la transcripción simple, OSM incluye rasgos del lenguaje hablado tales como el énfasis contrastante, superposiciones y pausas El OSM también incluye procedimientos para anonimizar las transcripciones y para introducir comentarios sobre parte de la transcripción. También describiremos algunas herramientas que hemos desarrollado para utilizar el corpus, por ejemplo:
El corpus ha sido utilizado para varios tipos de análisis cuantitativos y cualitativos que serán reportados brevemente. Se ha producido un libro de frecuencias del lenguaje sueco hablado. El libro contiene frecuencias de palabras tanto para las palabras en formato OSM y en formato standard. También contiene comparaciones entre frecuencias de palabras en lenguaje hablado y escrito. Existen estadísticas sobre partes del lenguaje representado en el corpus, basado en un etiquetamiento probablístico automático, arrojando un 96% de clasificación correcta. Se ha trabajado sobre el corpus utilizando varios tipos de codificación manual para el manejo de la comunicación (incluyendo dudas, cambios, retroalimentación, etc), actos de habla, obligaciones, malentendidos, etc. El artículo también apunta hacia formas de utilizar el corpus para otros tipos de análisis cualitativos, por ejemplo para el análisis secuencial relacionado del AC. El corpus está siendo continuamente digitalizado utilizando CD con Mpeg compression. Cada CD contiene tanto transcripciones como grabaciones. El texto completo de esta contribución está disponible solamente en idioma inglés. Texto inglés Última actualización: 30.01.2003 [qualitative-research.net]
[Inicio] [Interior FQS] [Principal]
[Servicios]
[Envío]
© 2000 Forum Qualitative Sozialforschung
/ Forum: Qualitative Social Research
|